数据挖掘大题知识点

发布时间:2026/6/24 12:35:09
数据挖掘大题知识点 朴素贝叶斯分类预测 朴素贝叶斯分类预测 —— 通用计算流程4步法Step 1计算先验概率 P(Y)统计训练集中每个类别 Y 出现的频率Step 2计算条件概率 P(A∣Y) 和 P(B∣Y)在给定类别 Y的条件下统计属性取特定值的比例关键假设朴素贝叶斯要求属性相互独立所以我们将 P(A∣Y)和 P(B∣Y) 直接相乘。Step 3计算后验概率核心公式忽略归一化常数证据因子 P(X)计算类别 Y 的“得分”对于不同类别分母 P(A2,BS)是一样的所以直接比较分子即可Step 4做出预测比较各类别的得分取得分最大的类别作为预测结果。 手算演示含示例数据集为了给你演示具体计算我构建了一个满足题目要求的小型训练集共 10 个样本序号A取值1/2/3B取值S/M/LY类别11S正类P22M正类P32S正类P43L正类P51S负类N61S负类N72S负类N83M负类N93L负类N101L负类N待预测样本X(A2,BS)① 计算先验概率 P(Y)② 计算条件概率基于类别分组注意如果题目要求输出具体的“后验概率值”需要将上述得分除以证据因子 P(A2,BS)。但在分类决策中由于分母相同通常只比较分子大小即可。⚠️ 考试/面试必看两个核心陷阱与特殊处理逻辑斯蒂回归1. 预测方程的标准形式背下来逻辑斯蒂回归的预测分两步走第一步计算线性得分跟线性回归一样这里 z 可以是负无穷到正无穷的任意实数。第二步套上 Sigmoid 函数把 z 压缩成概率通俗理解模型先给样本“打分”z分数越高越可能是正类然后用一个 S 形的函数Sigmoid把这个分数换算成“百分比概率”。2. 从方程看“预测规则”如何得出类别拿到概率后我们通常以0.5为分界线阈值来决定类别由于 Sigmoid 函数是单调递增的这个判断规则等价于这里的就是逻辑回归的决策边界Decision Boundary。在二维平面上它是一条直线在三维空间里是一个平面。关联规则支持度、置信度1. 核心定义与公式必背假设我们有一条关联规则X → Y表示“购买了 X 的人也会购买 Y”总事务数为N支持度Support衡量规则覆盖多少数据频次。公式其中 σ(X∪Y) 是同时包含 X 和 Y的事务个数。含义所有订单中同时买 X 和 Y 的比例。如果支持度太低说明这条规则只是“偶然事件”没有统计意义。置信度Confidence衡量规则预测有多准条件概率。公式含义在已经买了 X的订单中同时买了 Y的比例。即 P(Y∣X)。重要区分σ西格玛指的是“支持度计数”绝对次数而支持度是“概率”相对比例。考试时千万看清题目问的是“计数”还是“百分比”2. 手算示例经典购物篮假设超市有 5 笔交易数据现在要计算规则{牛奶} → {面包}的支持度和置信度。事务ID购买的商品T1牛奶, 面包, 鸡蛋T2牛奶, 啤酒T3面包, 鸡蛋, 可乐T4牛奶, 面包, 啤酒T5牛奶, 面包计算步骤确定总事务数NN 5计算支持度计数同时包含“牛奶”和“面包”的事务有T1, T4, T5 → 共3笔。所以 σ(牛奶∪面包)3计算前提左侧 X的计数包含“牛奶”的事务有T1, T2, T4, T5 → 共4笔。套用公式支持度 3/50.6即 60%置信度 3/40.75即 75%解读所有订单中有 60% 同时买了牛奶和面包在买了牛奶的顾客中有 75% 的人会买面包。基尼系数Gini Index、熵Entropy和信息增益/基尼增益Gain1. 三大不纯度度量衡量节点“有多乱”在分裂之前决策树必须用数字来衡量当前节点数据集的混乱程度。常用的有三个指标但前两个是绝对主力1基尼系数Gini Index—— CART算法默认sklearn默认公式通俗理解从当前节点随机抽两个样本它们属于不同类别的概率。取值范围二分类中 [0, 0.5]。Gini 0完全纯净全是同一类。Gini 0.5最混乱两类各占 50%。特点计算速度极快只有乘法和减法没有对数运算。2熵Entropy / 信息增益Information Gain—— ID3/C4.5算法公式通俗理解衡量数据的“不确定性”。越难猜熵越大。取值范围二分类中 [0, 1]。Entropy 0完全纯净。Entropy 1最混乱两类各占 50%。特点对不纯度的变化比基尼系数更敏感曲线更陡但计算稍慢涉及 log 运算。3分类误差Classification Error—— 仅用于剪枝不用于分裂公式为什么不常用它对不纯度变化不敏感。比如节点 (4正, 1负) 和 (4正, 2负)误差都是 0.2无法区分谁更纯所以从不作为分裂准则。序数型知道“谁大谁小”但不知道“大了多少”连续型不仅知道“谁大谁小”还知道“具体大了多少”。2. 增益Gain—— 连接“度量”与“划分”的桥梁有了度量指标怎么决定用哪个特征来分裂答案是计算增益Gain。核心公式这里的 I 可以是基尼系数也可以是熵通俗理解增益 分裂前的混乱程度 - 分裂后子节点的加权平均混乱程度。这个差值越大说明这个特征让数据变得越“纯净”。决策树的分裂规则贪心算法遍历所有特征。对每个特征尝试所有可能的分割点。计算每个分割点的“增益”。选择“增益最大”的特征和分割点进行分裂。命名细节如果你用基尼系数计算这个差值就叫做“基尼增益”如果你用熵计算就叫做“信息增益”。虽然名字不同但背后的逻辑完全一样——都是找降低不纯度最多的那个切法。3. 决策树划分的完整逻辑三步走在算法层面节点分裂是这样一步步执行的Step 1计算父节点不纯度比如当前节点有 10 个样本6正4负算出基尼或熵。Step 2尝试划分并计算子节点不纯度如果是标称属性如性别按类别分叉男/女计算每个子节点的加权不纯度。如果是连续属性如年龄先将数据排序尝试所有相邻值的中点作为阈值如年龄 25和年龄 ≥ 25找到加权不纯度最小的那个切点。Step 3计算增益并选择算出所有特征及其切点的增益值谁大选谁。把数据切成两半或几半然后对子节点递归执行 Step 1~3直到触发停止条件。4. 手算对比基尼 vs 熵一眼看透假设父节点有 10 个样本6 个“是”4 个“否”。假设用某个特征分裂后两个子节点分别为 (3正, 0负) 和 (3正, 4负)可以看到无论用基尼还是熵增益值最高的那个特征一定是同一个特征。所以在工程中两者最终选出来的分裂点几乎一模一样。ROC 曲线 AUC 计算 第一步数据准备与排序根据题目正类为负类为-。总正例数P实例 1, 2, 5, 6 → P4总负例数N实例 3, 4, 7, 8 → N4将数据按照后验概率 P(∣X,M1)从高到低排序并整理如下这是计算 ROC 最关键的起始步骤排序后序号原实例真实标签预测概率累计 TP累计 FPTPR (TP/4)FPR (FP/4)ROC 坐标点起点---0000(0, 0)13-0.780100.25(0.25, 0)210.62110.250.25(0.25, 0.25)350.48210.500.25(0.25, 0.50)47-0.38220.500.50(0.50, 0.50)54-0.31230.500.75(0.75, 0.50)660.12330.750.75(0.75, 0.75)78-0.05340.751.00(1.00, 0.75)820.04441.001.00(1.00, 1.00)计算逻辑详解以排序后第 5 步为例当阈值降到 0.31 时预测为正类的样本是排在前 5 个的原实例 3, 1, 5, 7, 4。其中真实为正类的有 2 个实例 1, 5所以累计 TP2真实为负类-的有 3 个实例 3, 7, 4所以累计 FP3。因此 TPR2/40.50FPR3/40.75。 第二步绘制 ROC 曲线手画指引你可以在答题纸上按以下坐标点连线绘图横轴XFPR纵轴YTPR关键转折点(0,0) → (0.25, 0) → (0.25, 0.25) → (0.25, 0.5) → (0.5, 0.5) → (0.75, 0.5) → (0.75, 0.75) → (1.0, 0.75) → (1.0, 1.0)如果老师要求平滑曲线用折线连接上述各点即可二分类模型的 ROC 通常就是这种阶梯状折线。 第三步使用梯形法则计算 AUCAUC 是 ROC 曲线下的面积只计算横轴FPR发生变化的水平移动段。公式为结合上表我们逐段计算只取 ΔFPR0 的区间区间FPR 变化ΔFPRΔFPR底边宽平均 TPR 高度本段面积0 → 0.250.250020200​00.25 × 0 00.25 → 0.500.250.500.5020.5020.500.50​0.500.25 × 0.50 0.1250.50 → 0.750.250.500.5020.5020.500.50​0.500.25 × 0.50 0.1250.75 → 1.000.250.750.7520.7520.750.75​0.750.25 × 0.75 0.1875最终 AUC 值AUC00.1250.1250.18750.4375结论模型 M1 的 AUC 0.4375。意义AUC 0.5说明该分类模型 M1 的预测效果“差于随机猜测”随机猜测为 0.5。回归决策树 原始数据序号xy150.2270.43100.54150.6目标构建一个深度为 1 的回归树桩即只分裂一次找到最优的切分点。第一步确定所有候选切分点阈值回归树只会在相邻两个 x 值的中间点进行切分。第二步计算每个切分点下的总平方误差SSE第三步选出最优切分点损失最小。第四步构建回归树并预测新样本