【AI学习笔记】初学机器学习西瓜书概要记录（二）常用的机器学习方法篇

初学机器学习西瓜书的概要记录（一）机器学习基础知识篇(已完结)
初学机器学习西瓜书的概要记录（二）常用的机器学习方法篇(持续更新)
初学机器学习西瓜书的概要记录（三）进阶知识篇(待更)

文字公式撰写不易，随意学习，转载请注明！谢谢

（二）常用的机器学习方法篇

4.1 决策树的基本流程
4.2 信息增益划分
4.3 其他属性的划分准则
4.4 决策树剪枝
4.5 缺失值的处理
5.1 支持向量机基本型
5.2 对偶问与解的特性
5.3 求解方法（SMO）
5.4 特征空间映射
5.5 核函数
5.6 如何使用SVM
6.1 神经网络模型
6.2 万有逼近性
6.3 BP算法推导

以下内容出自周志华老师亲讲西瓜书

4.1 决策树的基本流程

决策树基于“树”结构进行决策

每个内部结点对应某个属性上的测试
每个分支对应于该测试的一种可能结果（即该属性的某个取值）
每个叶结点对应于一个预测结果

学习过程：通过对训练样本的分析来确定“划分属性”（即内部结点所对应的属性）
预测过程：将测试示例从跟结点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶结点
策略：分而治之，自根至叶的递归过程，在每个中间结点寻找一个"划分"属性

对当前某个结点进行划分时，确定递归停止的三种条件：

当前结点包含的样本全属于同一类别，无需划分；
当前属性集为空，或是所以样本在所有属性上取值相同，无法划分；
当前结点包含的样本集为空，不能划分。

4.2 信息增益划分

决策树的提出是收到信息论的启发，因此很多东西是以信息论的准测进行判断，而在信息论中最重要的一个量就是“熵”
信息熵是度量样本集合“纯度”最常用的一种指标，假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k$ ，则 $D$ 的信息熵定义为
$Ent(D)=-\sum^{|y|}_{k=1}p_klog_2p_k$
计算信息熵时约定：若 $p = 0$ ，则 $plog_2p=0$
$E n t (D)$ 的值越小，则 $D$ 的纯度越高， $E n t (D)$ 的最小值为 0，最大值为 $log_2{|y|}$
信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化

离散属性 $a$ 的取值： ${a^1,a^2,...,a^V\}$
$D^v$ ： $D$ 在 $a$ 上取值 $a^v$ 的样本集合
以属性 $a$ 对数据集 $D$ 进行划分所获得的新增增益为：
$\sum_{v=1}^V{|D^v|\over |D|}Ent(D^v)$
其中：
$E n t (D)$ 为划分前的信息熵
${|D^v|\over |D|}$ 为第 $v$ 个分支的权重，样本越多越重要
$Ent(D^v)$ 为划分后的信息熵

4.3 其他属性的划分准则

信息增益如果只考虑了信息量的获得，一定程度上偏好了分支多的属性，因为分支越多，分到分支上样本数量就会越少。

信息增益：可对取值数目较多的属性有所偏好，有明显弱电，例如：考虑将“编号”作为一个属性
增益率：
$Gain_ratio(D,a)={Gain(D,a)\over IV(a)} \\ 其中 IV(a)=-\sum^V_{v=1}{|D^v|\over |D|} log_2{|D^v|\over |D|}$
其中 $a$ 的可能取值数目越多（即 $V$ 越大），则 $I V (a)$ 的值通常即越大

启发式：先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的

没有办法对信息增益和增益率做绝对正确的权衡，但对于分支多的情况被解决了，像上式这种情况叫做规范化。归一化是规范化的特殊形式，更多情况下规范化是将不可比较的东西变得可比较。

基尼指数（Gini index）
反应了从D中随机抽取两个样例，其类别标记不一致的概率

在多个类别 $y$ 中，抽取样例某一个类 $k$ 的概率为为 $p_k$ ，再抽取样例为另一个类 $\not= k$ 的概率为 $p_k'$ ，如果这两个概率相乘很大，则证明这个集合 $D$ 中不太“干净”
$Gini(D)=\sum^{|y|}_{k=1}\sum_{k' \not= k}p_kp_k'=1-\sum^{|y|}_{k=1}p^2_k$
$G ini (D)$ 越小，数据集 $D$ 的纯度越高

属性 $a$ 的基尼指数： $Gini_index(D,a)=\sum^V_{v=1}Gini(D^v)$
在候选属性集合中，选取那个使划分后基尼指数最小的属性（CART算法中使用）

关键是如何去衡量，经过一个操作后，后面的东西比原来更“纯净”！

4.4 决策树剪枝

划分选择 vs. 剪枝
研究表明：划分选择的各种准则虽然对决策树的尺寸有较大影响，但对泛化性能的影响很有限
例如信息增益与基尼指数产生的结果，仅在约2%的情况下不同，剪枝方法和程度对决策树泛化性能的影响更显著，在数据带噪声时甚至可能将泛化性能提升25%

剪枝是决策树对付“过拟合”的主要手段

现阶段，在单决策树时，一定是需要剪枝的

为了尽可能正确分类训练样本，有可能造成分支过多（过拟合），可通过主动去掉一些分支来降低过拟合的风险

基本策略：

预剪枝：提前终止某些分支的生长
后剪枝：生成一颗完全树，再“回头”剪枝

剪枝过程中需评估剪枝前后决策树的优劣（详情见模型的评估）

4.5 缺失值的处理

现实生活中，经常会遇到属性值“缺失”现象，仅使用无缺失的样例？是对数据的极大浪费

使用待缺失值的样例，需解决：

如何进行划分属性选择？
给定划分属性，若样本在该属性上的值缺失，如何进行划分？

基本思路：样本赋权，权重划分

5.1 支持向量机基本型

在这里插入图片描述

离正类和负类距离差不多的最好！

间隔与支持向量
在这里插入图片描述最大间隔：寻找参数 $w$ 和 $b$ ，使得 $\gamma$ 最大
$\underset{w,b}{argmax}{2\over ||w||} \\ s.t. \quad y_i(w^Tx_i+b)\geq1,i=1,2,...,m$
即
$\underset{w,b}{argmin}{1\over2} ||w||^2 \\ s.t. \quad y_i(w^Tx_i+b)\geq1,i=1,2,...,m$
凸二次规划问题，能用优化计算包求解，但可以有更有效的办法（拉格朗日乘子法）