支持向量机公式整理(SVM)

最新推荐文章于 2025-05-22 16:40:19 发布

twilight0402

最新推荐文章于 2025-05-22 16:40:19 发布

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：支持向量机 SVM 机器学习核函数

本文链接：https://blog.csdn.net/twilight_karl/article/details/102884612

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了支持向量机(SVM)的三种类型：线性可分、近似线性可分和线性不可分的情况，分别对应硬间隔、软间隔及非线性SVM。详细解析了硬间隔向量机的数学原理，包括决策边界的求解过程和拉格朗日对偶问题的转换。同时，介绍了软间隔向量机如何通过合页损失函数处理非严格线性可分数据，以及核函数在非线性SVM中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

支持向量机可以分为三类：

线性可分的情况 ==> 硬间隔最大化 ==> 硬间隔SVM
近似线性可分的情况 ==> 软间隔最大化 ==> 线性支持向量机
线性不可分的情况 ==> 核技巧/软间隔最大化 ==> 非线性SVM

硬间隔向量机（hard margin svm）

任务：寻找一条与所有支持向量距离最远的决策边界，这条决策边界就是 $0 = w^T X + b$ ，即：
$w^T X_i + b > 0 , y_i > 0 \\ w^T X_i + b < 0 , y_i < 0$
所以问题可以描述为：
$\; margin(x,b) \qquad s.t.y_i(w^T+b)>0 \\ margin(w,b) = min \; distance(w,b,x_i) = min \frac{1}{|w|}|w^Tx_i+b|$
带换一下也就是
$\; min \frac{1}{|w|}|w^Tx_i+b| ==> max \frac{1}{|w|} \; min |w^Tx_i+b| \\ s.t. y_i(w^Tx_i+b)>0 \; ==>\; \exists r > 0 , min \; y_i(w^T+b)=r$
用r来表示就是：
$\frac{r}{|w|}\\\\ \exists r > 0 , min \; y_i(w^T+b)=r$

这里我的理解是：因为 $wx_i+b=r$ ==> $wrxi+br=1\frac{w}{r} x_i + \frac{b}{r}=1$ ，所以不管r取什么值， $w=w0rw=\frac{w_0}{r}$ ， $b=b0rb=\frac{b_0}{r}$ ，所以r的取值所带来的影响会被最后的w和b所融合进去，所以r=1也没关系。最终的问题可以描述为(这里是N个不等式)：
$\frac{1}{2}|w|^2 \\ s.t. \; y_i(w^T+b)-1>=0 \qquad i=1,2,3,...,N$
构造拉格朗日函数，引入N个参数 $α\alpha$ ，转换成对偶函数如下(大括号表示不出来我也很绝望)：
$\frac{1}{2} \cdot \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} x_{i} \\ s.t.\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ \alpha_i >=0 \; i = 1,2,3,.. N$

使用KKT条件，得到的解：
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$

$b^{*}=y_{j}-\sum_{i=1}^{N} a_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right)$

最终的解是：
$w^{*}x+b^{*}=0$

$f(x) = sign(w^{*}x+b^{*})$

软间隔向量机（soft margin svm）

软间隔向量机采用合页损失函数，真实数据中，严格线性可分的数据很少。合页损失函数允许分类时的一点点误差。损失函数如下：
$y_{i}\left(w^{\top} x_{i}+b\right) \leqslant0, \quad loss=0 \\ 1-y_{\overline{2}}\left(w^{\top} x_{i}+b\right) >0, \quad loss =1-y_{i}\left(w^{\top} x_{i}+b\right)$
也就是，正确分类并且函数间隔大于1时没有误差，错误分类时，距离决策边界越远的点，受到的惩罚越大。使用合页函数的做优化问题可以表示为：
$\min \sum_{i}^{N}\left(1-y_{i}\left(w^{T} x_{i}+b\right)\right)_{+}+\lambda\|w\|^{2}$

令 $ξi=1−yi(wTxi+b),ξi⩾0\xi_{i}=1-y_{i}(w^{T} x_{i}+b), \quad \xi_{i} \geqslant 0$ ，则，分两种情况：
1、 $1-y_{i}(w^{T} x_{i}+b)>0$ ==> $ξi=1−yi(wTxi+b)\xi_i =1-y_{i}\left(w^{T} x_{i}+b\right)$ ==> $yi(wx+b)=1−ξiy_i(wx+b)=1-\xi_i$
2、 $1−yi(wTxi+b)⩽01-y_{i}(w^{T} x_{i}+b)\leqslant0$ ==> $yi(wx+b)⩽1y_i(wx+b)\leqslant1$ ==> $yi(wx+b)⩽1−ξiy_i(wx+b)\leqslant1-\xi_i$ ( $ξi=0\xi_i=0$ )

综合上面两种情况，可以直接写为： $yi(wx+b)⩽1−ξiy_i(wx+b)\leqslant1-\xi_i$ ，这样的话，最优化函数就变成了下面的样子：
$\frac{1}{2} w^{T}w+C\sum_{i=1}^{N} \xi_{i} \\ s.t. y_{i}\left(w^{T} x_{i}+b\right) \geqslant 1-\xi_{i}, \quad \xi_{i} \geqslant 0$
这两个式子是等价的。再《统计学习方法》中，先给出了后面的式子，再介绍了合页损失函数

这两个式子转换成等价的对偶函数如下：
$\underset{\alpha}{min} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j}y_{i} y_{j}\left(x_{i}x_{j}\right)-\sum_{i=1}^{n} \alpha_{i} \\ s.t. \sum_{i=1}^{N}\alpha_iy_i=0 \qquad \\ 0\leq \alpha_i \leq C, \;i=1,2,...N$

对偶函数的解是：
$w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}$

$b=y_{j}-\sum_{i=1}^{N} a_{i} y_{i}\left(x_{i} \cdot x_{j}\right)$

决策函数是：

$(\sum_{1}^{N} \alpha_{i} y_{i}(x \cdot x_{i})+b^{*})$

KKT条件

$\frac{\alpha f}{\alpha w}=0, \frac{\alpha f}{\alpha b}=0, \frac{\alpha f}{\alpha \lambda}=0$

$\lambda_{i}(1-y_{i}(w^{T} x_{i}+b))=0$

$\lambda_i=0$

$1-y_{i}(w^{T} x_{i}+b))<0$

对于 $λi(1−yi(wTxi+b))=0\lambda_{i}(1-y_{i}(w^{T} x_{i}+b))=0$ 只要 $λi≠0\lambda_i \neq0$ ,就有 $1-y_{i}(w^{T} x_{i}+b=0$ ，也就是说 $x_i$ 再决策边界上， $x_i$ 是支持向量

原问题与对偶问题育有强对偶关系 <===> 满足KKT条件

非线性支持向量机（核函数）

核函数可以对特征进行升维（当然，不一定非要是升维，也可能是转换到另一个空间），高维空间的运算量巨大，所以直接使用低维的计算结果，作为两个高维向量的内积：
$\phi (x_1, x_2) * \phi (x_1^{'}, x_2^{'}) = (z_1, z_2, z_3)*(z_1^{'}, z_2^{'}, z_3^{'}) \\\\ = (x_1^2, \sqrt{2}x_1 x_2, x_2^2)(x_1^{'2}, \sqrt{2}x_1^{'} x_2^{'}, x_2^{'2}) \\\\ = (x_1 x_1^{'} + x_2 x_2^{'}) = (xx^{'})^2 =K(x, x^{'})$
核函数等价于两个映射哈函数的内积，不过，这个映射函数不需要手动指出。因为当两个映射函数相乘时，内积的结果可以用核函数表示。而映射函数在最优化问题中都是成对出现的。即出现映射函数的地方都可以用核函数替代。

如果用映射函数将x映射到高维空间，那么应该用高维向量替换x所在的位置：
$\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j}y_{i} y_{j}\left(x_{i}x_{j}\right)-\sum_{i=1}^{n} \alpha_{i}$