机器学习——SVM支持向量机

最新推荐文章于 2024-06-11 16:36:41 发布

白某啥也不会

最新推荐文章于 2024-06-11 16:36:41 发布

阅读量402

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习 sklearn python

本文链接：https://blog.csdn.net/qq_52383774/article/details/119928752

本文深入探讨了支持向量机（SVM）的概念，包括线性可分、近似线性可分和非线性可分的情况。通过硬间隔（HardMargin）和软间隔（SoftMargin）的概念，解释了SVM如何处理异常值和优化决策边界。介绍了拉格朗日乘子法和KKT条件在最大化边际和处理约束中的应用，并阐述了对偶问题的转换，使得SVM能够处理有噪声的数据。最后，对比了HardMargin和SoftMargin的差异，强调了SoftMargin对异常值的容忍性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文章是学习笔记，内容可能会有很多漏洞，如果有不正确的地方欢迎指正

一、SVM简述

1、概念
在机器学习领域，支持向量机SVM(Support Vector Machine)是一个有监督的学习模型，通常用来进行模式识别、分类(异常值检测)以及回归分析。

SVM可分为3种。
（1）数据线性可分：硬件隔SVM
（2）数据近似线性可分：软间隔SVM
（3）数据不可线性分：核技巧

2、图像演绎例子（Hard Margin）

通过对决策边界的平移来决定，保证决策边界在两个刚刚碰到数据集的的中间位置
在这里插入图片描述对决策边界的概述
分别归为+1类和-1类

简单图像例子如上述图中的显示，我们需要找到一个阈值，为了保证鲁棒性更强，选择阈值的要求是需要找到标签的中间位置（一个标签到中间位置的距离要保证最大，同时是两个标签之间距离和的最小值），margin表示的是，一个标签到阈值的距离。
3、图像演绎例子（Soft Margin）
这种方式可以保证有一些如上图那种错误（两个不同分类的标签相聚的太近）

对于一维的数据可以使用上面的图像来解释（点），二维的数据用一条线，三维的数据用一个面，更高维的可以使用超平面在这里插入图片描述
4、计算公式（Hard Margin）
通过下图的几个式子可以将点到超平面的最小距离计算出来
其中红方框括住的地方是表示，一个标签到阈值的距离的二倍
Hard Margin是在保证所有的分类都正确的情况下，求其最大值
划分超平面可以定义为一个线性方程： $\omega^Tx+=0$ ，其中：

w = { w 1 ; w 2 ; . . . ; w d } 是一个法向量，决定了超平面的方向, d 是特征值的个数
X 为训练样本
b  为位移项，决定了超平面与原点之间的距离

$d(X^T)=\sum\limits_{i = 1}^ly_i{\alpha_i}X_iX^T+b_0$
此方程就代表了边际最大化的划分超平面。
$l$ 是支持向量点的个数，因为大部分的点并不是支持向量点，只有个别在边际超平面上的点才是支持向量点。那么我们就只对属于支持向量点的进行求和；
$X_i$ 为支持向量点的特征值；
$y_i$ 是支持向量点 X i X_i Xi的类别标记（class label)，比如+1还是-1；
$X^T$ 是要测试的实例，想知道它应该属于哪一类，把它带入该方程
$\alpha_i$ 和 $b_0$ 都是单一数值型参数，由以上提到的最优算法得出， $\alpha_i$ 是拉格朗日乘数。
每当有新的测试样本 $X$ ，将它带入该方程，看看该方程的值是正还是负，根据符号进行归类。
在这里插入图片描述
最大值和最小值之间的关系是取一个倒数

二、Hard Margin

1、拉格朗日乘子法

   梯度是要垂直于等高线。
   1.1、等高线的法线
      等高线上任意一点处的斜率： $\frac{dy}{dx}=\frac{\delta f}{\delta x}\frac{\delta f}{\delta y}$ ，该点对应的法线方向为斜率的负倒数即 $-\frac{1}{\frac{dy}{dx}}=\frac{dy}{dx}=\frac{\delta f}{\delta x}/\frac{\delta f}{\delta y}=tan\theta$ ，其中 $\theta$ 是法线和X轴的夹角，如果梯度的方向和等高线的法线方向一致，就证明了垂直关系。
   1.2、梯度向量
       $z = f (x, y)$ 的梯度向量为 $(\frac{\delta f}{\delta x},\frac{\delta f}{\delta y})$ ，设该向量和X轴的夹角大小为 $\gamma$ ，则夹角的正切值为 $tan\gamma=\frac{\delta f}{\delta y}/\frac{\delta f}{\delta x}=tan\theta$
所以说名梯度向量的方向和等高线的法线方向是一样的，说明梯度方向和等高线垂直！
在这里插入图片描述 1.3、等式的约束
    $\nabla f=\lambda\nabla g$ 其中 $\nabla f$ 表示函数的梯度， $\nabla g$ 表示约束的梯度。
   （1）在只含有一个约束条件下时，我们可以列出一下图片中的式子进行求解

在这里插入图片描述    （2）当含有多个约束条件时（下面的图，是一个多约束的图像）
   这个图不仅仅要满足蓝色曲线的约束，还需要满足直线的约束，到原点的距离最小，这种情况下得出新的公式1.4、不等式的约束
    （1）第一种情况
在这里插入图片描述在这种情况下，因为这个约束不起作用，最小值点还是原点，约束等于没有，所以我们用 $\nabla f=0 \Rightarrow(x,y)=(0,0)l$ 来表示这种情况（相当于前面公式中 $\mu=0$ ）
    （2）第二种情况

    不等式的约束和等式的约束，可以进行相似的求法，再通过下图的式子求解就可以了
在这里插入图片描述
    函数的梯度：约束可行的时候，那一定是指向可行域内部的，因为最小值在可行域的外部，如果要指向可行域的外部时，就是指向最小值的方向，那么约束就会变的没有作用。
    约束的梯度：是指向可行域外部的，因为梯度指向最陡的上升方向，这里h是要求小于0 的，如下图中的，约束的可行域要指向外部在这里插入图片描述 $\mu>=0$ 的原因是，因为约束和函数的梯度是相反的，当相加为0是，必须要有 $\mu>=0$
1.5、KKT条件
根据上面讲述的例子，我们在这里直接套入 $\nabla f+\mu\nabla h=0$ 公式，并使用图中给出的条件，因为梯度相反，所以 $\mu>=0$ 。这里的最后一个条件，体现 $h_j=0$ 或 $h_j<0$ 这两种情况。如果当 $h_j<0$ ，在这时，表示 $\mu=0$ 约束就没有用了，就取在可行域内，不能出现这种情况，所以有了最后的那一种条件。

2、对偶问题

    因为在这个条件中，只包含了不等式的约束，所以就要求 $a_i$ 是一定大于或等于零的， $a_i$ 后面的式子一定是小于等于0的，这样才满足，潭门的乘积等于0的条件。这样就将含有约束的为问题转化成了没有约束的问题。
在这里插入图片描述     这里面红方框的部分表示，求 $\alpha$ 为一个值时，拉格朗日的值为最大。求 $\omega$ 和 $b$ 为一个值时，拉格朗日的值为最小。（因为在拉格朗日的式子中，后面的一部分乘积是小于等于0的，所以当拉格朗日的式子为最大时，后面的应为0，得出 $\alpha_i$ 的值。当拉格朗日的式子为最小时，后面的式子不为0）
    先对一个函数取最大，在所有最大的取最小，一定大于等于对一个函数中取最小，在所有的最小中取一个最大的，这叫做弱作用关系。
    同理可知，当上述的情况变成等于时，就成为强作用关系。我们这里用到的式子是强作用关系，所以在换顺序后是对结果没有影响的。
在这里插入图片描述证明弱作用关系
通过将一个有约束的问题转化成无约束的问题，通过强作用关系，转化成对偶问题，最后在进行求导

三、Soft Margin

Soft Margin与Hard Margin不同的是，这个允许有一些错误，Hard Margin对异常值过于的敏感。

红色的方框中是我们的约束，就是式子中的z，C为无穷大时，要想保证式子是最小值，那么后面的都要为0，当C的值有限时，式子前面的一部分的最小值，不一定可以代表整个式子的最小值，这是就需要后面式子起作用了。
在这里插入图片描述
分类的不同，会导致损失的不同。详细的内容在下图。分类正确的都是趋近于0，分类错误都是有一个损失。
最后转化成这个样子