数据分析45讲—支持向量机SVM(笔记)

最新推荐文章于 2024-07-20 21:19:37 发布

原创最新推荐文章于 2024-07-20 21:19:37 发布 · 381 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #sklearn #自然语言处理

数据挖掘专栏收录该内容

5 篇文章

订阅专栏

支持向量机（SVM）是一种有监督的机器学习模型，用于分类和回归分析。它寻找一个能最大化分类间隔的超平面，以提高模型的鲁棒性。SVM通过找到最接近数据点（支持向量）的决策边界，确保分类错误的可能性最小。最大间隔的决策边界是SVM的目标，从而实现更好的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是svm

SVM 的英文叫 Support Vector Machine，中文名为支持向量机。它是常见的一种分类方法，在机器学习中，SVM 是有监督的学习模型。

监督学习

监督学习是指的是我们需要事先对数据打上分类标签，这样机器就知道这个数据属于哪个分类。同样无监督学习，就是数据没有被打上分类标签，这可能是因为我们不具备先验的知识，或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作，比如将数据进行聚类，方便后续人工对每个类进行分析。SVM 作为有监督的学习模型，通常可以帮我们模式识别、分类以及回归分析。

SVM 的工作原理

用SVM 计算的过程就是帮我们找到一个超平面的过程，这个超平面就是我们的 SVM 分类器。
demo
其实我们可以有多种直线划分两个不同的数据集，比如下图所示的直线 A、直线 B 和直线 C，究竟哪种才是更好的划分呢？
在这里插入图片描述
很明显图中的直线 B 更靠近蓝色球，但是在真实环境下，球再多一些的话，蓝色球可能就被划分到了直线 B 的右侧，被认为是红色球。同样直线 A 更靠近红色球，在真实环境下，如果红色球再多一些，也可能会被误认为是蓝色球。所以相比于直线 A 和直线 B，直线 C 的划分更优，因为它的鲁棒性更强。
**鲁棒性:**鲁棒性(Robustness)维基百科：计算机科学中，健壮性(英语：Robustness)是指一个计算机系统在执行过程中处理错误，以及算法在遭遇输入、运算等异常时继续正常运行的能力。诸如模糊测试之类的形式化方法中，必须通过制造错误的或不可预期的输入来验证程序的健壮性。很多商业产品都可用来测试软件系统的健壮性。健壮性也是失效评定分析中的一个方面。
**分类间隔：**分离决策边界与离之最近的训练样本点之间的距离。
我们可以移动决策面 C，直到产生两个极限的位置：如图中的决策面 A 和决策面 B。极限的位置是指，如果越过了这个位置，就会产生分类错误。这样的话，两个极限位置 A 和 B 之间的分界线 C 就是最优决策面。极限位置到最优决策面 C 之间的距离，就是“分类间隔”，英文叫做 margin。
如果我们转动这个最优决策面，你会发现可能存在多个最优决策面，它们都能把数据集正确分开，这些最优决策面的分类间隔可能是不同的，而那个拥有“最大间隔”（max margin）的决策面就是 SVM 要找的最优解。