机器学习之支持向量机SVM

最新推荐文章于 2025-08-22 11:20:25 发布

原创最新推荐文章于 2025-08-22 11:20:25 发布 · 640 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #支持向量机 #人工智能

一、支持向量机

1.1 简介

支持向量机（SVM）** 是一种有监督的机器学习算法，广泛应用于分类和回归问题。其核心思想是通过寻找一个最优超平面（Hyperplane）来对数据进行分割，使得不同类别的数据点之间的间隔（Margin）最大化。SVM 在小样本、高维数据场景中表现优异，常用于图像识别、文本分类、生物信息学等领域。

1.2 核心概念与原理

1. 超平面与间隔最大化

超平面：在 n 维空间中，超平面是 n-1 维的决策边界，用于分离不同类别的数据。例如，在二维空间中是一条直线，三维空间中是一个平面。
间隔（Margin）：指两类数据点到超平面的最小距离之和。SVM 的目标是找到使间隔最大的超平面，以提高模型的泛化能力。

2. 支持向量（Support Vectors）

决定超平面位置的关键数据点，即离超平面最近的样本点。
超平面仅由支持向量决定，其他样本点不影响模型决策。

3. 线性可分与线性不可分情况

线性可分：数据可通过线性超平面完全分离，此时使用硬间隔最大化求解。
线性不可分：数据存在噪声或重叠，需引入 ** 软间隔（Soft Margin）** 允许少量样本分类错误，通过惩罚因子（C）平衡间隔大小与分类误差。

1.3 数学模型

1. 线性 SVM 的数学表达

假设数据集为 (xi,yi)，其中 xi∈Rn，yi∈{−1,+1}（二分类）。

超平面方程为：

优化目标：

2. 软间隔 SVM（引入松弛变量）

允许部分样本违反约束，引入松弛变量 ξi≥0：

其中，C>0 为惩罚参数，控制分类错误的代价。

3. 核技巧

解决非线性分类问题：通过核函数将低维输入空间的数据映射到高维特征空间，使数据在高维空间线性可分。
常用核函数

二、实例分析

从一个可以由线性边界分隔的二维数据集开始。在这个数据集中，正例子（用+表示）和负例子(用o表示)的位置表明可以由线性边界分割。但是，注意，在最左边有一个异常的正例子+，大约是( 0.1 , 4.1 ) (0.1,4.1)(0.1,4.1)。在本实验中，将看到这种特殊的例子如何影响SVM的决策边界。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.io import loadmat
from sklearn import svm
import seaborn as sns
def load_mat(path):
    data=loadmat(path)
    X=data['X']
    y=data['y']
    return X,y
path="./data/ex6data1.mat"
X,y=load_mat(path)
def plot_data(X,y,fig,ax):
    data=pd.DataFrame(X,columns=['X1','X2'])
    data['y']=y
    positive=data[data['y'].isin([1])]
    negative=data[data['y'].isin([0])]
    
    ax.scatter(positive['X1'],positive['X2'],s=30,marker='+',c='black',label='Positive')
    ax.scatter(negative['X1'],negative['X2'],s=30,marker='o',c='orange',label='Negative')
    ax.set_xlabel('X1')
    ax.set_ylabel('X2')
    ax.legend()
fig,ax=plt.subplots(figsize=(8,6))
plot_data(X, y,fig,ax)
plt.title("Example Dataset 1")
plt.show()

在本部分的实验中，将尝试对SVMs使用不同的C参数值。C参数是一个正数，它控制了对错误分类的训练数据的惩罚，其中C较大，说明SVM尝试正确地分类所有的数据。

svc = svm.SVC(C=1, kernel='linear')
SVC(C=1, kernel='linear')
svc.fit(X,y.flatten())
svc.score(X,y.flatten())

可视化分类边界

def plot_boundary(svc,X,y,C,diff=10**-3):
    x1,x2=decision_boundary(svc,X,diff)
    fig,ax=plt.subplots(figsize=(8,6))
    plot_data(X, y,fig,ax)
    ax.scatter(x1,x2,s=5,c='blue',label='Boundary')
    plt.title("SVM Decision Boundary with C = {} (Example Dataset 1)".format(C))
    plt.show()
def decision_boundary(svc,X,diff=10**-3):
    x1_min,x1_max=X[:,0].min(),X[:,0].max()
    x2_min,x2_max=X[:,1].min(),X[:,1].max()
    x1=np.linspace(x1_min,x1_max,2000)
    x2=np.linspace(x2_min,x2_max,2000)#将整个平面分割为2000*2000的小方格，如果后面感觉运行太久可以适当缩小到500
    cordinates = [(x, y) for x in x1 for y in x2]
    x1, x2 = zip(*cordinates)
    c_val=pd.DataFrame({'x1':x1,'x2':x2})
    c_val['cval']=svc.decision_function(c_val[['x1','x2']])#对所有的小方格的：预测样本的置信度得分（接近0的就是分割边界）
    decision=c_val[np.abs(c_val['cval'])<diff]
    return decision.x1,decision.x2

当C=1时，发现SVM将决策边界放在两个数据集之间的间隙中，并将最左边的数据点错误分类。

svc2 = svm.SVC(C=100,kernel='linear')
svc2
SVC(C=100, kernel='linear')
svc2.fit(X,y.flatten())
svc2.score(X,y.flatten())

当C=100时，发现SVM对每个数据都正确分类，但是该决策边界与数据匹配并不自然。

plot_boundary(svc2,X,y,100,10**-3)

综上：

当C比较小时模型对错误分类的惩罚较小，比较宽松，允许一定的错误分类存在，间隔较大。
当C比较大时模型对错误分类的惩罚较大，比较严格，错误分类少，间隔较小。

1.2.2 Example

接下来的实验中的数据的分布图如下图所示，可以观察到，该数据集的正例子和负例子之间没有线性决策边界。不过，通过使用高斯核SVM，将能够学习到一个非线性决策边界，它在该数据集表现得相当好。

path="./data/ex6data2.mat"
X2,y2=load_mat(path)
fig,ax=plt.subplots(figsize=(8,6))
plot_data(X2,y2,fig,ax)
plt.title("Example Dataset 2")
plt.show()

上面已经正确地实现了高斯核函数GaussKernel，接下来将继续在这个数据集上用高斯核训练SVM。下图绘制了具有高斯核的SVM所找到的决策边界，该决策边界能够正确地分离大多数正负例子，并且很自然地遵循了数据集的轮廓。

sigma=0.1
gamma=np.power(sigma,-2)/2
clf=svm.SVC(C=1,kernel='rbf',gamma=gamma)
model=clf.fit(X2, y2.flatten())
clf.score(X2, y2.flatten())
dx1,dx2=decision_boundary(model,X2,diff=0.01) #找到决策边界的点
fig,ax=plt.subplots(figsize=(8,6))
plot_data(X2, y2, fig, ax)
ax.scatter(dx1,dx2,s=5)
plt.title("SVM (Gaussian Kernel) Decision Boundary (Example Dataset 2)")
plt.show()

1.2.3 Example

def load_mat3(path):
    data=loadmat(path)
    X=data['X']
    y=data['y']
    Xval=data['Xval']
    yval=data['yval']
    return X,y,Xval,yval
path="./data/ex6data3.mat"
X3,y3,X3val,y3val=load_mat3(path)
fig,ax=plt.subplots(figsize=(8,6))
plot_data(X3,y3,fig,ax)
plt.title("Example Dataset 3")
plt.show()

第3 33个数据集给出了训练集和验证集，并且基于验证集的性能来为SVM模型找到最优超参数。对于C , σ C,\sigmaC,σ，有候选值( 0.01 , 0.03 , 0.1 , 0.3 , 1 , 3 , 10 , 30 ) (0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30)(0.01,0.03,0.1,0.3,1,3,10,30)。尝试上面列出的C CC和σ \sigmaσ的8 88个值中的每个，最终将训练和评估（在交叉验证集上）共64 6464个不同的模型。

C_values=[0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30]
sigma_values=[0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30]
best_score=0
best_params={'C':None,'sigma':None}

for C in C_values:
    for sigma in sigma_values:
        clf=svm.SVC(C=C,kernel='rbf',gamma=sigma)
        model=clf.fit(X3, y3.flatten())
        score=clf.score(X3val, y3val.flatten())
        if score>best_score:
            best_score=score
            best_params['C'],best_params['sigma']=C,sigma

best_score,best_params
(0.965, {'C': 3, 'sigma': 30})
clf=svm.SVC(C=best_params['C'],kernel='rbf',gamma=best_params['sigma'])
model=clf.fit(X3, y3.flatten())
clf.score(X3val, y3val.flatten())

根据上面的代码找到了最佳参数C和sigma，SVM得到了下图的决策边界

dx1,dx2=decision_boundary(model,X3,diff=0.005) #找到决策边界的点
fig,ax=plt.subplots(figsize=(8,6))
plot_data(X3, y3, fig, ax)
ax.scatter(dx1,dx2,s=5)
plt.title("SVM (Gaussian Kernel) Decision Boundary (Example Dataset 3)")
plt.show()

2.1 Preprocessing Emails（预处理电子邮件）
在开始执行机器学习任务之前，查看电子邮件的类型，下图显示了一个包含一个URL、电子邮件地址（在末尾）、数字和美元金额的电子邮件。虽然许多电子邮件包含类似实体(例如，数字、URL、电子邮件地址)，但特定的实体(例如，特定的URL或特定的金额)在几乎每封电子邮件中都是不同的。因此，在处理电子邮件时经常使用的一种方法是"规范化"这些值，这样所有的url都处理成相同的，所有数字都处理成相同的。例如，用字符串httpaddr替换电子邮件中的URL，表示存在一个URL。这样做可以让垃圾邮件分类器根据是否存在URL来做出分类决定。这可以提高垃圾邮件分类器的性能，因为垃圾邮件发送者通常会将URL随机化，因此在新的垃圾邮件片段中再次看到特定出现过的URL的几率非常小。

import re
def processEmail(email):
    email=email.lower()
    email=re.sub('<[^<>]>',' ',email)
    email=re.sub('(http|https)://[^\s]*','httpaddr',email)
    email=re.sub('[^\s]+@[^\s]+','emailaddr',email)
    email=re.sub('[\$]+','dollar',email)
    email=re.sub('[\d]+','number',email)
    return email

接下来提取词干并且去除非字符内容。

import nltk, nltk.stem.porter # 英文分词算法
def email_TokenList(email):
    stemmer=nltk.stem.porter.PorterStemmer()
    email=processEmail(email)
    tokens=re.split('[ \@\$\/\#\.\-\:\&\*\+\=\[\]\?\!\(\)\{\}\,\'\"\>\_\<\;\%]',email)
    tokenList=[]
    for token in tokens:
        token=re.sub('[^a-zA-Z0-9]','',token)
        stemmed = stemmer.stem(token)#提取词根
        if(len(token)):
            tokenList.append(stemmed)
    return tokenList

在对电子邮件进行预处理后，得到电子邮件的单词列表（如下）。接下来选择在分类器中使用哪些词，以及需要忽略哪些词。

2.1.1 Vocabulary List
在本节实验中，只选择最经常出现的单词作为单词集（词汇表）。由于在训练集中很少出现的单词一般也只出现在少数电子邮件中，它们可能会导致模型过拟合。词汇表vocab.txt里面存储了在实际中经常使用的单词，共1899 18991899个。（在实践中，词汇表大约有1万到5万字）。在词汇表中，将预处理电子邮件中的每个单词映射到一个单词索引列表中，其中包含词汇和单词索引。

完成processEmail函数，传入字符串str（处理过的电子邮件中的单个单词），然后在词汇表中查找该单词，看它是否存在于词汇表列表中，如果存在，将单词的索引添加到单词索引变量中；如果不存在，可以跳过这个词。

def processEmail_index(email,vocab):
    token=email_TokenList(email)
    index=[i for i in range(len(vocab)) if vocab[i] in token]
    return index
vocab = pd.read_table('./data/vocab.txt',names=['words'])
vocab=vocab.values
processEmail_index(email, vocab)

2.2 Extracting Features from Emails（从电子邮件中提取特征）
接下来实现功能提取，将每个电子邮件转换为一个R n R^nR
n 的向量。电子邮件的特性x i ∈ { 0 , 1 } x_i\in \lbrace0,1\rbracex
i∈{0,1}表示第i ii个单词是否出现在电子邮件中，如果第i ii个单词在电子邮件中，那么x i = 1 x_i=1xi =1；否则x i = 0 x_i=0x i =0。

编写函数emailFeatures完成上述的功能，运行代码，可以看到特征向量的长度为1899 18991899并且有45 4545个非零项。

def emailFeatures(email):
    df = pd.read_table('./data/vocab.txt',names=['words'])
    vocab=df.values
    vector=np.zeros(len(vocab))
    vocal_index=processEmail_index(email,vocab)
    for i in vocal_index:
        vector[i]=1
    return vector
vector=emailFeatures(email)
print('vector had length {} and {} non-zero entries'.format(len(vector), int(vector.sum())))

2.3 Training SVM for Spam Classification（垃圾邮件分类-SVM）
spamTrain.mat包含4000 40004000个垃圾邮件和非垃圾邮件的训练数据，spamTest.mat包含1000 10001000个测试数据。每个原始电子邮件使用processEmail函数和emailFeatures函数处理，并转换为一个向量x ( i ) ∈ R 1899 x^{(i)}\in R^{1899}x

path="./data/spamTrain.mat"
X,y=load_mat(path)
path="./data/spamTest.mat"
data=loadmat(path)
Xtest,ytest=data["Xtest"],data["ytest"]
X.shape,y.shape,Xtest.shape,ytest.shape

(i) ∈R 1899。

加载数据集之后，训练SVM进行分类：垃圾邮件y = 1 y=1y=1和非垃圾邮件(y=0)。训练完成，分类器得到的训练准确率约为99.8 % 99.8\%99.8%，测试准确率约为98.5 % 98.5\%98.5%。

每个文档已经转换为一个向量，其中1899 18991899对应于词汇表中的1899 18991899个单词。它们的值为二进制，表示文档中是否存在单词。

clf=svm.SVC(C=0.1,kernel='linear')
clf.fit(X,y)
clf.score(X,y)

2.4 Top Predictors for Spam
为了更好地理解垃圾邮件分类器是如何工作的，可以检查参数，看看分类器认为哪些词最能预测到垃圾邮件。接下来在分类器中找到最大的参数（正数），并显示相应的单词。因此，如果电子邮件包含"保证"、“删除”、"美元"和"价格"等词，它很可能被归类为垃圾邮件。

kw=np.eye(1899)
spam_val=pd.DataFrame({'index':range(1899)})
spam_val['is_spam']=clf.decision_function(kw)
spam_val['is_spam'].describe()
decision=spam_val[spam_val['is_spam']>0.4]
decision