Python -机器学习 -svm.SVC分类

本文深入解析SVM(支持向量机)的关键参数,包括C、kernel、gamma等,探讨它们对模型性能的影响,并通过实例展示如何使用GridSearchCV进行参数调优,提升模型的准确性和泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

搞清楚自己用的是分类还是回归!。
搞回归的用的是scm.SVR

方法参数

文档

sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None,random_state=None)
  • C:float类型,默认值是1.0
    参数表明算法要训练数据点需要作出多少调整适应,C小,SVM对数据点调整少,多半取平均,仅用少量的数据点和可用变量,C值增大,会使学习过程遵循大部分的可用训练数据点并牵涉较多变量。C值过大,有过拟合问题,C值过小,预测粗糙,不准确。

  • kernel :str类型,默认是’rbf’
    核函数,可选参数有
    ‘linear’:线性核函数(常用)
    ‘poly’:多项式核函数
    ‘rbf’:径像核函数/高斯核(常用)
    ‘sigmoid’:sigmoid核函数
    ‘precomputed’:核矩阵
    precomputed表示自己提前计算好核函数矩阵,这时候算法内部就不再用核函数去计算核矩阵,而是直接用你给的核矩阵。

  • degree :int 类型,默认为3
    多项式poly函数的阶数n,选择其他核函数时会被忽略。

  • gamma :float 类型,默认为auto
    核函数系数,只对‘rbf’,‘poly’,‘sigmod’有效。
    如果gamma为auto,代表其值为样本特征数的倒数,即1/n_features.

  • coef0 :float 类型,默认为0.0
    核函数的常数项,对于‘poly’和 ‘sigmoid’有用,代表其中的参数c

  • probability :bool类型,默认为False
    是否采用概率估计,需要在训练fit()模型时加上这个参数,之后才能用相关的方法:predict_proba和predict_log_proba

  • shrinking :bool类型,默认为True
    是否采用shrinking heuristic()启发式收缩方式

  • tol :float类型,默认为1e-3
    svm停止训练的误差值大小

  • cache_size :float类型,默认为200(MB)
    指定训练所需要的内存,以MB为单位

  • class_weight :字典类型或’balance’字符串,默认为None
    类别的权重,字典形式传递。设置第几类的参数C为weight*C(C-SVC中的C)

  • verbose :bool类型,默认为False
    是否启用详细输出。 此设置利用libsvm中的每个进程运行时设置,如果启用,可能无法在多线程上下文中正常工作。一般情况都设为False,不用管它。

  • max_iter :int类型, 默认为-1
    最大迭代次数。-1为无限制。

  • decision_function_shape :str类型,默认为’ovr’
    ovo’, ‘ovr’, default=’ovr’,是否将形状(n_samples,n_classes)的one-rest-rest(‘ovr’)决策函数作为所有其他分类器返回,或者返回具有形状的libsvm的原始one-vs-one(‘ovo’)决策函数(n_samples) ,n_classes *(n_classes - 1)/ 2)。
    通俗解释:ovr即为one v rest 一个类别分别与其他类别进行划分,ovo为one v one,类别两两之间划分,用二分类的方法模拟多分类的结果

  • random_state :int类型,默认为None
    伪随机数发生器的种子,在混洗数据时用于概率估计。

相关方法和属性

  • fit() 方法:用于训练SVM,具体参数已经在定义SVC对象的时候给出了,这时候只需要给出数据集X和X对应的标签y即可。

  • predict() 方法: 基于以上的训练,对预测样本T进行类别预测,因此只需要接收一个测试集T,该函数返回一个数组表示个测试样本的类别。

  • 属性
    svc.n_support_:各类各有多少个支持向量
    svc.support_:各类的支持向量在训练样本中的索引
    svc.support_vectors_:各类所有的支持向量

参数调整

1,一般推荐在做训练之前对数据进行归一化,当然测试集的数据也要做归一化
2,在特征数非常多的情况下,或者样本数远小于特征数的时候,使用线性核,效果就很好了,并且只需要选择惩罚系数C即可
3,在选择核函数的时候,如果线性拟合效果不好,一般推荐使用默认的高斯核(rbf),这时候我们主要对惩罚系数C和核函数参数 gamma 进行调参,经过多轮的交叉验证选择合适的惩罚系数C和核函数参数gamma。
4,理论上高斯核不会比线性核差,但是这个理论就建立在要花费更多的时间上调参上,所以实际上能用线性核解决的问题我们尽量使用线性核函数
对模型性能影响较大的超参数:“kernel”,“gamma”,“C”

kernel

在这里插入图片描述其中线性核函数适用于特征量较多的情况(> 1000)数据在高维空间中更可能是线性可分的

gamma

‘rbf’,'poly’和’sigmoid’的内核系数。伽马值越高,则会根据训练数据集进行精确拟合,也就是泛化误差从而导致过拟合问题。
gamma越大,支持向量越多,gamma值越小,支持向量越少。gamma越小,模型的泛化性变好,但过小,模型实际上会退化为线性模型;gamma越大,理论上SVM可以拟合任何非线性数据。
下图为gamma由低到高的图像
在这里插入图片描述

C

误差项的惩罚参数C,C越大,分类错误惩罚越严重,越容易过拟合,C越小越容易欠拟合。它还控制了平滑决策边界与正确分类训练点之间的权衡。
为维持模型在过拟合和欠拟合之间的平衡,往往最佳的参数范围是C比较大,gamma比较小;或者C比较小,gamma比较大。也就是说当模型欠拟合时,我们需要增大C或者增大gamma,不能同时增加,调节后如果模型过拟合,我们又很难判断是C过大了,还是gamma过大了;同理,模型欠拟合的时候,我们需要减小C或者减小gamma。
下图为C从低到高的图像
在这里插入图片描述

过拟合与欠拟合

如果训练集的精度就不高,模型欠拟合。那么需要增加数据特征维度、样本总数和模型复杂度。
如果训练集精度很高,但是验证集精度很低,模型过拟合。那么需要压缩数据维度,降低模型复杂度。
正常来说测试集上的准确率都会比训练集要低

预处理 - 特征值归一化

1,避免训练得到的模型权重过小,引起数值计算不稳定;
2,使参数优化时能以较快的速度收敛.

代码:x为需要进行归一化的一行/列特征值

from sklearn import preprocessing 
x = preprocessing.MinMaxScaler().fit_transform(x)

eg:经典烂尾花(数据集下载)
不进行处理 VS 进行归一化处理

#-*-coding:GBK -*-
from sklearn import svm
import numpy as np
from sklearn import model_selection
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn import preprocessing 

def init(s):
    it = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2}
    return it[s]

def SVM():
    data = np.loadtxt('iris.data', dtype=float, delimiter=',', converters={4: init})
    x,y = np.split(data,(4,),axis = 1)
    clf = svm.SVC()
    clf.fit(x,y.ravel())
    y_hat = clf.predict(x)
    k = 0
    for i in range (len(y_hat)):
        if y_hat[i] == y[i]:
            k+=1
    print(float(k)/float(len(y_hat)))
    for i in range(x.shape[1]):
        x[:,[i]] = preprocessing.MinMaxScaler().fit_transform(x[:,[i]])
    clf = svm.SVC()
    clf.fit(x,y.ravel())
    y_hat = clf.predict(x)
    k = 0
    for i in range (len(y_hat)):
        if y_hat[i] == y[i]:
            k+=1
    print(float(k)/float(len(y_hat)))

if __name__ == '__main__':
    SVM()

# 0.9733333333333334
# 0.98
Sklearn-GridSearchCV网格搜索

官方文档
GridSearchCV,枚举所有给出的参数值,最终给出最优化的结果和参数,是一种非常暴力的方法(我认为)适合于小数据集,数据量比较大的时候可以使用一个快速调优的方法——坐标下降。
注:C和gamma的有效范围是:1e-8 ~ 1e8,正常情况下,我们都会先设置C和gamma的值在0.1~10之间,然后在根据模型的表现,每次乘以0.1或者10作为一个步长,当确定大致范围后,再细化搜索区间。
eg:经典阑尾花

#-*-coding:GBK -*-
from sklearn import svm
import numpy as np
from sklearn import model_selection
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

def init(s):
    it = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2}
    return it[s]

def SVM():
    data = np.loadtxt('iris.data', dtype=float, delimiter=',', converters={4: init})
    x,y = np.split(data,(4,),axis = 1)

    grid = GridSearchCV(svm.SVC(), param_grid={'C': [0.1, 1, 10], 'kernel':('linear', 'rbf'),'gamma': [1, 0.1, 0.01]}, cv=4)
    grid.fit(x, y.ravel())
    print("The best parameters are %s with a score of %0.2f"% (grid.best_params_, grid.best_score_))

if __name__ == '__main__':
    SVM()
# The best parameters are {'C': 1, 'gamma': 1, 'kernel': 'linear'} with a score of 0.98
<think>好的,我现在需要帮助用户了解SVM.SVC的用法。用户之前问过关于Liblinear收敛警告的问题,现在转向SVC,说明他们可能在用SVM时遇到了问题,或者想更深入了解如何正确使用SVC。 首先,用户可能是机器学习的新手,或者至少对Scikit-learn库中的SVC不太熟悉。他们可能需要基础的用法介绍,包括参数设置、调优方法等。考虑到之前的收敛问题,可能需要强调参数对模型性能的影响,比如C、kernel的选择,以及如何避免常见错误。 接下来,我需要确保回答结构清晰,分步骤解释。用户可能想要知道如何导入库、数据预处理、模型训练、调参、评估等。同时,用户可能对参数的具体作用不太清楚,比如gamma和C的关系,不同核函数的适用场景。 另外,用户之前遇到了警告,可能需要提醒他们注意数据标准化,因为SVM对特征的缩放敏感,这和之前的Liblinear问题类似。还要提到如何处理类别不平衡,使用class_weight参数,以及如何保存和加载模型,这些可能都是实际应用中常见的需求。 需要注意避免使用复杂术语,保持解释简单易懂。同时,提供代码示例会很有帮助,但需要确保代码正确,符合Scikit-learn的最新版本。例如,SVC的probability参数设置为True时会影响性能,需要指出。 可能还需要比较不同核函数的适用情况,帮助用户根据数据特征选择合适的核。例如,线性核适合高维数据,RBF适合非线性问题,但需要调参。同时,要提到网格搜索和交叉验证的重要性,帮助用户优化模型。 最后,总结部分应该强调关键点,如数据预处理、参数调优、核函数选择,确保用户有清晰的步骤可以参考。还要提醒常见问题,比如数据未标准化导致收敛慢,或者参数设置不当引起的过拟合/欠拟合。</think>以下是关于`sklearn.svm.SVC`(支持向量机分类器)的用法详解,包含核心参数、使用步骤及注意事项: --- ### **1. 基本概念** - **SVM(支持向量机)**:一种监督学习算法,通过寻找最大间隔超平面(或核技巧映射到高维空间)实现分类- **SVC(Support Vector Classifier)**:专用于分类任务的SVM实现,适用于二分类多分类问题。 - **核心思想**:最大化分类边界(间隔)并最小化分类误差。 --- ### **2. 导入与初始化** ```python from sklearn.svm import SVC # 初始化模型(常用参数示例) model = SVC( C=1.0, # 正则化参数,默认1.0 kernel='rbf', # 核函数:'linear', 'poly', 'rbf', 'sigmoid' gamma='scale', # 核函数系数('scale'或'auto') degree=3, # 多项式核的阶数(仅当kernel='poly'时生效) probability=False, # 是否启用概率估计(影响性能) class_weight=None # 类别权重(处理不平衡数据) ) ``` --- ### **3. 核心参数详解** #### **(1) 正则化参数 `C`** - **作用**:控制分类边界的“严格程度”。 - `C`值越大 → 模型更严格分类,可能过拟合。 - `C`值越小 → 允许更多误分类,提高泛化能力。 - **调整建议**:通过网格搜索(如`GridSearchCV`)优化。 #### **(2) 核函数 `kernel`** - **`linear`**:线性核,适用于线性可分数据。 ```python model = SVC(kernel='linear') ``` - **`rbf`(默认)**:高斯核,适用于非线性可分数据。 ```python model = SVC(kernel='rbf', gamma=0.1) ``` - **`poly`**:多项式核,需指定`degree`(多项式阶数)。 ```python model = SVC(kernel='poly', degree=4) ``` - **`sigmoid`**:Sigmoid核,效果类似神经网络激活函数。 #### **(3) 核系数 `gamma`** - **作用**:控制核函数的“影响范围”(仅对`rbf`、`poly`、`sigmoid`有效)。 - `gamma`值大 → 单个样本影响范围小,模型复杂易过拟合。 - `gamma`值小 → 样本影响范围大,模型简单。 - **默认值**: - `gamma='scale'`:计算为`1 / (n_features * X.var())`。 - `gamma='auto'`:计算为`1 / n_features`。 --- ### **4. 使用步骤示例** #### **(1) 数据准备与预处理** ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 加载数据 data = load_iris() X, y = data.data, data.target # 标准化(SVM对特征尺度敏感!) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2) ``` #### **(2) 训练模型** ```python model = SVC(C=0.5, kernel='rbf', gamma='scale') model.fit(X_train, y_train) ``` #### **(3) 预测与评估** ```python from sklearn.metrics import accuracy_score y_pred = model.predict(X_test) print("准确率:", accuracy_score(y_test, y_pred)) ``` --- ### **5. 调参技巧** #### **(1) 网格搜索优化** ```python from sklearn.model_selection import GridSearchCV param_grid = { 'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf'], 'gamma': ['scale', 'auto', 0.1, 1] } grid_search = GridSearchCV(SVC(), param_grid, cv=5) grid_search.fit(X_train, y_train) print("最佳参数:", grid_search.best_params_) ``` #### **(2) 处理类别不平衡** - 使用`class_weight`参数赋予少数类更高权重: ```python model = SVC(class_weight='balanced') # 自动平衡权重 # 或手动指定 model = SVC(class_weight={0:1, 1:10}) # 类别0权重1,类别1权重10 ``` --- ### **6. 注意事项** 1. **数据标准化**:SVM对特征尺度敏感,必须标准化(如`StandardScaler`)。 2. **高维数据**:特征维度远大于样本量时,优先选择线性核(`kernel='linear'`)。 3. **计算效率**: - 大数据集避免使用`kernel='poly'`或`kernel='rbf'`(计算复杂度高)。 - 可改用`LinearSVC`(线性核优化版本)。 4. **概率输出**:若需`predict_proba()`方法,设置`probability=True`,但会显著增加训练时间。 --- ### **7. 总结** - **适用场景**:中小规模数据集、高维数据(如文本分类)、非线性分类- **关键步骤**: 1. 标准化数据 2. 根据数据特点选择核函数 3. 通过网格搜索调参(`C`、`gamma`) 4. 处理类别不平衡(如有必要) 通过合理调整参数,SVC可高效解决复杂分类问题。若需更高性能,可尝试集成方法(如`SVM + Bagging`)。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值