监督学习中的分类算法详解

立即解锁

发布时间: 2025-09-04 01:18:03 阅读量: 7 订阅数: 15

Web数据挖掘核心方法

# 监督学习中的分类算法详解 ## 1. 支持向量机（SVM） ### 1.1 线性SVM 支持向量机（SVM）是一种线性学习系统，旨在找到最大间隔决策边界，以分离正例和负例。学习过程被表述为一个二次优化问题。最终决策边界公式为： \[ \sum_{i = 1}^{n} \alpha_i y_i \langle \mathbf{x}_i, \mathbf{x} \rangle + b \] 分类（测试）的决策规则与可分情况相同，即 \( \text{sign}(\langle \mathbf{w}, \mathbf{x} \rangle + b) \)。需要注意的是，对于相关公式，无需显式计算 \( \mathbf{w} \)，这对于使用核函数处理非线性决策边界至关重要。参数 \( C \) 的确定通常是在训练集上尝试一系列值，构建多个分类器，然后在验证集上进行测试，选择在验证集上给出最佳分类结果的那个值。交叉验证也是常用的方法。 ### 1.2 非线性SVM：核函数在许多实际数据集里，决策边界是非线性的。为处理非线性可分数据，可将输入数据从原始空间转换到另一个通常维度更高的空间（特征空间），使线性决策边界能在转换后的空间中分离正例和负例。基本思路是通过非线性映射 \( \Phi \) 将输入空间 \( X \) 中的数据映射到特征空间 \( F \)： \[ \Phi: \mathbf{x} \to \Phi(\mathbf{x}) \] 转换后，原始训练数据集 \( \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \ldots, (\mathbf{x}_n, y_n)\} \) 变为 \( \{(\Phi(\mathbf{x}_1), y_1), (\Phi(\mathbf{x}_2), y_2), \ldots, (\Phi(\mathbf{x}_n), y_n)\} \)。然而，将输入数据显式转换到特征空间再应用线性SVM可能会遭遇维数灾难。幸运的是，通过核函数可以避免显式转换。核函数 \( K \) 定义为： \[ K(\mathbf{x}, \mathbf{z}) = \langle \Phi(\mathbf{x}), \Phi(\mathbf{z}) \rangle \] 常见的核函数有： - 多项式核：\( K(\mathbf{x}, \mathbf{z}) = (\langle \mathbf{x}, \mathbf{z} \rangle + \theta)^d \) - 高斯径向基函数（RBF）核：\( K(\mathbf{x}, \mathbf{z}) = \exp\left(-\frac{\|\mathbf{x} - \mathbf{z}\|^2}{2\sigma^2}\right) \) 直接使用核函数替换特征空间中的点积这一策略被称为核技巧，无需明确知道映射函数 \( \Phi \)。 ### 1.3 SVM的局限性 - **数据类型限制**：仅适用于实值空间，对于分类属性，需将其分类值转换为数值。 - **分类数量限制**：仅允许二分类，对于多分类问题，需应用一些策略，如一对多、纠错输出编码等。 - **可解释性差**：SVM生成的超平面难以被用户理解，在高维空间中很难想象超平面的位置，核函数的使用更是加剧了这一问题。 ## 2. K近邻（kNN）学习与之前学习数据模型的急切学习方法不同，k近邻（kNN）是一种懒惰学习方法，它不在训练数据上学习模型，仅在需要对测试示例进行分类时才进行学习。 ### 2.1 kNN算法步骤算法kNN(D, d, k)： 1. 计算测试实例 \( d \) 与训练集 \( D \) 中每个示例的距离。 2. 选择 \( D \) 中与 \( d \) 最近的 \( k \) 个示例，记为集合 \( P \)。 3. 将 \( d \) 分配为 \( P \) 中最频繁出现的类别（多数类）。 ### 2.2 距离/相似度函数 kNN算法的关键组成部分是距离/相似度函数，其选择取

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

监督学习中的分类算法详解

相关推荐

专栏目录

监督学习中的分类算法详解

相关推荐

机器学习中的监督学习理论与算法解析

感知机学习算法详解与应用探讨

python机器学习之KNN分类算法

perl-Tk-ColoredButton-1.05-38.el8.tar.gz

【时间序列预测】项目介绍 Python实现基于CNN-BiLSTM卷积双向长短期记忆神经网络进行时间序列预测的详细项目实例（含模型描述及部分示例代码）

基于计算机视觉的PCB板小孔自动检测系统-利用高精度工业摄像头采集PCB图像-通过Simulink平台实现图像预处理-灰度转换-几何校正-形态学处理-特征提取-孔位定位-数量统计-.zip

智慧公寓管理系统-基于SpringBoot和MyBatis的现代化公寓租赁管理平台-包含住户信息管理-房间管理-费用管理-维修管理-公告管理-访客管理-投诉管理等核心功能模块-采用.zip

netty-codec-compression-4.2.4.Final.jar中文-英文对照文档.zip

spring-boot-autoconfigure-3.3.6.jar中文-英文对照文档.zip

opentelemetry-sdk-common-1.43.0.jar中文-英文对照文档.zip

什么是 SAP HANA XS JavaScript

第八章总线和数据通信技术.ppt

专栏目录

最新推荐

信息系统集成与测试实战

实时资源管理：Elixir中的CPU与内存优化

Ansible高级技术与最佳实践

轻量级HTTP服务器与容器化部署实践

PowerShell7在Linux、macOS和树莓派上的应用指南

开源安全工具：Vuls与CrowdSec的深入剖析

RHEL9系统存储、交换空间管理与进程监控指南

构建交互式番茄钟应用的界面与功能

容器部署与管理实战指南

基于属性测试的深入解析与策略探讨