统计学习方法(第二版)+简博士读书笔记

辰明Xucy

已于 2022-08-20 16:27:28 修改

阅读量1.6k

点赞数 3

CC 4.0 BY-SA版权

文章标签：学习人工智能机器学习

于 2022-08-11 10:30:17 首次发布

本文链接：https://blog.csdn.net/m0_50650660/article/details/126276592

本文介绍统计学习的基础概念，包括监督学习、无监督学习和强化学习的定义与流程，讨论统计学习方法的三个核心要素：模型、策略和算法，并探讨模型评估、泛化能力和正则化等关键主题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

第一章统计学习及监督学习概论

第一章统计学习及监督学习概论

统计学习

定义

学习：一个系统通过执行某个过程改进它的性能

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科

特点

以计算机和网络为平台
以数据为研究对象
以预测和分析数据为目的
以方法为中心，构建模型去预测和分析
是多领域交叉学科

统计学习方法的步骤

得到一个有限的训练数据集合
确定所有可能的模型的假设空间，即学习模型的集合（模型）
确定模型选择的策略（策略）
实现求解最优模型的算法（算法）
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

统计学习的三要素：2、3、4即模型、策略、算法。
在这里插入图片描述

统计学习分类

在这里插入图片描述

统计学习方法的基本分类

监督学习(supervised learning)

定义

指从标注数据中学习预测模型的机器学习问题，本质是学习输入到输出的映射统计规律

输入空间、特征空间、输出空间、实例

输入空间(input space)：输入的所有可能取值的集合

实例(instance)：每一个具体输入，通常由特征向量(feature vector)表示

特征空间(feature space)：所有特征向量存在的空间

输出空间(output space)：输出的所有可能取值的集合

tips：

输入与输出空间可以是同一个也可以是不同的空间。通常输出空间远远小于输入空间

基本假设

X和Y具有联合概率分布P(X,Y)

目的

学习一个输入到输出的映射，这一映射以模型表示

形式

条件概率分布P(X|Y)或决策函数Y=f(X)

假设空间(hypothesis space)

所有这些可能模型的集合

对具体的输入进行相应的输出预测时，写作:

在这里插入图片描述

流程图

在这里插入图片描述

监督学习分为学习和预测两个过程，由学习系统和预测系统构成。

模型是利用给定的训练数据集通过学习得到的

无监督学习(unsupervised learning)

定义

指从==无标注数据中学习预测模型的机器学习问题，本质是学习数据中的统计规律或潜在结构==

监督学习与无监督学习对比

	监督学习	无监督学习
是\否标注数据	标注数据：表示输入输出的对应关系	无标注数据：自然得到的数据
预测模型	对给定的输入产生相应的输出	表示数据的类别、转换或概率
本质	学习输入到输出的==映射==统计规律	学习数据中的统计规律或潜在结构

流程图

在这里插入图片描述

强化学习(reinforcement learning)

定义

指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题，本质是学习最优的序贯决策

流程图

在这里插入图片描述

系统从环境中观测到一个状态S_t和奖励r_t，采取一个动作a_t，环境根据动作再决定下一步的的状态S_t+1和奖励r_t+1

智能系统的目标是==长期积累奖励的最大化==

强化学习过程中，系统不断地试错，以达到学习最优策略的目的。

统计学习方法的三要素

模型+策略+算法

模型

假设空间：所有可能的条件概率分布或决策函数，用 𝓕表示

假设空间可以定义为决策函数的集合：

在这里插入图片描述

𝓕是由一个参数向量决定的函数族构成：

在这里插入图片描述

参数空间(parameter space)

在这里插入图片描述

假设空间可以定义为条件概率的集合：

在这里插入图片描述

𝓕是由一个参数向量决定的条件概率分布族构成：

在这里插入图片描述

策略

损失函数(loss function)

度量模型一次预测的好坏，记作：

在这里插入图片描述

Y：真实输出

f(X)：利用模型预测的输出

风险函数(risk function)

度量平均意义下的模型预测的好坏

在这里插入图片描述

学习的目标就是选择期望风险最小的模型

经验风险(empirical risk)

模型f(X)关于训练数据集的平均损失：
在这里插入图片描述

训练集为：

在这里插入图片描述

常见损失函数

输出变量为有限个离散变量，解决的是分类问题

输入和输出变量为连续变量时，解决的是回归问题

0-1损失函数(0-1 loss function)----分类问题

在这里插入图片描述

平方损失函数(quadratic loss function)----回归问题

在这里插入图片描述

绝对损失函数(absolute loss function)----回归问题

在这里插入图片描述

对数损失函数(logarithmic loss function)----概率模型

在这里插入图片描述

基本策略

经验风险最小化和结构风险最小化

根据大数定理，当样本容量N趋于无穷时，经验风险R_emp(f)趋于期望风险R_exp(f)

在这里插入图片描述

经验风险最小化

在这里插入图片描述

模型f(x)关于训练集的平均损失成为经验风险

样本容量N过小时，会产生过拟合现象

结构风险最小化

结构风险

在这里插入图片描述

是为防止过拟合提出的一种策略

结构风险最小化等价于正则化。

结构风险就是在经验风险的基础上加了表示模型复杂度的的正则化项(regularization)或者罚项(penalty term)

J(f)为模型复杂度。模型越复杂J(f)越大，反之越小

结构风险最小化

在这里插入图片描述

算法

指学习模型的具体计算方法

统计学习的算法成为求解==最优化问题==的算法

模型评估与模型选择

统计学习的目的：使学到的模型不仅对已知数据而且对==未知数据都能有很好的预测能力==

训练误差与测试误差

在这里插入图片描述

误差率与准确率

当损失函数是0-1损失时，测试误差—>误差率(error rate)

在这里插入图片描述

𝐈 为指示函数(indicator function)，不等时为1，相等为0(等不等于预测值)

相应准确率为：

在这里插入图片描述

即相等的比例

两者之和为1

过拟合与模型选择

过拟合(over-fitting)：学习时选择的模型包含参数过多，对已知数据预测的很好，对未知数据预测的很差

测试误差和训练误差与模型复杂度的关系

在这里插入图片描述

正则化与交叉验证

正则化：实现结构风险最小化的策略

正则化作用：选择经验风险与模型复杂度同时较小的模型

一般形式：

在这里插入图片描述

第一项为经验风险，第二项为正则化项，λ(≥0)为系数

λ越大，通过正则化选择的模型参数就会越少

正则化

L₁范数：
在这里插入图片描述

||ω||₁=∑_j|ω_j|

L₁范数中可以使某些参数直接为0，最后选择的就是一个稀疏的模型(非0参数少)

L₂范数：

在这里插入图片描述

L₂范数可以防止过拟合，接近于0但不为0

交叉验证

基本想法：重复使用数据，把给定数据进行切分，在此基础上反复训练

数据足够充足，将数据集随机切分为三部分
在这里插入图片描述

训练集(training set)：用来训练模型

验证集(validation set)：用来选择模型

测试集(test set)：用来最终评估学习方法

在学习到的不同复杂度的模型中，选择对验证集有最小验证误差的模型，由于验证集数据足够多，所以选择是有效的

简单交叉验证

数据不够充足，将其随机分为两个部分

在这里插入图片描述

用训练集在各种条件下训练模型，得到不同模型，然后在测试集上进行评估

S折交叉验证

随机将数据分为S个互不相交、大小相同的子集，用S-1个子集作为训练集，余下的子集作为测试集

这一过程对可能的S种选择重复进行，最后选出平均测试误差最小的模型

留一交叉验证

S折交叉验证特殊情况，S=N，往往在数据缺乏的情况下使用

N为数据集的样本容量

泛化能力

泛化能力：指由该方法学习到的模型对未知数据的预测能力

是学习方法本质上的重要性质

一般通过测试误差来评价学习方法的泛化能力(有可能不可靠，依赖于测试集)

泛化误差

泛化误差反映了学习方法的泛化能力，实际上，泛化误差就是期望风险

定义：如果学到的模型是f-hat，那么用这个模型对未知数据预测的误差即为泛化误差(generalization error)

在这里插入图片描述

泛化误差上界

泛化误差上界(generalization error bound)：指泛化误差的概率上界

两种学习方法的优劣，通常通过他们的泛化误差上界进行比较

性质：

是样本容量的函数，样本容量增加，泛化上界趋于0
是假设空间容量的函数：假设空间容量越大，模型就越难学，泛化误差上界就越大

定理1.1（泛化误差上界）

对于二分类问题，当假设空间是有限个函数的集合𝓕={f₁,f₂,···，f_d}时，对∀f∈𝓕，至少以概率1-δ，0<δ<1,以下不等式成立：
在这里插入图片描述

R(f)为泛化误差，或者称之为测试集上的期望风险，R^^^{(f)为训练集上的经验风险,R}^^(f)+ε(d,N,δ)即为泛化误差上界

生成模型与判别模型

监督学习方法分为生成方法和判别方法，两者所学到的模型分别成为生成模型和判别模型

生成模型(generative model)

生成方法原理上由数据学习联合概率分布P(X，Y)，然后**求出条件概率分布P(Y|X)**作为预测模型，即生成模型

在这里插入图片描述

典型生成模型：朴素贝叶斯法、隐马尔可夫模型

tips：输入和输出变量都要求为随机变量

判别模型(discriminative model)

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型，即为判别模型

典型判别模型：k近邻法、感知机、决策树等

tips：不需要输入和输出变量都要求为随机变量

两者比较

生成模型需要从大量数据中寻找规律

判别模型关注的是差别

生成模型	判别模型
所需数据量大	所需样本少于生成模型
可还原联合概率分布P(X,Y)	可直接面对预测，准确率更高
收敛速度更快	可简化学习问题
能反映同类数据本身的相似度	不可以反映数据本身特性
隐变量存在时，任可用生成模型