2 模型评估与选择

2.5偏差与方差

  • 对学习算法除了通过实验估计其泛化性能,
  • 还希望了解它“为什么”有这样的性能.
  • “偏差一方差分解”是解释学习算法泛化性能的一种重要工具

在这里插入图片描述

  • 偏差-方差分解对学习算法的期望泛化错误率拆解
  • 算法在不同训练集上学得的结果不同
    • 即便这些训练集是来自同一分布
  • 测试样本 x x x, y D y_D yD x x x在数据集中的标记
    • y y y x x x的真实标记
    • f ( x ; D ) f(x;D) f(x;D)为训练集 D D D上学得模型 f f f x x x上的预测输出
  • 回归任务为例,学习算法的期望预测

在这里插入图片描述

  • 用样本数相同的不同训练集产生的方差

在这里插入图片描述

  • 噪声

在这里插入图片描述

  • 期望输出与真实标记的差别

在这里插入图片描述

  • 假定噪声期望为零

在这里插入图片描述

  • 通过简单的多项式展开合并,可对算法的期望泛化误差分解

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 注意!
    在这里插入图片描述

在这里插入图片描述

  • 于是

在这里插入图片描述

  • 偏差(2.40)度量学习算法的期望预测与真实结果的偏离,
    • 学习算法本身的拟合能力
  • 方差(2.38)度量
    • 同样大小的训练集的变动所导致的学习性能的变化,
    • 数据扰动所造成的影响;
  • 噪声(2.39):在当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本身的难度.
  • 泛化性能由学习算法的能力、数据的充分性及学习任务本身的难度共同决定
  • 给定学习任务,为取得好的泛化性能,
    • 则需使偏差较小,即能够充分拟合数据,
    • 且使方差较小,即使得数据扰动产生的影响小

在这里插入图片描述

  • 偏差—方差窘境
  • 给定学习任务,假定能控制学习算法的训练程度
    • 训练不足时,学习器的拟合能力不强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导泛化错误率
    • 随着训练程度加深,学习器拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差主导泛化错误率
    • 训练程度充足后,学习器拟合能力已非常强,训练数据发生的轻微扰动都导致学习器显著变化,若训练数据自身的、非全局的特性被学习器学到了,将过拟合

在这里插入图片描述

2.6阅读材料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

fgh431

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值