读文献——《Curriculum learning》

课程学习策略在机器学习中模仿人类和动物的学习过程,通过由易到难的样本排序,加速收敛并提升模型性能。该策略在非凸优化问题中有助于找到更优解,同时在复杂任务如形状识别和语言建模中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:https://dl.acm.org/doi/10.1145/1553374.1553380

1、Abstract

Humans and animals learn much better when the examples are not randomly presented but organized in a meaningful order which illustrates gradually more concepts, and gradually more complex ones. Here, we formalize such training strategies in the context of machine learning, and call them “curriculum learning”. (学习对象不是随机出现而是以一定意义的顺序组织,并且循序渐进,由简到难,人和动物的学习效果会好很多。 我们在机器学习的背景下正式制定了这样的培训策略,并将其称为“课程学习”。)
课程学习可以加速收敛,并且在非凸优化中找到更好的局部最优点。

2、Introduction

借鉴于人类和动物的学习过程,机器学习能否也用相似的由易到难循序渐进的学习方法。The basic idea is to start small, learn easier aspects of the task or easier subtasks, and then gradually increase the difficulty level.
举了动物训练和循环网络学习语言的例子,引出需要循序渐进学习。
Simple multi-stage curriculum strategies give rise to improved generalization and faster convergence.
As a continuation method can help to find better local minima of a non-convex training criterion.
Appear on the surface to operate like a regularizer.
On convex criteria a curriculum strategy can speed the convergence of training towards the global minimum.

3、On the difficult optimization problem of training deep neural networks

Automatically learning multiple levels of abstraction may allow a system to induce complex functions mapping the input to the output directly from data, without depending heavily on human-crafted features. (学习多层次的抽象特征能够让系统根据数据的自动推导出输入输出之间的映射关系,而不依靠人工设计特征。)
深层结构训练困难,但应用却广泛,常有使用非监督预训练来帮助监督学习优化得到更好的结果,可以使test error降低,不过对training error 没什么提高。
This suggested a dual effect of unsupervised pre-training, both in terms of helping optimization and as a kind of regularizer. The pre-training with a curriculum strategy might act similarly to unsupervised pre-training, acting both as a way to find better local minima and as a regularizer. (这表示了无监督预训练的双重效果,无论是在帮助优化方面还是作为一种正则化器。 采用课程学习的预训练与无监督的预训练相似,既可以作为查找更好的局部最小值的方式,又可以作为正则化器。)

4、A curriculum as a continuation method

The basic idea is to first optimize a smoothed objective and gradually consider less smoothing, with the intuition that a smooth version of the problems reveals the global picture. (基本思想是首先优化平滑的目标,然后逐步考虑减少平滑,直觉认为问题的平滑版本会揭示全局情况。)
对于一个优化问题Cλ(λ参数反映了优化问题难易程度),先优化一个较为平滑的目标C0(简单的目标),这个目标反映了问题整体的景象,然后逐渐增加λ并且保持θ是Cλ的局部最优,而最终C1 是实际想要优化的问题。
课程学习就是这种思想,根据训练样本训练的难易程度,给不同难度的样本不同的权重,一开始给简单的样本最高权重,占有较高的概率,接着将较难训练的样本权重调高,最后样本权重统一化之后,就可以直接在目标训练集上训练。
在这里插入图片描述

也就是说,往训练集中不断加入数据,the sequence of training distribution corresponds to a sequence of embedded training sets, starting with a small set of easy examples and ending with the target training set.

5、Toy experiments with a Convex Criterion

Cleaner examples may yield better generalization faster
Noisy会减慢收敛,做了一个简单的实验,用50个样本训练SVM二分类任务,简单数据的泛化误差比随机选取的数据低。(yw’x>0, 即正确分类的)困难样本可能信息丰富,但往往含有噪声,没用。
Introducing gradually more difficult examples speeds-up online training
使用两种方式来说明从简单到困难的课程学习策略的有效性。

1、the number of irrelevant inputs that is set to 0 varies randomly (uniformly) from example from the easiest (with all irrelevant inputs zeroed out) to the most difficult. 根据样本中不相关(irrelevant)数据的个数。
2、another way to sort example is by the margin yw^’ x, with easiest examples corresponding to larger values. yw^’ x的margin大小,margin越大说明特征越明显越容易区分。
实验结果如下:
在这里插入图片描述

实验结果很明显,curriculum学习更好。

6、Experiments on shape recognition

为了说明课程学习的效果,又做了个实验,关于三角形、长方形和椭圆形的形状的识别。作者用了两组数据集来区分样本的难易。一组数据集包含了等边三角形、正方形和圆形(BasicShapes),另一组中的形状并不那么规则(GeomShapes)。
训练方法:
首先将仅使用GeomShapes数据集训练的结果作为baseline。然后先用BasicShapes数据集中的数据进行训练,为了区分难易程度,分别训练0、2、4……、128个epochs(0 epoch就是baseline),然后再用GeomShapes训练至256个epochs,如果validation error到达设定的最小值就提前停止。
结果
在这里插入图片描述

本文进行了两个实验,一个是使用BasicShapes和GeomShapes两个数据集的数据在没有课程学习策略的情况下进行训练,另一个是只使用BasicShapes数据集中的数据进行非课程学习的训练,两个对比实验的结果都不好,从而说明的课程学习的效果。

7、Experiments on language modeling

将课程学习应用到预测下一个单词是什么的项目中,方案大致沿用Collobert和Weston的方法。
Cost:
在这里插入图片描述

对于一个可能的文本s我们想让f(s)尽量大(最大为1),这样其他文本对应的f(s^w )就会尽量小,那么C_s 就会接近于零。课程学习的策略为是否是常见的词汇,词典中每次增加5000个常见的词语,只要每组词汇中有词不在考虑的范围内,就丢掉这组词汇。没有课程学习策略的就直接从20000个单词中学习。
实验结果:
在这里插入图片描述

8、Discussion and Future Work

课程学习之所以有效可以从以下两个方面解释:在训练初期能够花更少的时间在有噪声的和很难去训练的数据上;可以引导训练走向更好的局部最优和更好的泛化效果:课程学习可以被看作是一种特殊的continuation method。
另外,如何寻找更好的课程将是未来的研究方向。

以下是翻译并转化为LaTeX代码的内容,严格遵循学术规范并保持原文结构: --- \section{自步学习与多样性融合框架} \subsection{摘要} 自步学习(Self-Paced Learning, SPL)是一种受人类和动物渐进学习过程启发的学习范式,其核心思想是逐步将简单到复杂的样本纳入训练。现有方法的局限性在于忽视了学习过程中的重要因素——多样性。为此,我们提出\textbf{自步学习与多样性融合方法}(Self-Paced Learning with Diversity, SPLD),通过设计通用正则项将易用性与多样性偏好统一建模。尽管该正则项对应的优化问题非凸,但样本选择变量的全局最优解可在线性对数时间内求得。实验表明,SPLD在三个真实数据集上显著优于传统SPL方法,尤其在Hollywood2和Olympic Sports数据集上达到了当前文献报道的最高平均精度(MAP)。 \subsection{引言} 自课程学习(Curriculum Learning, CL)\cite{bengio2009curriculum}提出以来,其通过逐步增加样本复杂度提升模型性能的理念在机器学习领域广受关注。传统CL方法依赖启发式规则设计课程,例如: \begin{itemize} \item 分类任务中基于样本到分类边界的距离衡量易用性\cite{ruvolo2011active}; \item 语法归纳中利用句子长度确定学习顺序\cite{spitkovsky2010curriculum}。 \end{itemize} 然而,启发式方法缺乏泛化能力。Kumar等人\cite{kumar2010self}提出的自步学习(SPL)通过将课程设计嵌入模型优化,实现了自动化课程生成。但现有SPL方法仅关注样本的易用性,忽视了多样性这一关键因素。理想的自步学习应同时选择简单且多样的样本,以模拟人类教育中“广泛涉猎”与“重点突破”的平衡机制。本文提出的SPLD框架通过理论建模与算法设计解决了这一关键问题。 \subsection{方法} \subsubsection{SPLD模型} 假设训练样本$\mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n) \in \mathbb{R}^{m \times n}$被划分为$b$个组$\mathbf{X}^{(1)}, \dots, \mathbf{X}^{(b)}$,对应权重向量为$\mathbf{v} = [\mathbf{v}^{(1)}, \dots, \mathbf{v}^{(b)}]$,其中$\mathbf{v}^{(j)} \in [0,1]^{n_j}$。SPLD的目标函数定义为: \begin{equation} \min_{\mathbf{w},\mathbf{v}} \mathbb{E}(\mathbf{w},\mathbf{v};\lambda,\gamma) = \sum_{i=1}^n v_i L(y_i,f(\mathbf{x}_i,\mathbf{w})) - \lambda \sum_{i=1}^n v_i - \gamma \|\mathbf{v}\|_{2,1}, \quad \text{s.t. } \mathbf{v} \in [0,1]^n \label{eq:spl_objective} \end{equation} 其中关键项解析如下: \begin{itemize} \item \textbf{易用性正则项}:$-\lambda \|\mathbf{v}\|_1$继承自SPL,鼓励选择低损失样本; \item \textbf{多样性正则项}:$-\gamma \|\mathbf{v}\|_{2,1}$通过负组稀疏范数促进跨组样本选择,其定义为: \begin{equation} \|\mathbf{v}\|_{2,1} = \sum_{j=1}^b \|\mathbf{v}^{(j)}\|_2 \label{eq:group_norm} \end{equation} \end{itemize} \subsubsection{优化算法} \begin{algorithm}[ht] \caption{SPLD样本选择算法} \begin{algorithmic}[1] \REQUIRE 样本分组$\{\mathbf{X}^{(j)}\}$,模型参数$\mathbf{w}$,参数$\lambda, \gamma$ \ENSURE 最优权重$\mathbf{v}^*$ \FOR{每组$j=1$到$b$} \STATE 计算组内样本损失$L_i^{(j)} = L(y_i, f扩充字数为1.5倍
03-19
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值