集成学习
(截图来自《西瓜书》)
Bagging
- 从原始样本集中随机采样。每轮从原始样本集中有放回的选取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(bootstrap的过程,由于是有放回抽样,所以k个训练集之间相互独立)
- 每次使用一份训练集训练一个模型,k 个训练集共得到 k 个基模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)
- 利用这k个基模型对测试集进行预测,将k个预测结果进行聚合。(aggregating的过程)
- 分类问题:将上步得到的k个模型采用投票的方式得到分类结果
- 回归问题:计算上述模型的均值作为最后的结果。(