KFold实现K折交叉验证（Cross-Validation）

最新推荐文章于 2025-06-07 14:15:32 发布

原创最新推荐文章于 2025-06-07 14:15:32 发布 · 3.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习案例实战专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了如何使用sklearn库中的KFold进行K折交叉验证，通过实例展示如何配置参数并应用于模型训练，适用于集成学习场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

KFold实现K折交叉验证（Cross-Validation）

前一篇已经说过交叉验证的原理了，这篇使用sklearn库中的KFold来具体实现。

官方解释

先贴一张官方的截图
在这里插入图片描述

参数配置

n_splits: 整数，表示分割折数（K），默认3；分割数据的份数，至少为2

shuffle: 布尔，可选，分割数据之前是否打乱数据
random_state： int，RandomState实例或者None，可选，默认为None
当shuffle==True时，使用
如果为整数，作为随机数字生成器的种子，生成随机状态
如果为随机状态，random_state 是随机状态生成器
如果为None，随机数字生成器使用np.random

使用方法

简单理解

先简单理解下函数的使用：

from sklearn.model_selection import KFold
train = pd.DataFrame([[1,2,3,4,5,6],[3,3,3,3,3,3],[4,4,4,4,4,4],[5,5,5,5,5,5],[6,6,6,6,6,6],[7,7,7,7,7,7]])#训练集
test = pd.DataFrame([0,0,0,1,1,1])#测试集
kf = KFold(n_splits = 6,random_state = 2,shuffle = True)实例化，配置三个参数
for i,j in kf.split(train,test):#设置6折，便会循环6次
    print(i,j)

结果如下：

[0 1 2 3 5] [4]
[0 2 3 4 5] [1]
[0 1 2 4 5] [3]
[0 1 3 4 5] [2]
[0 1 2 3 4] [5]
[1 2 3 4 5] [0]

分析：设置k=6，KFold会以random_state为随机种子，在数据集中随机选择5个作为训练集，1个位测试集，循环6次，每次返回训练集和测试集的索引。

实际工程使用

 #self.mod中存放多个模型（因项目中使用集成学习）
 for i,model in enumerate(self.mod):#索引和模型本身
        for train_index,var_index in self.kf.split(X,y):#使用KFold产生训练集和测试集，以索引返回。kf = KFold(n_splits = 5,random_state = 42,shuffle = True)
            renew_model = clone(model) #模型复制
            renew_model.fit(X[train_index],y[train_index]) #对数据进行训练
            self.saved_model[i].append(renew_model)#把模型添加进去
            oof_train[var_index,i] = renew_model.predict(X[var_index])#存放预测结果