KFold实现K折交叉验证(Cross-Validation)

本文详细介绍了如何使用sklearn库中的KFold进行K折交叉验证,通过实例展示如何配置参数并应用于模型训练,适用于集成学习场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

KFold实现K折交叉验证(Cross-Validation)

前一篇已经说过交叉验证的原理了,这篇使用sklearn库中的KFold来具体实现。

官方解释

先贴一张官方的截图
在这里插入图片描述

参数配置

n_splits: 整数,表示分割折数(K),默认3;分割数据的份数,至少为2

shuffle: 布尔,可选 ,分割数据之前是否打乱数据
random_state: int,RandomState实例或者None,可选,默认为None
当shuffle==True时,使用
如果为整数,作为随机数字生成器的种子,生成随机状态
如果为随机状态 ,random_state 是随机状态生成器
如果为None,随机数字生成器使用np.random

使用方法

简单理解

先简单理解下函数的使用:

from sklearn.model_selection import KFold
train = pd.DataFrame([[1,2,3,4,5,6],[3,3,3,3,3,3],[4,4,4,4,4,4],[5,5,5,5,5,5],[6,6,6,6,6,6],[7,7,7,7,7,7]])#训练集
test = pd.DataFrame([0,0,0,1,1,1])#测试集
kf = KFold(n_splits = 6,random_state = 2,shuffle = True)实例化,配置三个参数
for i,j in kf.split(train,test):#设置6折,便会循环6次
    print(i,j)

结果如下:

[0 1 2 3 5] [4]
[0 2 3 4 5] [1]
[0 1 2 4 5] [3]
[0 1 3 4 5] [2]
[0 1 2 3 4] [5]
[1 2 3 4 5] [0]

分析:设置k=6,KFold会以random_state为随机种子,在数据集中随机选择5个作为训练集,1个位测试集,循环6次,每次返回训练集和测试集的索引。

实际工程使用

 #self.mod中存放多个模型(因项目中使用集成学习)
 for i,model in enumerate(self.mod):#索引和模型本身
        for train_index,var_index in self.kf.split(X,y):#使用KFold产生训练集和测试集,以索引返回。kf = KFold(n_splits = 5,random_state = 42,shuffle = True)
            renew_model = clone(model) #模型复制
            renew_model.fit(X[train_index],y[train_index]) #对数据进行训练
            self.saved_model[i].append(renew_model)#把模型添加进去
            oof_train[var_index,i] = renew_model.predict(X[var_index])#存放预测结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值