机器学习的样本选择

1.样本选择的绪论

   最近采集了很多生理数据,主要是心电信号,心电信号的特点是有效信号分布集中,频率低,幅度低,容易被噪声污染,使用小波变换,低通滤波器来进行预处理,但是在日常生活中采集的数据,总有无法去掉的噪声,而且不同的人情况还不一样,肯定会有垃圾样本的。

    我们做机器学习算法的时候,会对数据进行划分,划分为训练集,验证集和测试集;

    但是实际上,再划分数据集之前应该考虑实际情况中的样本选择,有些样本本身就毫无意义,需要剔除,这一步有很多方法,比如你有了一个精确提取的样本,可以通过这些样本来对其他样本进行评估,设计一个误差函数,然后把超过这些误差的样本丢弃。这只是其中一个办法,我自己都没用使用过。

    我觉得是根据研究的问题来的,比如我采集到了心电信号,可以计算HRV特征,其中有什么心率,高频功率,低频功率等等,根据实际的情况,有一些特征会有特定的表现,那么我们就可以找到这些特征的表现来对数据进行筛选,比如统计检验的方法,或者使用kmeans算法,KNN等等,对数据过滤。

    机器学习不仅仅是建模用的,它不一定是最后一步,可能是一种贯穿始终的东西,不是什么核武器,要必须留到最后使用。

     我说了这么多,主要是指出两个问题:

(1)数据本身是值得怀疑的。

(2)机器学习不是什么保留项目。

   将某些样本划分为训练集,可以有自己的标准,我们的目的是,使用最少的训练样本得到最精确的模型,那么最理想的条件就是训练集包含了所有的可能性。但是,遗憾的是,这种情况几乎不存在。不然人生也太美好了。

2.采样

数据选择需要采样,采样的标准是,采样的样本可以代表总体。这就要求样本子集对总体的估计满足:

p(|e-e_0|\geq \varepsilon )\leqslant \delta

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值