1.样本选择的绪论
最近采集了很多生理数据,主要是心电信号,心电信号的特点是有效信号分布集中,频率低,幅度低,容易被噪声污染,使用小波变换,低通滤波器来进行预处理,但是在日常生活中采集的数据,总有无法去掉的噪声,而且不同的人情况还不一样,肯定会有垃圾样本的。
我们做机器学习算法的时候,会对数据进行划分,划分为训练集,验证集和测试集;
但是实际上,再划分数据集之前应该考虑实际情况中的样本选择,有些样本本身就毫无意义,需要剔除,这一步有很多方法,比如你有了一个精确提取的样本,可以通过这些样本来对其他样本进行评估,设计一个误差函数,然后把超过这些误差的样本丢弃。这只是其中一个办法,我自己都没用使用过。
我觉得是根据研究的问题来的,比如我采集到了心电信号,可以计算HRV特征,其中有什么心率,高频功率,低频功率等等,根据实际的情况,有一些特征会有特定的表现,那么我们就可以找到这些特征的表现来对数据进行筛选,比如统计检验的方法,或者使用kmeans算法,KNN等等,对数据过滤。
机器学习不仅仅是建模用的,它不一定是最后一步,可能是一种贯穿始终的东西,不是什么核武器,要必须留到最后使用。
我说了这么多,主要是指出两个问题:
(1)数据本身是值得怀疑的。
(2)机器学习不是什么保留项目。
将某些样本划分为训练集,可以有自己的标准,我们的目的是,使用最少的训练样本得到最精确的模型,那么最理想的条件就是训练集包含了所有的可能性。但是,遗憾的是,这种情况几乎不存在。不然人生也太美好了。
2.采样
数据选择需要采样,采样的标准是,采样的样本可以代表总体。这就要求样本子集对总体的估计满足: