一、实验项目名称:
数据筛选之特征选择
二、实验目的与要求:
掌握特征选择算法的基本步骤、分级的基本过程、目标变量是离散变量,所有预测变量都是离散型时,预测变量重要程度的计算。
三、实验原理:
目标变量是离散变量,所有预测变量都是离散型时,预测变量重要程度的计算。
四、实验方案设计:
假设检验、变量相互独立及重要程度的计算。
五、测试数据与实验结果
测试数据1:预备知识(卡方检验)
卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(fo)与理论次数(fe,又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:
这是卡方检验的原始公式,其中当fe越大(fe≥5),近似得越好。显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。
(1)检验无差假设
所谓无差假设,是指各项分类的实计数之间没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的条件来计算。即任一项的理论次数都等于总数/分类项数。自由度也就等于分类项数减1。
【例1】 随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。结果1-6点向上的次数依次是,43,49,56,45,66,41。
解:每个类的理论次数是 300/6 = 50,代入公式: