参考文献:《Python数据分析与挖掘实战》
分类与预测
一、实现过程
- 分类:构造分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。属于有监督的学习。
- 预测:建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
- 分类实现过程:
学习:通过归纳分析训练样本集来建立分类模型得到分类规则。
分类:用已知的测试样本集评估分类规则的准确率,若结果可接受则用样本集进行预测。 - 预测实现过程:
通过训练集建立预测数值型属性的函数模型。
在模型通过检验后进行预测或控制。
二、常用的分类和预测算法
算法 | 描述 |
---|---|
回归分析 | 预测数值型属性(线性回归、非线性回归、逻辑回归、岭回归、主成分回归、偏最小二乘回归) |
决策树 | 自顶向下的递归方式,内部节点进行属性值比较,根据不同属性值从节点向下分支,最终得到的叶节点为学习划分的类 |
人工神经网络 | 反映神经网络的输入和输出变量之间关系的模型 |
贝叶斯网络 | 不确定知识表达和推理领域最有效的理论模型 |
支持向量机 | 通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法 |
回归分析
一、常用回归模型
模型 | 适用条件 |
---|---|
线性回归 | 因变量和自变量是线性关系 |
非线性回归 | 因变量和自变量不都是线性关系 |
逻辑回归 | 因变量有0/1两种取值 |
岭回归 | 参与建模的自变量之间有多重共线性 |
主成分回归 | 参与建模的自变量之间有多重共线性 |
二、逻辑回归模型
-
逻辑函数
假设有n个独立的自变量,x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn
假设y=1的概率p(y=1)=p=P(y=1∣X)p(y=1)=p=P(y=1|X)p(y=1)=p=P(y=1∣X),y=0的概率是p(y=0)=1-p
则概率之比为p1−p\frac{p}{1-p}1−pp,取自然对数得到逻辑变换Logit(p)=ln(p1−p)Logit(p) = ln(\frac{p}{1-p})Logit(p)