[统计]_数据中心化和标准化对线性回归结果的影响

最新推荐文章于 2024-11-20 19:46:45 发布

吃过了没

最新推荐文章于 2024-11-20 19:46:45 发布

阅读量5.1k

点赞数 5

CC 4.0 BY-SA版权

文章标签：线性回归 numpy 数据分析 r语言算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39366714/article/details/126688472

本文探讨了在进行线性回归时，数据中心化和标准化对模型的影响。中心化仅改变截距，不影响拟合程度；标准化则同时改变截距和斜率，但模型解释程度保持一致。标准化的意义在于消除量纲差异。对于追求模型可解释性的场景，原始数据或中心化数据也可适用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

很多同学在做线性回归的时候，不明白到底是直接那原始数据跑，还是要用中心化的数据跑，或者还是用标准化的数据跑。先说结论，相对于原始回归模型，中心化回归模型只是截距发生了改变（相当于平移到原点），标准化回归模型截距和斜率都有改变，但三个模型的拟合程度都是一致的，就是自变量对因变量的解释程度没有变化。

现在我们就具体看一下中心化和标准化对线性回归有哪些影响。

中心化其实就是把每个数据减去那列的均值，标准化其实就是对中心化后的数据再除以数据的标准差。在R里面中心化和标准化都可以用scale()计算，只是在参数上会有一些变化。

数据中心化：scale(data,center=T,scale=F)

数据标准化：scale(data,center=T,scale=T)

还是以著名的iris数据集为例，因为数据集最后一列是字符型数据，所以我们取前四列数值型数据

data=iris[1:4]

数据集长这样，是一个150行4列的数据集。

我们对它进行回归分析

model_raw=lm(Sepal.Length~Sepal.Width+Petal

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。