记得关注
"
R语言与统计
"~~
简单线性回归(Simple linear regression)也称为一元线性回归,是分析
一个自变量(x)与因变量(y)之间线性关系的方法,它的目的是拟合出一个线性函数或公式来描述x与y之间的关系。线性回归是统计学中最基础、重要、并且被广泛使用的方法之一。据KD Nuggets网站的调查报告显示,回归方程位列
Top1,是被数据科学家应用次数最多的方法,据说这样的领先地位将会持续到2118年!
可以这么说:得回归者得天下
!
不过,它的应用相对容易上手,方程的解释也比较的直观简单。今天选择回归中最基础的简单线性回归作为开始,之后会逐渐延伸到其他类型的回归。
下图可以帮助我们更加容易的理解残差与RSS(来自我们的往期文章:手把手教你画出统计上极其重要的概念:残差):
RSS即是残差(灰色线条)的平方和。理论上的介绍就到此为止,现在开始操作部分!
可以这么说:得回归者得天下

来源: KD Nuggets
回归(Regression)是一种即简单又复杂的技术。关于回归理论与数学原理的教科书可以厚达上千页。不过,它的应用相对容易上手,方程的解释也比较的直观简单。今天选择回归中最基础的简单线性回归作为开始,之后会逐渐延伸到其他类型的回归。

1. 简单线性回归的公式与基础
简单线性回归可以用下方的数学公式表示: y= a + b*x + error其中:y为因变量;x为自变量;a为截距;b为斜率;error为残差,即 没有被回归方程解释的变异部分。(关于残差请查看往期文章:手把手教你画出统计上极其重要的概念:残差)。下方的图片可以帮助大家更加清楚的了解上述各个元素到底代表什么:

2. 数据的准备
使用到的数据集为R自带的mtcars,首先预览一下:
summary(mtcars)
# mpg cyl disp hp
# Min. :10.40 M