例子:多项式曲线拟合
机器学习的目标是:假设我们观察到一个实值输入变量x,我们想使用这个观察来预测实值目标变量t的值。那么我们怎么得到目标变量的值呢?
现在假设给定一个训练集。这个训练集由x⃗ 的N次观测组成,写作x⃗ ≡(x1,...,xN)T,对应的t⃗ 的观测值,记作t⃗ ≡(t1,...,tN)T 。怎么理解这个训练集(x⃗ ,t⃗ ),可以举一个例子来说明,假设房子的价格与面积是成正比关系的,简单的假设它们之间的关系为t=kx(这只是为了说明简单举的一个例子请不要当真)那么我们现在就可以采集一系列已知的房子的面积和价格从而利用这些数据来求解k,那么这里的房子的面积就是上面的输入变量x,价格就是上面的t值。图1.2展示了由N = 10个数据点组成的图像。
![]()
图 1.2: 由N = 10个数据点组成的训练集的图像,用蓝色圆圈标记。每个数据点由输入变量x的观测以及 对应的目标变量t组成。绿色曲线给出了用来生成数据的sin(2πx)函数(之所以生成的点不全在绿色的曲线上面,是因为生成数据的时候本身就存在一定的噪音的干扰)。我们的目标是对于某些新的x值, 预测t的值,而无需知道绿色曲线。
由于我们并不知道图中的绿色的曲线,而仅仅有图中的蓝色的一些离散的点,那么我们的目标是尽可能的找出一条曲线来拟合这些蓝色的点,观察这些点我们可以猜测曲线具有下面的多项式曲线一些关系(当然你也可以猜测具有一些其它的关系,这里只是为了说明的简单)
其中M是多项式的阶数,xj表示x的j次幂。多项式系数w0,</