漫谈机器学习-前言
2016年的校招已经过去了,我也找到了比较满意的工作,一想起自己即将走进机器学习研究和应用做的相当出色的公司,感觉自己的压力倍增,很多知识还不熟悉。记得之前看博客上说,写博客是最好的学习方式。自己在学习过程中看了很多不错的博客,如结构之法,算法之道等知名博客,这些博客引导我走进互联网,走进机器学习。因此,今天我也开始记录自己的学习,漫谈机器学习。
一切还是要从 y=kx+b 这个一元一次方程还是说起。高中的时候就学会求解 k,b ,但是那时候还不知道最小二乘法的由来,怎么推导出来的。后来学习了最优化之后才知道其中的原由。
确切的说,大学期间参加最有用的比赛就是数学建模了,现在回想起自己数学兴趣被某些老师抹杀掉了,现在看着数学,概率等在各个领域的应用才知道,有一个名师是多么的重要。当然,自己也要努力。哎,扯远了。
y=kx+b 这个式子算是最简单的机器学习问题了,麻雀虽小,五脏俱全。从5个角度来理解这个式子:
y: 一般理解为模型的输出,在真实情况下,我感觉输出是至关重要的,输出可以是很多东西,如各种分类问题,各种预测问题,找到一个靠谱的输出(或者说找到描述问题所求内容)不是一件容易的事,往往与具体的业务结合了,做图像的可能是识别图像,做诊断的可能是病情死亡,做广告的可能就是点击率了。
x: 一般理解为模型的输入,也就是影响输出的因素了,常理也可以理解, x 找的越好,对
y 的估计预测可能就越好,这个找 x 的过程就是特征工程了,其实也是目前互联网算法工程师的主要工作,占据了至少80%的工作量。k: 一般理解为模型的参数,求解 k 的方法往往被称之为算法,各种高大上的算法。b: 一般理解为模型的参数,求解 b 的方法往往被称之为算法,各种高大上的算法。当然有时候可以理解为基线或者误差,后续介绍。kx: 这个是模型的核心了,这个是线性模型了, y=ϕ(kx)+b 就是其他形式的模型了,可能是非线性的模型了。
好了,机器学习的5个部分已经完成了。机器学习可以简化理解为统计学习,下一部分将会从最简单的线性回归说起了。bye