机器学习中的参数估计：最大似然、最大后验与最小二乘-CSDN博客

本文链接：https://blog.csdn.net/Trasper1/article/details/84567960

本文探讨了机器学习中的参数估计方法，包括最大似然估计（MLE）、最大后验估计（MAP）和最小二乘估计。通过数据驱动的方式，利用梯度下降和反向传播优化模型参数。最大似然估计关注事件发生的可能性，最大后验估计结合了先验信息，最小二乘法则基于高斯分布假设来拟合数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

万事皆有规律可循。学习就是去捕捉和掌握万事发生的规律。

数学地说，给定一个x（事起之因），遵循一个规律 F（*），可得一个y（事终之果）。

学习，无论人还是机器，就是去总结归纳这个F（*）。

当这个规律异常复杂从而无法显式地用数学公式直接写出来或者编程，而同时我们又围绕这个规律掌握有大量的（x，y）因果样本时，就可以采取数据驱动的方式（data-driven），来“机器学习”这个规律F（*）。

注意，学习的过程是要给approximation，即去得到一个hypothese H（*）来逼近真实的规律F（*）。由于我们仅仅掌握了部分样本（x，y），这些样本是大千世界中的一组采样，所以仅依据这些样本得到的模型仅仅算得上是一个对大千世界真是规律的逼近。因为采样，也就自然反映出了机器学习的概率性。

此时，我们又称规律H（*）为一个“模型”。

模型H（*），通俗理解为一个或一组含参的公式。传统机器学习算法（如SVM，linear regression等等）的“算法”之意，就是模型给定，仅待定参（参数估计）。深度学习，就是依据“连接主义”，堆叠一些基础模块（blocks such as convolutional layer，LSTM cells，etc.）得到一个网络，而网络本身就是一个“公式”。在网络中，含有两种参数：1.是各个含参模块中带有的参数w；2.是“连接主义”引入的超参数，比如层数等等。

那么，不论传统机器学习亦或是深度学习，其根本都化作对一个既定模型的参数学习，即参数估计（模型选择和搭建假定为已知）。

如何通过data-driven的方式估计参数呢？策略叫做triall-and-error。即，在一个绵延的循环里面（每次循环迭代是一个或是一batch的样本），大事化小，不断地试错，不断地微调参数，最终得到最优参数。

如何微调参数？也即如何实现参数的优化？答案是运用Gradient Descent算法（梯度下降法）。

梯度下降，那么在loss function关于参数w空间中的曲面上，何为梯度下降