深度学习笔记（一）更新中-CSDN博客

本文链接：https://blog.csdn.net/weixin_47257749/article/details/143685404

一、监督学习和无监督学习

什么是监督学习？

就是我们给学习算法一个数据集。这个数据集由“正确答案”组成，然后运用学习算法，算出更多的正确答案。
监督学习包括：回归、分类

什么是回归？
回归这个词的意思是，我们在试着推测出这一系列连续值属性。即通过回归来推出一个连续的输出。

什么是分类？
分类指的是，我们试着推测出离散的输出值：比如0 或 1 良性或恶性，而事实上在分类问题中，输出可能不止两个值。目标是推出一组离散的结果。

什么是无监督学习？
无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么。别的都不知道，就是一个数据集。针对数据集，无监督学习就能判断出数据有两个不同的聚集簇。这是一个，那是另一个，二者不同。是的，无监督学习算法可能会把这些数据分成两个不的簇。所以叫做聚类算法。

二、单变量线性回归

1.模型表示

举个例子：根据已知一个数据集包含房子面积和价格，再根据新的面积推算价格。一种可能的表达方式为：

$hθ(x)=θ0+θ1x,h_{\theta}(x)=\theta_{0}+\theta_{1} x,$

因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

2.代价函数

代价函数，也称为平方误差函数，用来描述预测值与实际值的差距。公式如下：

$J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J\left(\theta_{0},\theta_{1}\right)=\frac{1}{2 m}\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$

其实就是，误差的平方再求平均值，为什么是除2m？老吴说这么做方便以后计算。

个人理解：

两个θ是我们给出的代价函数的参数，确定了不同的回归参数，就会得到不同的代价函数值。我们希望代价函数越小越好。

直观理解，上面给出的代价函数可以如图所示，曲面上的最低点就是代价函数值最小的点。
在这里插入图片描述

3.梯度下降

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数 $J(θ0,θ1)J\left(\theta_{0},\theta_{1}\right)$ 的最小值。

梯度下降的思想是：开始时我们随机选择一个参数的组合，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。算法公式如下：

$θj:=θj−α∂∂θjJ(θ)\theta_{j}:=\theta_{j}-\alpha\frac{\partial}{\partial\theta_{j}} J(\theta)$

公式含义：给θ选取一组初始值，然后带入公式求出新的一组参数，不断重复。求偏导是因为按着这个方向走，代价函数的变化速度最快。α 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。

所以如果a太小，可能会很慢，它会需要很多步才能到达全局最低点。
如果a太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛.

当人们谈到梯度下降时，他们的意思就是同步更新。具体实现如下：

$temp0:=θ0−α∂∂θ0J(θ0,θ1)temp1:=θ1−α∂∂θ1J(θ0,θ1)θ0:=temp0θ1:=temp1\begin{array}{l} \text{temp0} := \theta_0 - \alpha \frac{\partial}{\partial\theta_0} J(\theta_0, \theta_1) \\ \text{temp1} := \theta_1 - \alpha \frac{\partial}{\partial\theta_1} J(\theta_0, \theta_1) \\ \theta_0 := \text{temp0} \\ \theta_1 := \text{temp1} \end{array}$

随着梯度下降法的运行，你移动的幅度会自动变得越来越小，直到最终移动幅度非常小，你会发现已经收敛到局部极小值。当我们已经达到局部最低点，结果是局部最优点的导数将等于零。这意味着你已经在局部最优点，继续梯度下降法更新等于什么都没做，它不会改变参数的值。
在这里插入图片描述

4.梯度下降的线性回归

我们把线性回归的代价函数 $J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J\left(\theta_{0},\theta_{1}\right)=\frac{1}{2 m}\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$
带入到梯度下降的公式中 $θj:=θj−α∂∂θjJ(θ)\theta_{j}:=\theta_{j}-\alpha\frac{\partial}{\partial\theta_{j}} J(\theta)$ ，
得到公式如下：

$∂∂θjJ(θθθl)=∂∂θj12m∑i=1m(hθ(x(i))−y(i))2\frac{\partial}{\partial\theta_{j}} J\left(\theta_{\theta}\theta_{l}\right)=\frac{\partial}{\partial\theta_{j}}\frac{1}{2 m}\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$

即

$θ0:=θ0−α1m∑i=1m(hθ(x(i))−y(i))\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=1}^{m} \left( h_\theta \left( x^{(i)} \right) - y^{(i)} \right)$

$θ1:=θ1−α1m∑i=1m((hθ(x(i))−y(i))⋅x(i))\theta_1 := \theta_1 - \alpha \frac{1}{m} \sum_{i=1}^{m} \left( \left( h_\theta \left( x^{(i)} \right) - y^{(i)} \right) \cdot x^{(i)} \right)$