深度学习｜求导公式：梯度逆传播规律

置顶

三余知行

已于 2024-09-29 22:27:17 修改

阅读量2k

点赞数 50

CC 4.0 BY-SA版权

分类专栏：「数智通识」「机器学习」文章标签：深度学习梯度传播规律链式法则双曲函数 BP 算法

于 2024-09-29 22:24:21 首次发布

本文链接：https://blog.csdn.net/ChaoMing_H/article/details/142644710

文章目录

引言

我们知道，神经网络的能够学习处理任务的核心是计算损失的梯度，而误差逆传播算法是求梯度的一种通用且高效的办法。使用误差逆传播算法求解神经网络的梯度，其实就是求网络中使用的各种基本运算的局部导数的过程。这期我们将回顾各类基本运算的求导公式，然后演示如何将这些公式运用在误差逆传播算法求解网络梯度。

在这里插入图片描述

依赖模块统一导入

此处我们统一导入本文所需的所有依赖模块，下文中不再重复演示。

import numpy as np
import matplotlib.pyplot as plt

作图准备

此处我们准备一个可以绘制下文所有函数图形的 draw 方法，并准备作图用的数据，方便后续演示。

def draw(X, func, func_derivative, title, x_point=1, color='orange', **kwargs):
    """
    绘制函数、切线、导数函数的图形
    :param X: 输入数据
    :param func: 函数
    :param func_derivative: 函数导数
    :param title: 图形标题
    :param x_point: 切线点的 x 轴坐标
    :param color: 图形颜色
    :param kwargs: 函数的参数
    """

    # 创建子图，figsize 参数指定图形的大小为 12 x 5
    fig, axs = plt.subplots(1, 2, figsize=(12, 4.5))

    # 绘制函数图形
    axs[0].plot(X, func(**kwargs)(X), label=title, color=color)
    axs[0].set_title(title)
    axs[0].set_xlabel('Input')
    axs[0].set_ylabel('Output')

    # 绘制在 x_point 处的切线
    func_x_point = func(**kwargs)(x_point)
    func_prime = func_derivative(**kwargs)(x_point)
    tangent_line_func = func_x_point + func_prime * (x - x_point)
    axs[0].plot(x, tangent_line_func,
                label=f"Tangent to {
      
      title} at x={
      
      x_point}", linestyle=':', color='red')
    axs[0].scatter([x_point], [func_x_point], color='red')

    # legend 函数用于显示图例
    axs[0].legend()
    # grid 函数用于显示网格
    axs[0].grid(True)

    # 绘制导数函数图形
    axs[1].plot(X, func_derivative(**kwargs)(X), label=f"Derivative of {
      
      title}", color=color)
    axs[1].set_title(f"Derivative of {
      
      title}")
    axs[1].set_xlabel('Input')
    axs[1].set_ylabel('Output')
    axs[1].legend()
    axs[1].grid(True)

    # tight_layout 函数用于调整子图之间的间距
    plt.tight_layout()
    plt.show()

数据准备

# x 从 -2 到 2，等间隔的 400 个点，用于绘制函数图形
x = np.linspace(-2, 2, 400)

基础函数的求导

常数函数

常数函数是指函数的值在定义域内保持为常数 $c$ ，即：

$f (x) = c$

常数函数的导数为零：

$\frac{d}{dx}[c] = 0$

使用 Python 实现常数函数及其导数：

def constant_function(c):
    return lambda x: np.full_like(x, c)


def constant_derivative(c):
    return lambda x: np.zeros_like(x)

查看常数函数及其导数的图形：

# 绘制常数 c=1 时，常数函数的图形、常数函数在 x=1.0 处的切线、常数函数的导数图形
draw(x, constant_function, constant_derivative, "Constant Function(c=1)", x_point=1.0, color='blue', c=1)

在这里插入图片描述

常数函数的图形是一条截距为 $c$ 的水平直线，其导数为零，导数函数的图形是一条全为零的水平直线。

幂函数

幂函数是指函数的定义域为实数，求关于 $x$ 的 $n$ 次幂的函数，其中 $n$ 是整数，即：

$f(x) = x^n$

幂函数 $f(x) = x^n$ 的导数为：

$\frac{d}{dx}[x^n] = nx^{n-1}$

使用 Python 实现幂函数及其导数：

def power_function(n):
    return lambda x: np.power(x, n)


def power_derivative(n):
    return lambda x: n * np.power(x, n - 1)

查看幂函数及其导数的图形：

# 绘制指数 n=2 时，幂函数的图形、幂函数在 x=1.0 处的切线、幂函数的导数图形
draw(x, power_function, power_derivative, "Power Function(n=2)", x_point=1.0, color='blue', n=2)

在这里插入图片描述

# 绘制指数 n=3 时，幂函数的图形、幂函数在 x=1.0 处的切线、幂函数的导数图形
draw(x, power_function, power_derivative, "Power Function(n=3)", x_point=1.0, color='blue', n=3)

在这里插入图片描述

幂函数的图形是一条经过原点的曲线，其导数为 $nx^{n-1}$ ，导数函数的图形是一条经过原点的曲线。

指数函数

指数函数是指函数的定义域为实数，求实数 $a$ 的 $x$ 次幂的函数，即：

$f(x) = a^x$

指数函数的导数为：

$\frac{d}{dx}[a^x] = a^x \ln(a)$

当 $a = e$ 时，这个函数被称为自然指数函数：

$f(x) = e^x$

自然指数函数的导数为：

$\frac{d}{dx}[e^x] = e^x$

使用 Python 实现指数函数及其导数：

def exp_function(a):
    return lambda x: np.exp(x) if a == np.e else np.power(a, x)


def exp_derivative(a):
    return lambda x: np.exp(x) if a == np.e else np.power(a, x) * np.log(a)

查看指数函数及其导数的图形：

# 绘制底数 a=e 时，指数函数的图形、指数函数在 x=1.0 处的切线、指数函数的导数图形
draw(x, exp_function, exp_derivative, "Exp Function(a=e)", x_point=1.0, color='blue', a=np.e)

在这里插入图片描述

draw(x, exp_function, exp_derivative, "Exp Function(a=10)", x_point=1.0, color='blue', a=10)

在这里插入图片描述

对数函数

对数函数是指函数的定义域为正实数，求底数为 $a$ 的实数 $x$ 的对数的函数，即：

$f(x) = \log_a(x)$

对数函数的导数为：

$\frac{d}{dx}[\log_a(x)] = \frac{1}{x \ln(a)}$

当底数 $a = e$ 时，我们称这样的对数函数为自然对数函数：

$\ln(x)$

自然对数函数的导数为：

$\frac{d}{dx}[\ln(x)] = \frac{1}{x}$

常用对数 $log_{10}(x)$ 的导数：

$\frac{d}{dx}[\log_{10}(x)] = \frac{1}{x \ln(10)}$

使用 Python 实现对数函数及其导数：

def log_function(base):
    return lambda x: np.log(x) / np.log(base)


def log_derivative(base):
    return lambda x: 1 / (x * np.log(base))

查看对数函数及其导数的图形：

x_log = np.linspace(0.01, 3, 400)
draw(x_log, log_function, log_derivative, "Log Function(base=e)", x_point=1.0, color='blue', base=np.e)

在这里插入图片描述

draw(x_log, log_function, log_derivative, "Log Function(base=10)", x_point=1.0, color='blue', base=10)

在这里插入图片描述

三角函数

三角函数是指函数的定义域为实数，求三角形的角度的函数，常见的三角函数包括正弦函数 $\sin(x)$ 、余弦函数 $\cos(x)$ 和正切函数 $\tan(x)$ 。

正弦函数 $\sin(x)$ 的导数：

$\frac{d}{dx}[\sin(x)] = \cos(x)$

最低0.47元/天解锁文章

200万优质内容无限畅学