神经网络数学基础及简介
立即解锁
发布时间: 2025-09-01 00:55:10 阅读量: 2 订阅数: 32 AIGC 

# 神经网络数学基础及简介
## 一、线性代数基础
### 1. 矩阵加法
矩阵加法是将两个或多个矩阵对应元素相加得到一个新矩阵。所有参与运算的矩阵必须具有相同的大小。例如:
\[
A + B =
\begin{bmatrix}
a_{11} & a_{12}\\
a_{21} & a_{22}
\end{bmatrix}
+
\begin{bmatrix}
b_{11} & b_{12}\\
b_{21} & b_{22}
\end{bmatrix}
=
\begin{bmatrix}
a_{11} + b_{11} & a_{12} + b_{12}\\
a_{21} + b_{21} & a_{22} + b_{22}
\end{bmatrix}
\]
### 2. 矩阵与向量乘法
矩阵与向量相乘是将矩阵与向量进行运算得到一个新向量。矩阵的列数必须等于向量的维度。一个 $m×n$ 矩阵与一个 $n$ 维向量相乘,结果是一个 $m$ 维向量。例如:
\[
Ax =
\begin{bmatrix}
a_{11} & a_{12}\\
a_{21} & a_{22}\\
a_{31} & a_{32}
\end{bmatrix}
\begin{bmatrix}
x_1\\
x_2
\end{bmatrix}
=
\begin{bmatrix}
a_{11}x_1 + a_{12}x_2\\
a_{21}x_1 + a_{22}x_2\\
a_{31}x_1 + a_{32}x_2
\end{bmatrix}
\]
再如:
\[
\begin{bmatrix}
1 & 2\\
3 & 4
\end{bmatrix}
\begin{bmatrix}
5\\
6
\end{bmatrix}
=
\begin{bmatrix}
1×5 + 2×6\\
3×5 + 4×6
\end{bmatrix}
=
\begin{bmatrix}
17\\
39
\end{bmatrix}
\]
### 3. 矩阵乘法
矩阵乘法是将两个矩阵相乘得到一个新矩阵。可以将其看作多个矩阵与向量的乘法,其中第二个矩阵的每一列都作为一个向量。例如:
\[
AB =
\begin{bmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}
\end{bmatrix}
\begin{bmatrix}
b_{11} & b_{12}\\
b_{21} & b_{22}\\
b_{31} & b_{32}
\end{bmatrix}
=
\begin{bmatrix}
a_{11}b_{11} + a_{12}b_{21} + a_{13}b_{31} & a_{11}b_{12} + a_{12}b_{22} + a_{13}b_{32}\\
a_{21}b_{11} + a_{22}b_{21} + a_{23}b_{31} & a_{21}b_{12} + a_{22}b_{22} + a_{23}b_{32}
\end{bmatrix}
\]
又如:
\[
\begin{bmatrix}
1 & 2 & 3\\
4 & 5 & 6
\end{bmatrix}
\begin{bmatrix}
1 & 2\\
3 & 4\\
5 & 6
\end{bmatrix}
=
\begin{bmatrix}
1×1 + 2×3 + 3×5 & 1×2 + 2×4 + 3×6\\
4×1 + 5×3 + 6×5 & 4×2 + 5×4 + 6×6
\end{bmatrix}
=
\begin{bmatrix}
22 & 28\\
49 & 64
\end{bmatrix}
\]
如果将两个向量表示为矩阵,它们的点积 $a \cdot b = a b^⊤$ 等价于矩阵乘法。
## 二、概率基础
### 1. 统计实验
统计实验具有以下性质:
- 由多个独立试验组成。
- 每个试验的结果由机会决定(非确定性)。
- 有多个可能的结果,称为事件。
- 事先知道所有可能的实验结果。
例如,抛硬币有两种可能结果(正面或反面),掷骰子有六种可能结果(1 到 6)。
### 2. 概率的定义
事件 $e$ 发生的可能性称为概率 $P(e)$,其值在 $[0, 1]$ 范围内。$P(e) = 0.5$ 表示事件有 50 - 50 的发生机会,$P(e) = 0$ 表示事件不可能发生,$P(e) = 1$ 表示事件一定会发生。
### 3. 概率的计算方法
- **理论概率**:所有事件发生的可能性相等,我们感兴趣的事件(结果)的概率为:
\[
P(e) = \frac{Number\ of\ successful\ outcomes}{Total\ number\ of\ outcomes}
\]
例如,抛硬币时正面和反面的理论概率均为 $P(heads) = P(tails) = \frac{1}{2}$;掷骰子时每个面的理论概率为 $P(each\ side\ of\ the\ dice) = \frac{1}{6}$。
- **经验概率**:事件 $e$ 发生的次数与所有试验次数的关系为:
\[
P(e) = \frac{Number\ of\ times\ e\ occurs}{Total\ number\ of\ trials}
\]
例如,抛硬币 100 次,观察到正面 47 次,正面的经验概率为 $P(heads) = \frac{47}{100} = 0.47$。大数定律表明,试验次数越多,计算出的概率越准确。
### 4. 概率与集合
#### 4.1 相关定义
- **样本空间**:实验所有可能事件(结果)的集合,用大写字母表示,像 Python 一样用 {} 列出所有事件。例如,抛硬币和掷骰子的样本空间分别为 $S_c = \{heads, tails\}$ 和 $S_d = \{1, 2, 3, 4, 5, 6\}$。
- **样本点**:样本空间中的单个事件,如反面。
- **事件**:样本空间中的单个样本点或样本点的组合(子集)。例如,骰子掷出奇数的组合事件为 $S_o = \{1, 3, 5\}$。
#### 4.2 集合运算
假设我们有一个集合(样本空间)$S = \{1, 2, 3, 4, 5\}$,以及两个子集(组合事件)$A = \{1, 2, 3\}$ 和 $B = \{3, 4, 5\}$,定义以下集合运算:
- **交集**:同时存在于 $A$ 和 $B$ 中的元素组成的集合,$
0
0
复制全文
相关推荐










