通信原理学习笔记6-4：数字解调——抽样判决的译码准则（最大后验概率准则MAP、最大似然准则ML、最小二乘/最小平方准则LS、最小距离准则）

本文链接：https://blog.csdn.net/Insomnia_X/article/details/125961777

本文介绍了判决译码中的几种准则，包括最大后验概率准则（MAP）、最大似然准则（ML）和最小二乘准则（LS），并探讨了它们之间的联系与区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

判决译码

在无ISI时，任意位置 $n$ 上的一个符号 $I_n$ ，经过AWGN信道、匹配滤波器、采样后，得到符号 $Y_{n}$ $Y_{n}=I_{n}+n_{n}$

其中， $n_{n}$ 为离散高斯白噪声
我们的目标：根据抽样结果（符号 $Y_{n}$ ）来判决发射端的符号

问题建模

传输对信号有干扰，译码就是：已知观测结果 $Y\boldsymbol{Y}$ ，从观测值估计参数 $X\boldsymbol{X}$ ，模型如下： $Y=H{s(X)}+n\boldsymbol{Y}=H\{\boldsymbol{s}(\boldsymbol{X})\}+\boldsymbol{n}$ 其意义是，对于参数 $X\boldsymbol{X}$ （可包含多个参数），经函数 $s$ 处理后得到 $s(X)s(\boldsymbol{X})$ ，将其作为输入信号送入系统 $H$ ，最终得到观测 $r\boldsymbol r$
注意，若有多次观测，则 $r\boldsymbol r$ 可以是一个向量（离散的），也可以是一个随机信号（连续的）即 $y(t)=s(t;X)+n(t)y(t)=s(t;\boldsymbol{X})+n(t)$
下面将会介绍，MAP/ML/LS准则分别为： $X^=arg⁡max⁡XpX∣Y(X∣Y)X^=arg⁡max⁡XpY∣X(Y∣X)X^=arg⁡max⁡X∣Y−H{s(X)}∣2\begin{aligned} \hat{\boldsymbol{X}} &=\operatorname{arg} \max _{\boldsymbol{X}} p_{\boldsymbol{X} \mid \boldsymbol{Y}}(\boldsymbol{X} \mid \boldsymbol{Y}) \\ \hat{\boldsymbol{X}} &=\arg \max _{\boldsymbol{X}} p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X}) \\ \hat{\boldsymbol{X}} &=\operatorname{arg} \max _{\boldsymbol{X}}|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} \end{aligned}$

两种典型的译码准则分别是最大后验概率准则MAP和最大似然准则ML

假设发出符号集 $X$ （原因），接收到符号集 $Y$ （结果），下面译码的都是都是已知 $Y$ 求解 $X$ 的问题

$P (X)$ 称为先验概率（未观测到结果 $Y$ 前， $X$ 的概率）， $P (X ∣ Y)$ 称为后验概率， $P (Y ∣ X)$ 称为似然，这也是“最大后验概率”和“最大似然”的由来

最大后验概率准则MAP（Maximum A Posteriori Estimation） / 最小错误概率译码准则

收到符号 $Y$ 的条件下，译码为 $X$ ，目标就是后验 $P (X ∣ Y)$ 的最大化
然而问题是，后验 $P (X ∣ Y)$ 常常难以求出

最大后验概率准则MAP利用了贝叶斯公式： $P(X∣Y)=P(X)P(Y∣X)P(Y)P(X|Y)=\frac{P(X)P(Y|X)}{P(Y)}$
分子上就是联合概率 $P (X Y) = P (X) P (Y ∣ X)$ ，而分母 $P (Y)$ 与问题无关，可以忽略（我们正是要对每个 $Y$ 估计其对应的 $X$ ）

由此，最大后验概率的问题转为求 $P (X Y) = P (X) P (Y ∣ X)$ 最大化（相比直接求后验概率最大化，这更加可行）

MAP表明，求解最大后验 $\iff$ 求解最大的「似然 $×\times$ 先验」，即 $P (X Y) = P (X) P (Y ∣ X)$

最大似然准则ML（Maximum Likelihood Estimation）

Likelihood的理解：Likelihood意为似然度 / 可能性
知道了结果是 $y_j$ ，但不知道原因 $x_i$ ，那么就要寻找一个 $x_i$ ，它最贴近事实；
找到的 $x_i$ 是一个能最好描述已经发生事件的参数，“发 $x_i$ 收 $y_j$ ”是最有可能发生的

再进一步，如果先验 $P (X)$ 也是未知的，则MAP退化到求解「最大似然」ML

也就是说，MAP的 $P (X) P (Y ∣ X)$ 最大化，此时退化为ML的 $P (Y ∣ X)$ 最大化

要注意的是，仅当 $X$ 等概时，ML的结果与MAP一致； $X$ 不等概则这样做一定会引入误差
这是容易理解的：

我们寻找原因 $X$ ，使得当前的 $Y$ 最可能出现，当然需要综合考虑 $X$ 本身出现的概率 $P (X)$ 和已知某个 $X$ 时得到 $Y$ 的概率 $P (Y ∣ X)$ ，这是MAP的方法；
然而，ML忽略了 $X$ 的分布，仅考虑已知某个 $X$ 时得到 $Y$ 的概率 $P (Y ∣ X)$ ，这种做法当然只有在 $X$ 等概分布时才是合理的

ML是在寻找：什么样的输入 / 原因 $X$ ，最有可能产生当前的观测数据 / 结果 $Y$ ，或者说为当前的事件结果 $Y$ 找一个原因 $X$ ，保证当前发生的事件是概率最大的事件

小结：MAP与ML的对比

从思路上：

MAP是知道结果 $Y$ ，反推原因 $X$
寻找原因 $X$ ，使 $P (X ∣ Y)$ 最大化 $⇒\Rightarrow$ 对每个 $Y$ 使 $P (X Y)$ 最大化 $⇒\Rightarrow$ 对每个 $Y$ 使 $P (X) p (Y ∣ X)$ 最大化
ML是找出一个原因 $X$ ，使事件最有可能发生
寻找原因 $X$ ，（ $X$ 等概时）使 $P (Y ∣ X)$ 最大化 $⇒\Rightarrow$ 然而 $X$ 不等概时，应该使 $P (X) P (Y ∣ X)$ 最大化（ $X$ 不等概时ML是错误的，应该重新回归到使用MAP准则上）

可见，ML是MAP的一个特例；当 $X$ 等概分布时，MAP准则可以简化为ML准则

最小二乘准则/最小平方准则LS

对于模型 $Y=H{s(X)}+n\boldsymbol{Y}=H\{\boldsymbol{s}(\boldsymbol{X})\}+\boldsymbol{n}$

当噪声 $n\boldsymbol{n}$ 为高斯分布时，最大似然准则ML等价于最小二乘准则LS；
当噪声不为高斯分布时，ML一般也没有简洁的解析表达式，可能仍然使用最小二乘准则LS，最然性能比会ML差

总之，最小二乘准则LS是应用最广的最优化准则

[最大似然准则ML 到最小二乘准则LS的推导]
模型为： $Y=H{s(X)}+n\boldsymbol{Y}=H\{\boldsymbol{s}(\boldsymbol{X})\}+\boldsymbol{n}$ 假设噪声 $n∼N(0,σ2)\boldsymbol{n}\sim N(0,\sigma^2)$ ，则已知参数 $X\boldsymbol X$ 后，观测信号 $y∼N(H{s(X)},σ2)\boldsymbol y\sim N(H\{s(\boldsymbol{X})\} ,\sigma^2)$ ，即条件概率 $pY∣X(Y∣X)=(12πσ)Ne−∣Y−H{s(X)}∣2/2σ2p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X})=\left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^{N} \mathrm{e}^{-|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} / 2 \sigma^{2}}$ 忽略系数，定义似然函数 $Λ(X)\Lambda(\boldsymbol{X})$ 为 $Λ(X)=exp⁡{−∣Y−H{s(X)}∣2/2σ2}\Lambda(\boldsymbol{X})=\exp \left\{-|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} / 2 \sigma^{2}\right\}$ 那么，最大似然准则ML要保证估计出的 $X^\hat{\boldsymbol X}$ 使得 $pY∣X(Y∣X)p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X})$ 最大，等价于使得似然函数 $Λ(X)\Lambda(\boldsymbol{X})$ 最大，又等价于使得损失函数 $L(X)=∣Y−H{s(X)}∣2L(\boldsymbol{X})=|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2}$ 最小，这就是最小二乘准则： $X^=arg⁡max⁡XL(X)=arg⁡max⁡X∣Y−H{s(X)}∣2\hat{\boldsymbol{X}} =\operatorname{arg} \max _{\boldsymbol{X}}L(\boldsymbol{X})=\operatorname{arg} \max _{\boldsymbol{X}}|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2}$

最小距离准则

再进一步，在QAM中，星座点 $c∈Cc\in C$ 位于复平面上，记为复数 $I_n$
若接收信号经过匹配滤波器和采样后，得到符号 $Y_n$ ，且信道噪声为高斯的，那么LS准则写为 $I^n=arg⁡min⁡c∈C∣Yn−c∣2\hat{I}_{n}=\arg \min _{c \in C}\left|Y_{n}-c\right|^{2}$
在复平面上理解，这就是要使译码结果和接收符号的欧式距离最小，即最小距离准则

扩展：从平均错误译码概率的角度看MAP和ML

实际上，选取译码规则的原则是：确保译码正确的可能性最大，或者使平均错误译码概率最小

平均错误译码概率的推导

假设收到 $s$ 种可能码字之一的 $y_j$ ，我们通过译码规则将其译码为 $F(y_j)=x^*$ ， $x^*$ 是发射的所有可能码字中的一个

发射的码字就是 $x^*$ ，则译码正确（译码得到了发出的码字）；
发射的码字不是 $x^*$ ，则译码错误；

收到一个码字 $y_j$ ，错误译码的概率为 $p(error|y_j)=1-p[F(y_j)|y_j]=1-p(x^*|y_j)$

对所有可能的接收码字 $y_j$ 取期望，则平均错误译码概率为：
$PE=∑j=1sp(yj)p(error∣yj)=1−∑j=1sp(yj)p(x∗∣yj)P_E=\sum_{j=1}^{s}p(y_j)p(error|y_j)=1-\sum_{j=1}^{s}p(y_j)p(x^*|y_j)$
MAP和ML的目标都是选取译码规则 $F(y_j)$ ，使得错误概率 $P_E$ 最小化；
也就是使正确概率 $∑j=1sp(yj)p(x∗∣yj)=∑j=1sp(x∗yj)\sum_{j=1}^{s}p(y_j)p(x^*|y_j)=\sum_{j=1}^{s}p(x^*y_j)$ 最大化；

但对于每个 $y_j$ ，MAP和ML使得 $p(x^*y_j)$ 最大化的具体思路不同：

MAP是将 $p(x^*y_j)$ 最大化等价为：对于每个 $y_j$ ，选择译码结果 $x^*$ ，使得 $p(x^*|y_j)$ 最大化（两者只是相差归一化倍数 $p(y_j)$ ）

平均错误译码概率 $PE=1−∑j=1sp(x∗yj)=1−∑j=1sp(yj)p(x∗∣yj)P_E=1-\sum_{j=1}^{s}p(x^*y_j)=1-\sum_{j=1}^{s}p(y_j)p(x^*|y_j)$
若译码结果为 $F(y_j)=x^*$ ，为了保证收到 $y_j$ 的条件下发出符号为 $x^*$ 的概率最大
$x^*$ 应该满足：
$p(x∗∣yj)≥p(xi∣yj),其中xi≠x∗p(x^*|y_j)\geq p(x_i|y_j),其中x_i\neq x^*$
具体操作：在条件概率矩阵 $F_{X|Y}$ （或联合概率矩阵 $F_{XY}$ ）的每一列中（对应一个 $y_j$ ），选择概率最大项对应的 $x_i$ 作为译码输出

ML是将 $p(x^*y_j)$ 最大化等价为：对于每个 $y_j$ ，选择译码结果 $x^*$ ，使得 $p(x^*)p(y_j|x^*)$ 最大化
$⇒\Rightarrow$ 当 $x_i$ 等概时进一步简化为使 $p(y_j|x^*)$ 最大化

平均错误译码概率 $PE=1−∑j=1sp(x∗yj)=1−∑j=1sp(x∗)p(yj∣x∗)P_E=1-\sum_{j=1}^{s}p(x^*y_j)=1-\sum_{j=1}^{s}p(x^*)p(y_j|x^*)$
若译码结果为 $F(y_j)=x^*$ ，为了保证发射 $x^*$ 并且收到 $y_j$ 的概率最大
$x^*$ 应该满足：
$p(x∗)p(yj∣x∗)≥p(xi)p(yj∣xi),其中xi≠x∗p(x^*)p(y_j|x^*)\geq p(x_i)p(y_j|x_i),其中x_i\neq x^*$
当发射符号 $x_i$ 等概率出现时，上式简化为：
$p(yj∣x∗)≥p(yj∣xi),其中xi,x∗∈符号集X且xi≠x∗p(y_j|x^*)\geq p(y_j|x_i),其中x_i,x^*\in 符号集X且x_i\neq x^*$
（注意，后一个简化后的形式才是我们上面所说的“真正的”ML准则）
具体操作：在联合概率矩阵 $F_{XY}$ （或 $x_i$ 等概时，在转移概率矩阵 $F_{Y|X}$ ）的每一列中（对应一个 $y_j$ ），选择概率最大项对应的 $x_i$ 作为译码输出

在这里插入图片描述

总结

实际应用中，如果给出了完整的分布信息 $F_{XY}$ 或 $F_{X|Y}$ ，MAP准则是最通用的方法，因为MAP的 $p(x^*|y_j)$ 最大化，等价于 $p(x^*y_j)$ 最大化
然而，大部分情况下仅知道转移概率矩阵 $F_{Y|X}$ ，则使用ML准则更方便，但前提是假定发射符号等概，此时ML的 $p(y_j|x^*)$ 最大化，才能等价于 $p(x^*y_j)$ 最大化
进一步的，当噪声为高斯分布，ML等价于LS，并且在非高斯分布下也常采用LS，这是应用最广泛的准则

Turbo码译码的理论基础，就是MAP准则，它将接收信号分为多个部分，从一部分接收信号中获取的后验概率，可以作为另一部分的先验概率，各个部分互相提供先验概率信息，最终完成迭代译码

需要注意，具体应用这些译码准则时，带入公式时需要注意变量 $X$ 和 $Y$ 的取值是否连续

若 $X$ 和 $Y$ 为取值连续的变量，例如做ML估计，列出式子 $X^=arg⁡max⁡XpY∣X(Y∣X)\hat{\boldsymbol{X}} =\arg \max _{\boldsymbol{X}} p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X})$ 后，式中 $pY∣X(Y∣X)p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X})$ 是一个概率密度，为了使之最大，应该对 $X\boldsymbol{X}$ 求导数；
若若 $X$ 和 $Y$ 为取值离散的变量，整体表达式形式不变，但是其中概率密度要换成概率值 $X^=arg⁡max⁡XPY∣X(Y∣X)\hat{\boldsymbol{X}} =\arg \max _{\boldsymbol{X}} P_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X})$ ，并且求最大值无法求导，而是需要穷举 $X\boldsymbol{X}$ 求最大值