什么是算术编码

原创于 2023-07-17 00:51:05 发布 · 525 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#算法

视频压缩专栏收录该内容

2 篇文章

订阅专栏

文章对比了哈夫曼编码和算术编码两种数据压缩方法。哈夫曼编码通过构建哈夫曼树为高频字符分配短编码，但可能存在编码长度不精确的问题。算术编码则是通过概率区间划分实现更精确的压缩，尤其在处理连续字符的概率分布时更有效。算术编码能更接近信息熵的压缩极限，从而提供更高效的压缩效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前在学习数据结构的时候有学习过哈夫曼编码，最近看到算术编码，于是了解了一下。

很多压缩算法的思想其实都是和哈夫曼编码是一致的，都是通过VLC（可变长编码）来实现的，算术编码的编码方式则更加精妙。

1.哈夫曼编码

哈夫曼编码的思想就是：对于出现频率更高的符号，使用更短的编码，这样就可以进行大幅度的压缩。

比如对于一段英文字符：AABABCABAB，A出现5次，B出现4次，C出现1次。

如果使用定长编码来进行编码的话，每个符号至少需要2bit来表示（三个字符，需要两位二进制）

如 A：01，B：10，C：11

那么整段的编码长度则为5*2+4*2+1*2=20bit

如果采用哈夫曼编码的话，对于出现频次更高的A，可以使用更短的编码。通过构造哈夫曼树来生成哈夫曼编码：

则 A：0, B:10, C:11

整段字符的编码长度为：5*1 + 4*2 + 1*2 = 15 bit。可见提高了压缩的效率。

不足：

根据香农的熵计算公式，整个信息序列的熵为：

H(X) = -( 0.5 * log2(0.5) + 0.4 * log2(0.4) + 0.1 * log2(0.1) ) = 1.361

也就是说这段字符的压缩极限是：平均每个符号用 1.361 bit 表示。整段字符一共 10 个字母，压缩极限为 10 * 1.361 = 13.61 bit，而采用哈夫曼编码时，只压缩到了 15 bit。

原因：

主要是由于哈夫曼编码是采用整数进行符号编码的，不够精准，对于B和C这两个字符，它们出现的频率分别为0.4和0.1，但是采用相同的长度进行编码。

2.算术编码

算术编码的本质，也是对于高频的字符进行短编码，但是它的实现方式，和哈夫曼编码完全不同。

对于上文提到的同样的序列：AABABCABAB

算术编码会对 0 -1 这个区间进行划分。

A : [0, 0.5) , B : [0.5, 0.9) , C : [0.9, 1)

AABABCABAB 的第 1 个字符为：A，那么我们选中了 A 的区间 [0, 0.5) 作为新的目标区间。

对新目标区间，再按照 ABC 的概率占比进行划分。

A : [0, 0.25) , B : [0.25, 0.45) , C : [0.45, 0.5)

AABABCABAB 的第 2 个字符仍然为：A，那么我们再选中了 A 的区间 [0, 0.25) 作为新的目标区间。

对新目标区间，再按照 ABC 的概率占比进行划分。

A : [0, 0.125) , B : [0.125, 0.225) , C : [0.225, 0.25)

AABABCABAB 的第 3 个字符为：B，那么这次我们选中了 B 的区间 [0.125, 0.225) 作为新的目标区间。

对新目标区间，再按照 ABC 的概率占比进行划分。

A : [0.125, 0.175) , B : [0.175, 0.215) , C : [0.215, 0.225)

AABABCABAB 的第 4 个字符为：A，那么我们再选中 A 的区间 [0.125, 0.175) 作为新的目标区间。

重复上面的操作，一直到最后一个字符。

完成上面的操作后，最终的目标区间为：[0.1686, 0.16868)，我们在这个区间内，任意选一个小数，便可以作为最终的编码小数。但是计算机只能识别 0 和 1，所以我们再将小数转成二进制。

因为是最短压缩，所以要从 [0.1686, 0.16868) 选一个二进制表示最短的小数。这里我们选定 0.16864013671875，二进制为：0.00101011001011，去掉整数位 0 以及小数点后，最终的二进制编码为 00101011001011，bit 长度为 14 位，比哈夫曼编码要更短 1 位。

关于选择0.16864013671875

在结果区间里找“最短”的二进制小数，具体如下，区间转换为二进制

[0.0010101100101001010111101001111000011011000010001001101

,0.001010110010111010011100110010110111110101000001011101)

取相同部分，直到不相同为止，0.0010101100101 结尾补1（一定会在区间）就是这个值0.16864013671875