Unicode和UTF-8字符串编码解码原理

最新推荐文章于 2023-02-13 18:52:42 发布

原创最新推荐文章于 2023-02-13 18:52:42 发布 · 1.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Unicode编码解码

算法同时被 2 个专栏收录

5 篇文章

订阅专栏

计算机原理

1 篇文章

订阅专栏

本文深入解析了Unicode字符集与UTF-8编码规则之间的关系，通过实例演示了如何将汉字“田”从Unicode码位转换为UTF-8字节序列的过程。理解这一过程对于解决软件中出现的字符编码问题至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近工作遇到一个Bug，大概情况是这样的。一个密码输入框中输入汉字“阿”，输入内容校验报错文言显示不对，在分析这个bug的时候，我发现了更有意思的知识点，那就是关于unicode和utf-8对字符串进行编码解码的知识点。

首先需要明白的是unicode和utf-8的关系。

简单来说：

Unicode是「字符集」，而UTF-8是「编码规则」。

字符集为每一个「字符」分配一个唯一的ID(学名为码位/码点/Code Point)，而「编码规则」则是将「码位」转换为字节序列的规则。

广义的Unicode是一个标准，定义了一个字符集以及一系列的编码规则，即Unicode字符集和UTF-8、UTF-16、UTF-32等等。

Unicode字符集为每一个字符分配一个码位，例如「田」的码位是30000，记作U+7530(30000的16进制为0x7530)。

UTF-8顾明思义，是一套以8位为一个编码单位的可变长编码。会将一个码位编码为1到4个字节：

U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
 
根据上表中的编码规则，之前的「田」字的码位 U+7530 属于第三行的范围：
 
       7    5    3    0   
    0111 0101 0011 0000    二进制的 7530
--------------------------
    0111   011111   100101 二进制的 77E5
1110XXXX 10XXXXXX 10XXXXXX 模版（上表第三行）
11100111 10010100 10110000 代入模版
   E   7    9   4    B   0
 
这就是将 U+7530 按照 UTF-8 编码为字节序列 E794B0 的过程。反之亦然。

今天写到这里，明天整理一下思路，写一个简单的编码解码工具。

大家有兴趣的话可以自己尝试将自己喜欢的汉字编码，并在下方评论中写出。