Unicode和UTF-8字符串编码解码原理

本文深入解析了Unicode字符集与UTF-8编码规则之间的关系,通过实例演示了如何将汉字“田”从Unicode码位转换为UTF-8字节序列的过程。理解这一过程对于解决软件中出现的字符编码问题至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近工作遇到一个Bug,大概情况是这样的。一个密码输入框中输入汉字“阿”,输入内容校验报错文言显示不对,在分析这个bug的时候,我发现了更有意思的知识点,那就是关于unicode和utf-8对字符串进行编码解码的知识点。

首先需要明白的是unicode和utf-8的关系。

简单来说:

Unicode是「字符集」,而UTF-8是「编码规则」。

字符集为每一个「字符」分配一个唯一的ID(学名为码位/码点/Code Point),而「编码规则」则是将「码位」转换为字节序列的规则。

广义的Unicode是一个标准,定义了一个字符集以及一系列的编码规则,即Unicode字符集和UTF-8、UTF-16、UTF-32等等。

Unicode字符集为每一个字符分配一个码位,例如「田」的码位是30000,记作U+7530(30000的16进制为0x7530)。

UTF-8顾明思义,是一套以8位为一个编码单位的可变长编码。会将一个码位编码为1到4个字节:

U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
 
根据上表中的编码规则,之前的「田」字的码位 U+7530 属于第三行的范围:
 
       7    5    3    0   
    0111 0101 0011 0000    二进制的 7530
--------------------------
    0111   011111   100101 二进制的 77E5
1110XXXX 10XXXXXX 10XXXXXX 模版(上表第三行)
11100111 10010100 10110000 代入模版
   E   7    9   4    B   0
 
这就是将 U+7530 按照 UTF-8 编码为字节序列 E794B0 的过程。反之亦然。

今天写到这里,明天整理一下思路,写一个简单的编码解码工具。

大家有兴趣的话可以自己尝试将自己喜欢的汉字编码,并在下方 评论中写出。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值