MySQL 字符编码集中有两套 UTF-8 编码实现:utf8
和 utf8mb4
。
如果使用 utf8
的话,存储 emoji 符号和一些比较复杂的汉字、繁体字就会出错。
为什么会这样呢?这篇文章可以从源头给你解答。
何为字符集?
字符是各种文字和符号的统称,包括各个国家文字、标点符号、表情、数字等等。字符集 就是一系列字符的集合。字符集的种类较多,每个字符集可以表示的字符范围通常不同,就比如说有些字符集是无法表示汉字的。
计算机只能存储二进制的数据,那英文、汉字、表情等字符应该如何存储呢?
我们要将这些字符和二级制的数据一一对应起来,比如说字符“a”对应“01100001”,反之,“01100001”对应 “a”。我们将字符对应二进制数据的过程称为"字符编码",反之,二进制数据解析成字符的过程称为“字符解码”。
有哪些常见的字符集?
常见的字符集有 ASCII、GB2312、GBK、UTF-8......。
不同的字符集的主要区别在于:
-
可以表示的字符范围
-
编码方式
ASCII
ASCII