【字符集七】汉字的宽字符码和多字节码分别是多少

本文详细介绍了宽字符和多字节字符的区别,以汉字'我'为例,展示了在GBK和UTF-8编码下其对应的编码值。通过C++代码演示了如何在Windows环境下进行字符编码的转换,包括从多字节字符串到宽字节字符串的过程,并解释了输出结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、宽字符和多字节字符的本质

在windows系统设置了utf8时,char使用的是utf8字符集,而当未设置时,char使用了gbk字符集。而下面char是使用了gbk字符集。

char ch[] = “我”;
wchar_t wch[] = L"我";。

  • 多字节字符就是gbk字符
  • 宽字节字符是Unicode字符
  • 备注:我们知道gbk是多字节字符,至于为何转换成宽字符,就是Unicode编码,可能是默认的吧。

二、汉字我的宽字符码和多字节码分别是多少

在这里插入图片描述

三、demo

#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#define BUFFER_SIZE 50
using namespace std;

int main()
{
	setlocale(LC_ALL, "chs");
	
	char mbyte[50];
	wchar_t * wbyte =NULL;

	strcpy(mbyte, "我");
	size_t mlen = strlen(mbyte);

	int dSize = mbstowcs(wbyte, mbyte, 0) + 1;

	wbyte = new wchar_t[dSize];
	wmemset(wbyte, 0, dSize);

	int len = mbstowcs(wbyte, mbyte, mlen);

	cout << &mbyte<<endl;
	wcout << &wbyte << endl;

	cout << mbyte << endl;
	wcout << wbyte << endl;

	return(0);
}
  • 输出

00F3F984
00F3F978


在这里插入图片描述
备注:00F3F978为指针地址,应该查看指针指向的地址。如下图所示值为0x013107E8。地址0x013107E8中存的值为6211(如下图)

  • 查看汉字“我”的gbk编码值为CED2(十六进制)、Unicode的编码值6211(十六进制)

在这里插入图片描述

https://blog.csdn.net/u010025662/article/details/54933530

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑同学的笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值