protobuf编解码原理

最新推荐文章于 2025-05-20 19:13:15 发布

学海无涯书山有路

最新推荐文章于 2025-05-20 19:13:15 发布

阅读量694

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013862108/article/details/115899474

varints 编码

基本思想/基本逻辑

通常来说，普通的int数据类型，无论其值的大小，所占用的存储空间都是相等的，这点可以引起人们的思考“是否可以根据数值的大小来动态地占用存储空间，使得值比较小的数字占用较少的字节数，值比较大的数字占用比较多的字节数” 这就是变长整型编码的基本思想。

Protobuf 中使用的是 base128 Varints 编码

varints 编码使用每个字节的最高有效位作为标志位，而剩余的 7位以二进制补码的形式来存储数字值本身，当最高位有效位为 1 时，代表其后还跟有字节，最高有效位为0 时，代表是该数字的最后一个字节。

相对不好的点：

无法对一个序列的数值进行随机查找，因为每个数字所占用的存储空间不是等长的，因此若要获得序列中的第N个数字，无法像等长存储那样在查找之前直接计算

出 offset, 只能从头开始顺序查找。

缺点：

如果数字是负数，则采用varints 编码会恒定占用 10个字节。

。。。

protobuf 内部将 int32 类型的负数转换为 uint64 来处理。

转换后的 uint64 数值的高位全为 1，相等于一个8字节的很大的无符号数，因此采用 base128varints 编码后将恒定占用 10个字节的空间。

可见 varints 编码对于表示负数毫无优势，甚至比普通的固定32位存储还要多占 4个字节。

zigzag 编码就是为了解决这个问题。

zigzag 编码

zigZag 编码的大致思想是首选对负数做一次变换，将其映射为一个正数，变换以后可以使用 varints编码进行压缩。

将负数映射为一个正数的算法

假设n 是 32位类型的数字， zigzag 编码的计算方式为：

(n << 1) ^ (n >>31) 正向

(n >> 1) - (n &1) 逆向

zigzag 编码在protobuf 中并不单独使用，而是配合varints 编码共同来进行数据压缩。

。。。

zigzag 编码+ varints 编码在protobuf 运用

field_num 与 wire_type 对编码的影响

对于int32类型的数据，protobuf 都会转为 uint64 而后使用varints 编码来处理，因此当字段可能为负数时，我们应使用 sint32 或 sint64，这样protobuf 会按照zigzag编码将数据变化后再

采用 varints 编码进行压缩，从而缩短数据的二进制位数。

sint32-> zigzag编码 + varints 编码合起来。

与 json xml 等相比：

protobuf 不是一种完全自描述的协议格式，即接收端在没有 proto文件定义的前提下是无法解码一个protobuf 消息体的，与此相对的，json, xml 等协议格式是完全自描述的。其实对于客户端和服务端通信双方来说，约定好消息格式之后完全没有必要在每一条消息中都携带字段名称。

protobuf 除了存储字段的值之外，还存储了字段的编号，以及字段在通信线路上的格式类型（wire-type),具体的存储方式为：

field_num << 3 | wire type

有了字段编号和 wire type ，其后所跟的数据的长度便是确定的，因此protobuf 是一种非常紧密的数据组织格式，其不需要特别地加入额外的分割符来分割一个消息字段，这可以大大地提升通信的效率，规避冗余的数据传输。

例子：看一下 protobuf 实际序列化之后的完整二进制数据。

syntax = "proto3";

package pbTest;

message Request {

int32 age_test = 1;

}

假设 age 为 5

由于 age 在 proto 文件中定义的是 int32 类型，因此序列化之后的 wire type 为 0，

字段编号为1

即 1 << 3 | 0 , 占一个字节，即 00001000

后面跟上字段值 5 的 varints 编码，所以整个结构体序列化之后为：

wire_type 不同值时的二进制结构

1. 当wire_type 等于0 的时候整个二进制结构为：

Tag-Value.

value 的编码采用 varints 编码，故不需要额外的位来表示整个value 的长度。因为 varint的 msb 位标示下一个字节是否是有效的起到了指示长度的作用。

2. 当wire_type 等于 1，5 的时候二进制结构为：

Tag-Value

因为都是取固定的 32位，或者 64位，因此也不需要额外的位来表示整个value的长度。

3. 当 wire_type 等于 2的时候整个二进制结构为：

Tag-[length]-Value

因为表示的是可变长度的值，需要有额外的位来指示长度。

field_num 范围与二进制编码

1. 1到 15，仅使用 1bytes

用一个字节表达就是 0 0000 000

第一位表示是否有后续字节，如果 0 表示没有，即就一个字节，蓝色部分表示 field-number, 绿色部分则是 wire_type 部分，表示数据类型。

2. 16 到 2047，以两个bytes为例：

10000000 0 0000 000

红色部分依然是符号位，每个byte 的第一位都用来表示下一byte 是否和自己有关，表示field_num 大小的有 11位，能表达的数字最大值就是 2的 11次方减 1 ，即 2047

例子

int32 n1_int32 = 16;

红色是 field_number 的指示位，蓝色为 field_number的值，绿色为 wire_type

16 -> 16进制： 80 01 01 二进制： 10000 000 00000001 00000001 即 0000001 0000 —》得出来16

64 -> 16进制： 80 04 01 二进制： 10000 000 00000100 00000001 即 0000100 0000 —》得出来 64

3000 -> 16进制 c0 bb 01 01 二进制 11000 000 10111011 00000001 00000001 即 0000001 0111011 1000 —》得出来 3000

对于int32类型的数据，protobuf 都会转为 uint64 而后使用varints 编码来处理，因此当字段可能为负数时，我们应使用 sint32 或 sint64，这样protobuf 会按照zigzag编码将数据变化后再

采用 varints 编码进行压缩，从而缩短数据的二进制位数。

protobuf 协议消息升级带来的兼容性等问题

遇到查阅即可。

学海无涯书山有路

博客等级

码龄11年

197
原创

84
点赞

256
收藏

150
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: openssl 中base64编解码函数的基本使用代码code

下一篇：: unicode字符集和utf-8编码

最新评论

Files and Directories 文件和目录
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客真的让我们更深入地了解了文件和目录的相关知识。我觉得下一篇博客可以写一些关于文件系统的知识，比如不同文件系统的区别和选择、文件系统的优化等等，这样的技术文章对其他用户也会有很大的帮助。相信你的文章会有更多的读者关注和学习。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Go并发原语/并发组件/go并发核心语法之select
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)使用标准目录。
Go并发原语/并发组件/go并发核心语法之channel
学海无涯书山有路: 感谢您提供的宝贵意见
Go并发原语/并发组件/go并发核心语法之channel
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)使用标准目录；(3)使用更多的站内链接。
Go并发模式之将channel一分为二（tee channel)
weixin_41155794: 你这个例子就是错的，分别从out1和out2中读取，会死锁

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。