linux python乱码_windows/linux 页面编码区别导致 python 乱码

最新推荐文章于 2023-08-17 13:41:47 发布

原创最新推荐文章于 2023-08-17 13:41:47 发布 · 211 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#linux python乱码

本文探讨了在Windows和Linux环境下，由于默认编码不同导致的数据处理问题。特别是在Scrapy爬虫项目中，从网页抓取数据并进行编码转换时遇到的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

直到今天我才注意到 shell 采用不同编码会导致这么蛋疼的问题。。这半天时间算是认栽了吧。。

首先，Windows的默认编码为GBK，Linux的默认编码为UTF-8。看图：

这个是 Linux shell 的活动代码页编码：

这个是 windows powershell 的：

936 既是 GBK。

而在 Scrapy 中抓取页面然后提取出的信息是以 unicode字符串的形式保存下来的。在python中print即可正常显示文字。但在 powershell 中会出以下问题：

其实，在这里的问题是，scrapy使用unicode类型封装了gbk/utf-8转码后的字符串，导致无法正常解码。这里应该做的，就是去掉unicode类型，此时，codecs.unicode_escape_encode(str)则满足要求

注意，unicode类型转换为其他类型(使用a.encode("utf-8/gbk"))时，则会将该字符串在编码一边，显然不可行。

这里我强调下，unicode是字符集， utf-8 和 gbk 是编码集。至于这俩有什么不同，可以这么说：unicode 定义了所有的字符(目前看来是的)，用来展示给你看的，而编码集utf-8是一种字符集的实现，用来面向计算机的，主要用来存储为字节，以及网络传输的。

附：Python 编码使用

# 定义时，使用 u 前缀表示 unicode 类型。

# 其他情况下，默认是 utf-8/gbk 等编码: powershell 下默认为gbk编码。linux终端下默认为utf-8,文件看其编码属性

# 输出时，需要什么编码， encode 成什么编码就OK了。unicoe编码不能直接输出

# 但是，在 print [u'\u6211'] 数组时，输出不会有改变。猜测原因是，输出数组时，print并不对其做处理，只是原样输出，而输出string时，会对其进行 encode

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。