python 使用requests模块爬取数据时中文乱码问题

最新推荐文章于 2025-06-18 11:27:25 发布

Flower and you

最新推荐文章于 2025-06-18 11:27:25 发布

阅读量2.9k

点赞数 4

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.csdn.net/weixin_48368715/article/details/124645013

本文通过实例展示了如何解决Python爬虫在抓取网页数据时遇到的乱码问题。首先，通过查看网页源代码和使用document.charset确定编码格式为'utf-8'。然后，使用requests库获取数据，并通过设置response.encoding为'utf-8'来正确解码内容。此外，还介绍了使用response.apparent_encoding自动分析响应内容编码的方法。文章强调了解决乱码问题在爬虫中的重要性，并鼓励读者尝试不同的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

要想解决乱码问题得先知道我们获取的内容是什么格式的字符编码集

最常用的判断方式是查看网页源代码中的<meta charset="XXX">

第二种方式是在浏览器开发者工具中的控制台中输入document.charset 即可显示出网页的编码格式

重现问题

1.寻找目标

我先找一个会乱码的网站，就以国家统计局吧，先找一个中文字比较多的吧

先查看网页源代码，可以大概判断出是AJAX异步传送的，同时还可以知道该网页是'utf-8'编码的

要是不放心的话，还可以使用document.charset查看一下

2.编写代码

import requests

url = 'https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgnd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%5D&k1=1651977499228&h=1'
headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39'
}


def solveCoding(url, headers):
	response = requests.get(url=url, headers=headers,verify=False)
	print(response.json())


if __name__ == '__main__':
	solveCoding(url=url, headers=headers)

可能看的不是特别清楚，我用pprint打印一下吧

解决问题

from pprint import pprint

import requests

url = 'https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgnd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%5D&k1=1651977499228&h=1'
headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39'
}


def solveCoding(url, headers):
	response = requests.get(url=url, headers=headers,verify=False)
	response.encoding = 'utf-8'
	pprint(response.json())


if __name__ == '__main__':
	solveCoding(url=url, headers=headers)

既然已经知道了该网页是'utf-8'编码的，只需要设置一下对应的字符编码就行了

我喜欢的方式

apparent_encoding

from pprint import pprint

import requests

url = 'https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgnd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%5D&k1=1651977499228&h=1'
headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39'
}


def solveCoding(url, headers):
	response = requests.get(url=url, headers=headers,verify=False)
	response.encoding = response.apparent_encoding
	pprint(response.json())


if __name__ == '__main__':
	solveCoding(url=url, headers=headers)