用Python爬取最新疫情数据

用Python爬取最新疫情数据

(本文转自52pj论坛,作者:54048371)
最近新型肺炎仍在影响着人们方方面面,大家对全国疫情都十分关心,我们可以利用Python来爬取最新疫情数据,掌握当前疫情状况。


测试环境:Python3.8.1,Windows10
测试工具:Pycharm
用到的库
requests库
re正则表达式
xlwt 写入Excel库
os库用于写入文件目录
json 字符串转字典
time库 格式化时间


代码

import requests,os
import re
import xlwt
import time
import json

class get_yq_info:

    def get_data_html(self):
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}
            response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0', headers=headers, timeout=3)
            # 请求页面

            response = str(response.content, 'utf-8')
            # 中文重新编码
            return response
            #返回了HTML数据

    def get_data_dictype(self):
            areas_type_dic_raw = re.findall('try { window.getAreaStat = (.*?)}catch\(e\)',self.get_data_html())
            areas_type_dic = json.loads(areas_type_dic_raw[0])
            return areas_type_dic
            #返回经过json转换过的字典化的数据

    def save_data_to_excle(self):
            self.make_dir()
            #调用方法检查数据目录是否存在,不存在则创建数据文件夹
            count = 2
            #数据写入行数记录
            newworkbook = xlwt.Workbook()
            worksheet = newworkbook.add_sheet('all_data')
            # 打开工作簿,创建工作表

            worksheet.write(1, 2, '省份名称')
            worksheet.write(1, 3, '省份简称或城市名称')
            worksheet.write(1, 4, '确诊人数')
            worksheet.write(1, 5, '疑似人数')
            worksheet.write(1, 6, '治愈人数')
            worksheet.write(1, 7, '死亡人数')
            worksheet.write(1, 8, '地区ID编码')
            #写入数据列标签

            for province_data in self.get_data_dictype():
                    provincename = province_data['provinceName']
                    provinceshortName = province_data['provinceShortName']
                    p_confirmedcount = province_data['confirmedCount']
                    p_suspectedcount = province_data['suspectedCount']
                    p_curedcount = province_data['curedCount']
                    p_deadcount = province_data['deadCount']
                    p_locationid = province_data['locationId']
                    #用循环获取省级以及该省以下城市的数据

                    worksheet.write(count, 2, provincename)
                    worksheet.write(count, 3, provinceshortName)
                    worksheet.write(count, 4, p_confirmedcount)
                    worksheet.write(count, 5, p_suspectedcount)
                    worksheet.write(count, 6, p_curedcount)
                    worksheet.write(count, 7, p_deadcount)
                    worksheet.write(count, 8, p_locationid)
                    #在工作表里写入省级数据

                    count += 1
                    #此处为写入行数累加,province部分循环

                    for citiy_data in province_data['cities']:
                            cityname = citiy_data['cityName']
                            c_confirmedcount = citiy_data['confirmedCount']
                            c_suspectedcount = citiy_data['suspectedCount']
                            c_curedcount = citiy_data['curedCount']
                            c_deadcount = citiy_data['deadCount']
                            c_locationid = citiy_data['locationId']
                            #该部分获取某个省下某城市的数据

                            worksheet.write(count, 3, cityname)
                            worksheet.write(count, 4, c_confirmedcount)
                            worksheet.write(count, 5, c_suspectedcount)
                            worksheet.write(count, 6, c_curedcount)
                            worksheet.write(count, 7, c_deadcount)
                            worksheet.write(count, 8, c_locationid)
                            #该部分在工作表里写入某城市的数据

                            count += 1
                            #此处为写入行数累加,cities部分循环
            current_time = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
            newworkbook.save('E:\人数采集3.0\实时采集v3.0-%s.xls' % (current_time))
            print('======数据爬取成功======')

    def make_dir(self):
            file_path = 'E:/人数采集3.0/'
            if not os.path.exists(file_path):
                    os.makedirs(file_path)
                    print('======数据文件夹不存在=======')
                    print('======数据文件夹创建成功======')
                    print('======创建目录为%s======'%(file_path))
            else:
                    print('======数据保存在目录:%s======' % (file_path))
            #检查并创建数据目录

    def exe_task(self):
            times = int(input('执行采集次数:'))
            interval_time = round(float(input('每次执行间隔时间(分钟)')),1)
            #round 方法保留一位小数
            interval_time_min = interval_time * 60

            for i in range(times):
                    get_yq_info().save_data_to_excle()
                    time.sleep(interval_time_min)

    #执行完整采集任务

get_yq_info().exe_task()

用Pycharm运行之后输入采集次数以及间隔时间:
在这里插入图片描述
运行成功之后将在控制台生成并输出数据保存目录以及爬取成功提示
在这里插入图片描述
文件内容
在这里插入图片描述

<think>嗯,用户想用Python爬取网易网站上的疫情数据。首先,我得看看他们提供的参考引用里有没有相关的信息。引用3提到了网易新闻的疫情网站,链接是https://wp.m.163.com/163/page/news/virus_report/index.html,可能需要用这个URL来爬取数据。不过用户给的引用里,引用2和3都提到了不同的爬取方法,比如用API或者处理动态页面。 首先,我需要确定网易疫情数据是静态还是动态加载的。如果是动态内容,可能需要用Selenium或者requests模拟浏览器。不过引用2里用了post请求获取API数据,可能网易也有类似的接口。或者引用3中的代码可能直接处理网页内容,但需要检查是否有反爬措施。 然后,用户需要具体的步骤,比如如何分析网页结构、发送请求、解析数据。可能需要用到requests库发送HTTP请求,BeautifulSoup或者正则表达式解析HTML。如果数据是通过JavaScript加载的,可能需要用Selenium或者找到隐藏的API接口。 另外,引用3提到将数据存入Excel,用户可能也希望保存数据。所以步骤应包括数据存储部分,比如使用pandas或openpyxl库。 还要注意反爬机制,比如设置请求头中的User-Agent,可能需要模拟浏览器行为,或者处理Cookies。引用2中的headers可以作为参考,确保请求头包含有效的User-Agent。 最后,生成相关问题需要考虑用户可能的后续需求,比如动态页面处理、数据存储优化或反反爬策略。比如,如何处理动态加载的数据,或者如何提高爬虫效率。</think>根据引用[3]提供的网易疫情网站URL,以下是使用Python爬取网易疫情数据的步骤分析: ### 一、网页分析阶段 1. 打开网易疫情数据页面(URL:`https://wp.m.163.com/163/page/news/virus_report/index.html`) 2. 按`F12`打开开发者工具,在`Network`标签中筛选`XHR`请求,发现数据通过API接口动态加载[^3] 3. 定位到实际数据接口地址: ``` https://c.m.163.com/ug/api/wuhan/app/data/list-total ``` ### 二、代码实现步骤 ```python import requests import pandas as pd def get_163_covid_data(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36' } # 请求数据接口 api_url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total' response = requests.get(api_url, headers=headers) if response.status_code == 200: data = response.json() # 解析国内数据 china_data = data['data']['areaTree'][0]['children'] # 转换为DataFrame df = pd.DataFrame([{ '省份': item['name'], '确诊': item['total']['confirm'], '治愈': item['total']['heal'], '死亡': item['total']['dead'], '新增': item['today']['confirm'] } for item in china_data]) return df else: print('请求失败,状态码:', response.status_code) ``` ### 三、数据存储示例 ```python # 保存到Excel df = get_163_covid_data() df.to_excel('163_covid_data.xlsx', index=False) # 保存到CSV df.to_csv('163_covid_data.csv', encoding='utf_8_sig', index=False) ``` ### 四、注意事项 1. 需要定期更新请求头中的`User-Agent`,可参考引用[2]中的随机User-Agent设置方法 2. 该接口返回JSON数据包含全球数据,国内数据在`data.areaTree[0].children`路径下 3. 建议添加异常处理机制,应对接口变更或访问限制[^3]
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值