
Python数据挖掘与分析
Scrapy、Selenium、BeautifulSoup对数据进行爬取
BBQpotato
每次写代码都做好总结,下次遇到同样的问题就可以迅速解决。
有问题可以v+AkulamaT一起讨论
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BeautifulSoup爬取页面源码返回为空,数据存放在JsonString的网页
用BeautifulSoup找到页面中<script>中的JSON.stringify里的数据,并用json.loads下载为json数据格式,调用json_parse方法对数据进行处理。查看页面源码发现,数据存储在<script>中的jsonString里。直接选取data里的标签值,循环写入write表格中。main方法,在初始化时写入标题,后续可以注释掉。写入csv文件中,调用的是writerow方法。数据在页面中显示,但读取JSON返回值为空。原创 2023-12-26 18:14:28 · 243 阅读 · 1 评论 -
Python Selenium爬虫,爬取翻页URL不变的网站
但爬取第二页时,进入内容再driver.back(),并不会回到第二页 而是直接跳转到第一页 可能是缓存的数据丢失。,而是回到了起始页,由于url不变可能是后退过程中丢失了缓存值,因此二次爬取页面内容时,是进入网址内爬取的。关于driver.back() 爬取第一页时,进入内容 再driver.back(),会回到第一页(左)上。遇到的问题 Selenium需要安装geckodriver。因此获取公告的内容是二次进行读取的。这里注释content的原因是。原创 2023-11-05 17:52:48 · 2871 阅读 · 2 评论 -
Scrapy实时爬取返回值为JSON的数据
处理项目.py,在parse中调用item,再用xpath直接进行获取需要的列表,传给pipelines进行处理。Scrapy实时爬取数据 python,这里用scrapy爬取数据,因为数据直接显示在页面中,即。并且request.content返回值中有需要的数据,因此用scrapy爬虫直接获取。先是对item.py进行处理,item对各个变量名进行定义,按照注释格式。其中__init__.py是运行文件,没有什么需要变动的地方。紧接着项目文件,需要对返回的数据进行处理。生成了类似的文件结构。原创 2023-12-26 16:57:13 · 814 阅读 · 1 评论