很久没有写过爬虫了,今天刚好有同学问我能不能帮忙把一部小说爬下来,因为网上搜索下载小说,大部分都是一些虚假的链接,或需要注册网站的账号;并且直接在网站上看的话,广告也是满天飞。为了让他更加纯粹的享受小说,也为了炫耀一下Python大法。于是就诞生了这篇文章
步骤
- 观察网站结构
- 获取章节链接
- 获取详细文本
网站分析
在网上搜了一个看小说的网站:笔趣阁。搜索小说之后看到这样的网页:
章节链接页:
详细文本页:
获取章节链接
直接构造一个方法获取所有的章节链接,然后不要第一部分的最新章节,只保留正文卷的链接,避免重复
import requests
from bs4 import BeautifulSoup
import codecs
#超时设置
from requests.adapters import