利用python爬取小说

本文介绍了如何使用Python爬虫从笔趣阁网站下载小说,包括分析网站结构、获取章节链接和详细文本,解决了编码问题和超时重连,强调了支持正版阅读的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

很久没有写过爬虫了,今天刚好有同学问我能不能帮忙把一部小说爬下来,因为网上搜索下载小说,大部分都是一些虚假的链接,或需要注册网站的账号;并且直接在网站上看的话,广告也是满天飞。为了让他更加纯粹的享受小说,也为了炫耀一下Python大法。于是就诞生了这篇文章

步骤

  1. 观察网站结构
  2. 获取章节链接
  3. 获取详细文本

网站分析

在网上搜了一个看小说的网站:笔趣阁。搜索小说之后看到这样的网页:

章节链接页:

详细文本页:

获取章节链接

直接构造一个方法获取所有的章节链接,然后不要第一部分的最新章节,只保留正文卷的链接,避免重复

import requests
from bs4 import BeautifulSoup
import codecs
#超时设置
from requests.adapters import
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值