Python爬取小说教程详解

最新推荐文章于 2025-07-02 16:49:11 发布

追大奔的兔子

最新推荐文章于 2025-07-02 16:49:11 发布

阅读量3.5k

点赞数 55

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.csdn.net/weixin_42340721/article/details/140963260

前言

免责声明：
1、本项目爬取的网站数据仅用于学习交流目的，不用于任何商业用途。
2、我们尊重原网站的版权和知识产权，不会对爬取的数据进行任何形式的篡改、传播或用于非法用途。
3、爬取行为严格遵守我国相关法律法规，如有侵犯原网站权益，请及时与我们联系，我们将立即停止爬取行为并删除相关数据。
4、本项目不对因使用爬取数据导致的任何损失或损害承担责任。
5、请使用者遵守本免责声明，如有违反，后果自负。

准备工作

在开始之前，请确保你的电脑已安装Python环境，并安装了以下库：

requests：用于发送HTTP请求。
re：用于正则表达式匹配。

下面正式开始教程。

1. 发送请求

首先，我们需要向目标网站发送请求，获取网页内容。这里我们使用requests库。

import requests

# 伪装成浏览器，防止被网站识别为爬虫
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}
url = 'https://www.99htxt.com/kan/768629/'
res = requests.get(url, headers=headers)

这里我们设置了一个请求头User-Agent，目的是伪装成浏览器，防止被网站识别为爬虫。

2. 提取书名

接下来，我们使用正则表达式提取书名。

import re

book_name_list = re.findall('<h1 class="booktitle">(.*?)</h1>', res.text)
book_name = book_name_list[0]
print(book_name)

这里我们使用了re.findall()方法，第一个参数是正则表达式，用于匹配书名的位置，第二个参数是网页源代码。findall()方法会返回一个列表，我们取第一个元素即为书名。

3. 提取目录名

最低0.47元/天解锁文章

200万优质内容无限畅学