爬取豆瓣电影Top250的全部数据并保存一下~

最新推荐文章于 2025-07-01 17:53:18 发布

原创

最新推荐文章于 2025-07-01 17:53:18 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

本文介绍如何使用Python爬虫技术抓取豆瓣电影Top250榜单的完整数据，并进行保存。通过这段代码，读者可以学习到网络爬虫的基本流程和Python相关库的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

源代码：

# 	爬虫

### 1) 定义一个列表存放分析好的数据

```python
datalist = []
```

### 2) 处理url

因为豆瓣电影top250的URL要指定页面的参数baseURL = “https://movie.douban.com/top250?start=”，我们要指定start=后面的数值

```python
for i in range(0,10): #调用获取页面信息的函数，10次
     url = baseURL + str(i*25)
     html = askURL(url)  #保存获取到网页源码

```

### 3) 逐一解析数据

使用bs4.BeautifulSoup

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

```python
soup = bs4.BeautifulSoup(html, "html.parser") #解析html对象，并赋值给soup
```

### 4) 常见的使用方法

```python
print(soup.a)  # 拿到soup中的第一个a标签

print(soup.a.name) # 获取a标签的名称
 
print(soup.a.string)# 获取a标签的文本内容

print(soup.a.text)  # 获取a标签的文本内容

print(soup.a["href"])# 获取a标签的href属性的值
  
print(soup.a.get("href"))# 查找第一个a标签的href的属性
  
print(soup.a.attrs) # 获取a标签的所有的属性，返回一个字典
 
print(soup.find("a"))# 查找第一个a标签
  
print(soup.find_all("a"))# 查找所有的a标签
  
print(soup.find_all(id="a1"))# 查找所有的的id为a1的标签
  
print(soup.find_all(cl