scrapy初学习--爬取豆瓣新片榜

博客主要讲述使用Scrapy爬取豆瓣榜单时遇到403错误的解决办法,即在setting.py中添加user agent可成功爬取。还介绍了使用xpath进行元素选择,以及Scrapy对url爬取可并行的特点,最后说明了建立项目、编写代码和执行命令等操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取豆瓣榜单遇到403错误

如图
在这里插入图片描述
解决方法:
在setting.py中添加user agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

爬取成功
在这里插入图片描述

效果

这是新片榜
在这里插入图片描述
爬取结果
在这里插入图片描述

元素选择

使用xpath进行元素选择.

from lxml import etree

html = etree.parse('./douban.html', etree.HTMLParser())
result = html.xpath('//tr/td/a/@title') # 获取a节点的title属性
# result = html.xpath('//tr/td/a[@class='test']') # 获取a节点且class为test的元素
print(result)

test2 = html.xpath('//div[@class="star clearfix"]/span[@class="rating_nums"]/text()')
print(test2)

代码

scrapy对url的爬取可以并行的, 也就是说第二个url不用等第一个爬完, 也不会相互影响.

建立scrapy项目之后, 在spiders目录下新建自己的爬虫代码py文件.
写好后, 使用命令scrapy crawl douban_chat执行

代码如下

import scrapy
import re

class QuotesSpider(scrapy.Spider):
    name = "douban_chat" # 爬虫名字, 在命令行下会用到

    def start_requests(self):
        urls = [
            'https://movie.douban.com/chart',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # xpath 选择器 + 正则表达式找出电影标题和评分
        titles_raw = response.xpath('//div/table/tr').getall()
        titles = ""
        for each in titles_raw:
            try:
                title = re.findall(r'title="(.+)">', each)[0]
                score = re.findall(r'rating_nums">(.+)</span>', each)[0]
                titles += title + " : " + score + '\n'
            except:
                pass

        page = response.url.split("/")[-2]
        filename = '%s.html' % page
        with open(filename, 'w+', encoding='utf-8') as f:
            f.write(titles)
        self.log('Saved file %s' % filename)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值