python之——使用python编写爬虫脚本

此处以爬取百度百科为例

本文的爬虫组成分为以下几部分

1.调度器(controler)
        协调几个模块之间的工作
2.url管理器(urlmanager)
        去重,如果url已经被抓取过,就不在访问该url
3.html下载器(htmldownloader)
        下载html
4.html解析器(htmlparser )
        解析html,解析内容为链接和文档
5.数据输出器(dataoutputer)
        对数据进行保存

调度器(controler)

#coding:utf-8
#引入各个模块
import Urlmanager
import Htmldownloader
import Htmlparser
import Dataoutputer
#初始化各个模块
urlmanager=Urlmanager.Urlmanager()
htmldownloader=Htmldownloader.Htmldownloader()
htmlparser=Htmlparser.Htmlparser()
dataoutputer=Dataoutputer.Dataoutputer()

firsturl="https://baike.baidu.com/item/Python/407313?fr=aladdin"
urlmanager.add(firsturl)
count = 1
while 1:
    if count >100:
        break
    try:
        url=urlmanager.get()
        print str(count)+".spider..."+url
        htm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值