此处以爬取百度百科为例
本文的爬虫组成分为以下几部分
1.调度器(controler)
协调几个模块之间的工作
2.url管理器(urlmanager)
去重,如果url已经被抓取过,就不在访问该url
3.html下载器(htmldownloader)
下载html
4.html解析器(htmlparser )
解析html,解析内容为链接和文档
5.数据输出器(dataoutputer)
对数据进行保存
调度器(controler)
#coding:utf-8
#引入各个模块
import Urlmanager
import Htmldownloader
import Htmlparser
import Dataoutputer
#初始化各个模块
urlmanager=Urlmanager.Urlmanager()
htmldownloader=Htmldownloader.Htmldownloader()
htmlparser=Htmlparser.Htmlparser()
dataoutputer=Dataoutputer.Dataoutputer()
firsturl="https://baike.baidu.com/item/Python/407313?fr=aladdin"
urlmanager.add(firsturl)
count = 1
while 1:
if count >100:
break
try:
url=urlmanager.get()
print str(count)+".spider..."+url
htm