垂直搜索引擎三》爬虫机器人模块的设计与实现

最新推荐文章于 2025-07-24 13:07:07 发布

残阙的歌

最新推荐文章于 2025-07-24 13:07:07 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：搜索引擎

本文链接：https://blog.csdn.net/u010666884/article/details/51955351

搜索引擎专栏收录该内容

28 篇文章

订阅专栏

本文详细介绍了农业垂直搜索引擎中爬虫机器人的设计与实现，主要基于Heritrix进行主题爬虫的构建。通过Heritrix进行网页抓取，并通过线程优化，利用ELFHash算法提高抓取效率。此外，还讨论了Heritrix的工具化，包括免登陆、统一输出路径、默认order.xml设置和bat启动方式。

4 功能模块的设计与实现

4.1. 爬虫机器人模块的设计与实现

本系统因为是只针对农业进行垂直搜索，所以爬虫只爬相关的主题内容，所以采取聚焦爬虫的方式进行。聚焦爬虫，又称主题爬虫(或专业爬虫)，是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于，聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。

4.1.1 农业主题爬虫的工作流程

本系统的主题爬虫主要采用Heritrix技术，开始时先根据种子URL下载源页面，然后解析页面并把符合主题的URL加入队列，最后不断递归队列中的URL重复上述操作。

图4-1 农业垂直搜索引擎爬虫流程图

4.1.2 基于Heritrix的爬虫设计与实现

（1）Heritrix简介

Heritrix是一个Java开发,开源web爬虫程序,用户可以使用它来从互联网上抓住想要的资源。最突出的是它可伸缩性好,容易实现他们获取逻辑。它的执行进行递归，主要有以下几步：

1。在预定的URI中选择一个。

2。获取URI

3。分析，归档结果

4。选择已经发现的感兴趣的URI。加入预定队列。

5。标记已经处理过的URI

它的设计原理图如图4-2所示：

图4-2 Heritrix设计架构图

（2）Heritrix 的自定义主题抓取

Hetiitrix 主题策略抓取主要分两种：基于链接和基于内容。

基于链接：扩展FrontierScheduler (是否作为候选URL，每个候选URL都创建一个线程)和扩展Extractor（对于页面的内容是否进行抽取）

核心代码的实现：

public classMyFrontierScheduler extends FrontierScheduler

{

private static final long serialVersionUID =-1074778906898000967L;

/**

* @param nameName of this filter.

publicMyFrontierScheduler(String name) {

super(name);

}

@Override

protected voidschedule(CandidateURI caUri) {

if(caUri.toString().contains("news")){

System.out.println(caUri.toString());

getController().getFrontier().schedule(caUri);

}

基于内容的主题抓取，核心代码为：

public class MyExtractor extends Extractor{

private String HERF ="<a(.*)href\\s*=\\s*(\"([^\"]*)\"|([^\\s>]*))(.*)>";

private String sinaUrl ="http://(.*)news.sina.com.cn(.*).shtml";

public MyExtractor(Stringname, String description) {

super(name,description);

}

public MyExtractor(String name) {

super(name, "sinaextrator");

}

private static final longserialVersionUID = -963034874191929396L;

@Override

protected voidextract(CrawlURI curi) {

String url="";

try {

HttpRecorder hr =curi.getHttpRecorder();

if(null == hr){

throw newException("httprecorder is null");

}

ReplayCharSequence rc = hr.getReplayCharSequence();

if(null == rc){

return ;

}

String context =rc.toString();

Pattern pattern =Pattern.compile(HERF,Pattern.CASE_INSENSITIVE);

Matcher matcher =pattern.matcher(context);

while(matcher.find()){

url =matcher.group(2);

url =url.replace("\"", "");

//System.out.println(url);

if(url.matches(sinaUrl)){

System.out.println(url);

<span style="color:#ff0000;">curi.createAndAddLinkRelativeToBase(url, context,Link.NAVLINK_HOP);</span>

}

} catch (Exception e) {

e.printStackTrace();

}

应用ELFHash 算法优化开启线程策略。在默认的情况下，Heritrix使用HostnameQueueAssignmentPolicy来产生key值，而这个策略是用hostname作为key值的，因此一个域名下的所有链接都会被放在同一个线程中去。如果对Heritrix分配URI时的策略进行改进，利用ELFHash“可执行链接格式”（Executable and Linking Format，即ELF）算法把url尽量平均分布到各个队列中去，就能用较多的线程同时抓取一个域名下的网页，速度将得到大大的提高。

ELFHash算法的实现如下：

// ELF Hash Function

unsigned int ELFHash(char *str)

{

int hash = 0;

int x = 0;

while (*str)

{

hash = (hash << 4) + (*str++);//hash左移4位，把当前字符ASCII存入hash低四位。

if ((x = hash & 0xF0000000L) != 0)

{

//该处理，如果最高位为0，就会仅仅影响5-8位，否则会影响5-31位，因为C语言使用的算数移位