【垂直搜索引擎搭建12】htmlparser简介

最新推荐文章于 2016-08-29 20:02:09 发布

小白xyz

最新推荐文章于 2016-08-29 20:02:09 发布

阅读量423

点赞数

CC 4.0 BY-SA版权

分类专栏： HtmlParser 搜索引擎搜索引擎实战

本文链接：https://blog.csdn.net/kevinelstri/article/details/52303054

搜索引擎同时被 3 个专栏收录

29 篇文章

订阅专栏

搜索引擎实战

19 篇文章

订阅专栏

HtmlParser

8 篇文章

订阅专栏

本文介绍了HtmlParser解析库的关键步骤及使用方法，包括通过Parser类创建解释器、创建Filter或Visitor，以及如何根据filter或visitor获取符合条件的节点，并对节点内容进行处理。文章还详细描述了HtmlParser对HTML页面处理的数据结构。

2、使用HtmlPaser的关键步骤

（1）通过Parser类创建一个解释器

（2）创建Filter或者Visitor

（3）使用parser根据filter或者visitor来取得所有符合条件的节点

（4）对节点内容进行处理

3、使用Parser的构造函数创建解释器

Parser()
Parser(Lexer lexer)
Parser(Lexer lexer, ParserFeedback fb)
Parser(String resource)
Parser(String resource, ParserFeedback feedback)
Parser(URLConnection connection)
Parser(URLConnection connection, ParserFeedback fb)

4、htmlparser对html页面处理的数据结构

这里写图片描述

HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。

Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现，Node定义了与页面树结构所表达的页面Page对象，定义了获取父、子、兄弟节点的方法，定义了节点到对应html文本的方法，定义了该节点对应的起止位置，定义了过滤方法，定义了Visitor访问机制。
AbstractNode是Node的一种具体的类实现，起到构成树形结构的作用，除了同具体Node相关的accetp方法，toString，toHtml，toPlainTextString方法以外，AbstractNode实现了大多基本的方法，使得它的子类，不用理会具体的树操作。
Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类，其中前者的基类是CompositeTag，其子类包含BodyTag,Div,FrameSetTag,OptionTag等27个子类；而简单Tag有BaseHrefTag、DoctypeTag,FrameTag，ImageTag，InputTag，JspTag，MetaTag，ProcessingInstructionTag这八类。

Node分成三类：

RemarkNode:代表Html中的注释
TagNode：标签节点，是种类最多的节点类型，上述Tag的具体节点类都是TagNode的实现。
TextNode：文本节点

5、Node中包含的方法

对于树型结构进行遍历的函数，这些函数最容易理解：

Node getParent ()：取得父节点
NodeList getChildren ()：取得子节点的列表
Node getFirstChild ()：取得第一个子节点
Node getLastChild ()：取得最后一个子节点
Node getPreviousSibling ()：取得前一个兄弟
Node getNextSibling ()：取得下一个兄弟节点

取得Node内容的函数：

String getText ()：取得文本
String toPlainTextString()：取得纯文本信息。
String toHtml () ：取得HTML信息（原始HTML）
String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
String toString ()：取得字符串信息（原始HTML）
Page getPage ()：取得这个Node对应的Page对象
int getStartPosition ()：取得这个Node在HTML页面中的起始位置
int getEndPosition ()：取得这个Node在HTML页面中的结束位置

用于Filter过滤的函数：

void collectInto (NodeList list, NodeFilter filter)：基于filter的条件对于这个节点进行过滤，符合条件的节点放到list中。

用于Visitor遍历的函数：

void accept (NodeVisitor visitor)：对这个Node应用visitor

用于修改内容的函数，这类用得比较少：

void setPage (Page page)：设置这个Node对应的Page对象
void setText (String text)：设置文本
void setChildren (NodeList children)：设置子节点列表

其他函数：

void doSemanticAction ()：执行这个Node对应的操作（只有少数Tag有对应的操作）
Object clone ()：接口Clone的抽象函数。

【垂直搜索引擎搭建12】htmlparser简介

1、相关资料

2、使用HtmlPaser的关键步骤

3、使用Parser的构造函数创建解释器

4、htmlparser对html页面处理的数据结构

5、Node中包含的方法