遇到的问题:
1使用 chrome浏览器抓取的 xpath路径不正确导致 保存的结果为空
有可能因为chrome自动补tbody标签,可以手动删除或者换个浏览器就可以解决;
考虑到优酷、爱奇艺等视频网站已经无法获得每部电视剧电影的详细播放量等数据,仅凭热度以及评分进行排序的工作网站已经做好了排行榜,所以决定换一个爬虫爬取对象hh,打算对CSDN博主的博客的阅读数、评论数等数据进行爬取。另外还有知网程序设计、软件工程模块论文进行爬取
1.具体实现页面解析功能
包括正则表达式的应用
CSDNProcessService .java
package work.spider.service.impl;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.http.client.config.CookieSpecs;
import org.apache.http.client.config.RequestConfig;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;
import work.spider.entity.Page;
import work.spider.service.IProcessService;
/**
*
*爱奇艺页面解析实现类
* @auther lwr
* create by 2020-03-13
* */
public class CSDNProcessService implements IProcessService {
private String allnumberRegex="^([1-9][0-9]*)|0$";
private