java 网络爬虫项目（4）_java爬取爱奇艺视频-CSDN博客

在Java网络爬虫项目中，遇到Chrome浏览器抓取XPath路径问题，可能由于Chrome自动补tbody标签导致结果为空。为解决这个问题，可以尝试手动删除多余的标签或更换浏览器。此外，由于部分视频网站数据获取难度增加，决定转向爬取CSDN博主的博客阅读数和评论数。解析页面功能实现涉及正则表达式的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

遇到的问题：

1使用 chrome浏览器抓取的 xpath路径不正确导致保存的结果为空

有可能因为chrome自动补tbody标签，可以手动删除或者换个浏览器就可以解决；

考虑到优酷、爱奇艺等视频网站已经无法获得每部电视剧电影的详细播放量等数据，仅凭热度以及评分进行排序的工作网站已经做好了排行榜，所以决定换一个爬虫爬取对象hh，打算对CSDN博主的博客的阅读数、评论数等数据进行爬取。另外还有知网程序设计、软件工程模块论文进行爬取

1.具体实现页面解析功能

包括正则表达式的应用

CSDNProcessService .java

package work.spider.service.impl;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.http.client.config.CookieSpecs;
import org.apache.http.client.config.RequestConfig;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;

import work.spider.entity.Page;
import work.spider.service.IProcessService;
/**
 * 
 *爱奇艺页面解析实现类
 * @auther lwr
 * create by 2020-03-13
 * */
public class CSDNProcessService implements IProcessService {
	private String allnumberRegex="^([1-9][0-9]*)|0$";
	private