java 网络爬虫项目(4)

在Java网络爬虫项目中,遇到Chrome浏览器抓取XPath路径问题,可能由于Chrome自动补tbody标签导致结果为空。为解决这个问题,可以尝试手动删除多余的标签或更换浏览器。此外,由于部分视频网站数据获取难度增加,决定转向爬取CSDN博主的博客阅读数和评论数。解析页面功能实现涉及正则表达式的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

遇到的问题:

1使用 chrome浏览器抓取的 xpath路径不正确导致 保存的结果为空  

有可能因为chrome自动补tbody标签,可以手动删除或者换个浏览器就可以解决;

 

考虑到优酷、爱奇艺等视频网站已经无法获得每部电视剧电影的详细播放量等数据,仅凭热度以及评分进行排序的工作网站已经做好了排行榜,所以决定换一个爬虫爬取对象hh,打算对CSDN博主的博客的阅读数、评论数等数据进行爬取。另外还有知网程序设计、软件工程模块论文进行爬取

 

1.具体实现页面解析功能

包括正则表达式的应用

 CSDNProcessService .java

package work.spider.service.impl;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.http.client.config.CookieSpecs;
import org.apache.http.client.config.RequestConfig;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;

import work.spider.entity.Page;
import work.spider.service.IProcessService;
/**
 * 
 *爱奇艺页面解析实现类
 * @auther lwr
 * create by 2020-03-13
 * */
public class CSDNProcessService implements IProcessService {
	private String allnumberRegex="^([1-9][0-9]*)|0$";
	private 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值