基于Java爬取微博数据(一) 微博主页正文列表数据-CSDN博客

本文链接：https://blog.csdn.net/cnzzs/article/details/141537896

基于Java爬取微博数据一微博主页正文列表数据

爬虫背景
爬虫分析
爬取数据
注意点

爬虫背景

最近有这方面的需求，于是就研究了一下通过Java爬取微博数据，由于本人是后端Java开发，因此没有研究其他爬取微博数据的方法，比如通过Python爬取微博数据。大家感兴趣的可以自行查找基于Python爬取微博数据的方法。在爬取微博数据之前，先声明一下，本人爬取的微博数据仅用于测试Java爬取微博数据的可行性，并不会用于其他非正当地方，另外，爬取的数据也都是每个人都可以通过微博客户端正常看到的，不存在爬取隐秘数据的情况。大家在进行爬取数据的操作时也应注意不该爬取非授权数据，防止给自喜提“非法获取计算机信息系统数据罪”“破坏计算机信息系统罪”等。一切爬虫操作都应在合法合规的情况下进行。

爬虫分析

在进行爬虫操作之前，我们先来看一下微博客户端的页面结构，以及对应的请求链接，数据响应情况等，方便为后续爬取微博数据做准备。比如这里打开一个环球网的微博主页：https://weibo.com/u/1686546714 可以看到

基于Java爬取微博数据(一) 微博主页正文列表数据_爬数据

那么我们打开浏览器开发者工具，按F12键，打开开发者工具，选择【网络】或者【network】，然后再次刷新当前页面可以看到如下请求

基于Java爬取微博数据(一) 微博主页正文列表数据_java_02

点击对应的URL，查看URL的响应，最终会找到请求链接 /ajax/statuses/mymblog?uid=1686546714&page=1&feature=0 的响应正是我们需要爬取的数据内容来源

到这里，确定了数据来源URL之后，我们就可以进行后续的爬取数据操作了。

爬取数据

整个爬取数据操作我们需要用到两个 jar 包 hutool-all 、 fastjson ，那么我们需要首先在项目 pom.xml 文件中引入这两个 jar 包

<!-- hutool-all -->
<dependency>
  <groupId>cn.hutool</groupId>
  <artifactId>hutool-all</artifactId>
  <version> 5.3.4</version>
</dependency>
<!-- 阿里JSON解析器 -->
<dependency>
  <groupId>com.alibaba</groupId>
  <artifactId>fastjson</artifactId>
  <version>1.2.80</version>
</dependency>