
java爬虫
study_azhuo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫-ElasticSearch
Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的分词器。(也就是说不同的分词器分词的规则是不同的!)在创建索引时会用到分词器,在搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果。...转载 2020-11-13 15:03:10 · 309 阅读 · 0 评论 -
webmagic-爬取51招聘信息
点击资料或前往github查看源码WebMagic使用springboot开启定时任务,使用自定义pipeline将数据存储到数据库,根据传入的url获取页面,和jquery相似的选择器方法解析页面存入自己想得到的信息ps:爬取前查看得到的html,会与网页的不一样package com.example.demo.task;import com.example.demo.pojo.JobInfo;import com.example.demo.utils.MathSalary;import原创 2020-11-10 22:18:08 · 317 阅读 · 0 评论 -
带参数传入url-java爬虫
Get请求带参数public class HttpGetParamTest { public static void main(String[] args) throws Exception { // 创建HttpClient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); // 设置请求地址是: http://yun.itheima.com/search?keys=原创 2020-11-05 01:02:48 · 287 阅读 · 0 评论 -
入门爬虫工具类编写
package com.example.demo.utils;import org.apache.http.client.config.RequestConfig;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpGet;import org.apache.http.impl.client.CloseableHttpClient;import原创 2020-11-05 00:49:52 · 162 阅读 · 0 评论