
网络爬虫
hxxjxw
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python网络爬虫与信息提取(一)(Wing & Canopy)
相关基础知识和概念 掌握定向网络数据爬取和网页解析能力 The Website is the API Requests库:自动爬取HTML页面,自动网络请求提交 robots.txt:网络爬虫排除标准 BeautifulSoup库:解析HTML页面,提取相关信息 Re库:正则表达式库。通过正则表达式的使用可以在页面中提取我们最关心的关键信息 Scrapy:专业网络爬虫的框架 pyt...原创 2019-05-05 17:38:13 · 366 阅读 · 0 评论 -
Python网络爬虫与信息提取(二):网络爬虫之规则(Requests库 & Robots规则)
Requests库的7个主要方法 Requests库的get()方法 获得一个网页最简单的一行代码就是 r = requests.get(url) Requests库支持6种常用的连接异常 raise_for_status() 方法 response这样一个对象返回了所有的网页内容,它也提供了一个方法:raise_for_status(),这个方法是专门与异常打...原创 2019-05-05 18:25:31 · 1332 阅读 · 0 评论 -
Python网络爬虫与信息提取(三):网络爬虫之提取(Beautifulsoup bs4)
Beautifulsoup库简介 Beautifulsoup,又叫美丽汤,是一个优秀的python第三方库,能够对html,xml进行解析,并且提取其中的相关信息。 Beautifulsoup的使用原理是他能够吧任何你给他的文档当做一锅汤,然后给你煲制这锅汤 import requests r = requests.get('http://python123.io/ws/demo....原创 2019-05-20 22:18:09 · 813 阅读 · 2 评论 -
Python—Scrapy爬虫框架
scrapy爬虫框架 scrapy是一个功能强大的网络爬虫框架 scrapy不是一个函数功能库,而是一个爬虫框架 scrapy爬虫框架一共包含7个部分,称为“5+2”结构。5个部分是框架的主体部分,另外包含2个中间件 中间件之一 spiders是整个爬虫框架最核心的一个单元 中间件之二 requesus库和scrapy爬虫比较 scrapy是基于异步结构设...原创 2019-05-26 08:58:59 · 790 阅读 · 2 评论 -
Python网络爬虫与信息提取(四):网络爬虫之实战(淘宝商品比价 & 股票数据)
正则表达式 正则表达式的概念 regular expression RE 正则表达式是用来简洁表达一组字符串的表达式 一行胜千言 正则表达式的语法 正则表达式语法由字符和操作符构成 Re库的基本使用 Re库是python的标准库,主要用于字符串匹配 即“\”不被解释为转义符 import re match = re.sea...原创 2019-05-23 14:50:11 · 533 阅读 · 0 评论