- 博客(3)
- 收藏
- 关注
原创 python3网络爬虫-urllib.request模块
1. urllib.request模块基础使用 python中有很多网页抓取的库,python2中常用urllib+urllib2,python3中统一成了urllib库,urllib包中包含了四个模块:urllib.request、urllib.error、urllib.parse、urllib.robotparser。 urllib.request用于请求url和读取url的结果。 ur...
2018-07-30 19:47:15
641
原创 wireshark抓包分析TCP三次握手和四次挥手的过程
1. TCP的通信过程 TCP连接的建立需要经过三次握手,连接的关闭需要经过四次挥手。读TCP/IP协议不是很好理解,通过工具手动抓包分析会对协议有更深刻的理解。因为工作中经常用到wireshark,所以就通过wireshark来分析,记录自己的学习过程。 TCP的整个通信过程如下图所示: 2. TCP的三次握手过程 下图是wireshark抓取的浏览器与web...
2018-07-25 14:34:14
19525
5
原创 python3网络爬虫-介绍
大家都说现在是“大数据时代”,然而数据从何而来?如果需要的数据市场上没有,或者不愿意花钱购买,可以通过网络爬虫的方式从万维网上抓取想要的数据。1. 爬虫的分类根据使用场景不同,网络爬虫可以分为通用爬虫和聚焦爬虫两种。2. 爬虫的基础-HTTP协议基本原理网络爬虫抓取数据的过程可以理解为模拟浏览器操作的过程,因此在学习爬虫之前要先学习HTTP协议的原理。HTTP协议(Hyper Text Trans...
2018-06-25 19:35:53
1138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人