⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计4526字,阅读大概需要10分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
⏰个人网站:https://jerry-jy.co/❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我
图像采集
任务背景
大数据的价值不在于存储数据本身,而在于如何挖掘数据,只有具备足够的数据源才可以挖掘出数据背后的价值,因此,获取大数据是非常重要的基础。
网络爬虫也叫网络蜘蛛、网络机器人。如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情。网络爬虫的产生就是代替人力在互联网中自动进行信息采集和整理。
网络爬虫由控制节点、爬虫节点以及资源库构成,简单而言就是控制节点控制爬虫节点爬取和处理网页存储到资源库中。网络爬虫中有多个控制节点和爬虫节点,一个控制节点控制着多个爬虫节点,同一个控制节点下的多个爬虫节点可以相互通信,多个控制节点也可以相互通信。
任务需求
- 编写Python爬虫程序,爬取目标网页内容,保存图片数据
- 理解Python的Urllib2模拟浏览器原理,掌握Urllib2爬虫代码编写
任务分析
任务步骤
- 选取目标网页地址
- 打开编辑器,编写爬虫程序
- 启动爬虫程序
- 查看实验结果
任务结果
任务实施过程
- 模拟浏览器访问网页
知识点
- Python的Urllib2模拟浏览器访问网页
- Python的Urllib2模拟浏览器头信息
实验目的
- 理解python的Urllib2模拟浏览器原理
- 掌握Urllib2爬虫代码编写
实验内容
- 准备实验环境
- 创建Urllib2爬虫程序爬取页面
实验环境
- Oracle Linux 7.4
- Python 3.6.5
实验步骤
1.实验准备
-
点击桌面浏览器图标,打开浏览器
-
打开的浏览器地址栏中输入
http://localhost:8080/person_html/index.html
2.实验操作
-
单击桌面上的pycharm图标
-
单击Create New Project选项
-
弹出New project窗口