图像采集--Urllib2

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计4526字,阅读大概需要10分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
⏰个人网站:https://jerry-jy.co/

❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我

图像采集


任务背景

大数据的价值不在于存储数据本身,而在于如何挖掘数据,只有具备足够的数据源才可以挖掘出数据背后的价值,因此,获取大数据是非常重要的基础。
网络爬虫也叫网络蜘蛛、网络机器人。如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情。网络爬虫的产生就是代替人力在互联网中自动进行信息采集和整理。
网络爬虫由控制节点、爬虫节点以及资源库构成,简单而言就是控制节点控制爬虫节点爬取和处理网页存储到资源库中。网络爬虫中有多个控制节点和爬虫节点,一个控制节点控制着多个爬虫节点,同一个控制节点下的多个爬虫节点可以相互通信,多个控制节点也可以相互通信。

任务需求

  1. 编写Python爬虫程序,爬取目标网页内容,保存图片数据
  2. 理解Python的Urllib2模拟浏览器原理,掌握Urllib2爬虫代码编写

任务分析

在这里插入图片描述

任务步骤

  1. 选取目标网页地址
  2. 打开编辑器,编写爬虫程序
  3. 启动爬虫程序
  4. 查看实验结果

任务结果

在这里插入图片描述

任务实施过程

  1. 模拟浏览器访问网页

知识点

  1. Python的Urllib2模拟浏览器访问网页
  2. Python的Urllib2模拟浏览器头信息

实验目的

  1. 理解python的Urllib2模拟浏览器原理
  2. 掌握Urllib2爬虫代码编写

实验内容

  1. 准备实验环境
  2. 创建Urllib2爬虫程序爬取页面

实验环境

  1. Oracle Linux 7.4
  2. Python 3.6.5

实验步骤

1.实验准备

  1. 点击桌面浏览器图标,打开浏览器
    在这里插入图片描述

  2. 打开的浏览器地址栏中输入

http://localhost:8080/person_html/index.html

在这里插入图片描述

2.实验操作

  1. 单击桌面上的pycharm图标
    在这里插入图片描述

  2. 单击Create New Project选项
    在这里插入图片描述

  3. 弹出New project窗口

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不懂开发的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值