图像采集--Urllib2

不懂开发的程序猿

已于 2024-07-03 13:14:20 修改

阅读量1.1k

点赞数 13

CC 4.0 BY-SA版权

分类专栏：数据标注与预处理实践文章标签：图像采集

于 2024-06-23 21:32:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44807756/article/details/139906638

⚠申明：未经许可，禁止以任何形式转载，若要引用，请标注链接地址。全文共计4526字，阅读大概需要10分钟
🌈更多学习内容，欢迎👏关注👀【文末】我的个人微信公众号：不懂开发的程序猿
⏰个人网站：https://jerry-jy.co/

❗❗❗知识付费，🈲止白嫖，有需要请后台私信或【文末】个人微信公众号联系我

图像采集

图像采集
说明

图像采集

任务背景

大数据的价值不在于存储数据本身，而在于如何挖掘数据，只有具备足够的数据源才可以挖掘出数据背后的价值，因此，获取大数据是非常重要的基础。
网络爬虫也叫网络蜘蛛、网络机器人。如今属于数据的时代，信息采集变得尤为重要，可以想象单单依靠人力去采集，是一件无比艰辛和困难的事情。网络爬虫的产生就是代替人力在互联网中自动进行信息采集和整理。
网络爬虫由控制节点、爬虫节点以及资源库构成，简单而言就是控制节点控制爬虫节点爬取和处理网页存储到资源库中。网络爬虫中有多个控制节点和爬虫节点，一个控制节点控制着多个爬虫节点，同一个控制节点下的多个爬虫节点可以相互通信，多个控制节点也可以相互通信。

任务需求

编写Python爬虫程序，爬取目标网页内容，保存图片数据
理解Python的Urllib2模拟浏览器原理，掌握Urllib2爬虫代码编写

任务分析

在这里插入图片描述

任务步骤

选取目标网页地址
打开编辑器，编写爬虫程序
启动爬虫程序
查看实验结果

任务结果

在这里插入图片描述

任务实施过程

模拟浏览器访问网页

知识点

Python的Urllib2模拟浏览器访问网页
Python的Urllib2模拟浏览器头信息

实验目的

理解python的Urllib2模拟浏览器原理
掌握Urllib2爬虫代码编写

实验内容

准备实验环境
创建Urllib2爬虫程序爬取页面

实验环境

Oracle Linux 7.4
Python 3.6.5

实验步骤

1.实验准备

点击桌面浏览器图标，打开浏览器
打开的浏览器地址栏中输入

http://localhost:8080/person_html/index.html

在这里插入图片描述

2.实验操作

单击桌面上的pycharm图标
单击Create New Project选项
弹出New project窗口

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不懂开发的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。