16.python 爬虫-python如何访问互联网

本文详细解析了URL的组成部分,包括协议、主机名、路径等,并介绍了如何使用Python的urllib.request模块下的open函数来访问网页。了解这些基础知识对于进行网络爬虫开发和网页数据抓取至关重要。

1.URL格式:protocol://hostname[:port]/path/[;parameters][query]#fragment

三部分组成:

第一部分是protocol即协议:http、https、ftp、file、ed2k...

第二部分是hostname即:域名或者IP地址

第三部分是资源的路径(目录名或者文件名)

2.想要访问网页,需要使用urllib.request下的open函数

格式:

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值