python 爬虫 代理池

本文介绍了一种使用Python爬取西刺代理网站免费代理IP的方法,通过分析网页源代码,利用XPath提取IP地址和连接速度,筛选出一秒内响应的高质量代理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先找一个免费的代理网站
在这里插入图片描述
获取请求地址
在这里插入图片描述
查看网页源码,分析提取规则
在这里插入图片描述
根据奇数偶数分别抓取xpath元素,再合并列表
在这里插入图片描述
设置详细提取规则,提取ip地址和连接速度
在这里插入图片描述
设置筛选条件,速度太慢的不要
在这里插入图片描述
这里直接判断第一位是0,因为一秒以下会抓取到一个字符串比如0.177之类的

最后上结果
在这里插入图片描述
一页爬下来,可用的大概70几个

以下是完整代码:

# 代理池
import requests
from lxml import etree

url = 'https://www.xicidaili.com/nn/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
response = requests.get(url,headers=headers)  # 先抓一页 暂时够用了
eroot = etree.HTML(response.text)
ip_odd_element_list = eroot.xpath('//*[@id="ip_list"]/tr[@class="odd"]')
ip_even_element_list = eroot.xpath('//*[@id="ip_list"]/tr[@class=""]')
ip_element_raw = ip_odd_element_list + ip_even_element_list
# 获取所有ip元素列表,因为一会儿要从同一个元素中取出速度信息

ip_list = []
for ip_element in ip_element_raw:
    ip = ip_element.xpath('./td[2]/text()')
    speed = ip_element.xpath('./td[7]/div[1]/@title')
    if speed[0][0] == '0' :       # 只要连接速度在一秒以内的
        ip_list.append(ip)

print(ip_list)
print(len(ip_list))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值