原理分析:
- 分析下网站的html结构
- 用request获取网页内容,自动翻页
- 用xpath获取到每个列表的内容
- 存入到txt中备用。
网页结构:
打开网页后查看IP列、端口列的元素路径
代码实现:
# CopyRight@ 【一番码客】 - 效率软件推荐
import requests
from lxml import etree
def get_url(page):
'''
从快代理网站获取有效的免费代理ip列表
'''
proxy_fd = open("ip-proxy.txt", 'a+', encoding='utf-8')
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0",
"Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Accept-Encoding":"gzip, deflate",
"Connection":"keep-alive"
}
url_str ='https://www.kuaidaili.com/free/inha/'+ str(page)
# url_str ='https://www.kuaidaili.com/free/intr/'+ str(page)
html = r