分布式爬虫去重：Python + Redis实现高效URL去重

2025-05-07 185

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： 分布式爬虫去重：Python + Redis实现高效URL去重

引言
在互联网数据采集（爬虫）过程中，URL去重是一个关键问题。如果不对URL进行去重，爬虫可能会重复抓取相同页面，导致资源浪费、数据冗余，甚至触发目标网站的反爬机制。
对于单机爬虫，可以使用Python内置的set()或dict进行去重，但在分布式爬虫环境下，多个爬虫节点同时工作时，内存级的去重方式不再适用。此时，需要一个共享存储来管理已爬取的URL，而Redis凭借其高性能、低延迟和分布式支持，成为理想选择。
URL去重的常见方法
2.1 基于内存的去重（单机适用）
Python set()
最简单的去重方式，适用于小规模数据，但无法持久化，重启后数据丢失。
visited_urls = set()
if url not in visited_urls:
visited_urls.add(url)
抓取逻辑
● Bloom Filter（布隆过滤器）
节省内存，但有一定误判率（可能误判未访问的URL为已访问），适用于海量URL去重。
2.2 基于数据库的去重（分布式适用）
● Redis Set / Redis HyperLogLog
○ SET 结构存储URL，精确去重（100%准确）。
○ HyperLogLog 适用于统计不重复元素数量（有一定误差，但占用内存极小）。
● 关系型数据库（MySQL, PostgreSQL）
通过UNIQUE约束去重，但性能较低，不适合高并发爬虫。
● 分布式键值存储（如Memcached）
类似Redis，但功能较少，通常仅用于缓存。
Redis 在分布式爬虫去重中的优势
Redis 是一个高性能的内存数据库，支持多种数据结构，适用于分布式爬虫去重，主要优势包括：
高性能：数据存储在内存中，读写速度极快（10万+ QPS）。
持久化：支持RDB/AOF持久化，避免数据丢失。
分布式支持：可通过集群模式扩展，支持多爬虫节点共享数据。
丰富的数据结构：SET（精确去重）、HyperLogLog（近似去重）、Bitmap（位图去重）等。
Python + Redis 实现分布式URL去重
4.1 方案1：使用 Redis Set 精确去重
import redis

class RedisUrlDedupe:
def init(self, redis_host='localhost', redis_port=6379, redis_db=0):
self.redis = redis.StrictRedis(
host=redis_host, port=redis_port, db=redis_db
)
self.key = "visited_urls"

def is_visited(self, url):
    """检查URL是否已访问"""
    return self.redis.sismember(self.key, url)

def mark_visited(self, url):
    """标记URL为已访问"""
    self.redis.sadd(self.key, url)

示例用法

deduper = RedisUrlDedupe()
url = "https://example.com/page1"

if not deduper.is_visited(url):
deduper.mark_visited(url)
print(f"抓取: {url}")
else:
print(f"已访问: {url}")
优点：
● 100% 准确，无误差。
● 适用于中小规模爬虫（百万级URL）。
缺点：
● 存储所有URL，内存占用较高。
4.2 方案2：使用 Redis HyperLogLog 近似去重
如果允许少量误差（~0.8%），可使用HyperLogLog节省内存：
class RedisHyperLogLogDedupe:
def init(self, redis_host='localhost', redis_port=6379, redis_db=0):
self.redis = redis.StrictRedis(
host=redis_host, port=redis_port, db=redis_db
)
self.key = "hll_visited_urls"

def is_visited(self, url):
    """检查URL是否可能已访问（可能有误判）"""
    before = self.redis.pfcount(self.key)
    after = self.redis.pfadd(self.key, url)
    return after == 0  # 如果添加后计数未变，说明可能已存在

示例用法

hll_deduper = RedisHyperLogLogDedupe()
url = "https://example.com/page1"

if not hll_deduper.is_visited(url):
print(f"抓取: {url}")
else:
print(f"可能已访问: {url}")
优点：
● 内存占用极低（12KB可存储数亿URL）。
● 适用于超大规模爬虫（如全网爬取）。
缺点：
● 有少量误判（可能将未访问的URL误判为已访问）。
4.3 方案3：使用 Redis Bloom Filter（需安装RedisBloom模块）
Redis 官方提供 RedisBloom 模块，支持布隆过滤器（需额外安装）：

需确保Redis服务器加载了RedisBloom模块

class RedisBloomFilterDedupe:
def init(self, redis_host='localhost', redis_port=6379, redis_db=0):
self.redis = redis.StrictRedis(
host=redis_host, port=redis_port, db=redis_db
)
self.key = "bloom_visited_urls"

def is_visited(self, url):
    """检查URL是否可能已访问（可能有误判）"""
    return self.redis.execute_command("BF.EXISTS", self.key, url)

def mark_visited(self, url):
    """标记URL为已访问"""
    self.redis.execute_command("BF.ADD", self.key, url)

示例用法

bloom_deduper = RedisBloomFilterDedupe()
url = "https://example.com/page1"

if not bloom_deduper.is_visited(url):
bloom_deduper.mark_visited(url)
print(f"抓取: {url}")
else:
print(f"可能已访问: {url}")
优点：
● 内存占用低，误判率可控。
● 适用于海量URL去重。
缺点：
● 需要额外安装RedisBloom模块。

性能优化与对比
方法准确率内存占用适用场景
Redis Set 100% 高中小规模爬虫（<1000万URL）
Redis HyperLogLog ~99.2% 极低超大规模爬虫（允许少量误判）
Redis Bloom Filter 可调中海量URL（需额外模块）
优化建议：
短URL优化：存储URL的MD5或SHA1哈希值（减少内存占用）。
分片存储：按域名或哈希分片，避免单个Key过大。
TTL过期：设置过期时间，避免长期累积无用URL。
结论
在分布式爬虫中，Redis 是URL去重的理想选择，支持多种数据结构：
● 精确去重 → Redis Set
● 低内存消耗 → HyperLogLog
● 可控误判率 → Bloom Filter
通过合理选择方案，可以显著提升爬虫效率，避免重复抓取。本文提供的Python代码可直接集成到Scrapy或其他爬虫框架中，助力高效数据采集。

分布式爬虫去重：Python + Redis实现高效URL去重

抓取逻辑

示例用法

示例用法

需确保Redis服务器加载了RedisBloom模块

示例用法

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

推荐镜像