爬虫扩展——网站爬取 URL 去重方法

举例：就假设一个网站有 1 亿个 URL，每个 URL 假设有 50 个字符，按照 python 的编码格式 Unicode，按每个字符 2 个字节算，那么需要多大的内存来保存这些 URL 呢？100000000 * 2 byte * 50 个字符 / 1024 / 1024 / 1024 ≈ 9G ，那么 2 亿条就需要 18G 的内存，3 亿条就需要 27G 的内存，这是多么恐怖的内存数字。

哈希后保存到set中

URL 经过 md5 等方法哈希之后保存到 set 中（Scrapy 框架采取的 URL 去重方法就是类似这种方法）

优点：效率很高，查询快

缺点：耗内存（但相对第二种方法，已经缩小了几倍的内存）

举例：md5 编码能够将一个字符缩减到固定的长度，md5 的一般编码长度是128bit，那么就是 16byte，还是按照 1 亿个 URL 计算，需要耗费多大的内存来保存这些 URL 呢？

100000000 * 16 byte / 1024 / 1024 / 1024 ≈ 1.5G

代码举例：

# 实现功能：将 URL 通过 md5 哈希之后，得到一个固定长度的字符串
import hashlib
def get_md5(url):
    if isinstance(url, str):
        url = url.encode('utf-8')
        m = hashlib.md5(url)
    return m.digest()
result = get_md5('https://www.baidu.com')
print(result)
print(len(result))

bitmap 方法

用 bitmap 方法，将访问过的 URL 通过 hash 函数映射到某一位上，也就是某一个 bit 上；

优点：进一步压缩了保存 URL 需耗费的内存；

缺点：哈希冲突很高，不太适用；

举例：一个 byte 有 8 个 bit，也就是 8 个位，bitmap 就是将一个 URL 通过 hash 函数，将它映射到 8 个位上的某一个位上，这样就进一步压缩了保存 URL 需耗费的内存，但极有可能将多个 URL 映射到了同一个位上，也就造成了哈希冲突，造成哈希冲突后，就需要向下寻址，有兴趣的童鞋可以网上搜索哈希冲突的解决方法。

bloomfilter 方法

bloomfilter 方法对 bitmap 进行改进，多重 hash 函数降低哈希冲突；

优点：既保留了 bitmap 的内存压缩优点，又良好解决了哈希冲突；

缺点：难以理解；

举例：还是按照 1 亿个 URL 来计算，采用这种方法需要占用多大的内存呢？

100000000 * 1 bit / 8 / 1024 / 1024/ 1024 ≈ 12M

当然这只是理想状况，尽管 bloomfilter 对 bitmap 进行了优化，但不可避免地还是会有哈希冲突的发生，导致内存是 12M 只是一种理想状况下的数字，实际上肯定不止12M，但无论如何，和之前的几种方法比较，内存还是成倍地进行了压缩；