Python深度探索：迭代工具中的zip与zip

本文链接：https://blog.csdn.net/gitblog_00888/article/details/148989642

Python深度探索：迭代工具中的zip与zip_longest详解

引言

在Python编程中，处理多个可迭代对象是常见需求。本文将深入探讨Python中两个强大的迭代工具：内置的zip函数和itertools模块中的zip_longest函数。这些工具在数据处理、并行迭代等场景中非常实用。

基础zip函数

zip函数是Python内置的并行迭代工具，它接收多个可迭代对象作为参数，返回一个迭代器，该迭代器生成元组，其中每个元素来自对应的可迭代对象。

基本用法

l1 = [1, 2, 3, 4, 5]
l2 = [1, 2, 3, 4]
l3 = [1, 2, 3]

list(zip(l1, l2, l3))
# 输出: [(1, 1, 1), (2, 2, 2), (3, 3, 3)]

关键特性：

惰性求值：zip返回的是迭代器，不会立即计算所有结果
最短匹配原则：当任一输入可迭代对象耗尽时，迭代停止
支持任何可迭代对象：列表、元组、生成器、文件对象等

生成器与zip

zip与生成器配合使用时特别高效，因为两者都是惰性求值的：

def integers(n):
    for i in range(n):
        yield i
        
def squares(n):
    for i in range(n):
        yield i**2
        
def cubes(n):
    for i in range(n):
        yield i**3

iter1 = integers(6)
iter2 = squares(5)
iter3 = cubes(4)

list(zip(iter1, iter2, iter3))
# 输出: [(0, 0, 0), (1, 1, 1), (2, 4, 8), (3, 9, 27)]

进阶zip_longest函数

当我们需要按照最长可迭代对象的长度进行迭代时，itertools.zip_longest就派上用场了。

基本用法

from itertools import zip_longest

l1 = [1, 2, 3, 4, 5]
l2 = [1, 2, 3, 4]
l3 = [1, 2, 3]

list(zip_longest(l1, l2, l3, fillvalue='N/A'))
# 输出: [(1, 1, 1), (2, 2, 2), (3, 3, 3), (4, 4, 'N/A'), (5, 'N/A', 'N/A')]

关键特性：

最长匹配原则：迭代持续到所有可迭代对象耗尽
填充值：可以为耗尽的可迭代对象指定填充值（默认为None）
同样支持各种可迭代对象

注意事项

无限迭代器风险：使用zip_longest时要特别注意，如果任一输入是无限迭代器，将导致无限循环
内存考虑：与zip不同，zip_longest可能需要存储更多数据
填充值一致性：所有耗尽的可迭代对象使用相同的填充值

实际应用场景

数据对齐：当处理长度不等的多个数据序列时
并行处理：需要同时处理多个数据流中的对应元素
数据补全：在数据预处理阶段填充缺失值

性能比较

| 特性 | zip | zip_longest | |------------|-------------|-------------------| | 迭代终止条件 | 最短可迭代对象 | 最长可迭代对象 | | 内存效率 | 高 | 可能较低 | | 适用场景 | 等长数据处理 | 不等长数据补全处理 |