数据分析神器 DuckDB：用sql语句来操作数据文件，支持csv，excel，json等文件-CSDN博客

本博客所有原创文章（包括但不限于文字、代码、图表、多媒体内容等）均受《中华人民共和国著作权法》保护，未经授权禁止任何形式的商业性使用。

一、DuckDB 介绍

DuckDB 是一个开源的嵌入式分析型数据库，专为高性能 OLAP（联机分析处理）场景设计。它结合了轻量级嵌入、列式存储和向量化执行引擎，在 Python 生态中因其易用性和速度备受青睐。它的核心特点如下：

【嵌入式设计】

🟠 无需独立服务器，直接嵌入 Python 进程运行，类似 SQLite，但针对分析优化。

🟠 支持内存数据库（:memory:）或持久化到本地文件（如 demo.db）。

【列式存储与向量化引擎】

🟠 数据按列存储，减少 I/O 开销；查询时批量处理数据（矢量化），显著提升聚合、连接等操作性能。

【无缝集成数据科学生态】

🟠 直接读取 Pandas DataFrame、Polars DataFrame，无需数据复制。

🟠 支持 CSV、Parquet、JSON 等文件格式的零拷贝查询。

【兼容标准 SQL 】

🟠 支持完整 SQL 语法，包括窗口函数、复杂聚合、事务（ACID）等。

【高性能】

🟠 在百万级以上数据集的查询速度远超 Pandas/Polars，尤其适合大规模分析。

二、使用教程

1. 安装 duckdb 模块

pip install duckdb

2. 示例代码

2.1 创建数据库连接

import duckdb

# 连接到内存数据库
con = duckdb.connect()

# 连接到指定的文件数据库
conn = duckdb.connect('data.db')

2.2 查询 excel 文件

# 查询excel文件
sql = """
    select 月份, 营收, 成本
    from 'C:/工作/测试2.xlsx'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.3 查询 csv 文件

# 查询csv文件
# 注意：DuckDB 默认仅支持 UTF-8 编码的 CSV 文件
sql = """
    select 月份, 营收, 成本
    from 'C:/工作/测试3.csv'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.4 查询 json 文件

# 查询json文件
sql = """
    select 月份, 营收, 成本
    from 'C:/工作/测试1.json'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.5 多表联合查询

# 多表联合查询
sql = """
    select t1.月份, t1.营收, t2.成本
    from 'C:/工作/测试2.xlsx' t1
    left join 'C:/工作/测试3.csv' t2 on t1.月份=t2.月份
    inner join 'C:/工作/测试1.json' t3 on t1.月份=t3.月份
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.6 查询多个文件

# 使用通配符 * 查询多个文件（注意：sql语句中用到的列名，必须在每个文件中都要存在）
sql = """
    select * from 'C:/工作/2025-*.xlsx'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.7 导出查询结果

file_name = '查询结果.csv'
# COPY方式，适合大批量数据导出（注意：默认导出的 CSV 为 UTF-8 无 BOM 格式，并且无法在参数中指定编码）
con.execute(f"""
    COPY ({sql}) 
    TO {file_name} 
    WITH (FORMAT CSV, HEADER, DELIMITER ',')
""")

# pandas方式，适合中小型数据导出
result.to_csv(file_name, index=False, encoding='utf-8-sig')

2.8 遍历查询结果

# 小型数据可以使用 iterrows 方法进行遍历
for index, row in result.iterrows():
    print(index, row['月份'], row['营收'])

# 大型数据推荐使用 itertuples 遍历
for row in result.itertuples():
    print(row.Index, row.月份, row.营收)

🏷️ 如有疑问，可以关注我的知识库，直接提问即可。