一、DuckDB 介绍
DuckDB 是一个开源的嵌入式分析型数据库,专为高性能 OLAP(联机分析处理)场景设计。它结合了轻量级嵌入、列式存储和向量化执行引擎,在 Python 生态中因其易用性和速度备受青睐。它的核心特点如下:
【嵌入式设计】
🟠 无需独立服务器,直接嵌入 Python 进程运行,类似 SQLite,但针对分析优化。
🟠 支持内存数据库(:memory:)或持久化到本地文件(如 demo.db)。
【列式存储与向量化引擎】
🟠 数据按列存储,减少 I/O 开销;查询时批量处理数据(矢量化),显著提升聚合、连接等操作性能。
【无缝集成数据科学生态】
🟠 直接读取 Pandas DataFrame、Polars DataFrame,无需数据复制。
🟠 支持 CSV、Parquet、JSON 等文件格式的零拷贝查询。
【兼容标准 SQL 】
🟠 支持完整 SQL 语法,包括窗口函数、复杂聚合、事务(ACID)等。
【高性能】
🟠 在百万级以上数据集的查询速度远超 Pandas/Polars,尤其适合大规模分析。
二、使用教程
1. 安装 duckdb 模块
pip install duckdb
2. 示例代码
2.1 创建数据库连接
import duckdb
# 连接到内存数据库
con = duckdb.connect()
# 连接到指定的文件数据库
conn = duckdb.connect('data.db')
2.2 查询 excel 文件
# 查询excel文件
sql = """
select 月份, 营收, 成本
from 'C:/工作/测试2.xlsx'
"""
# 执行sql语句
cursor = con.execute(sql)
# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()
2.3 查询 csv 文件
# 查询csv文件
# 注意:DuckDB 默认仅支持 UTF-8 编码的 CSV 文件
sql = """
select 月份, 营收, 成本
from 'C:/工作/测试3.csv'
"""
# 执行sql语句
cursor = con.execute(sql)
# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()
2.4 查询 json 文件
# 查询json文件
sql = """
select 月份, 营收, 成本
from 'C:/工作/测试1.json'
"""
# 执行sql语句
cursor = con.execute(sql)
# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()
2.5 多表联合查询
# 多表联合查询
sql = """
select t1.月份, t1.营收, t2.成本
from 'C:/工作/测试2.xlsx' t1
left join 'C:/工作/测试3.csv' t2 on t1.月份=t2.月份
inner join 'C:/工作/测试1.json' t3 on t1.月份=t3.月份
"""
# 执行sql语句
cursor = con.execute(sql)
# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()
2.6 查询多个文件
# 使用通配符 * 查询多个文件(注意:sql语句中用到的列名,必须在每个文件中都要存在)
sql = """
select * from 'C:/工作/2025-*.xlsx'
"""
# 执行sql语句
cursor = con.execute(sql)
# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()
2.7 导出查询结果
file_name = '查询结果.csv'
# COPY方式,适合大批量数据导出(注意:默认导出的 CSV 为 UTF-8 无 BOM 格式,并且无法在参数中指定编码)
con.execute(f"""
COPY ({sql})
TO {file_name}
WITH (FORMAT CSV, HEADER, DELIMITER ',')
""")
# pandas方式,适合中小型数据导出
result.to_csv(file_name, index=False, encoding='utf-8-sig')
2.8 遍历查询结果
# 小型数据可以使用 iterrows 方法进行遍历
for index, row in result.iterrows():
print(index, row['月份'], row['营收'])
# 大型数据推荐使用 itertuples 遍历
for row in result.itertuples():
print(row.Index, row.月份, row.营收)
🏷️ 如有疑问,可以关注 我的知识库,直接提问即可。