数据分析神器 DuckDB:用sql语句来操作数据文件,支持csv,excel,json等文件

一、DuckDB 介绍

        DuckDB 是一个开源的嵌入式分析型数据库,专为高性能 OLAP(联机分析处理)场景设计。它结合了轻量级嵌入、列式存储和向量化执行引擎,在 Python 生态中因其易用性和速度备受青睐。它的核心特点如下:

【嵌入式设计】

🟠 无需独立服务器,直接嵌入 Python 进程运行,类似 SQLite,但针对分析优化。

🟠 支持内存数据库(:memory:)或持久化到本地文件(如 demo.db)。

【列式存储与向量化引擎】

🟠 数据按列存储,减少 I/O 开销;查询时批量处理数据(矢量化),显著提升聚合、连接等操作性能。

【无缝集成数据科学生态】

🟠 直接读取 Pandas DataFrame、Polars DataFrame,无需数据复制。

🟠 支持 CSV、Parquet、JSON 等文件格式的零拷贝查询。

【兼容标准 SQL 】

🟠 支持完整 SQL 语法,包括窗口函数、复杂聚合、事务(ACID)等。

【高性能】

🟠 在百万级以上数据集的查询速度远超 Pandas/Polars,尤其适合大规模分析。

二、使用教程

1. 安装 duckdb 模块
pip install duckdb
2. 示例代码

2.1 创建数据库连接

import duckdb

# 连接到内存数据库
con = duckdb.connect()

# 连接到指定的文件数据库
conn = duckdb.connect('data.db')

2.2 查询 excel 文件

# 查询excel文件
sql = """
    select 月份, 营收, 成本
    from 'C:/工作/测试2.xlsx'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.3 查询 csv 文件

# 查询csv文件
# 注意:DuckDB 默认仅支持 UTF-8 编码的 CSV 文件
sql = """
    select 月份, 营收, 成本
    from 'C:/工作/测试3.csv'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.4 查询 json 文件

# 查询json文件
sql = """
    select 月份, 营收, 成本
    from 'C:/工作/测试1.json'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.5 多表联合查询

# 多表联合查询
sql = """
    select t1.月份, t1.营收, t2.成本
    from 'C:/工作/测试2.xlsx' t1
    left join 'C:/工作/测试3.csv' t2 on t1.月份=t2.月份
    inner join 'C:/工作/测试1.json' t3 on t1.月份=t3.月份
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.6 查询多个文件

# 使用通配符 * 查询多个文件(注意:sql语句中用到的列名,必须在每个文件中都要存在)
sql = """
    select * from 'C:/工作/2025-*.xlsx'
"""

# 执行sql语句
cursor = con.execute(sql)

# 返回 pandas的DataFrame 对象
result = cursor.fetchdf()

2.7 导出查询结果

file_name = '查询结果.csv'
# COPY方式,适合大批量数据导出(注意:默认导出的 CSV 为 UTF-8 无 BOM 格式,并且无法在参数中指定编码)
con.execute(f"""
    COPY ({sql}) 
    TO {file_name} 
    WITH (FORMAT CSV, HEADER, DELIMITER ',')
""")

# pandas方式,适合中小型数据导出
result.to_csv(file_name, index=False, encoding='utf-8-sig')

2.8 遍历查询结果

# 小型数据可以使用 iterrows 方法进行遍历
for index, row in result.iterrows():
    print(index, row['月份'], row['营收'])

# 大型数据推荐使用 itertuples 遍历
for row in result.itertuples():
    print(row.Index, row.月份, row.营收)

🏷️ 如有疑问,可以关注 我的知识库,直接提问即可。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

富足奶茶

有钱的捧个钱场,没钱的点个赞吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值