pandas处理parquet timestamp出的车祸

最新推荐文章于 2025-03-04 07:30:00 发布

原创最新推荐文章于 2025-03-04 07:30:00 发布 · 237 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #spark

问题

要对parquet文件进行匿名化处理，需要读写parquet文件，我用了pandas库进行处理，但是遇到了timestamp精度的问题。当时以为只是简单的精度截断，不影响最终效果，所以没太在意，结果截断之后不能用spark读取了，因为spark无法读取早于1900年的timestamp，而截断导致9999-m-d变成了1816-m-d。
说来轻松，但是定位bug到这里还是费了亿番功夫。测试发现使用pandas和pyarrow都存在这样的问题。使用了参数allow_truncated_timestamps，这会导致截断。但是使用了use_deprecated_int96_timestamps仍然会导致截断，不清楚具体原因

结论

用spark处理parquets

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ColorfulChicken

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python读parquet文件 pandas读parquet文件

Learning

05-08

3万+

用python读parquet格式的文件

新一代列式存储格式Parquet

热门推荐

Hello World

03-27

3万+

Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持（Hive、Impala、Drill等），并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，

1 条评论您还未登录，请先登录后发表或查看评论

关于pandas&python读取parquet文件

Lian_Ge_Blog的博客

07-26

5304

1 如何获取python包的历史版本 2 如何读取parquet文件

Parquet的timestamp类型转为long

yingkongshi99的专栏

05-20

5251

由于sparksql使用parquet文件存储数据时，有个默认参数spark.sql.parquet.int96AsTimestamp为true，即为保持精度，使用96位的int来存储Timestamp类型，这就为使用java代码解析Timestamp类型带来了麻烦，下面为转换工具类。 package com.le.tp.digitalmarketing.hotword.util; im

Pandas使用教程 - Pandas 与 Parquet 数据交互

qq_42568323的博客

03-04

1315

高效压缩：列式存储使得相同类型的数据聚集在一起，能够更好地利用压缩算法，从而减少存储空间。快速查询：由于数据按列存储，查询时可以只加载需要的列，提高 I/O 效率。跨平台支持：Parquet 被广泛支持于 Hadoop、Spark、Dask 等大数据处理框架，是现代数据仓库和数据湖中常用的格式。Xxiji1mj1nXxiji1mj1n其中 ( m ) 为行数，( n ) 为列数。列式存储的优势在于可以对每一列单独进行高效的压缩和查询。

pandas parquet文件读取pyarrow、feather文件保存与读取；requests 或wget下载图片文件

weixin_42357472的博客

01-11

5641

安装 fastparquet哭，需要安装python-snappy ,一直安装错误，所以使用了pyarrow pip install pyarrow 参考：https://arrow.apache.org/docs/python/ import glob import pandas as pd import pyarrow.parquet as pq aaaaa = glob.glob(r'C:\Users\lo理\oss数据\*') kkk = [] for i in aaaaa: print

【Pandas】pandas.read_parquet详解与实战应用：读取 Parquet 格式数据

科技改变人类，技术成就未来

08-03

2246

Parquet 是一种开放的列式存储格式，尤其适用于大数据处理框架，如 Apache Hadoop、Apache Spark 和 Apache Drill 等。Pandas 提供了 read_parquet 函数，用于从 Parquet 文件中读取数据，并将其转换为 Pandas DataFrame。这篇博客将详细讲解 read_parquet 方法，包括其作用、使用方法、参数详解、示例代码以及注意事项。

sqoop import hive parquet表timestamp,decimal转换问题

docsz的博客

12-24

1620

sqoop mysql导入hive parquet表timestamp,decimal

Hive底层文件存储类型parquet

resin_404的博客

06-09

5114

Hive作为数据仓库常用工具之一，在数据量级越来越大的时候，存储问题会暴露出来。那么在之前大部分为了省事方便都会以TextFile*作为存储类型，此类型比较占存储，并且查询效率并不是很高。为了节省集群的存储空间，研究了各种存储类型，网上各类帖子已经把这几类的优缺点和使用场景说的非常明确。我在这稍微提及一下，主要想分享我在使用sqoop抽取数据时进行文件类型转换（parquet）遇到的坑，共享出来希望遇到此问题的朋友借鉴，减少不必要时间消耗。* 一、概述一下各类文件类型的优缺点 1.TextFile 行存储，

简单理解parquet文件格式——按列存储和元数据存储

zhang35的博客

01-03

1万+

简介 Apache Parquet是一种常见的列式存储文件格式，常用于Pig, Spark, Hive等大数据组件中，其后缀是.parquet。核心特点有：跨平台可被各种文件系统识别的格式按列存储数据存储元数据下面详细介绍第3、4个特点。列式存储假设有以下数据表： #> id name age #> <int> <chr> <dbl> #> 1 1 n1 20 #> 2 2 n2

pandas读取parquet报错

追梦小狂魔的博客

03-06

2004

安装pyarrow库即可 pip install pyarrow

理解parquet及其生态

漫步量化

08-14

2751

Apache Parquet Wikipedia Official site From wikipedia, Apache Parquet is a free and open-source column-oriented data storage format of the Apache Hadoop ecosystem. History The open-source project to build Apache Parquet began as a joint effort be..

Parquet does not support Timestamp Datatype?

u011988701的博客

03-11

1356

之前用spark1.3.1整合hive1.2.1 各种问题，spark升级为1.6.1 问题解决。

sqoop从mysql导入hive parquet表timestamp,decimal转换问题

技术博客

04-24

2289

注意两个地方： 1.时间转换问题：timestamp、date，time 以上时间类型会被sqoop转成int,long型，无法直接转成时间类型如果要转的有两个办法： 1）转成long型，再用from_unixtime转回来，才能看时间（太麻烦）-----parquet表的类型对应为bigint select *, from_unixtime(cast(SOURCE_LOAD_DATE as ...

使用python编写csv转parquet脚本

vah101的专栏

09-22

5241

from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * def parse(line): items = line.split(",") return (long(items[0]), items[1], float(it

python读取hdfs上的parquet文件以及python访问hdfs HA的三种方法

haveanybody的博客

04-13

1万+

python读取hdfs上的parquet文件在使用python做大数据和机器学习处理过程中，首先需要读取hdfs数据，对于常用格式数据一般比较容易读取，parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以)： 1、安装anaconda环境。 2、安装hdfs3。 conda install hdfs3 ...

java读parquet文件乱码,Hadoop系统Parquet文件的Timestamp类型的时区问题

weixin_28987465的博客

03-16

551

Hive在0.8的版本后开始支持Timestamp的格式。Hive在储存时间戳的时候会先把时间转成UTC的时间，然后再把转换后的时间存储到Parquet文件中。在读取Parquet文件的时候Hive会把时间从UTC时间再转化回成本地的时间。这样的话，如果存和读取都是用Hive的话，时间不会有任何的问题。上述说的是用Parquet文件来存取时间格式流程，如果是存成普通的文本文件的话，存取都不会进行任...

pandas高效读取大文件(csv)方法之-parquet

ningyanggege的博客

01-22

7541

加载csv数据内存溢出及加载速度过慢的方法

sql和pandas处理股票数据哪个更好用

最新发布

03-29

<think>好的，用户现在问的是SQL和Pandas在处理股票数据时哪个更好用。首先，我需要回顾一下之前的对话历史。用户之前询问过学习Python量化的路径，其中提到了Pandas作为数据处理的重要工具，还有阶段三提到了使用数据库存储数据，可能涉及SQL。现在用户可能已经进入实践阶段，需要处理实际的股票数据，因此想知道这两种工具哪个更适合。接下来，我需要分析用户的需求。用户可能是在实际处理数据时遇到了选择工具的困惑，或者想要优化现有流程。用户可能对SQL和Pandas都有一定的了解，但不确定在特定场景下哪种更高效或更适合。需要比较两者的优缺点，帮助用户根据具体情况做选择。首先，明确两者的基本用途。SQL主要用于数据库管理，处理结构化数据，适合复杂的查询和数据聚合，尤其是在数据量大的情况下。而Pandas是Python的数据分析库，适合数据清洗、转换和探索性分析，特别是在需要灵活操作和数据可视化的时候。然后，考虑股票数据的特性。股票数据通常是时间序列数据，包含日期、开盘价、收盘价、成交量等字段，数据量可能很大，尤其是高频交易数据。处理这类数据需要高效的查询和计算能力，同时可能涉及复杂的时间序列分析。接下来，比较SQL和Pandas在处理股票数据时的不同应用场景。比如，数据存储和查询方面，SQL更适合长期存储和快速检索，特别是当数据量超过内存时，可以通过索引优化查询速度。而Pandas适合在内存中进行数据操作，但处理大数据时可能遇到性能问题。另外，用户可能关心易用性和学习曲线。Pandas作为Python库，对于已经学习Python量化路径的用户来说可能更熟悉，而SQL需要掌握另一种语言，但如果有数据库管理需求，SQL则是必要的。还需要考虑两者的结合使用。比如，使用SQL从数据库中提取数据，再用Pandas进行进一步处理和分析，这样可能发挥两者的优势。比如在量化流程中，可能用SQL存储历史数据，用Pandas做策略回测。另外，要提到实际案例。例如，处理多只股票的历史数据时，SQL可以高效地按股票代码或日期范围查询，而Pandas可以方便地计算移动平均线或其他技术指标。同时，要注意用户可能的隐藏需求，比如处理实时数据还是历史数据，数据规模的大小，是否需要并行处理等。这些因素也会影响工具的选择。最后，总结两者的适用场景，给出建议，根据用户的具体需求选择合适的工具，或者结合使用，以提高效率和灵活性。</think>以下是SQL与Pandas在股票数据处理中的对比分析及使用建议，结合量化场景的核心需求： --- ### 一、基础特性对比 | **维度** | **SQL** | **Pandas** | |-------------------|----------------------------------|---------------------------------| | 适用场景 | 大规模数据存储与快速检索 | 内存级数据处理与复杂计算 | | 数据规模 | 支持TB级数据（依赖数据库性能） | 适合内存能容纳的数据（通常<100GB）| | 语法特性 | 声明式语言（描述"要什么"） | 命令式编程（指定"怎么做"） | | 执行环境 | 需数据库服务（MySQL/PostgreSQL等）| 纯Python环境 | --- ### 二、股票数据处理关键场景对比 #### 场景1：高频交易数据查询（1亿条记录） - **SQL优势示例**： ```sql -- 查询2023年苹果(AAPL)股票每分钟成交量>10000手的时段 SELECT timestamp, volume FROM tick_data WHERE symbol = 'AAPL' AND DATE(timestamp) = '2023-01-01' AND volume > 10000 -- 使用索引后响应时间<0.5秒 ``` - **Pandas局限**： ```python df = pd.read_parquet('tick_data.parquet') # 加载20GB文件需2分钟 filtered = df[(df['symbol']=='AAPL') & (df['volume']>10000)] ``` #### 场景2：技术指标计算（20日移动均线） - **Pandas优势示例**： ```python df['MA20'] = df.groupby('symbol')['close'].rolling(20).mean().reset_index(0, drop=True) # 支持向量化运算，处理10万条数据仅需0.3秒 ``` - **SQL局限**： ```sql -- 需要窗口函数且语法复杂 SELECT symbol, date, AVG(close) OVER ( PARTITION BY symbol ORDER BY date ROWS BETWEEN 19 PRECEDING AND CURRENT ROW ) AS MA20 FROM daily_bars; -- 执行时间可能达到分钟级 ``` #### 场景3：多表关联分析（财务数据+行情数据） - **SQL优势**： ```sql -- 三表关联查询（行情、资产负债表、利润表） SELECT q.symbol, q.date, q.close, b.total_assets, p.net_income FROM quotes q JOIN balance_sheets b ON q.symbol = b.symbol AND q.date = b.date JOIN income_statements p ON q.symbol = p.symbol AND q.date = p.date WHERE q.date BETWEEN '2020-01-01' AND '2023-12-31'; -- 利用索引优化后效率极高 ``` - **Pandas实现**： ```python merged = quotes.merge(balance, on=['symbol','date']).merge(income, on=['symbol','date']) # 内存消耗可能翻倍，大数据易崩溃 ``` --- ### 三、实战建议：混合架构解决方案 1. **数据存储层** - 使用SQL数据库（如TimescaleDB）存储原始数据 - 按股票代码分片存储，建立复合索引：`CREATE INDEX idx_symbol_date ON ticks(symbol, date)` 2. **中间处理层** - 批量数据提取：用SQL筛选目标数据集 ```python query = "SELECT * FROM ticks WHERE symbol IN ('AAPL','GOOG') AND date > '2023-01-01'" df = pd.read_sql(query, engine) # 仅加载所需数据到内存 ``` 3. **分析计算层** - 使用Pandas进行： - 时间序列重采样：`df.resample('15T').agg({'price':'ohlc'})` - 因子计算：`df['RSI'] = talib.RSI(df['close'], timeperiod=14)` - 策略回测：结合backtrader库 4. **高频场景优化** ```python # 使用Dask替代Pandas处理超大数据 import dask.dataframe as dd ddf = dd.read_sql_table('ticks', engine, index_col='id', divisions=[0, 1000000, 2000000]) ``` --- ### 四、性能优化关键指标对比 | **操作** | SQL（毫秒） | Pandas（毫秒） | 工具选择建议 | |-----------------------|-------------|----------------|-------------------| | 10万条数据过滤 | 120 | 80 | Pandas胜出 | | 1亿条数据聚合统计 | 450 | 内存溢出 | SQL必选 | | 复杂时间序列计算 | 2200 | 150 | Pandas + TA-Lib | | 多表关联查询 | 300 | 1800 | SQL明显优势 | --- ### 五、决策树：如何选择工具？ 1. **数据是否超过内存容量？** - 是 → **优先用SQL** 预处理/筛选数据 - 否 → 进入下一判断 2. **是否需要复杂数学运算？** - 是 → **使用Pandas**（支持向量化运算） - 否 → 进入下一判断 3. **是否需要实时更新？** - 是 → **SQL事务处理** + 流式计算框架 - 否 → 两者均可 --- ### 六、典型案例解析 **案例：构建多因子选股系统** 1. SQL层： ```sql -- 创建物化视图存储预处理数据 CREATE MATERIALIZED VIEW factor_data AS SELECT symbol, date, close/NULLIF(open,0) -1 AS daily_return, AVG(volume) OVER (PARTITION BY symbol ORDER BY date ROWS BETWEEN 4 PRECEDING AND CURRENT ROW) AS vol_ma5 FROM daily_bars; ``` 2. Pandas层： ```python # 因子合成 factors = ['daily_return', 'vol_ma5', 'pe_ratio'] df_factor = df[factors].pipe(lambda x: (x - x.mean())/x.std()) # 标准化 df['composite_score'] = df_factor.dot([0.4, 0.3, 0.3]) # 因子加权 ``` --- **结论**： - 对**数据检索与存储**优先选择SQL（尤其是高频大数据场景） - 对**复杂计算与策略开发**优先使用Pandas - 最佳实践是：`SQL作为数据仓库 + Pandas作为分析引擎`的组合架构