python read_csv dtype_Pandas read_csv low_memory和dtype选项

最新推荐文章于 2024-10-01 07:28:58 发布

原创

最新推荐文章于 2024-10-01 07:28:58 发布 · 2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python read_csv dtype

本文讨论了Pandas中read_csv的low_memory选项的弃用情况及其实际影响。虽然low_memory选项不再起作用，但主要原因在于数据类型猜测可能导致内存消耗。通过指定dtype参数，可以更有效地控制列的数据类型，避免不必要的内存占用。文章还提醒读者，错误的数据类型设定可能导致加载过程崩溃，并列举了可用的Pandas和NumPy数据类型。同时，建议谨慎使用转换器，因为它们可能降低效率，而并行处理CSV文件可能是更优的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

已弃用的低内存选项

low_memory选项没有被正确地弃用，但它应该被弃用，因为它实际上没有做任何不同的事情[source]

出现此low_memory警告的原因是，猜测每个列的数据类型需要大量内存。Pandas试图通过分析每列中的数据来确定要设置的数据类型。

数据类型猜测(非常糟糕)

Pandas只能在读取整个文件后确定列的数据类型。这意味着在读取整个文件之前无法真正解析任何内容，除非您在读取最后一个值时有可能更改该列的数据类型。

以一个文件为例，该文件有一个名为user_id的列。

它包含1000万行，其中用户id始终是数字。

由于pandas不知道它只是数字，所以它可能会将它作为原始字符串保存，直到它读取了整个文件。

指定数据类型(应始终完成)

添加dtype={'user_id': int}

调用^{}将使pandas知道何时开始读取文件，这只是整数。

另外值得注意的是，如果文件的最后一行将"foobar"写入user_id列，则如果指定了上述数据类型，则加载将崩溃。

定义数据类型时中断的断开数据示例import pandas as pd

try:

from StringIO import StringIO

except ImportError:

from io import StringIO

csvdata = """user_id,username

1,Alice

3,Bob

foobar,Caesar"""

sio = StringIO(csvdata)

pd.read_csv(sio, dtype={"user_id": int, "username": object})

ValueError: invalid literal for long() with base 10: 'foobar'

存在哪些数

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。