一文轻松玩转 Pandas 操作 CSV 文件

coder_风逝

已于 2024-10-07 20:32:11 修改

阅读量2k

点赞数 7

CC 4.0 BY-SA版权

文章标签： pandas python

于 2024-10-07 08:35:34 首次发布

本文链接：https://blog.csdn.net/fengshi_fengshi/article/details/142733255

使用 Pandas 操作 CSV 文件是数据分析中非常常见的任务，本文将详细介绍如何使用 Pandas 操作 CSV 文件，涵盖了从读取、处理到保存 CSV 文件的全流程。

1、读取 CSV 文件

使用 pd.read_csv() 函数读取 CSV 文件，常用参数如下所示

filepath_or_buffer：CSV 文件的路径
sep：分隔符，默认为逗号（,），可以设置为其他分隔符（如制表符 \t）
header：指定行作为列名，默认为 0（第一行），可以设置为 None 表示没有列名
index_col：指定列作为行索引
usecols：指定要读取的列
dtype：指定列的数据类型
encoding：制定 csv 文件的编码

示例如下所示

import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('student.csv', sep=',', header=0,
     index_col=0, encoding='gbk')
print(df)

2、查看数据

读取数据后，可以使用以下方法查看数据：

df.head(n)：查看前 n 行数据，默认 n=5。
df.tail(n)：查看后 n 行数据。
df.info()：查看 DataFrame 的基本信息，包括数据类型和缺失值。
df.describe()：查看数据的统计信息。

示例如下所示

print(df.head())
print(df.describe())

3、数据处理

因为 Pandas 从 CSV 文件读取成 DataFrame 对象，所以 DataFrame 对象的所有操作方法在这里都适用，这里我们就举几个简单例子，而不再将 DataFrame 的全部方法分别赘述

# 1、选择单列
column_data = df['age']

# 2、选择多列
columns_data = df[['class', 'age']]

# 3、根据索引选择行
row_data = df.loc[0] 

# 4、过滤满足条件的行
filtered_df = df[df['age'] > 10]

# 5、添加新列
df['new_column'] = df['age'] * 2

# 6、删除列
df.drop('age', axis=1, inplace=True)  # axis=1 表示列

# 7、根据某列排序
df.sort_values(by='age', ascending=True, inplace=True)

# 8、按某列分组并计算均值
grouped_df = df.groupby('sex').mean()

4、保存 CSV 文件

使用 to_csv() 方法将 DataFrame 保存为 CSV 文件，常用参数

path_or_buf：输出文件路径
sep：分隔符，默认为逗号（,）
header：是否写入列名，默认为 True
index：是否写入行索引，默认为 True

# 保存为 CSV，指定分隔符
df.to_csv('output.csv', sep=',', index=True)

使用 Pandas 操作 CSV 文件非常方便，能够快速进行数据读取、处理和保存。掌握以上基本操作后，你可以高效地进行数据分析和处理。通过灵活运用 Pandas 的功能，能够处理各种复杂的数据分析任务。

如果你喜欢本文，欢迎点赞，并且关注我们的微信公众号：Python技术极客，我们会持续更新数据挖掘分析领域的好文章，让大家在数据挖掘分析领域持续精进提升，成为更好的自己！