使用 Pandas 操作 CSV 文件是数据分析中非常常见的任务,本文将详细介绍如何使用 Pandas 操作 CSV 文件,涵盖了从读取、处理到保存 CSV 文件的全流程。
1、读取 CSV 文件
使用 pd.read_csv() 函数读取 CSV 文件,常用参数如下所示
-
filepath_or_buffer:CSV 文件的路径
-
sep:分隔符,默认为逗号(,),可以设置为其他分隔符(如制表符 \t)
-
header:指定行作为列名,默认为 0(第一行),可以设置为 None 表示没有列名
-
index_col:指定列作为行索引
-
usecols:指定要读取的列
-
dtype:指定列的数据类型
-
encoding:制定 csv 文件的编码
示例如下所示
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('student.csv', sep=',', header=0,
index_col=0, encoding='gbk')
print(df)
2、查看数据
读取数据后,可以使用以下方法查看数据:
-
df.head(n):查看前 n 行数据,默认 n=5。
-
df.tail(n):查看后 n 行数据。
-
df.info():查看 DataFrame 的基本信息,包括数据类型和缺失值。
-
df.describe():查看数据的统计信息。
示例如下所示
print(df.head())
print(df.describe())
3、数据处理
因为 Pandas 从 CSV 文件读取成 DataFrame 对象,所以 DataFrame 对象的所有操作方法在这里都适用,这里我们就举几个简单例子,而不再将 DataFrame 的全部方法分别赘述
# 1、选择单列
column_data = df['age']
# 2、选择多列
columns_data = df[['class', 'age']]
# 3、根据索引选择行
row_data = df.loc[0]
# 4、过滤满足条件的行
filtered_df = df[df['age'] > 10]
# 5、添加新列
df['new_column'] = df['age'] * 2
# 6、删除列
df.drop('age', axis=1, inplace=True) # axis=1 表示列
# 7、根据某列排序
df.sort_values(by='age', ascending=True, inplace=True)
# 8、按某列分组并计算均值
grouped_df = df.groupby('sex').mean()
4、保存 CSV 文件
使用 to_csv() 方法将 DataFrame 保存为 CSV 文件, 常用参数
-
path_or_buf:输出文件路径
-
sep:分隔符,默认为逗号(,)
-
header:是否写入列名,默认为 True
-
index:是否写入行索引,默认为 True
# 保存为 CSV,指定分隔符
df.to_csv('output.csv', sep=',', index=True)
使用 Pandas 操作 CSV 文件非常方便,能够快速进行数据读取、处理和保存。掌握以上基本操作后,你可以高效地进行数据分析和处理。通过灵活运用 Pandas 的功能,能够处理各种复杂的数据分析任务。
如果你喜欢本文,欢迎点赞,并且关注我们的微信公众号:Python技术极客,我们会持续更新数据挖掘分析领域的好文章,让大家在数据挖掘分析领域持续精进提升,成为更好的自己!