Python中读写文件的read_csv()

本文介绍如何使用pd.read_csv函数从CSV文件中读取数据到DataFrame,并详细解释了关键参数的作用,如sep、header、skip_blank_lines、prefix和nrows等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pd.read_csv可读取 csv 格式文档到DataFrame

主要参数:

       data = pd.read_csv('./result.csv',sep=',') 

       data = pd.read_csv('./result.csv',header=None,prefix='XX') 

       data = pd.read_csv('./result.csv',nrows = 4) 

  • 相对路径:以mac为例
    
     
    1. import os

    2. #获取当前工作路径

    3. os.getcwd()

    4. data = pd.read_csv('./result.csv',sep=',')

    5. #下层Data文件夹中

    6. data = pd.read_csv('./Data/result.csv',sep=',')

     

  • sep:如果不指定参数,则会尝试使用逗号分隔。分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子:’\r\t’。
  • header: 指定行数用来作为列名,数据开始行数如果文件中没有列名,则默认为0【第一行数据】,否则设置为None。如果明确设定 header = 0 就会替换掉原来存在列名。header参数可以是一个list例如:[0,1,3]。注意:如果skip_blank_lines=True 那么header参数忽略注释行和空行,所以header=0表示第一行数据而不是文件的第一行
  • skip_blank_lines:boolean, default True: 如果为True,则跳过空行;否则记为NaN。
  • prefix:希望达到列名称有规律的情况下,将header设定为None,给列添加前缀。例如:添加prefix= ‘X’ 使得列名称成为 X0, X1, …
  • nrows: 需要读取的行数(从文件头开始算起)

读完之后可以用numpy来继续处理读取的数据。

### 使用 Pandas 库读取 CSV 文件 `pandas.read_csv()` 函数能够读取 CSV(逗号分隔值)文件、文本类型的文件 text 和 log 类型到 DataFrame 中[^1]。此函数属于 Pandas 库的一部分,该库支持多种文件格式的读写操作,如 csv、txt、json 等,在实际应用中以 CSV 文件最为常见[^3]。 #### 基本语法 以下是 `read_csv` 的基本调用方式: ```python import pandas as pd df = pd.read_csv('file_path.csv') ``` 这段代码会创建一个名为 df 的 DataFrame 对象,其中包含了来自指定路径 file_path.csv 的数据[^2]。 #### 处理不同分隔符 除了默认情况下处理以逗号作为字段间分隔符的标准 CSV 文件外,还可以通过 sep 参数来定义其他形式的分隔符。例如,当面对使用制表符 (\t) 或者竖线 (|) 进行分割的数据集时,则可如下设置: ```python # 制表符分隔 df_tab_separated = pd.read_csv('tab-separated-file.tsv', sep='\t') # 竖线分隔 df_pipe_separated = pd.read_csv('pipe-separated-values.txt', sep='|') ``` #### 设置列名 如果希望自定义列名称而不是采用原始文件中的首行作为列标签的话,可以通过 names 参数传递一个新的列表给它;而 header=None 表示忽略源文件里的任何现有头部信息。 ```python custom_columns_df = pd.read_csv( 'data_without_headers.csv', names=['ColumnA', 'ColumnB', 'ColumnC'], header=None ) ``` #### 跳过特定行数 有时可能需要跳过某些开头或结尾处不想要的内容,skiprows 可帮助实现这一点。比如要略去前两行记录,只需这样做即可: ```python skipped_rows_df = pd.read_csv('sample_data.csv', skiprows=2) ``` #### 控制缺失值标记 na_values 参数允许用户指定哪些字符串应该被识别为空缺值(NaN),这对于清理脏乱不堪的数据非常有用。 ```python handling_missing_values_df = pd.read_csv( 'messy_dataset.csv', na_values=['NA', '?'] ) ``` 以上就是一些常见的配置选项介绍,当然还有更多高级特性等待探索。对于更详细的说明以及完整的参数列表,请参阅官方文档获取最新最全的信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值