日知录（十）：python数据分析

最新推荐文章于 2025-05-04 15:28:18 发布

王duan

最新推荐文章于 2025-05-04 15:28:18 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签：数据分析 python csv

本文链接：https://blog.csdn.net/weixin_43883903/article/details/107638962

笔记专栏收录该内容

18 篇文章

订阅专栏

本文深入讲解Pandas库的DataFrame操作，涵盖数据读取、处理、运算及科学计算库的总结，如matplotlib、numpy等，适合数据分析初学者及进阶者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面：
在刷着视频时突然对某个操作有了想法，表格数据是语数英科学四门的分数和总分，想让语数英三列相加，再比较总分。因为我的数据和视频中的例子不一样，有了这个三列相加的想法，想着要去怎么实现，以为是用自定义函数，发现自定义函数只能针对某列或者某行的，实现不了。之后了解对这些科学计算库的总体需要掌握的概念（增，删，查，改的4种方式），决定这周就写这个内容了。至于怎么实现三列相加，最简单的列列相加运算就可以。
关于笔记，都记在jupyter notebook上面，把前面的部分.md文件导入加进来感觉阅读效果不是很好，因为部分dataframe的显示和网页本身的索引显示可能会使阅读出现歧义，所以本篇大多是以截图方式记录，下次就知道怎么用.md导入了。
注：本篇是日知录（八）：python 人工智能基础和数据分析基础的后续。

一、pandas

1.DataFrame

DataFrame是一个表格型的数据结构，含有一组有序的列，是一个二维结构。DataFrame可以被看做是由Series组成的字典，并且共用一个索引。

1.1生成方式

在这里插入图片描述

1.2 读取.csv文件并保存指定列

读取csv文件时，先把.xls 文件另存为.csv，在记事本中打开.csv之后选择字符编码形式’UTF-8’
关于设置UTF-8的图示

# 读取中文表格
import pandas as pd
pd.read_csv("D:/chengxu/jupyter/0727/douban.csv",encoding='gbk')

结果：在这里插入图片描述

正常读取步骤： 文件----显示----修改（删除or 增加）
在这里插入图片描述

保存’math’列

pandas读取csv数据时设置index：
在这里插入图片描述

这里index_col可以设为列名
后续更改index可以使用df.index =df.iloc[:,“column”].tolist()
或df.set_index(‘column’)

1.3 基本数据操作

1.3.1 索引，查找

一般要求是先列后行
在这里插入图片描述

使用.loc//.iloc可以先行后列

组合索引

1.3.2 赋值

在这里插入图片描述

1.3.3 排序

DateFrame排序
在这里插入图片描述

series 排序

在这里插入图片描述

1.4 基本运算

1.4.1 算数运算

在这里插入图片描述

1.4.2 逻辑运算

在这里插入图片描述

1.4.3 统计运算

在这里插入图片描述

1.4.4 累计统计函数

在这里插入图片描述

1.4.5自定义运算

在这里插入图片描述

2.高级处理

2.1 缺失值处理

包括缺失值的类型，应用replacce实现数据的替换,应用dropna实现缺失值的删除,应用filna 实现缺失值的填充
,应用isnull 判断是否有缺失值NaN…
如何处理NaN
1.判断数据是否为NaN
pd.isnull(df)////pd.notnull(df)
np.any(pd.isnull(grade))///np.all(pd.notnull(grade))
2.处理方式
（1）存在缺失值，并且是np.nan
删除dropna(axis=‘rows’)//替换fillna(value,inplace=True),value替换成的值
（2）不是缺失值NaN,有默认标记的
replace(to_replace,value)替换
在这里插入图片描述