什么是Pandas?
Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。
-
一个强大的分析和操作大型结构化数据集所需的工具集
-
基础是NumPy,提供了高性能矩阵的运算
-
提供了大量能够快速便捷地处理数据的函数和方法
-
应用于数据挖掘,数据分析
-
提供数据清洗功能
-
Series和DataFrame中的索引都是Index对象,索引对象不可变,保证了数据的安全
- Index对象种类:Index,索引;Int64Index,整数索引;MultiIndex,层级索引;DatetimeIndex,时间戳类型
Pandas有两个最主要也是最重要的数据结构: Series 和 DataFrame
import pandas as pd # 导包
Duang!!!!》》》》请参考: Pandas的常用操作大全 https://blog.csdn.net/weixin_44695969/article/details/97039159
Series
Series是一种类似于一维数组的 对象,由一组数据(各种NumPy数据类型)以及一组与之对应的索引(数据标签)组成。
- 类似一维数组的对象
- 由数据和索引组成
- 索引(index)在左,数据(values)在右
- 索引是自动创建的
1. Series的创建
操作 | 代码实现 | 返回值 | 说明 |
---|---|---|---|
通过list构建Series |
pd.Series(range(10)) | 新Series | 自动生成索引 |
pd.Series(range(3), index = ['a', 'b', 'c']) | 新Series | 自定义索引 | |
通过dict构建Series |
pd.Series(dict) | 新Series | dict的key为索引,value为元素 |
2. Series的相关操作
操作 |