
Pandas 简单入门
夕麻
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas 透视表、字符串向量化、时间序列
数据透视表我们⽬前所用的累计操作都是按照⼀个维度进行,数据透视表可以看做是按照⼆维进行累计的操作功能。# 以泰坦尼克号数据为例⼦进⾏展示import numpy as npimport pandas as pdimport seaborn as snstitanic = sns.load_dataset("titanic")print(titanic.shape)(891, 15...原创 2020-03-15 10:53:59 · 676 阅读 · 0 评论 -
Pandas 累计和分组
对大数据进行分析的时候,⼀项基本工作就是数据累计(summarization),通常包括:sum: 求和mean:平均数median:中位数min:最小值max:最大值count:计数first/last: 第⼀项和最后⼀项std: 标准差var:方差mad:均值绝对方差prod:所有项乘积# 准备数据# 我们这次准备数据时候⽤seaborn提供的⾏星数据,包括天⽂学...原创 2020-03-06 20:21:28 · 1029 阅读 · 0 评论 -
Pandas 合并数据
合并数据是对数据集合的合,是基本操作之⼀,也是我们处理大量数据的核⼼操作,本章主要研究数据的合并操作。# 准备数据import numpy as npimport pandas as pddef make_df(cols, ind): '''⽣成⼀个简单的DataFrame数据''' data = {c:[str(c) + str(i) for i in ind] for c in...原创 2020-03-01 12:45:34 · 1008 阅读 · 0 评论 -
Pandas的运算方法及缺失值
Pandas基于Numpy,相应的运算也是基于Numpy的运算,只不过多了⼀些Pandas的内容,比如运算结果保留索引和列标签,传递通用函数的时候会自动对齐索引等。对通用函数保留索引和列标签import numpy as npimport pandas as pddf = pd.DataFrame(np.random.randint(100, size=(3,5)), columns=[...原创 2020-02-29 15:29:36 · 2944 阅读 · 0 评论 -
Pandas 层级索引
处理多维数据的时候,虽然Pandas提供了Panel和Panel4D, 但更直观的是使用层级索引(HierarchicalIndeing,也叫多级索引 multi-indexing), 通过层级索引,可以将⾼维度数据转换成类似以为Series或者⼆维DataFrame对象的形式。层级索引的创建直接创建import numpy as npimport pandas as pd# 通过...原创 2020-02-28 18:03:15 · 607 阅读 · 0 评论 -
Pandas - Series、DataFrame、Index
pandas概述Numpy主要处理结构化数据,数据量比较小,规则对于⼤量数据, 需要清理的数据,则需要pandas⼀般使用方法是 import pandas as pdSeries对象Series对象是⼀个带索引数据构成的⼀维数组。Series把数组和⼀组索引绑定在⼀起。如果想获取绑定的内容,分别可以使用values属性和index属性。Series的创建Series对象的创...原创 2020-02-24 08:20:17 · 360 阅读 · 0 评论