关于商店销售量的数据处理小问题（Python）

原创

已于 2023-05-15 18:46:23 修改 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-05-14 21:15:01 首次发布

本文介绍了在Kaggle的StoreSales-TimeSeriesForecasting挑战中，如何利用Pandas进行数据处理，包括计算商品总销售量、筛选高销量商品、整合多个数据文件以及处理油价数据。主要步骤包括商品销售量排序、数据筛选、文件整合和分类，以及处理缺失值和空缺日期。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通过学校举行的某次学科竞赛，我接触到了kaggle上的一道题：Store Sales - Time Series Forecasting。由于题主资质尚浅，本文将对前期数据处理的一些小问题做出解答，不涉及后续更难的问题。

题主也是看了很多的资料，也看到了CSDN上另外一位大佬写的文章，收获颇多，此处也放一下链接：Kaggle实战：Store Sales - Time Series Forecasting

希望这位大佬不要介意呀~

本文提到并解决的一些问题：

1.得出各商品的总销售量并为商品种类排序

2.筛选，仅保留该sales文件中销售量前五名的商品类别

3.对各个文件的数据进行整合并保存

4.将这五类商品进行分类，另保存为文件并以商品类的名称命名

5.对油价的数据进行处理

6.得到每个类别单个日期的总销售量（即不区分商店编号），并附上每日油价和节日

如图所示是一个各个日期下的，各个商店的，不同种类的商品的销售量数据（最后一列为该系列促销的项目数量，先不用管）。

1.首先第一个小问题，那么如何得出各商品的总销售量并为商品种类排序？

此时我们可以灵活运用pandas库，对该文件根据种类进行sum（）相加处理并排序，并将结果转换为excel文件。

下面上代码。

import pandas as pd

# 读取销售数据文件
sales_data = pd.read_csv(r'./Cdata/sales.csv')

# 假设 sales_data 是一个包含销售数据的 DataFrame
gr

200万优质内容无限畅学