通过学校举行的某次学科竞赛,我接触到了kaggle上的一道题:Store Sales - Time Series Forecasting。由于题主资质尚浅,本文将对前期数据处理的一些小问题做出解答,不涉及后续更难的问题。
此处放原题链接:Store Sales - Time Series Forecasting
题主也是看了很多的资料,也看到了CSDN上另外一位大佬写的文章,收获颇多,此处也放一下链接:Kaggle实战:Store Sales - Time Series Forecasting
希望这位大佬不要介意呀~
本文提到并解决的一些问题:
1.得出各商品的总销售量并为商品种类排序
2.筛选,仅保留该sales文件中销售量前五名的商品类别
3.对各个文件的数据进行整合并保存
4.将这五类商品进行分类,另保存为文件并以商品类的名称命名
5.对油价的数据进行处理
6.得到每个类别单个日期的总销售量(即不区分商店编号),并附上每日油价和节日
如图所示是一个各个日期下的,各个商店的,不同种类的商品的销售量数据(最后一列为该系列促销的项目数量,先不用管)。
1.首先第一个小问题,那么如何得出各商品的总销售量并为商品种类排序?
此时我们可以灵活运用pandas库,对该文件根据种类进行sum()相加处理并排序,并将结果转换为excel文件。
下面上代码。
import pandas as pd
# 读取销售数据文件
sales_data = pd.read_csv(r'./Cdata/sales.csv')
# 假设 sales_data 是一个包含销售数据的 DataFrame
gr