淘宝用户行为分析-用Spark进行用户行为分析

最新推荐文章于 2024-04-04 10:04:59 发布

均913

最新推荐文章于 2024-04-04 10:04:59 发布

阅读量1.2k

点赞数 4

CC 4.0 BY-SA版权

文章标签： python matplotlib 开发语言 sql spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55605604/article/details/131270268

文章详细介绍了对淘宝用户购物行为数据集的处理过程，包括数据清洗、时间戳转换、数据截取等步骤。然后利用Spark的RDD和DataFrameAPI，以及SQL查询，完成了数据集的基本统计分析，如用户数、商品数、行为类型分布、转化率和漏斗分析等，为后续的深度挖掘和建模提供了基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.数据下载与理解

淘宝用户购物行为数据集https://tianchi.aliyun.com/dataset/649
完整数据文件UserBehavior.csv，3.42G
小测试文件 UserBehaviorSmall.csv 18M
小测试文件用于测试与练习，最后提交的计算用完整的数据文件。
数据集包含了约一亿条随机用户的所有行为。数据集的每一行表示一条用户行为：用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。
行为类型：点击pv、购买buy、加购cart、fav收藏

2.数据预处理：

原始文件时间戳数据转换为datetime类型，能按日期和时间进行查找。

import numpy as np

import pandas as pd

import matplotlib as mpl

from matplotlib import pyplot as plt

import seaborn as sns

import warnings

import matplotlib.dates as mdates

from datetime import timedelta

warnings.filterwarnings('ignore')

mpl.rcParams["font.family"] = "SimHei"

mpl.rcParams["axes.unicode_minus"]=False

import datetime

import time

读文件

df=pd.read_csv(r"D:\virtual\sharefile\UserBehavior.csv",header=None,names=['userId','goodsId','goodsTypeID','behaviorType','timeStamp'])

转换时间格式

df['timeStamp']=pd.to_datetime(df['timeStamp'],unit='s')

df['date']=df['timeStamp'].dt.date

df['hour']=df['timeStamp'].dt.time

删除timeStamp列

df=df.drop('timeStamp',axis=1)

截取2017.11.25到2017.12.3时间的数据

temp=df['date']=df['date'][(df['date']>=datetime.date(2017,11,25))(df['date']<=datetime.date(2017,12,3))]

删除不正常数据（例如日期不是2017年的）

检查是否存在缺失数据。

检查是否存在重复数据并去重

检查时间戳列中是否存在异常数据，获取并删除所有异常数据

删除date数据为nan的

df = df.dropna(axis=0, how='any')

保存

temp.to_csv('./UserBehaviorSample.csv')

字段解析
生成RDD

rdd=sc.textFile(r'D:\virtual\sharefile\UserBehaviorSample.csv').map(lambda line:line.split(',')).map(lambda line:[int(line[0]),int(line[1]),int(line[2]),line[3],line[4],int(line[5])])

生成DataFrame

df=rdd.toDF(['user_id','product_id','category_id','action','date','hour'])

生成SQL临时表

3.用Spark RDD操作、Spark SQL DataFrame操作和SQL语句三种方法完成以下数据分析。

示例：

问题1)：Tom选修的科目和考分

(1)RDD操作：spark.sql('select * from scs where name== "Tom" ')

(2)DF操作：df.where('name=="Tom"')

(3)SQL语句：spark.sql('select * from scs where name== "Tom" ')

1)数据整体概况：数据集中有多少条记录，有多少个用户，有多少件商品，有多少个商品类别，记录了多少个日期的数据。

(1)RDD操作：

数据集中有多少条记录

rdd.count()

有多少个用户

rdd.map(lambda x: x[0]).distinct().count()

有多少件商品

rdd.map(lambda x: x[1]).distinct().count()

有多少个商品类别

rdd.map(lambda x: x[2]).distinct().count()

记录了多少个日期的数据。

rdd.map(lambda x: x[4]).distinct().count()

最低0.47元/天解锁文章

新学期VIP享超值加赠

博客等级

码龄5年

4
原创

4
点赞

30
收藏

2
粉丝

关注

私信

热门文章

上一篇：: 图书馆管理系统

下一篇：: Docker容器运用

最新评论

淘宝用户行为分析-用Spark进行用户行为分析
m0_70016559: 可以发个源码吗哥？
淘宝用户行为分析-用Spark进行用户行为分析
CSDN-Ada助手: 非常棒的博客！很高兴看到你使用Spark进行淘宝用户行为分析。你的博客内容非常有价值，让我们了解了数据整体概况和点击行为总数等重要信息。如果你想深入研究该主题，可以了解一下淘宝的排名算法和推荐系统。此外，你还可以尝试使用机器学习来预测用户行为和购买意愿。期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
Docker容器运用
CSDN-Ada助手: 非常感谢您分享有关Docker容器运用的博客！您的文章非常有价值，对于那些想要深入了解Docker的人来说是非常有帮助的。我希望您能够继续创作，分享更多有关技术的知识和经验。我的建议是，如果您感兴趣的话，可以探索一下Kubernetes这个容器编排工具的使用，这是一个非常流行的工具，对于那些需要在大规模的容器集群中管理应用程序的人来说非常有用。再次感谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
黑马程序员SSM框架笔记-Spring
CSDN-Ada助手: 恭喜您写出了第四篇博客，标题也很有吸引力！从您的博客中可以看出您对SSM框架的理解和掌握，让人受益匪浅。希望您能继续坚持创作，分享更多的经验和技巧。下一步建议可以从实际项目中出发，结合具体案例进行深入探讨，让读者更好地理解和应用。感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
图书馆管理系统
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。