现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。
分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
了解到所给数据集只有5个字段、时间维度限制在9天内、商品数据均为脱敏数据、行为数据只有4种等,具有一定的局限性。结合电商平台分析指标和AARRR漏斗分析模型,比较有分析价值的是用户行为和时间这两个维度。可以初步计划从用户行为习惯、用户消费习惯和用户价值等方分析。
2.1 用户行为方面
- 页面浏览量PV和独立访客数UV如何变化?和时间有关系吗?
- 用户的平均访问深度是多少?平台的跳失率怎么样?
- 用户从浏览到购买会经历哪些过程?最终的转化率如何?
- 平台用户留存率怎么样?
2.2 用户消费方面
- 平台的用户付费率是多少?用户复购的情况怎么样?
- 平台商品销售情况是怎么样?
- 商品销售之间有没有一定的联系?
2.3 用户价值方面
- 如何判断用户价值?针对不同用户如何采取不同的运营策略?
将上述问题整理如下,便于之后有针对性的进行分析:
三、数据处理
处理数据,主要包括对异常值、重复值和缺失值的处理
3.1 数据导入
# 源数据共有五个字段,为其定义英文字段
columns = ['user\_id','item\_id','category\_id','behavior\_type', 'timestamp']
# 迭代读取数据
df = pd.read_csv('UserBehavior.csv', names=columns, iterator=True)
loop, chunkSize, chunks = True, 10000000, [] # 分块大小为1000W
while loop:
try:
chunk = df.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print('Iteration is stopped.')
data = pd.concat(chunks, ignore_index = True)
不需要全部数据的话,可以在读取数据之后通过get_chunk( ) 函数获取所需数据,如:
data = df.get_chunk(1000000) # 获取100W数据
大家可能会有疑问,这里是不是可以用Pandas的sample( )函数随机抽样比较好,我个人觉得最好不要随机抽样,稍后会解释原因。
3.2 了解数据
可以通过data.head( ) / http://data.info / data.describe( )等快速了解数据
通过对数据查看,发现原数据集是按照user_id排好序的,如果之前采用随机抽样的话,可能会破坏原有数据的信息,比如用户A在浏览多次后最终完成下单支付,随机抽样的话,可能会错过用户购买记录,最终导致数据分析不准确。
数据集原有的时间列是采用时间戳存储的,为了方便后续分析,这里将原有时间戳转为北京时间,并从中抽取出日期、时间和小时数据,处理代码如下:
# 将时间戳转换为北京时间
data['timestamp'] = pd.to_datetime(data.timestamp, unit='s') + datetime.t