全文链接:https://tecdat.cn/?p=43667
原文出处:拓端数据部落公众号
分析师:Jinhuan Liao
在电商行业流量红利见顶的当下,复购率每提升1%,企业利润可增长3-5%——这是行业共识,也是我们深耕电商数据研究的核心出发点。当拉新成本突破百元,而复购用户的获客成本仅为新用户的五分之一时,精准识别高复购潜力用户、制定差异化策略,已成为企业突围的关键。
本报告基于实战项目拆解,以阿里巴巴双十一数据集为样本,系统讲解如何用Python工具链完成从数据清洗到复购预测的全流程,并将模型结果转化为可落地的运营动作。线上A/B测试显示,该方案可实现复购率提升18%、GMV增长13%,验证了技术对业务的实际赋能价值。
本报告洞察基于《拓端数据部落:电商用户复购预测与精细化运营专题报告》及文末黑体加粗10+份电商行业研究报告的数据,最新报告合集及解读实时更新已分享在交流群,阅读原文进群咨询、定制数据报告和600+行业人士共同交流和成长。
项目流程图
图 1 电商用户复购预测全流程(建议保存,对照实战步骤)
一、为什么复购预测是电商的“必答题”?(Why)
做电商的都懂:新用户来了又走,复购用户才是“基本盘”。我们统计过,复购用户的年均GMV能达到新用户的3倍以上,但很多团队还在用“大水漫灌”的方式做营销——给所有用户发一样的券,结果是钱花了,真正想挽留的用户没触达,不想买的却被骚扰。
这就是复购预测的价值:用数据给用户“贴标签”,让你知道谁大概率会再买、谁可能流失,把钱花在刀刃上。本次实战用的阿里巴巴双十一数据集,包含近千万条用户行为日志,足够还原真实电商场景的复购规律。
二、手把手教你做复购预测(How)
2.1 数据预处理:从“海量数据”到“可用数据”
拿到数据先别急着建模!原始数据里藏着不少“坑”:
- 行为日志有10GB,直接跑会卡死电脑——我们用“用户-商家矩阵内连接”裁剪,只保留有用数据,瞬间压缩90%
- 少量缺失值(年龄/性别/品牌ID缺失率<3%),用0填充就行(实测对结果影响几乎为0)
- 时间字段转成%m%d格式,整数类型降为int8/int32,显存直接省一半
表 1 数据说明(新手可直接套用的数据集模板)数据集 核心字段 作用 train_format1.csv 用户ID、商家ID、是否复购(0/1) 训练模型的“标准答案” test_format1.csv 用户ID、商家ID 要预测的“考题” user_info_format1.csv 年龄范围、性别 分析用户画像对复购的影响 user_log_format1.csv 行为类型(点击/加购/购买)、时间戳 提取复购信号的“原材料”
2.2 用户行为藏着复购密码!3个关键发现
数据不会说谎,可视化后规律一目了然:
- 年龄密码:2-6岁段(对应5-35岁)用户占82%,是平台主力;3-4岁段(18-25岁)复购率最高——这波人爱尝鲜但也容易“回头”
图 2 年龄分布与复购率的关系(红色线为复购率) - 行为深度密码:复购用户平均交互15.3次,非复购仅8.2次;交互跨度26天vs11天——跟商家“缠”得越久,买第二次的可能性越大
图 3 复购vs非复购用户的行为深度对比(左为交互次数,右为跨度) - 性别影响不大(复购率0.048 vs 0.041),不用花太多精力在性别差异上
2.3 特征工程:给模型找对“复购信号”
模型准不准,特征是关键。我们从3个维度造了46个特征,最终留42个能用的:
- 用户维度:总交互次数、买东西的比例(购买率)、活跃了多少天——越活跃、买得越多的用户,复购潜力越高
- 商家维度:被多少人买过、被买的比例(被购买率)——越多人买、买的比例越高的商家,用户越可能回头
- 交叉维度:用户在这个商家买过几次、隔了多少天——在同一商家买得越多、间隔越短,复购概率飙升
用热力图一看就清楚:购买率类特征(用户买得多、商家被买得多)和复购正相关(相关系数0.31),是强信号!
图 4 特征重要性排序(前5名都是复购强信号)
图 5 特征相关性热力图(红色越深,和复购越相关)
相关文章
消费者网络购物意向分析:调优逻辑回归LR与决策树模型在电商用户购买预测中的应用及特征重要性优化
tecdat.cn/?p=42358
2.4 模型训练:LightGBM实战,AUC达0.76
用LightGBM跑模型,关键参数调好了,效果很稳:
# 关键代码(新手可直接改参数用)
import lightgbm as lgb
from sklearn.model_selection import train_test_split
# 切分数据(8:2分,保证比例一致)
train_data, val_data, train_label, val_label = train_test_split(
特征数据, 标签数据, test_size=0.2, stratify=标签数据, random_state=2021
)
# 模型参数(亲测有效的组合)
模型参数 = {
'objective': 'binary', # 二分类问题(复购/不复购)
'boosting_type': 'gbdt',
'num_leaves': 25, # 叶子节点数
'max_depth': 8, # 树深度
'learning_rate': 0.1, # 学习率
'feature_fraction': 0.5 # 每次选一半特征,防过拟合
}
# 训练模型(加早停,防止学“太狠”)
模型 = lgb.train(
模型参数,
lgb.Dataset(train_data, label=train_label),
valid_sets=[train_data, val_data],
num_boost_round=1000,
early_stopping_rounds=100 # 100轮没进步就停
)
结果:验证集AUC0.76,F1值0.71,意味着模型能准确区分谁会复购。看ROC曲线,低错误率下就能抓准高潜力用户,符合“宁多触达、不丢客户”的业务需求。
图 6 模型训练曲线(第67轮效果最好)
图 7 ROC曲线(曲线越陡,区分能力越强)
三、落地策略:4类用户,4套打法(What)
光有模型不行,得转化成运营动作。我们把用户分成4类,精准施策:
表 2 复购用户运营策略(直接套用,实测有效)
用户分群 | 特征 | 占比 | 运营动作 | 效果 |
---|---|---|---|---|
高-待复购 | 最近7天互动过,复购概率≥80% | 1.2% | 发复购券+限时秒杀,逼单! | 转化率提升25% |
高-待激活 | 最近7天互动过,概率50%-80% | 2.7% | 推新品+拉进社群,刷存在感 | 复购率提升18% |
高-流失预警 | 超过7天没互动,概率≥80% | 0.8% | 大额券+专属客服,喊回来 | 召回率提升30% |
低-一般挽留 | 超过7天没互动,概率<50% | 95.3% | 短信+积分提醒,低成本维护 | 成本降低40% |
四、总结:复购预测不是“炫技”,是真能赚钱
这套方法帮企业做到了:复购率提升18%,GMV提升13%——这就是数据的力量。
关键提醒:
- 数据预处理要“狠”,无效数据坚决裁,不然模型跑不动
- 特征工程别贪多,盯着“购买率”“交互次数”这些强信号准没错
- 模型结果要落地,按用户分群给策略,不然就是白忙活
想拿完整数据集、代码和运营模板?进交流群就能领,还能跟600+同行聊实战坑点~
关于分析师
在此对Jinhuan Liao对本文所作的贡献表示诚挚感谢,她在河南大学完成了数据科学与大数据技术专业的学士学位,专注数据分析领域。擅长Python、SQL、数据分析和数据可视化。
Jinhuan Liao 在数据分析领域拥有丰富经验,涵盖数据采集、清洗、分析和可视化等全流程。她在构建数据驱动解决方案、优化数据分析流程、提升数据可视化效果方面拥有扎实的专业知识,并具备从原始数据中提取商业洞察的出色能力