Python电商用户复购预测：LightGBM模型与RFM分析在双十一数据应用及差异化运营策略

原创于 2025-08-19 23:53:12 发布 · 652 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

全文链接：https://tecdat.cn/?p=43667

原文出处：拓端数据部落公众号

分析师：Jinhuan Liao

在电商行业流量红利见顶的当下，复购率每提升1%，企业利润可增长3-5%——这是行业共识，也是我们深耕电商数据研究的核心出发点。当拉新成本突破百元，而复购用户的获客成本仅为新用户的五分之一时，精准识别高复购潜力用户、制定差异化策略，已成为企业突围的关键。
本报告基于实战项目拆解，以阿里巴巴双十一数据集为样本，系统讲解如何用Python工具链完成从数据清洗到复购预测的全流程，并将模型结果转化为可落地的运营动作。线上A/B测试显示，该方案可实现复购率提升18%、GMV增长13%，验证了技术对业务的实际赋能价值。
本报告洞察基于《拓端数据部落：电商用户复购预测与精细化运营专题报告》及文末黑体加粗10+份电商行业研究报告的数据，最新报告合集及解读实时更新已分享在交流群，阅读原文进群咨询、定制数据报告和600+行业人士共同交流和成长。

项目流程图

图 1 电商用户复购预测全流程（建议保存，对照实战步骤）

一、为什么复购预测是电商的“必答题”？（Why）

做电商的都懂：新用户来了又走，复购用户才是“基本盘”。我们统计过，复购用户的年均GMV能达到新用户的3倍以上，但很多团队还在用“大水漫灌”的方式做营销——给所有用户发一样的券，结果是钱花了，真正想挽留的用户没触达，不想买的却被骚扰。
这就是复购预测的价值：用数据给用户“贴标签”，让你知道谁大概率会再买、谁可能流失，把钱花在刀刃上。本次实战用的阿里巴巴双十一数据集，包含近千万条用户行为日志，足够还原真实电商场景的复购规律。

二、手把手教你做复购预测（How）

2.1 数据预处理：从“海量数据”到“可用数据”

拿到数据先别急着建模！原始数据里藏着不少“坑”：

行为日志有10GB，直接跑会卡死电脑——我们用“用户-商家矩阵内连接”裁剪，只保留有用数据，瞬间压缩90%
少量缺失值（年龄/性别/品牌ID缺失率<3%），用0填充就行（实测对结果影响几乎为0）

时间字段转成%m%d格式，整数类型降为int8/int32，显存直接省一半
表 1 数据说明（新手可直接套用的数据集模板）

数据集	核心字段	作用
train_format1.csv	用户ID、商家ID、是否复购（0/1）	训练模型的“标准答案”
test_format1.csv	用户ID、商家ID	要预测的“考题”
user_info_format1.csv	年龄范围、性别	分析用户画像对复购的影响
user_log_format1.csv	行为类型（点击/加购/购买）、时间戳	提取复购信号的“原材料”

2.2 用户行为藏着复购密码！3个关键发现

数据不会说谎，可视化后规律一目了然：

年龄密码：2-6岁段（对应5-35岁）用户占82%，是平台主力；3-4岁段（18-25岁）复购率最高——这波人爱尝鲜但也容易“回头”

图 2 年龄分布与复购率的关系（红色线为复购率）
行为深度密码：复购用户平均交互15.3次，非复购仅8.2次；交互跨度26天vs11天——跟商家“缠”得越久，买第二次的可能性越大

图 3 复购vs非复购用户的行为深度对比（左为交互次数，右为跨度）
性别影响不大（复购率0.048 vs 0.041），不用花太多精力在性别差异上

2.3 特征工程：给模型找对“复购信号”

模型准不准，特征是关键。我们从3个维度造了46个特征，最终留42个能用的：

用户维度：总交互次数、买东西的比例（购买率）、活跃了多少天——越活跃、买得越多的用户，复购潜力越高
商家维度：被多少人买过、被买的比例（被购买率）——越多人买、买的比例越高的商家，用户越可能回头
交叉维度：用户在这个商家买过几次、隔了多少天——在同一商家买得越多、间隔越短，复购概率飙升
用热力图一看就清楚：购买率类特征（用户买得多、商家被买得多）和复购正相关（相关系数0.31），是强信号！

图 4 特征重要性排序（前5名都是复购强信号）

图 5 特征相关性热力图（红色越深，和复购越相关）

消费者网络购物意向分析：调优逻辑回归LR与决策树模型在电商用户购买预测中的应用及特征重要性优化

tecdat.cn/?p=42358

2.4 模型训练：LightGBM实战，AUC达0.76

用LightGBM跑模型，关键参数调好了，效果很稳：

# 关键代码（新手可直接改参数用）
import lightgbm as lgb
from sklearn.model_selection import train_test_split
# 切分数据（8:2分，保证比例一致）
train_data, val_data, train_label, val_label = train_test_split(
 特征数据, 标签数据, test_size=0.2, stratify=标签数据, random_state=2021
)
# 模型参数（亲测有效的组合）
模型参数 = {
 'objective': 'binary', # 二分类问题（复购/不复购）
 'boosting_type': 'gbdt',
 'num_leaves': 25, # 叶子节点数
 'max_depth': 8, # 树深度
 'learning_rate': 0.1, # 学习率
 'feature_fraction': 0.5 # 每次选一半特征，防过拟合
}
# 训练模型（加早停，防止学“太狠”）
模型 = lgb.train(
 模型参数,
 lgb.Dataset(train_data, label=train_label),
 valid_sets=[train_data, val_data],
 num_boost_round=1000,
 early_stopping_rounds=100 # 100轮没进步就停
)

结果：验证集AUC0.76，F1值0.71，意味着模型能准确区分谁会复购。看ROC曲线，低错误率下就能抓准高潜力用户，符合“宁多触达、不丢客户”的业务需求。

图 6 模型训练曲线（第67轮效果最好）

图 7 ROC曲线（曲线越陡，区分能力越强）

三、落地策略：4类用户，4套打法（What）

光有模型不行，得转化成运营动作。我们把用户分成4类，精准施策：
表 2 复购用户运营策略（直接套用，实测有效）

用户分群	特征	占比	运营动作	效果
高-待复购	最近7天互动过，复购概率≥80%	1.2%	发复购券+限时秒杀，逼单！	转化率提升25%
高-待激活	最近7天互动过，概率50%-80%	2.7%	推新品+拉进社群，刷存在感	复购率提升18%
高-流失预警	超过7天没互动，概率≥80%	0.8%	大额券+专属客服，喊回来	召回率提升30%
低-一般挽留	超过7天没互动，概率<50%	95.3%	短信+积分提醒，低成本维护	成本降低40%