数据分析_基于Pandas的用户分层RFM模型
RFM 模型是衡量客户价值和客户创造利益能力的重要工具和手段。
在众多的客户关系管理 (CRM) 的分析模式中, RFM 模型是被广泛提到的。
该机械模型通过一个客户的近期购买行为, 购买的总体频率以及花了多少钱 3 项指标来描述该客户的价值状况。
根据美国数据库营销研究所 Arthur Hughes 的研究, 客户数据库中有 3 个神奇的要素, 这 3 个要素构成了数据分析最好的指标:
-
最近一次消费 (Recency)
-
消费频率 (Frequency)
-
消费金额 (Monetary)
用户分层 RFM 模型图示:
用户分层 RFM 模型应用实例 (生鲜平台):
用户分层 RFM 营销策略:
构建测试数据
这里你可以了解到:
-
如何生成时间相关的数据。
-
如何从列表(可迭代对象)中生成随机数据。
-
Pandas 的 DataFrame 自行创建,包含生成新字段。
-
Pandas 数据合并。
(1) 构建数据: 时间字段:
time_range = pd.date_range(start="2019/01/01", end="2021/12/31")
print("[Message] Time Range Built Through Pandas:")
print(time_range)
print("[Message] Time Length Built Through Pandas:")
print(len(time_range))
输出:
[Message] Time Range Built Through Pandas:
DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
'2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
'2019-01-09', '2019-01-10',
...
'2021-12-22', '2021-12-23', '2021-12-24', '2021-12-25',
'2021-12-26', '2021-12-27', '2021-12-28', '2021-12-29',
'2021-12-30', '2021-12-31'],
dtype='datetime64[ns]', length=1096, freq='D')
[Message] Time Length Built Through Pandas:
1096
(2) 构建数据: 水果列表:
fruits = ["香蕉", "苹果", "葡萄", "橙子", "哈密瓜", "芭乐", "梨", "桃子"]
fruits_list = np.random.choice(fruits, size=len(time_range), replace=True)
print("[Message] Fruits List Built Through NumPy:")
print(fruits_list)
print("[Message] Length of Fruits List Built Through NumPy:")
print(len(fruits_list))
输出:
[Message] Fruits List Built Through NumPy:
['香蕉' '葡萄' '香蕉' ... '香蕉' '橙子' '桃子']
[Message] Length of Fruits List Built Through NumPy:
1096
(3) 构建数据: 客户列表:
names = ["Mike", "Jhon", "Tom", "Xiaoming", "Jimmy", "Lym", "Michk"]
names_list = np.random.choice(names, size=len(time_range), replace=True)
print("[Message] Customer List Built Through NumPy:")
print(names_list)
print("[Message] Length of Customer List Built Through NumPy:")
print(len(names_list))
输出:
[Message] Customer List Built Through NumPy:
['Mike' 'Michk' 'Michk' ... 'Xiaoming' 'Jhon' 'Lym']
[Message] Length of Customer List Built Through NumPy:
1096
(4) 构建数据: 订单数据:
order = pd.DataFrame({
"time": time_range, # -> 下单时间。
"fruit": fruits_list, # -> 水果名称。
"name": names_list, # -> 顾客名。
"kilogram": np.random.choice(list(range(50,100)), size=len(time_range),replace=True)}) # -> 购买量。
print("[Message] Generate Order Data Through Pandas DataFrame:")
print(order)
输出:
[Message] Generate Order Data Through Pandas DataFrame:
time fruit name kilogram
0 2019-01-01 香蕉 Mike 63
1 2019-01-02 葡萄 Michk 69
2 2019-01-03 香蕉 Michk 51
3 2019-01-04 香蕉