Fun-Rec项目：推荐系统中的数据分析方法与实战

原创于 2025-06-07 09:22:00 发布 · 293 阅读

CC 4.0 BY-SA版权

Fun-Rec项目：推荐系统中的数据分析方法与实战

引言

在推荐系统开发中，数据分析是构建高效推荐模型的基础环节。通过深入分析用户行为数据、物品属性以及交互特征，我们能够发现数据中隐藏的模式和规律，为后续的特征工程和模型选择提供重要依据。本文将基于Fun-Rec项目中的实际案例，详细介绍推荐系统数据分析的全流程方法。

一、数据分析的核心价值

推荐系统中的数据分析主要关注三个维度：

用户维度：分析用户基本属性和行为特征
物品维度：分析物品内容属性和流行度特征
交互维度：分析用户与物品的交互模式

通过这三个维度的分析，我们能够：

理解数据分布特征
发现潜在的数据问题
识别重要的特征关系
为召回策略提供依据
指导特征工程方向

二、数据准备与预处理

2.1 数据加载

我们使用Pandas加载三种核心数据：

import pandas as pd

# 用户点击日志
trn_click = pd.read_csv('train_click_log.csv')
tst_click = pd.read_csv('testA_click_log.csv')

# 文章信息
item_df = pd.read_csv('articles.csv')
item_emb_df = pd.read_csv('articles_emb.csv')

2.2 数据预处理

关键预处理步骤包括：

时间戳排序：计算用户点击的时间顺序

trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False)

点击次数统计：计算用户总点击量

trn_click['click_cnts'] = trn_click.groupby(['user_id'])['click_timestamp'].transform('count')

三、数据探索性分析

3.1 用户行为分析

3.1.1 点击分布特征

通过可视化分析用户点击行为的分布：

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(15, 20))
for i, col in enumerate(['click_environment', 'click_deviceGroup', 'click_os']):
    plt.subplot(3, 1, i+1)
    sns.countplot(x=col, data=trn_click)
    plt.title(f'Distribution of {col}')
plt.tight_layout()

分析发现：

97.6%的点击发生在环境4
设备1占比60.4%，设备3占比36%
操作系统分布呈现明显长尾

3.1.2 用户活跃度

user_click_count = trn_click.groupby('user_id').size().sort_values(ascending=False)
plt.plot(user_click_count.values)

关键发现：

前50名用户点击量>100次（活跃用户）
约25%用户点击量≤2次（非活跃用户）

3.2 物品特征分析

3.2.1 文章流行度

item_popularity = trn_click['click_article_id'].value_counts()
plt.plot(item_popularity.values)

分析结果：

前100篇文章点击量>1000次（热门内容）
约3500篇文章点击量≤2次（冷门内容）

3.2.2 内容属性

# 文章类别分布
item_df['category_id'].hist(bins=50)

# 文章字数分布
item_df['words_count'].describe()

发现：

共461个文章主题，分布极不均衡
平均字数237字，标准差154，存在较大差异

3.3 交互模式分析

3.3.1 共现分析

# 计算文章共现次数
tmp = trn_click.sort_values('click_timestamp')
tmp['next_item'] = tmp.groupby('user_id')['click_article_id'].shift(-1)
co_occurrence = tmp.groupby(['click_article_id','next_item']).size().reset_index(name='count')

发现：

平均共现次数2.88
最高共现达1687次
约7万对文章至少共现1次

3.3.2 时间模式

# 计算用户点击时间间隔
trn_click['time_diff'] = trn_click.groupby('user_id')['click_timestamp'].diff().abs()
mean_diff = trn_click.groupby('user_id')['time_diff'].mean()
plt.plot(sorted(mean_diff.values, reverse=True))

发现不同用户的时间间隔模式差异显著，可反映用户活跃程度。

四、关键分析发现与建议

4.1 重要发现总结

用户差异：
- 活跃用户与非活跃用户行为差异显著
- 用户设备、环境特征相对稳定
- 用户兴趣广度差异明显
内容特征：
- 文章流行度呈现典型的长尾分布
- 文章主题和字数差异显著
交互模式：
- 用户倾向于连续浏览相关内容
- 时间间隔模式具有用户特异性

4.2 特征工程建议

基于分析结果，建议构建以下特征：

用户特征：
- 活跃度等级（基于点击量）
- 设备偏好特征
- 兴趣广度（基于浏览类别数）
物品特征：
- 流行度指标
- 内容属性（字数、类别）
- 时效性特征
交互特征：
- 共现频率
- 浏览时间模式
- 内容相似度序列

五、进阶分析技巧

5.1 嵌入向量分析

利用文章嵌入向量分析内容相似度：

from sklearn.preprocessing import normalize

emb_matrix = normalize(item_emb_df.values)
similarities = emb_matrix.dot(emb_matrix.T)

# 分析用户浏览序列相似度
def analyze_user_sim(user_df):
    items = user_df['click_article_id'].values
    sim_seq = [similarities[items[i], items[i+1]] for i in range(len(items)-1)]
    return np.mean(sim_seq)

5.2 时间序列分析

# 分析用户活跃时段
trn_click['hour'] = pd.to_datetime(trn_click['click_timestamp'], unit='ms').dt.hour
user_hour_pattern = trn_click.groupby(['user_id', 'hour']).size().unstack().fillna(0)