Kaggle比赛项目：性格预测

最新推荐文章于 2025-07-08 19:51:08 发布

我要学习别拦我～

最新推荐文章于 2025-07-08 19:51:08 发布

阅读量1.2k

点赞数 38

CC 4.0 BY-SA版权

分类专栏： kaggle 文章标签： kaggle 机器学习

2 篇文章

订阅专栏

Kaggle 游乐园比赛 - 性格预测：内向 or 外向

这是一次来自 Kaggle Playground 系列的比赛，目标是通过个人的社交行为与心理特征预测其性格倾向：Introvert（内向）或 Extrovert（外向）。数据维度不高，但暗含复杂的行为偏好，适合作为结构化建模训练。

构建一个稳定、准确的分类模型，预测用户性格倾向，并力求优化 F1-score，最终提升排行榜排名。同时锻炼数据预处理、特征工程、模型调参、模型融合、可解释性分析等核心技能。

数据集共 18,524 条训练样本，特征如下：

问题特征：

✅ Step1: 缺失值处理

✅ Step2: EDA & 类别不平衡分析

✅ Step3: 建立基线模型

✅ Step4: 特征工程探索

✅ Step5: 模型融合 & 阈值优化

✅ Step6: 模型解释

✅ Step7: 模型提交 & Leaderboard 分析

❗挑战1：高比例缺失值如何处理？

❗挑战2：模型结果几轮都不变？

❗挑战3：模型解释困难

初期使用 sklearn 的 feature importance 输出权重，发现排序缺乏直观解释。
引入 SHAP 值分析后，生成 summary_plot 可视化重要特征并标注正负方向。发现 Alone_ratio 是模型影响最大的变量！右边（推“外向”）的点大多是蓝色。Alone_ratio 越低（即越不爱独处）→ 越可能是外向者。Outside_index、Social_score、Post_frequency 也重要它们都体现了“社交活跃度”：
- 外出频率 × 活动频率（Outside_index）
- 朋友圈人数 × 发帖频率（Social_score）
- 红色点往右说明：值高 → 趋向外向

❗挑战4：公榜压缩效应严重

初期使用 sklearn 的 feature importance 输出权重，发现排序缺乏直观解释。
引入 SHAP 值分析后，生成 summary_plot 可视化重要特征并标注正负方向。发现 Alone_ratio 是模型影响最大的变量！右边（推“外向”）的点大多是蓝色。Alone_ratio 越低（即越不爱独处）→ 越可能是外向者。Outside_index、Social_score、Post_frequency 也重要它们都体现了“社交活跃度”：
- 外出频率 × 活动频率（Outside_index）
- 朋友圈人数 × 发帖频率（Social_score）
- 红色点往右说明：值高 → 趋向外向
- 同时对 Drained_after_socializing 使用 dependence_plot，发现其与 Post_frequency 存在一定交互。