- 博客(4)
- 收藏
- 关注
原创 kaggle项目:基于 LightGBM 的播客收听时长预测建模实践
本项目通过LightGBM回归模型预测播客收听时长,完整呈现了数据处理与建模流程。针对750,000条训练数据,重点处理了Episode_Length_minutes和Guest_Popularity_percentage字段的缺失值,并修正了广告数量的异常值。特征工程阶段构造了嘉宾热度与时长乘积等组合特征。使用RMSE评估指标,最终模型在验证集上表现良好。特征重要性分析显示节目类型和时长是关键影响因素。项目存在的改进空间。
2025-07-09 23:22:48
585
原创 对比T检验、Z检验、卡方检验与方差分析
本文对比了四种常用统计检验方法的特点与应用。T检验适用于小样本均值比较,Z检验用于大样本或已知总体方差的情况,二者均需数据满足正态性。卡方检验分析分类变量关联性,要求样本量足够大且期望频数达标。方差分析比较多组均值差异,需满足正态性、方差齐性和独立性。关键区别在于:前两者处理定量数据,卡方检验处理分类数据,方差分析扩展至多组比较。实际应用中需根据数据类型、样本量和假设条件选择合适的检验方法,必要时考虑非参数替代方案。
2025-07-08 18:34:48
537
原创 Kaggle项目:基于 Random Forest 的降雨预测
本项目基于Kaggle气象数据构建降雨预测二分类模型。通过特征工程构造温差、湿温指数等新特征,并对风向分箱处理。预处理阶段处理缺失值与异常值,标准化连续变量。模型评估显示云量、湿度等关键特征贡献显著。该项目完整覆盖从数据处理到模型解释的全流程,为数据分析转型提供了实践基础。
2025-07-07 00:13:05
723
原创 Kaggle比赛项目:性格预测
摘要:该项目通过Kaggle比赛数据(18,524条样本)预测性格倾向(内向/外向)。采用结构化建模流程:缺失值填充(均值/众数)、EDA分析类别不平衡(1:3)、构建基线模型(逻辑回归/LightGBM/XGBoost)并优化F1-score。通过特征工程构造社交活跃度指标,使用SHAP分析关键特征(如独处时间、社交疲惫感),并融合模型(软投票+阈值优化至0.40)。最终公榜得分0.974089(排名546/841)。
2025-07-05 15:48:19
1538
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人