自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 kaggle项目:基于 LightGBM 的播客收听时长预测建模实践

本项目通过LightGBM回归模型预测播客收听时长,完整呈现了数据处理与建模流程。针对750,000条训练数据,重点处理了Episode_Length_minutes和Guest_Popularity_percentage字段的缺失值,并修正了广告数量的异常值。特征工程阶段构造了嘉宾热度与时长乘积等组合特征。使用RMSE评估指标,最终模型在验证集上表现良好。特征重要性分析显示节目类型和时长是关键影响因素。项目存在的改进空间。

2025-07-09 23:22:48 585

原创 对比T检验、Z检验、卡方检验与方差分析

本文对比了四种常用统计检验方法的特点与应用。T检验适用于小样本均值比较,Z检验用于大样本或已知总体方差的情况,二者均需数据满足正态性。卡方检验分析分类变量关联性,要求样本量足够大且期望频数达标。方差分析比较多组均值差异,需满足正态性、方差齐性和独立性。关键区别在于:前两者处理定量数据,卡方检验处理分类数据,方差分析扩展至多组比较。实际应用中需根据数据类型、样本量和假设条件选择合适的检验方法,必要时考虑非参数替代方案。

2025-07-08 18:34:48 537

原创 Kaggle项目:基于 Random Forest 的降雨预测

本项目基于Kaggle气象数据构建降雨预测二分类模型。通过特征工程构造温差、湿温指数等新特征,并对风向分箱处理。预处理阶段处理缺失值与异常值,标准化连续变量。模型评估显示云量、湿度等关键特征贡献显著。该项目完整覆盖从数据处理到模型解释的全流程,为数据分析转型提供了实践基础。

2025-07-07 00:13:05 723

原创 Kaggle比赛项目:性格预测

摘要:该项目通过Kaggle比赛数据(18,524条样本)预测性格倾向(内向/外向)。采用结构化建模流程:缺失值填充(均值/众数)、EDA分析类别不平衡(1:3)、构建基线模型(逻辑回归/LightGBM/XGBoost)并优化F1-score。通过特征工程构造社交活跃度指标,使用SHAP分析关键特征(如独处时间、社交疲惫感),并融合模型(软投票+阈值优化至0.40)。最终公榜得分0.974089(排名546/841)。

2025-07-05 15:48:19 1538 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除