- 博客(20)
- 收藏
- 关注
原创 XGBoost
通过将不重要特征的权重压到零,简化模型并提高可解释性。代价是优化稍复杂,且在特征高度相关时选择可能不稳定。(以及 Elastic Net 的混合参数),找到模型在验证集上泛化性能最佳的点。通过压缩所有权重(但不为零)来平滑模型输出,降低对噪声的敏感性。: L(y,f)=∣y−f∣L(y,f)=∣y−f∣,最优初始常数。gbdt一般使用平方差作为损失函数,对应的初始化常数为均值。,优先尝试 L1 或 Elastic Net。如果使用其他损失函数,初始化的常数。:最优初始常数介于均值和中位数之间。
2025-08-06 17:22:41
380
原创 svm支持向量机
本文介绍了支持向量机中核函数使用要点:非线性核(如RBF、多项式)对特征尺度敏感,必须进行标准化处理(如使用StandardScaler)。复杂核函数容易导致过拟合,需配合正则化参数C调优;而简单核可能欠拟合。文章还提及支持向量机模型的详细实现(含案例代码)。
2025-08-04 16:37:11
273
原创 Anaconda 想下载的库在初始库没有?Anaconda想在某个环境下下载库?
Anaconda 想下载的库在初始库没有?Anaconda想在某个环境下下载库?
2025-07-17 16:46:33
302
1
原创 预测回归专题
面向傻瓜(或开发人员)的 Holt-Winters 预测 - 第一部分 - Gregory Trubetskoy。2.双指数平滑----------1.单指数平滑模型----
2025-07-14 14:50:11
283
原创 主成分分析PCA
PC1_Score = (10 * 0.94446029) + (5 * 0.32862557) ≈ 9.44 + 1.64 = 11.08此方向上偏离整体方向更多。主成分分析:PCA通常用于降低大型数据集的维数,方法是数据集中的指标数量变少,并且保留原数据集中指标的大部分信息。PC2_Score = (10 * 0.32862557) + (5 * -0.94446029) ≈ 3.29 - 4.72 = -1.43此方向偏离的少。得到的结果形式如下:(二维数据情况下)得到该点在新坐标系中的位置为。
2025-07-11 13:48:50
869
原创 分类、评价、相关性
相当于是人为(专家)指定各因素的相对重要性(通过1-9进行打分),而后进行一致性检验,最终得到各个评价指标的权重。用人话讲明白AHP层次分析法(非常详细原理+简单工具实现)_如何用spss做ahp层次分析-CSDN博客。灰色关联度分析(Grey Relation Analysis,GRA)原理详解-CSDN博客。3、Topsis综合评价(评价方案的好坏)(可以用熵权法得到的权重)1、层次分析法(AHP)(权重制定)(主观性强)5、主成分分析(PCA,相关程度计算)2、熵权法(计算权重)(客观性强)
2025-07-10 15:58:29
391
原创 1.2协方差和皮尔逊相关系数
对异常值不敏感,不严格要求正态分布,能捕捉单调关系(线性或非线性,只要方向一致)。➡️ 尝试变量转换(如取对数)使其线性化,或使用非线性相关系数(如斯皮尔曼秩相关系数、距离相关系数)➡️ 检查并处理异常值(分析原因、考虑删除、使用稳健方法如斯皮尔曼秩相关系数)。协方差、样本协方差、协方差矩阵、相关系数详解(python代码)-CSDN博客。也是基于秩次的非参数方法,衡量两个变量排序的一致性。关系强度和方向的统计量,对于非连续性有序(满意,一般,不满意)也可用。皮尔逊相关系数就是标准化后的协方差。
2025-07-09 15:08:48
892
原创 纯整数线性规划、混合整数线性规划
本文主要介绍了整数规划问题的分类及其特点。纯整数线性规划(PILP)要求所有变量均为整数,适用于车辆调度、工人分配等离散优化问题;混合整数线性规划(MILP)则同时包含整数和连续变量,常用于工厂选址等兼具离散决策和连续生产的问题。文章指出,由于整数变量的引入,这两类问题都属于NP难问题,求解难度随规模指数增长,大规模时可能无法获得最优解。最后提及现有求解器在处理大数据量时的局限性。
2025-07-07 19:09:19
675
原创 0.0泛化误差及各种误差
各种误差区别总结: 方差、标准差、均方差、均方误差、均方根误差_均方差和标准差的区别-CSDN博客。泛化误差为偏差+方差+噪声的方差=偏差是预测值和真实值的方差。
2025-07-03 18:10:39
170
原创 0.1.数学模型梳理(从0开始)
将数据集C分为n个互斥子集,然后选选择Ci(Ci为C的一个子集)作为测试集,其他为训练集,测试集将子集全部遍历一遍。b.分层取样,即所有类别在测试集、训练集中都有。例如:认为圆形绿色卡纸是叶子-----(没学习到叶子的纹理这个特征)例如:叶子必须有锯齿,从而再识别没锯齿的叶子就会认为他不是叶子。对于二分类问题,我们可将其分为真正例TP、真反例TN、假正理FP、假反例FN。过拟合:在机器学习过程中,将物体的非必要特性学了进去,泛化能力差。500字了,不想写了,你估计也不想看了,下次再写吧。
2025-07-02 15:30:46
225
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人