
机器学习总结
文章平均质量分 97
AGI启程号
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
特征工程练手(四):特征选择
在本节,我们深入探讨了选择特征的多种方法,包括使用相关系数、机器学习模型等方式来优化特征集。相关系数:通过计算特征之间的相关系数,可以了解它们之间的线性关系。相关系数越高,表示两个特征之间的线性关系越强,可以用于判断特征之间的相关性。理解 p 值:p 值是统计检验中的一个重要指标,表示观察到的结果在零假设成立时发生的概率。通常,当 p 值小于显著性水平(通常设为 0.05)时,我们会拒绝零假设。用机器学习测量熵和信息增益:在决策树等模型中,可以使用信息熵和信息增益来评估特征的重要性。原创 2024-08-21 15:59:02 · 1231 阅读 · 0 评论 -
特征工程练手(三):特征构建
在本节中,讨论了针对数值数据和文本数据进行特征构建的方法。填充分类特征:对于分类特征,可能需要处理缺失值。学习如何进行填充以确保数据的完整性和准确性。编码分类变量:将分类变量转化为机器学习模型可以理解的形式。扩展数值特征:通过使用现有数值特征创建新的特征,以提供更多信息给模型。词袋法:将文本表示为单词的出现频率,转化为向量形式,可用于机器学习算法。CountVectorizer:将文本数据转换为其向量表示的最常用办法,和虚拟变量类似。原创 2024-08-12 18:19:29 · 997 阅读 · 0 评论 -
特征工程练手(二):特征增强
在本节,我们深入学习了处理数据中的缺失值,特别是针对定量数据的修复方法。了解如何有效地处理缺失值是数据预处理中至关重要的一步,它能够提高模型的鲁棒性和性能。重点内容主要有观察标签分布,各维度相关性。处理异常值,将原本用0填充的数据做None填充,观察用0填充的数据统计量变化情况。分别用不同方式做数据填充以及数据标准化的方法,并使用网格搜索得到最优结果。值得注意的是,在做数据填充的时候,需要在划分训练集测试集后,使用训练集的填充数据填充训练集和测试集,以达到更好的泛化性。原创 2024-08-10 22:58:41 · 1036 阅读 · 0 评论 -
特征工程练手(一):特征理解
特征工程是数据科学中的关键步骤,它基于领域知识从原始数据中提取特征,以提升机器学习模型的性能。数据是特征工程的基础,没有数据就不可能提取特征。结构化数据与非结构化数据定量数据与定性数据数据的4个等级数据可视化。原创 2024-08-08 18:01:57 · 949 阅读 · 0 评论 -
机器学习练手(六):机器学习算法实践实战
本文为和鲸python 机器学习原理与实践·闯关训练营资料整理而来,加入了自己的理解(by GPT4o),多年风控引擎研发及金融模型开发经验,现任某公司风控研发工程师,对数据分析、金融模型开发、风控引擎研发具有丰富经验。原创 2024-08-04 12:43:13 · 1518 阅读 · 0 评论 -
机器学习练手(五):基于XGBoost 的葡萄酒分类和糖尿病指标预测
本文为和鲸python 可视化探索训练营资料整理而来,加入了自己的理解(by GPT4o),多年风控引擎研发及金融模型开发经验,现任某公司风控研发工程师,对数据分析、金融模型开发、风控引擎研发具有丰富经验。前一关卡中我们学习了SVM支持向量机模型的搭建,其中的核函数可以说是其中的重点,其通过扩展维度空间的方式,使得不可分的数据变成可分的原因就是核函数。下面我们开始学习比赛中的大杀器 -XGBoost。原创 2024-08-04 10:27:35 · 1029 阅读 · 0 评论 -
机器学习练手(四):基于SVM 的肥胖风险分类
SVM支持向量机采用扩展维度空间的方式进行分类,从而避免了之前逻辑回归的二维空间内的问题(线性不可分)。SVM在扩展维度空间后,即当前数据线性可分,通过计算间隔最大化的分离超平面将数据分开,其对未知数据的预测性是最强的。原创 2024-08-04 10:16:24 · 1742 阅读 · 5 评论 -
机器学习练手(三):基于决策树的iris 多分类和波士顿房价预测
通过可视化决策树,可以看出正如前面介绍的那样,分类决策树是if-then的集合,最终得到对应的分类结果。原创 2024-08-03 19:13:01 · 1159 阅读 · 0 评论 -
机器学习练手(二):基于KMeans的股票分类
KMeans在确定分类个数计算时,无法使用object类型的数据,应当提前删除或对特征进行one-hot处理。原创 2024-08-03 18:20:15 · 1592 阅读 · 0 评论 -
机器学习练手(一):逻辑回归之乳腺癌分类、二手车售价
关于机器学习算法的线性回归,如果是二分类且分类标签是0和1,预测结果默认是为1的概率,可以这样理解吗是的,对于二分类问题,如果使用线性回归算法(具体来说是逻辑回归),并且分类标签是0和1,那么预测结果可以理解为属于类别1的概率。具体来说,在逻辑回归中,模型通过一个线性函数(线性回归)计算出一个实数值,然后通过一个sigmoid函数(或逻辑函数)将该值转换为一个介于0和1之间的概率。这个概率可以解释为输入样本属于类别1的概率。原创 2024-08-03 12:01:14 · 1336 阅读 · 0 评论