
机器学习数据挖掘
文章平均质量分 83
机器学习与数据挖掘专栏
基础概念
机器学习:让计算机从数据中学习规律,无需显式编程
数据挖掘:从大量数据中发现有价值的信息和模式
核心区别:机器学习侧重预测,数据挖掘侧重发现
关键技术
机器学习
监督学习(分类/回归)
线性回归、决策树、SVM、神经网络
无监督学
loopdeloop
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ARIMA与SARIMA模型详解:原理、应用与Python实现
ARIMA和SARIMA模型作为经典的时间序列分析方法,在合适的数据和场景下仍然非常有效。ARIMA(自回归积分滑动平均)模型和SARIMA(季节性ARIMA)模型是时间序列预测中最经典且实用的模型之一。ARIMA模型常用于短期股票价格预测,尽管市场具有随机性,但ARIMA能捕捉短期趋势。2. 网格搜索:对(p,d,q)和(P,D,Q,s)进行网格搜索寻找最优组合。- MA(q):移动平均部分,表示当前误差与过去q个误差的关系。- AR(p):自回归部分,表示当前值与过去p个值的关系。原创 2025-07-16 01:29:49 · 244 阅读 · 0 评论 -
机器学习模型选择指南:从问题到解决方案
机器学习模型的选择是一门艺术与科学的结合。理想的模型选择应该:匹配问题的本质适应数据的特性满足业务的需求考虑实施的约束记住,模型选择不是一次性的决定,而是一个迭代过程。随着对数据和问题理解的深入,您可能需要重新评估和调整模型选择。最终,成功的机器学习项目不在于使用了多么高级的算法,而在于是否用合适的方法解决了实际问题。希望本文提供的框架能帮助您在机器学习之旅中做出更明智的模型选择决策。原创 2025-06-08 23:59:17 · 1185 阅读 · 0 评论 -
“机器学习中的‘Hello World‘:为什么我们总用MNIST数据集,以及何时该放弃它“
在机器学习的世界里,MNIST数据集就像编程界的"Hello World"——几乎每个初学者都是从识别手写数字开始的。这个由Yann LeCun等人创建的手写数字数据库自1998年发布以来,已经"统治"机器学习教育领域超过20年。在预训练模型当道的今天,从零开始在MNIST上训练模型就像"为了学开车先学习造轮胎"。导致"在MNIST上95%准确率,现实场景中一塌糊涂":28x28像素,人类专家也能轻松"debug"28x28像素在现代CV任务中如同"石器时代"没有现实世界中的噪声、模糊、遮挡等问题。原创 2025-06-10 19:46:38 · 892 阅读 · 0 评论 -
预测模型开发与评估:基于机器学习的数据分析实践
本文将分享我在COMP5310课程项目中开发预测模型的经验,探讨从数据清洗到模型优化的完整过程,并提供详细的技术实现代码。通过本次项目,我成功开发了一个高效的信用卡欺诈检测模型。我们的研究聚焦于信用卡欺诈检测,主要探讨以下问题:如何通过机器学习技术有效识别信用卡交易中的欺诈行为,并最大化检测准确率同时减少误报?通过本项目,我不仅掌握了预测模型开发的完整流程,更深入理解了在现实业务场景中应用机器学习技术的挑战与策略。我们使用的是信用卡交易数据集,包含了大量真实交易记录,其中少部分被标记为欺诈交易。原创 2025-05-16 15:43:07 · 1235 阅读 · 0 评论 -
水质指数预测模型R²偏低的原因分析与优化策略
摘要:本文针对水质指数预测中机器学习模型R²值偏低(最高仅0.4058)的问题展开分析。通过测试线性回归、Ridge/Lasso回归、XGBoost等7种算法,发现线性模型优于非线性模型。主要原因包括数据复杂性(多因素影响)、特征不足、时空特性未充分捕捉等。提出多维度优化策略:数据增强(整合多源数据、构建时序特征)、特征工程(交互特征、非线性变换)、高级模型(LightGBM、Stacking集成)以及分层建模和LSTM时序模型。实验表明,优化后的特征工程和专用模型能显著提升预测性能,为复杂环境系统的建模提原创 2025-06-26 09:56:29 · 1080 阅读 · 0 评论 -
从零实现LeNet5卷积神经网络:MNIST手写数字识别实战
MNIST是机器学习领域最著名的基准数据集之一,包含60,000张训练图像和10,000张测试图像,每张图像是28×28像素的灰度手写数字(0-9)。# 加载MNIST数据集# 数据预处理transforms.Normalize((0.1307,), (0.3081,)) # MNIST均值和标准差])# 加载训练集# 加载测试集本文从零开始实现了LeNet5卷积神经网络,并在MNIST数据集上进行了训练和评估。原创 2025-04-30 09:21:20 · 1146 阅读 · 0 评论 -
数据分析与可视化实战:从鸢尾花到乳腺癌数据集
数据预处理和可视化是数据科学工作流中不可或缺的环节。通过适当的预处理技术,我们可以处理现实数据中的各种问题;通过有效的可视化方法,我们能更深入地理解数据结构和模式。这些基础技能不仅对数据分析至关重要,也是构建可靠机器学习模型的前提条件。数据探索:了解数据结构和基本统计量数据清洗:处理缺失值、离群值和重复值数据可视化:使用多种图表揭示数据特征数据预处理:采样、分箱和降维这些技术是数据科学项目的基础,掌握它们将帮助你更好地理解和处理各种数据集。原创 2025-05-03 19:27:48 · 893 阅读 · 0 评论 -
时间序列预测的机器学习方法:从基础到实战
时间序列是按时间顺序排列的一系列数据点,通常是在连续时间间隔内进行的测量。时间序列预测就是基于历史数据来预测未来的值。时间序列预测是一个复杂但极具价值的领域。理解数据:在建模前充分分析数据的趋势、季节性和其他特征特征工程:创建有意义的特征(滞后、滑动窗口、时间特征等)Transformer模型:在时间序列预测中的应用元学习:学习如何快速适应新的时间序列模式解释性:提高时间序列预测模型的可解释性实时预测:低延迟的在线学习系统模型选择对于简单问题,传统方法(ARIMA)可能足够。原创 2025-06-08 23:51:18 · 1427 阅读 · 0 评论 -
“机器学习中的玄学调参:当你的模型效果突然变好时,到底发生了什么?“
《模型"显灵"背后的科学与玄学》摘要 当模型性能莫名提升时,数据科学家们常陷入"科学解释"与"玄学猜想"的拉锯战。技术层面,随机种子、硬件温度、数据加载顺序等细微变量可能带来±3%的波动;而都市传说则包含咖啡因摄入量、键盘敲击力度等神秘关联。本文既探讨了科学记录方法(如稳定性测试脚本),也幽默列举了"伪随机"技巧(关掉进度条/藏猫emoji🐱)。最终指出:机器学习本质是蒙特卡洛过程,应学会拥抱不确定性——那些无法解释的性能跃升原创 2025-06-12 01:58:48 · 590 阅读 · 0 评论 -
不用反向传播也能训练神经网络?试试“费米玻色机”!
如果你也对这类“轻理论 + 重结构”的训练方法感兴趣,不妨试着自己写一个小框架。别总调库调模型,自己造轮子真的很爽!有问题评论区见 👇👇👇。原创 2025-06-23 16:41:56 · 537 阅读 · 0 评论 -
MPI + OpenMP 环境配置指南(Windows/Linux)
《MPI+OpenMP混合并行编程环境配置指南》摘要: 本文详细介绍了MPI(进程级分布式计算)与OpenMP(线程级共享内存)混合编程的环境配置方法。涵盖Windows(MS-MPI+MinGW)和Linux(OpenMPI+GCC)双平台搭建步骤,提供验证安装的测试代码示例。主要内容包括:1)Windows环境下MS-MPI SDK安装与MinGW编译器配置;2)Linux通过apt/yum安装OpenMPI;3)混合编程代码编译指令差异对比;4)三大常见问题解决方案(MPI链接错误、OpenMP失效、原创 2025-06-12 15:04:01 · 623 阅读 · 0 评论 -
“当机器学习遇上办公室政治:如何让你的模型在会议上获得通过“
《模型部署的商业生存法则》揭示技术落地的真实挑战:会议室比代码更重要。文章剖析六类关键决策者诉求,提供利益相关者沟通矩阵,建议将技术术语转化为商业语言(如"随机森林"改为"智能决策引擎")。分享职场实战技巧:动态可视化演示、项目命名策略(避免技术词汇)、会议座位选择等。指出终极妥协方案——将模型包装成Excel工具,并强调成功部署=20%算法+30%工程+50%组织智慧。文末引述行业金句:"最好的模型是让最多人感到参与其中的"。原创 2025-06-16 00:00:00 · 489 阅读 · 0 评论