机器学习数学基础入门
1. 机器学习概述
机器学习致力于设计能自动从数据中提取有价值信息的算法,强调“自动”性,注重通用方法,可应用于众多数据集并产生有意义的结果。其核心概念包含数据、模型和学习。
- 数据 :机器学习以数据为核心,目标是设计通用方法从数据中提取有价值模式,理想情况下无需太多特定领域专业知识。例如,利用机器学习方法可从大量文档中自动找出共同主题。
- 模型 :模型通常与数据生成过程相关,类似给定的数据集。在回归场景中,模型可描述一个将输入映射到实值输出的函数。若模型在考虑数据后,在给定任务上的性能有所提升,则称其从数据中学习。目标是找到能很好地泛化到未见过数据的优质模型。
- 学习 :学习可理解为通过优化模型参数,自动在数据中寻找模式和结构的过程。
虽然机器学习取得了诸多成功,且有丰富软件可用于设计和训练灵活的系统,但理解其数学基础对于掌握复杂系统的基本原理至关重要,有助于创建新解决方案、理解和调试现有方法,以及了解所使用方法的内在假设和局限性。
2. 机器学习中的模糊概念
在机器学习中,概念和术语常具有模糊性,同一组件可抽象为不同数学概念。例如,“机器学习算法”有两种含义:
- 预测器 :指基于输入数据进行预测的系统。
- 训练系统 :指调整预测器内部参数,使其在未来未见过的输入数据上表现良好的系统。
为减少歧义,需明确上下文。