hi,大家好!
我是小李
目前研0
让我们一起探索深度学习吧!
二、线性模型
1. 数据集DateSet
在机器学习和深度学习中,通常会将数据集划分为测试数据集和训练数据集。
- 训练数据集主要用于模型的训练过程。模型通过在训练数据集上学习数据的模式、特征和规律,不断调整自身的参数以达到更好的性能表现。
- 训练数据集通常会进一步细分为两份,主要是:训练集:这是用来实际训练模型的主要部分,模型通过在训练集上的学习来调整参数和优化模型结构。验证集:用于在训练过程中评估模型的性能,比如验证模型在不同训练阶段的效果,以便确定合适的超参数、判断是否出现过拟合等。通过验证集的反馈,我们可以对模型进行调整和改进,它起到了一个中间监测和调整的作用。
- 测试数据集则用于评估训练好的模型的性能。它独立于训练数据集,通过在测试数据集上进行预测或评估,来检验模型的泛化能力、准确性、召回率等指标,以了解模型在新数据上的实际表现效果,这样可以更客观地判断模型的优劣。
1.1 难题--过拟合
过拟合是指模型在训练数据上表现得非常好,但在面对新数据或测试数据时,性能却显著下降的现象。
1.2 泛化
泛化能力指的是模型对未见过的数据(即不在训练集中的数据)的预测或处理能力。一个具有良好泛化能力的模型,不仅能够在训练数据上表现出色,而且能够准确地对新的、未曾接触过的数据进行合理的预测或分析。 理想情况下,我们希望模型能够从训练数据中学习到一般性的规律和模式,而不是仅仅记住训练数据中的具体细节,这样它在面对新数据时才能做出准确的推断。如果模型的泛化能力差,就容易出现过拟合等问题,导致其在实际应用中表现不佳。评估和提高模型的泛化能力是机器学习研究和实践中的关键任务之一。
1.3 Training Loss
“训练损失”(Training Loss)通常指在机器学习或深度学习模型训练过程中,用于衡量模型预测结果与真实值之间差异程度的一个指标。 它反映了模型在训练集上的误差情况,通过计算某种损失函数(如均方误差、交叉熵等)的值来表示。随着训练的进行,目标是逐渐减小训练损失,以提高模型的性能和准确性。
1.4 Mean Squared Error
均方误差,它是一种常用的用于衡量预测值与真实值之间平均差异程度的指标。具体计算是将预测值与真实值的差值的平方进行平均。均方误差越小,