论文链接:https://arxiv.org/pdf/2405.04278
引用量:2
引用格式: Xiong Z, Lind S K, Forssén P E, et al. Uncertainty quantification metrics for deep regression[J]. arXiv preprint arXiv:2405.04278, 2024.
Abstract
当在机器人或其他物理系统上部署深度神经网络时,学习到的模型应该可靠地量化预测的不确定性。一个可靠的不确定性允许下游模块推理其行动的安全性。在这项工作中,我们解决了不确定性量化的指标。具体来说,我们关注于回归任务,并研究了稀疏化误差下的面积(AUSE)、校准误差(CE)、斯皮尔曼的秩相关系数和负对数似然(NLL)。使用综合回归数据集,我们研究了这些指标在四种典型的不确定性类型下的表现,它们关于测试集大小的稳定性,并揭示了它们的优缺点。我们的结果表明,CE是最稳定和可解释的度量,但AUSE和NLL也有它们各自的用处。我们不鼓励使用斯皮尔曼的等级相关性来评估不确定性,并建议用AUSE替换它。
1. Introduction
近年来,基于神经网络的方法在机器人技术的许多任务中都取得了快速的进展。在这种采用之后,越来越多的审查被指向基于神经网络的方法,因为它们缺乏可靠性和可解释性。虽然神经网络在许多不同的任务中取得了令人印象深刻的性能,但事实是它们在现实部署中可能不可靠(Grimmett 等人,2016)。此外,它们缺乏可解释性,这使得很难知道它们如何以及何时可能执行得不可靠。由于这些原因,越来越多的注意力被指向了神经网络的不确定性输出,以及内省品质的重要性(Grimmett 等人,2016)。可以说,最重要的内省质量是一个可靠的不确定性估计。
尽管越来越多的关注指向不确定性量化(UQ),但大多数工作都是指向分类任务中的不确定性。在机器人技术中,回归问题很常见,而且对可用的指标缺乏共同的理解。在这项工作中,我们确定了四个指标,通常用于衡量回归预测不确定性的各种质量。具体来说,我们调查了稀疏化误差下的面积(AUSE)(Ilg等人,2018)、斯皮尔曼秩相关系数(Spearman,1904)、负对数似然(NLL)((Lakshminarayanan等人,2017)和校准误差(CE)(Pakdaman Naeini等人,2015)。这些UQ指标衡量了不确定性的不同方面,这些方面都与回归任务性能正交(通常是均方误差(MSE)),如图1 所示。
图1:UQ指标和回归指标的说明。注:CE和AUSE的轴是不同的,但不是正交的。
在合成数据集的帮助下,我们探索这些度量的使用,目的是了解它们的度量,它们的局限性,以及它们的度量对实际应用是否有用。
我们的贡献如下:
•我们创建了简单的合成数据集,突出了不同类型的不确定性,并使用这些数据集来探索度量与生成数据分布的比较的行为。
•我们将每个度量与不同数据集大小的稳定性进行比较。
•最后,我们解释了每个度量标准的优势和局限性。
•此外,我们还提供了一个关于AUSE度量的数学公式。据我们所知,AUSE以前只用NLP进行了非正式的描述。
References
Bishop, C. M. (2006). Pattern recognition and machine learning. Information science and statistics. New York: Springer.