代码链接: GitHub - HMTTT/CRLR: CRLR尝试实现
https://arxiv.org/pdf/1708.06656v2
目录
3 CAUSALLY REGULARIZED LOGISTIC REGRESSION
3.3 Causally Regularized Logistic Regression
4.3 Experiments on Synthetic Data
4.4 Experiments on YFCC100M Dataset
摘要
之前的大部分机器学习算法都是基于 i.i.d 提出的。假设。然而,这种理想的假设在实际应用中经常被违反,其中训练和测试过程之间可能会出现选择偏差。此外,在许多场景中,测试数据在训练过程中甚至不可用,这使得迁移学习等传统方法由于需要测试分布的先验而变得不可行。因此,如何解决鲁棒模型学习的不可知选择偏差对于学术研究和实际应用都至关重要。
本文在假设变量间的因果关系在不同领域间具有稳健性的前提下,将因果技术融入预测建模中,通过联合优化全局混杂因素平衡和加权逻辑回归,提出了一种新颖的因果正则化逻辑回归(CRLR)算法。
全局混杂因素平衡有助于识别因果特征,这些特征对结果的因果影响在不同领域是稳定的,然后对这些因果特征进行逻辑回归,从而构建一个稳健的预测模型,避免不可知论偏差。
为了验证 CRLR 算法的有效性,在合成数据集和真实数据集上进行了全面实验。实验结果清楚地表明,CRLR 算法优于最先进的方法,并且方法的可解释性可以通过特征可视化来充分描述。
INTRODUCTION
传统机器学习中的一个常见假设是,测试数据与训练数据独立地来自同一分布(即 i.i.d 假设)。这样,从训练数据中学到的模型就可以直接用于对测试数据进行经验误差最小的预测。违反 i.i.d. 假设所带来的危险和风险在传统的机器学习方法中往往被忽视,尽管这些方法在许多棘手的任务中取得了显著的成功,如图像分类、语音识别、物体定位等。然而,在许多实际应用中,无法完全控制数据收集过程,因此选择偏差可能会导致违反 i.i.d. 假设。
此外,在大多数情况下,测试数据在训练过程中是不可见的,因此测试数据的选择偏差变得不可知。因此,如果不考虑不可知的数据选择偏差,现有的预测模型在不同偏差的数据上就会缺乏鲁棒性,其预测结果也可能不可靠。
如图 1 所示,识别狗的分类器主要通过狗在草地上的图像进行训练,而通过狗在草地上的图像进行测试(即 i.i.d.情况下)和另一张雪地里有一只狗的图像(即非 i.i.d.情况下)。基于相关性的方法在 i.i.d. 案例中取得了成功,但在非 i.i.d. 案例中却失败了。失败的主要原因是,由于草地特征与训练集中的标签高度相关,因此在分类器中被赋予了较高的权重,但它们并没有出现在测试图像中。
相关工作:解决选择偏差的问题
最近,有几篇文献旨在解决由选择偏差引起的非同义问题。
基于特征空间转换[8, 19, 21, 27]、不变特征学习[10, 33]和分布匹配[20, 34],提出了多种领域适应方法。
然而,这些方法都需要测试数据的先验知识,而在某些实际应用中可能无法获得这些先验知识。
为克服这一难题,人们提出了领域泛化方法,主要基于仅使用训练数据学习领域无关模型或不变表示的理念[11, 17, 22]。
这些方法假定训练数据中存在已知的选择偏差(由不同领域描述),因此不能很好地泛化到不可知的选择偏差。
在这项工作中,在不知道测试数据或训练数据的领域信息的情况下,研究了在不可知数据选择偏差的数据上进行学习的问题。与之前的所有工作相比,目标定位问题更具普遍性,在实际应用中也更实用。
解决不可知论选择偏差方法介绍:因果推断
解决不可知论选择偏差的一个合理方法是学习带有因果变量的预测模型,这些因果变量对结果变量的影响对选择偏差不敏感。
因果推理是发现因果变量和结构的强大统计工具。
由于在确定因果变量时对混杂影响进行了严格审查[26],因果变量在不同领域或数据选择偏差中具有稳定性,这一点已得到公认。
因果变量的稳定性主要体现在给定这些因果变量的结果变量的条件分布在不同领域保持不变。
相反,相关变量则不具备这一特性。
确定变量因果影响的黄金标准是进行 A/B 测试等随机化实验。但完全随机化实验通常成本高昂,在某些情况下甚至不可行。
尽管如此,只要满足无混杂性假设[26],即所有混杂因素都包括在内,并且在给定观察变量时,treatment(干预)分布与潜在结果无关,就可以直接从观察数据中精确估计因果效应。
近来,基于观察数据的因果推断开始流行起来,具有代表性的方法包括倾向得分匹配或再加权[2, 3, 15]、马尔可夫毯[13, 25]和混杂因素平衡[1, 12, 14]等。然而,这些方法大多旨在估计变量对输出的因果影响,很少有方法利用因果关系的优势,特别是在预测建模中不同环境下的稳定性。
因果分析与非独立同分布相结合的挑战
&n