引用格式:Hollmann N, Müller S, Eggensperger K, et al. Tabpfn: A transformer that solves small tabular classification problems in a second[J]. arXiv preprint arXiv:2207.01848, 2022.
引用次数:186
我们的方法建立在先验数据拟合网络(PFNs;Muller et al.,2022;见第2节),它学习训练和预测算法本身。给定任何先验的PFNs近似贝叶斯推理都可以直接从后验预测分布(PPD)中采样和近似。虽然NNs和GBDTs中的归纳偏差依赖于它们的有效实现(例如,通过L2正则化、Dropout(Srivastava等人,2014)或有限的树深),但在PFNs中,人们可以简单地设计一个数据集生成算法来编码所需的先验。这从根本上改变了我们设计学习算法的方式。
S. Müller, N. Hollmann, S. Arango, J. Grabocka, and F. Hutter. Transformers can do bayesian inference. In Proceedings of the International Conference on Learning Representations (ICLR’22), 2022. URL https://openreview.net/forum?id=KSugKcbNf9. Published online: iclr.cc.
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15: 1929–1958, 2014.
2 Background on Prior-data Fitted Networks(PFNs)
首先,我们总结了PFNs是如何工作的;详情请参考Muller等人(2022年)。
S. Müller, N. Hollmann, S. Arango, J. Grabocka, and F. Hutter. Transformers can do bayesian inference. In Proceedings of the International Conference on Learning Representations (ICLR’22), 2022. URL https://openreview.net/forum?id=KSugKcbNf9. Published online: iclr.cc.
监督学习中的后验预测分布(Posterior Predictive Distribution)
在监督学习的贝叶斯框架中,先验定义了一组输入与输出标签
之间的关系的假设空间
。每个假设
可以被视为生成数据分布的机制,我们可以从中绘制样本形成数据集。例如,给定基于结构因果模型(structural causal models)的先验,
是结构因果模型的空间,假设
是一个特定的SCM,数据集包含通过该SCM生成的样本。实际上,数据集包括带有观察标签的训练数据和缺少标签或保留标签以评估预测性能的测试数据。测试样本
的PPD指定了其标签