【论文泛读62】HybridQA：通过表格和文本数据进行多跳问答的数据集

及时行樂_

于 2021-04-26 10:54:53 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：论文 # Bert # NLP_paper 文章标签： MHQA paper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41485273/article/details/116146139

HybridQA是一个结合表格和文本的大型问答数据集，旨在解决单一信息源的覆盖问题。该数据集要求模型进行多跳推理，现有模型在混合信息上的表现远低于人类。此数据集和基准挑战了异构信息处理的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贴一下汇总贴：论文阅读记录

论文链接：《HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data》

一、摘要

现有的问题回答数据集侧重于处理同类信息，要么仅基于文本，要么仅基于知识库/表格信息。然而，由于人类知识分布在不同的形式上，单独使用相同的信息可能会导致严重的覆盖问题。为了填补这一空白，我们提出了 HYBRIDQA，这是一个新的大规模问答数据集，需要对异构信息进行推理。每个问题都与一个维基百科表格和多个与表格中的实体链接的自由形式语料库对齐。这些问题旨在汇总表格信息和文本信息，即缺少任何一种形式都会导致问题无法回答。我们用三种不同的模型进行测试：1)一个只包含表的模型，2)纯文本模式，3)一种混合模型，它结合异构信息来寻找答案。实验结果表明，两种基线得到的EM评分都在20%以下，而混合模型可以达到40%以上的EM。这一差距表明有必要在 HYBRID中收集异质信息。然而，混合模型的分数仍然远远落后于人类的表现。因此，混合问答可以作为一个具有挑战性的基准来研究异构信息下的问题回答。

二、结论

我们提出了 HYBRIDQA，这是第一个通过表格和文本数据收集的混合问答数据集。我们发布数据是为了促进当前关于使用异构信息来回答现实世界问题的研究。我们将HYBRIDER设计为一个强大的基准，并提供关于该模型的有趣见解。我们认为，对于社区来说， HYBRID是一个有趣但具有挑战性的下一个问题。

三、model

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。