概述
1. 核心问题:
STVQA(Scene-Text Visual Question Answering)场景文本视觉问答,利用场景图片中的文本回答问题
(相关概念: OCR(Optical Character Recognition)图片文字识别)
需要利用多种模态的语义信息进行推理(视觉、语言、场景文本)
需要模型具有的能力:
(1)先验信息和知识
(2)利用视觉、语言、场景文本信息做推理
2. 研究背景:
大概分为三种问题:
(1)仅仅用文本信息可以回答
(2)用文本和空间布局信息可以回答
(3)用文本、空间布局信息和视觉特征可以回答
(在当前的数据集下,大多数问题都属于前两类)
引用2020年的工作:TAP方法(text-aware pre-training)【缺陷是:获取大量带有场景文本的自然图片是困难的,并且获取到的图片中的文本比较稀疏;更重要的是,在设计预训练目标函数时没有考虑到空间布局信息和语义表征的融合】
Contributions:
(1)认识到文本和布局信息在STVQA问题中的重要性,并提出了Layout-Aware预训练的方法以及网络架构。
(2)从经验上表明文档有利于结合文本与布局信息,在文档中的预训练有利于解决STVQA,即使二者之间问题的领域不同。
(3)LaTr不需要词汇表,在训练词汇以外的情况下也表现良好(之前的方法在这方面表现很差);并且能在一定程度上克服OCR错误
(4)在多个STVQA数据集上实现SOTA
Abstract
我们提出了一种用于 场景文本视觉问答(STVQ