AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 25 Sep 2023
Totally 46 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs Authors Justin Chih Yao Chen, Swarnadeep Saha, Mohit Bansal 大型语言模型法学硕士仍然难以应对复杂的推理任务。受 1988 年 Minsky 思想社会的推动,我们提出了 ReConcile,这是一个多模型多代理框架,设计为不同 LLM 代理之间的圆桌会议,以促进不同的思想和讨论,以提高共识。 ReConcile 通过举行多轮讨论、学习说服其他代理人改进答案以及采用置信加权投票机制来增强 LLM 的推理能力。在每一轮中,ReConcile 通过讨论提示启动智能体之间的讨论,该讨论提示由每个智能体在上一轮中生成的分组答案和解释、其不确定性以及纠正人类解释的答案演示组成,用于说服其他智能体。此讨论提示使每个代理能够根据其他代理的见解修改他们的响应。一旦达成共识并且讨论结束,ReConcile 将通过加权投票方案利用每个代理的信心来确定最终答案。我们使用 ChatGPT、Bard 和 Claude2 作为三个代理来实现 ReConcile。我们在各种基准上的实验结果表明,ReConcile 显着增强了智能体单独和团队的推理性能,比之前的单智能体和多智能体基线高出 7.7,并且在其中一些数据集上的表现也优于 GPT 4。我们还使用 GPT 4 本身作为 ReConcile 中的代理之一进行实验,并通过其他代理的讨论和反馈证明其初始性能也提高了绝对 10.0。最后,我们还分析了每一轮之后的准确性,并观察到与多代理辩论基线相比,ReConcile 在代理之间实现了更好更快的共识。 |
Audience-specific Explanations for Machine Translation Authors Renhan Lou, Jan Niehues 在机器翻译中,一个常见的问题是,某些单词即使翻译了,也会因为不同的文化背景而导致目标语言受众无法理解。解决这个问题的一个办法就是为这些词添加解释。因此,第一步,我们需要识别这些单词或短语。在这项工作中,我们探索从平行语料库中提取示例解释的技术。然而,包含需要解释的单词的句子的稀疏性使得构建训练数据集变得极其困难。在这项工作中,我们提出了一种半自动技术来从大型平行语料库中提取这些解释。在英语德语语言对上的实验表明,我们的方法能够提取句子,使得超过 10 个句子包含解释,而原始句子中只有 1.9 个包含解释。此外,对英法和英汉语言对的实验也得出了类似的结论。因此,这是创建解释数据集的重要的第一个自动步骤。 |
Nested Event Extraction upon Pivot Element Recogniton Authors Weicheng Ren, Zixuan Li, Xiaolong Jin, Long Bai, Miao Su, Yantao Liu, Saiping Guan, Jiafeng Guo, Xueqi Cheng 嵌套事件提取 NEE 旨在提取复杂的事件结构,其中一个事件递归地包含其他事件作为其参数。嵌套事件涉及一种枢轴元素 PE,它同时充当外部事件的参数和内部事件的触发器,从而将它们连接成嵌套结构。 PE的这一特殊特性给现有的NEE方法带来了挑战,因为它们不能很好地应对PE的双重身份。因此,本文提出了一种新的模型,称为PerNee,主要基于识别PE来提取嵌套事件。具体来说,PerNee首先识别内部事件和外部事件的触发因素,并通过对触发对之间的关系类型进行分类来进一步识别PE。为了获得触发器和参数的更好表示,进一步提高NEE性能,它通过即时学习将事件类型和参数角色的信息合并到PerNee中。由于现有的NEE数据集(例如Genia11)仅限于特定领域,并且包含具有嵌套结构的狭窄事件类型,因此我们系统地对通用领域中的嵌套事件进行分类,并构建了一个新的NEE数据集,即ACE2005 Nest。 |
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models Authors Haoyu Gao, Ting En Lin, Hangyu Li, Min Yang, Yuchuan Wu, Wentao Ma, Yongbin Li 面向任务的对话 TOD 系统有助于用户通过多轮对话执行各种活动,但大型语言模型法学硕士通常很难理解这些复杂的上下文。在本研究中,我们提出了一种新颖的自我解释提示策略,以增强法学硕士在多轮对话中的理解能力。这种与任务无关的方法要求模型在任务执行之前分析每个对话话语,从而提高各种以对话为中心的任务的性能。 |
TopRoBERTa: Topology-Aware Authorship Attribution of Deepfake Texts Authors Adaku Uchendu, Thai Le, Dongwon Lee 大型语言模型法学硕士的最新进展使得开放式高质量文本的生成成为可能,这些文本与人类书面文本的区别并不简单。我们将此类 LLM 生成的文本称为 emph deepfake 文本。目前,huggingface 模型存储库中有超过 11K 个文本生成模型。因此,怀有恶意的用户可以轻松地使用这些开源法学硕士大规模生成有害文本和错误信息。为了缓解这个问题,需要一种计算方法来确定给定文本是否是深度伪造文本,即图灵测试 TT。特别是,在这项工作中,我们在多类设置中研究了该问题的更一般版本,称为 emph Authorship Attribution AA ,即不仅确定给定文本是否是深度伪造文本,而且还能够精确定位作者是哪个LLM。我们建议 textbf TopRoBERTa 通过在 RoBERTa 模型中包含拓扑数据分析 TDA 层来捕获 Deepfake 文本中的更多语言模式,从而改进现有的 AA 解决方案。我们通过从 RoBERTa 的重塑池化输出中提取 TDA 特征作为输入,展示了在处理噪声、不平衡和异构数据集时使用 TDA 层的好处。我们使用 RoBERTa 捕获上下文表示,即语义和句法语言特征,同时使用 TDA 捕获数据的形状和结构,即语言结构。 |
On Separate Normalization in Self-supervised Transformers Authors Xiaohui Chen, Yinkai Wang, Yuanqi Du, Soha Hassoun, Li Ping Liu 变压器的自监督训练方法在各个领域都表现出了卓越的性能。以前基于变压器的模型,例如屏蔽自动编码器 MAE,通常对 CLS 符号和令牌使用单个归一化层。我们在本文中提出了一种简单的修改,对令牌和 CLS 符号采用单独的标准化层,以更好地捕获它们的独特特征并增强下游任务性能。我们的方法旨在减轻对两种令牌类型使用相同的标准化统计数据的潜在负面影响,这可能与它们各自的角色不最佳一致。我们凭经验表明,通过利用单独的归一化层,CLS 嵌入可以更好地编码全局上下文信息,并且在其各向异性空间中分布更均匀。 |
ProtoEM: A Prototype-Enhanced Matching Framework for Event Relation Extraction Authors Zhilei Hu, Zixuan Li, Daozhu Xu, Long Bai, Cheng Jin, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng 事件关系抽取ERE旨在抽取文本中事件之间的多种关系。然而,现有的方法将事件关系单独分类为不同的类别,这不足以捕捉这些关系的内在语义。为了全面理解它们的内在语义,在本文中,我们获得了每种类型事件关系的原型表示,并提出了一种原型增强匹配 ProtoEM 框架,用于联合提取多种事件关系。具体来说,ProtoEM通过两步方式提取事件关系,即原型表示和原型匹配。第一步,为了捕捉不同事件关系的内涵,ProtoEM利用例子来表示这些关系对应的原型。随后,为了捕获事件关系之间的相互依赖关系,它为与这些关系相对应的原型构建了依赖图,并利用基于图神经网络 GNN 的模块进行建模。在第二步中,它获得新事件对的表示,并计算它们与第一步中获得的原型的相似度,以评估它们属于哪种类型的事件关系。 |
Affect Recognition in Conversations Using Large Language Models Authors Shutong Feng, Guangzhi Sun, Nurul Lubis, Chao Zhang, Milica Ga i 情感识别,包括情感、心情和感受,在人类交流中发挥着关键作用。在对话式人工智能领域,识别和响应人类情感线索的能力是创建引人入胜且富有同理心的互动的关键因素。这项研究深入研究了大型语言模型法学硕士在对话中识别人类影响的能力,重点关注开放领域的聊天对话和面向任务的对话。利用三个不同的数据集,即 IEMOCAP、EmoWOZ 和 DAIC WOZ(涵盖从休闲对话到临床访谈的一系列对话),我们评估并比较了法学硕士在情感识别方面的表现。我们的研究通过在上下文中学习 ICL 来探索法学硕士的零样本和少量样本能力,以及通过特定于任务的微调来探索其模型能力。此外,本研究还考虑了自动语音识别 ASR 错误对 LLM 预测的潜在影响。 |
AnglE-Optimized Text Embeddings Authors Xianming Li, Jin |