AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 21 Apr 2022
Totally 56 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
Medical Dataset Classification for Kurdish Short Text over Social Media Authors Ari M. Saeed, Shnya R. Hussein, Chro M. Ali, Tarik A. Rashid Facebook 应用程序用作收集此数据集评论的资源,该数据集由 6756 条评论组成,以创建医疗库尔德数据集 MKD。样本是用户的评论,这些评论来自 Medical、News、Economy、Education 和 Sport 页面的不同帖子。在原始数据集上执行六个步骤作为预处理技术,通过替换字符来清理和去除评论中的噪音。评论短文本被标记为正面类医学评论和负面类非医学评论作为文本分类。 |
Design and Development of Rule-based open-domain Question-Answering System on SQuAD v2.0 Dataset Authors Pragya Katyayan, Nisheeth Joshi 人类的思想是寻求答案的好奇问题的宫殿。通过自然语言处理技术可以解决这一挑战。机器学习和深度学习等统计技术需要大量数据来训练,尽管它们无法挖掘语言的细微差别。此类系统通常在封闭域数据集上表现最佳。我们已经提议开发一种基于规则的开放领域问答系统,该系统能够从相应的上下文段落中回答任何领域的问题。我们使用了来自 SQuAD 2.0 数据集的 1000 个问题来测试开发的系统,它给出了令人满意的结果。 |
Generative Design Ideation: A Natural Language Generation Approach Authors Qihao Zhu, Jianxi Luo 本文旨在通过在人工智能 AI 中应用最新的预训练语言模型,探索一种基于知识的设计构思的生成方法。具体来说,提出了一种使用 USPTO 专利数据库对生成的预训练变压器进行微调的方法。 AI生成的想法不仅语言简洁易懂,而且能够将目标设计与外部知识源相结合,知识距离可控。 |
The MIT Voice Name System Authors Brian Subirana, Harry Levinson, Ferran Hueto, Prithvi Rajasekaran, Alexander Gaidis, Esteve Tarrag , Peter Oliveira Soens 这份 RFC 白皮书总结了我们在 MIT 语音名称系统 VNS 和 Huey 方面的进展。 VNS 在名称和功能上与 DNS 类似,是一个保留和使用唤醒词来激活人工智能 AI 设备的系统。就像你可以说 Hey Siri 来激活 Apple 的个人助理一样,我们建议使用智能扬声器和其他设备中的 VNS 根据关闭、打开杂货店购物清单或 271 等命令路由唤醒请求,开始我的闪存卡审查计算机视觉课。我们还介绍了 Huey,这是一种与 AI 设备交互的明确自然语言。我们的目标是将语音交互标准化到与其他系统类似的普遍范围,例如电话号码,采用公认的全球范围分配和使用号码的方法,或互联网的 DNS,采用标准命名系统,这有助于蓬勃发展万维网、FTP 和电子邮件等服务。就像这些标准是中立的一样,我们也旨在赋予 VNS 唤醒中立性,以便每个参与者都可以开发自己的数字语音。我们专注于语音作为与任何物联网对象交谈的起点,并简要解释 VNS 如何扩展到其他人工智能技术,使人能够机器对话,真正机器对机器,包括计算机视觉或神经接口。我们还简要描述了对更广泛的标准集 MIT Open AI MOA 的考虑,包括一个参考架构,作为开发具有标准唤醒词、NLP 命令(如购物清单或 Flash)的通用会话商务基础设施的起点 |
A Fast Post-Training Pruning Framework for Transformers Authors Woosuk Kwon, Sehoon Kim, Michael W. Mahoney, Joseph Hassoun, Kurt Keutzer, Amir Gholami 剪枝是降低大型 Transformer 模型的巨大推理成本的有效方法。然而,先前关于模型修剪的工作需要重新训练模型。这会增加模型部署的高成本和复杂性,使其难以在许多实际情况下使用。为了解决这个问题,我们提出了一个不需要任何再训练的 Transformers 快速训练后修剪框架。给定资源约束和样本数据集,我们的框架使用结构化稀疏方法自动修剪 Transformer 模型。为了在不重新训练的情况下保持高精度,我们引入了三种新技术:i 轻量级掩码搜索算法,它根据 Fisher 信息找到要修剪的头和过滤器;ii 掩码重排,补充搜索算法;iii 掩码调整,重建每一层的输出激活.我们将我们的方法应用于 BERT BASE 和 DistilBERT,并评估其在 GLUE 和 SQuAD 基准上的有效性。我们的框架实现了高达 2.0 倍的 FLOP 减少和 1.56 倍的推理延迟加速,同时保持了 1 的准确性损失。重要的是,我们的框架在不到 3 分钟的时间内在单个 GPU 上修剪了 Transformer,这比现有的再训练修剪方法快两个数量级以上。 |
Syntax-informed Question Answering with Heterogeneous Graph Transformer Authors Fangyi Zhu, Lok You Tan, See Kiong Ng, St phane Bressan 大型神经语言模型正在稳步为问答和其他自然语言和信息处理任务贡献最先进的性能。这些模型的训练成本很高。 |
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition Authors Rishab Sharma, Fuxiang Chen, Fatemeh Fard 代码注释生成是为给定代码方法或函数生成高级自然语言描述的任务。尽管研究人员一直在研究自动生成代码注释的多种方法,但以前的工作主要考虑仅以完整的语义形式表示代码标记,例如,使用语言模型来学习代码标记的语义,以及附加的代码属性,例如代码的树结构作为模型的辅助输入。 |
The TalkMoves Dataset: K-12 Mathematics Lesson Transcripts Annotated for Teacher and Student Discursive Moves Authors Abhijit Suresh, Jennifer Jacobs, Charis Harty, Margaret Perkoff, James H. Martin, Tamara Sumner 教学片段的文字记录可以成为理解课堂教学中话语模式的有效工具。大多数教育专家认为,持续的课堂话语是学生公平、参与和丰富学习环境的关键组成部分。本文描述了 TalkMoves 数据集,该数据集由 567 个人工注释的 K 12 数学课成绩单组成,包括整个课程或从视频记录中获得的部分课程。这套成绩单主要包括带有全班讨论和/或小组工作的面对面课程,以及一些在线课程。所有的成绩单都是人工转录的,由演讲者的老师或学生分割,并根据负责任的谈话理论在句子级别注释十个话语动作。此外,成绩单包括基于 Switchboard Dialog Act Corpus 的对话行为标签形式的话语级别信息。教育工作者、政策制定者和研究人员可以使用该数据集来了解 K 12 数学课堂中教师和学生话语的性质。 |
Detecting Unintended Memorization in Language-Model-Fused ASR Authors W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews 端到端 E2E 模型通常伴随着语言模型 LM 通过浅层融合来提高其整体质量以及对稀有词的识别。同时,之前的几项工作表明,LM 容易无意中记住训练数据中稀有或独特的序列。在这项工作中,我们设计了一个框架来检测随机文本序列的记忆,当一个人只有黑盒查询访问 LM 融合语音识别器时,我们在 LM 训练数据中称为金丝雀,而不是直接访问 LM。在与 Transformer LM 融合的生产级 Conformer RNN T E2E 模型上,我们展示了从 300M 示例的 LM 训练数据中检测单个出现的金丝雀的记忆是可能的。 |
Extraction of Sleep Information from Clinical Notes of Alzheimer's Disease Patients Using Natural Language Processing Authors Haneef Ahamed Mohammad, Sonish Sivarajkumar, Samual Viggiano, David Oniani, Shyam Visweswaran, Yanshan Wang 阿尔茨海默病 AD 是美国最常见的痴呆症。睡眠是与生活方式相关的因素之一,已被证明对老年人的最佳认知功能至关重要。 .然而,缺乏研究睡眠与 AD 发病率之间关系的研究。进行此类研究的一个主要瓶颈是获取睡眠信息的传统方式耗时、效率低、不可扩展且受限于患者的主观体验。在这项研究中,我们开发了基于规则的 NLP 算法和机器学习模型,以自动从临床笔记中提取睡眠相关概念,包括打鼾、午睡、睡眠问题、睡眠质量差、白天嗜睡、夜间醒来和睡眠持续时间被诊断患有 AD 的患者。我们根据从匹兹堡大学医学中心 UPMC 检索到的临床记录对提出的模型进行了训练和验证。 |
Hierarchical BERT for Medical Document Understanding Authors Ning Zhang, Maciej Jankowski 医学文档理解近来备受关注。一项具有代表性的任务是国际疾病分类 ICD 诊断代码分配。现有工作采用 RNN 或 |