文章目录
文本分类经典模型
作者:来自卡内基梅隆大学和微软研究院
摘要
我们提出了一种用于文档分类的分层注意网络。我们的模型有两个明显的特征:(i)它有一个反映文档层次结构的层次结构的层次结构;(ii)它在词和句两级有两种注意机制,使它在构建文档表示时能够区别地注意重要的内容和不重要的内容。在6个大规模文本分类任务中进行的实验表明,所提出的结构比以前的方法有很大的优势。注意力层的可视化表明,该模型选择了具有定性信息的词语和句子。
1 引言
文本分类是自然语言处理的基本任务之一。目标是为文本分配标签。它具有广泛的应用,包括主题标注(Wang and Manning, 2012)、情感分类(Maas et al., 2011;Pang和Lee, 2008)和垃圾邮件检测(Sahami et al., 1998)。传统的文本分类方法用稀疏的词法特征表示文档,比如n-gram,然后在这种表示上使用线性模型或核方法(Wang and Manning, 2012;约阿希姆,1998)。更近期的方法使用深度学习,如卷积神经网络(Blunsom et al., 2014)和基于长短期记忆(LSTM)的循环神经网络(Hochreiter和Schmidhuber, 1997)来学习文本表示。
尽管基于神经网络的文本分类方法已经相当有效(Kim, 2014;张等,2015;Johnson and Zhang, 2014;Tang et al., 2015),在本文中,我们检验了一个假设,即通过将文档结构的知识整合到模型体系结构中,可以获得更好的表示。我们模型的直觉是,文档的所有部分对于回答查询来说都不是同等相关的,确定相关部分涉及到对单词的交互建模,而不仅仅是对单词的单独存在进行建模。
我们的主要贡献是一种新的神经结构(§2),即层次注意网络(HAN),旨在捕捉关于文档结构的两个基本视角。首先,由于文档具有层次结构(单词构成句子,句子构成文档),我们同样通过首先构建句子表示,然后将它们聚合到文档表示中来构建文档表示。第二,我们观察到,一个文档中不同的单词和句子具有不同的信息。而且,词和句的重要性