论文笔记：An Improved Neural Baseline for Temporal Relation Extraction

最新推荐文章于 2023-08-28 12:43:53 发布

原创最新推荐文章于 2023-08-28 12:43:53 发布 · 624 阅读

CC 4.0 BY-SA版权

本文介绍了一种改进的神经网络基线在时间关系提取任务上的应用，利用LSTM实现了10%的准确度提升。通过对比不同词向量类型，引入时间常识并编码，特别是在事件位置处理和常识知识的融合上取得显著效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

解决的问题

时间关系识别，通常指在提取出文本中系列事件词的情况下，判断事件两两之间的时间关系（通常包括，before、after…）

时间关系的识别任务是一个非常具有挑战性的任务，受制于样本标注的困难，神经网络等方法一直未能被广泛利用或者带来的性能改善也差强人意。

总体布局：作者直接采用文本对应的词向量序列作为LSTM模型的输入，并且后接全连接做分类，并且使用整数线性规划的方式保证时间关系的传递性约束（常用）。

局部重点：

常识编码：所谓的常识就是指在没有上下文的情况下我们也能够去判断一些事件对之间的时间关系。例如爆炸在死亡之间，安排在出席之前等（这些常识知识往往是通过模板从大规模的语料中提取出来的）。
TEMPROB(也是他自己搞出来的东东)就是这样产生的一个知识库，它包含观察到的元组频率作为事件对（e1,e2）具有关系r的概率（e1,e2,r）。但是该知识库有一个缺陷，它只是一个简单的计数模型，对于一些罕见的事件对不太可靠。例如:(ambush, die)和(attack,die),前者的频率较为罕见，对应的关系概率也就不太可靠。
但是作者观测到，ambush实际上在语义上与attack相近，那么（attack, die）的统计值是否能够作为（ambush, die）的一个辅助信号呢？

CSE(common sense encoder): 作者基于上述idea通过孪生神经网络编码知识库中的常识性知识，该网络可以通过每个动词的嵌入结果来泛化到一些看不见的元组。

孪生网络在知识库TEMPROB上训练得到，并且在LSTM模型训练阶段固定，可以为每一对事件的关系预测提供一个辅助信号。
具体实现未讲（暂记，可跳过）：孪生网络常用来考量两个输入之间的相似程度，即两个输入目标，输出一个相似程度值或者标签。例如：(ambush, die),(attack, die)，两个元组中的动词分别作为输入，若网络得知二者在语义上意思相近，那么网络会给予预测：元组(ambush, die)之间关系与(attack, die)之间的关系（before，已知）相同，较大的肯定。（相关论文还未阅读，纯属想象）