论文精读-《GPT-NER: Named Entity Recognition via Large Language Models》

 论文为2023年arxiv发表的文章,将LLM应用于实体识别任务中,达到监督学习极限性能,尤其在小样本时性能更好。

原文: https://arxiv.org/abs/2304.10428

代码路径: https://github.com/ShuheWang1998/GPT-NER

GitHub - ShannonAI/mrc-for-flat-nested-ner: Code for ACL 2020 paper `A Unified MRC Framework for Named Entity Recognition`


摘要

文章介绍了GPT-NER,一种创新方法,将大规模语言模型(LLM)应用于命名实体识别(NER)任务。GPT-NER通过将序列标记转换为生成任务,并采用自我验证策略解决LLM的过度自信问题。实验显示,GPT-NER在五个标准NER数据集上达到监督学习基线性能,尤其在数据稀缺时性能更佳,证明了其在资源有限的NER应用中的有效性。

1 介绍

大规模语言模型(LLM)在上下文学习方面展现出卓越能力,能够通过少量示例快速适应新任务,尤其在机器翻译、问答和实体抽取等NLP领域取得显著成果。然而,LLM在NER任务上的表现仍落后于监督学习方法,因为NER的序列标记特性与LLM的文本生成形式存在差异。

为此,文章提出了GPT-NER模型,它通过将NER任务转化为文本生成任务来解决这一问题,使用特殊标记来标识实体。GPT-NER还引入了自我验证策略,以减少LLM在实体识别上的过度自信倾向,有效缓解了幻觉问题。实验结果表明,GPT-NER在五个NER数据集上达到了与监督基线相当的性能,并在低资源和少镜头设置中表现尤为出色,显示出在标记样本数量有限的情况下的实际应用潜力。此外,GPT-NER在达到GPT-3的令牌数量限制时性能仍未饱和,暗示了使用更宽松的令牌限制可能带来进一步提升。

2 相关工作

2.1命名实体识别

命名实体识别(NER)是一种识别文本中的关键信息并将其分类到一组预定义类别中的任务。解决NER的一种常用方法是将其表述为序列标记任务。Sarzynska-Wawer等人(2021)通过大规模预训练模型提高了每个单词的质量。Li等人(2019a,b)将NER任务制定为MRC任务,并进一步利用骰子损失来提高MRC模型的性能,Wang等人(2022)提出了GNN-SL模型,允许通用NER模型在测试时参考训练样例。

2.2大语言模型和语境学习

大型语言模型(llm) 在各种自然语言处理任务上获得了显著的性能提升。将llm用于下游任务的策略可以分为两类:微调和上下文学习。微调策略采用预训练模型作为初始化,并在下游监督数据上运行额外的epoch 。与微调策略不同,情境学习(ICL)促使llm在少量演示下生成文本。

3背景

命名实体识别(NER)是一种典型的序列标注任务,它为给定句子x = {x1,…, xn},其中Y表示实体标签集,n表示给定句子的长度。

3.1 NER作为序列标记

解决NER的一种常用方法是将其表述为序列标记任务,该任务可分解为以下两个步骤:(1)表示提取和(2)分类。

表示提取 目的是获得输入序列中每个标记的高维表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值