机器翻译(MT)评价指标

本文对比了BLEU和ROUGE两种机器翻译评价指标,BLEU关注准确率,通过n-gram计算候选句与标准句的相似度;ROUGE则侧重召回,通过统计重叠的n-gram来评估摘要质量。BLEU易陷常用词陷阱,ROUGE更注重整体匹配。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ROUGE基于召回率,BLEU更看重准确率

BLEU

BLEU总体思想就是准确率,假如给定标准译文reference,神经网络生成的句子是candidate,candidate长度为n,candidate中有m个单词出现在reference,m/n就是bleu的1-gram的计算公式。

BLEU还有许多变种。根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。

BLEU-1衡量的是单词级别的准确性,更高阶的bleu可以衡量句子的流畅性。

bleun=∑c∈candidates∑n−gram∈cCountclip(n−gram)∑c‘∈candidates∑n−gram‘∈c‘Countclip(n−gram‘)bleu_n = \frac{\sum_{c \in candidates}\sum_{n-gram \in c} Count_{clip}(n-gram)}{\sum_{c^` \in candidates}\sum_{n-gram^` \in c^`} Count_{clip}(n-gram^`)}bleun=ccandidatesngramcCountclip(ngram)ccandidatesngramcCountclip(ngram)

分子

神经网络生成的句子是candidate,给定的标准译文是reference。

1) 第一个求和符号统计的是所有的candidate,因为计算时可能有多个句子,

2)第二个求和符号统计的是一条candidate中所有的n−gram,而 Countclip(n−gram)Count_{clip}(n-gram)Countclip(ngram) 表示某一个n−gram在reference中的个数。

所以整个分子就是在给定的candidate中有多少个n-gram词语出现在reference中。

分母

前两个求和符号和分子中的含义一样,Count(n-gram’)表示n−gram′在candidate中的个数,综上可知,分母是获得所有的candidate中n-gram的个数。

BLEU实质是对两个句子的共现词频率计算,但计算过程中使用好些技巧,追求计算的数值可以衡量这两句话的一致程度。BLEU容易陷入常用词短译句的陷阱中,而给出较高的评分值。

ROUGE

机器自动摘要常见的参考指标rouge有若干个优化版本,核心是通过统计机器候选摘要句子和标准摘要句子重叠的单元n-gram,来评判摘要的质量。

  • ROUGE-1
  • ROUGE-2
  • ROUGE-3
  • ROUGE-N
  • ROUGE-L
  • ROUGE-W
  • ROUGE-S
  • ROUGE-SU

ROUGE-N

在这里插入图片描述
分子表示所有样本的reference结果按N-gram拆分后与candidate结果按N-gram拆分后匹配上个数的和;分母表示所有样本的reference结果,按N-gram拆分后的和。可以发现分子跟BLEU相同,而分母是不同的,更注重召回

ROUGE-L

最长公共子序列的重合率计算。

S是人工摘要,C是机器摘要

RLCS=LCS(C,S)len(S)R_{LCS}=\frac{LCS(C,S)}{len(S)}RLCS=len(S)LCS(C,S)

PLCS=LCS(C,S)len(C)P_{LCS}=\frac{LCS(C,S)}{len(C)}PLCS=len(C)LCS(C,S)

FLCS=(1+β2)RLCSPLCSRLCS+β2PLCSF_{LCS}=\frac{(1 + \beta^2)R_{LCS}P_{LCS}}{R_{LCS}+\beta^2P_{LCS}}FLCS=RLCS+β2PLCS(1+β2)RLCSPLCS

RLCSR_{LCS}RLCS 表示召回率,而 PLCSP_{LCS}PLCS表示精确率,FLCSF_{LCS}FLCS 就是 ROUGE-L。一般 beta 会设置为很大的数,因此FLCSF_{LCS}FLCS 几乎只考虑了RLCSR_{LCS}RLCS (即召回率)

优点:反应句子级别顺序,不需要制定n-gram的长度

缺点:只考虑了最长子序列的长度,忽略了其他子序列

适用于短摘要提取

PS: 注意Rouge L跟Rouge 1的区别,最长公共子序列是有方向的,而Rouge 1则认为是无向的

参考

https://zhuanlan.zhihu.com/p/223048748

https://www.zhihu.com/search?type=content&q=Rouge-l

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值