ROUGE
NLP中常用的评测指标就是ROUGE(Recall-Oriented Understudy for Gisting Evaluation),用来评价机器生产的摘要或者翻译的质量。
ROUGE指标集合
ROUGE-N
计算LLM生成的文本和参考文本的n-grams(例如unigram、bigrams)重叠度。ROUGE-1就是一个单词一个单词的计算,ROUGE-2就是两个单词两个单词的计算。
ROUGE-L
计算
ROUGE-L聚焦在最长公共子序LCS(Longest Common SubSequence)。LCS不需要连续匹配,只需保持词序一致,适合捕捉句子结构和关键内容的保留程度。
其中:
- ROUGE-L通常使用F1分数(即β=1,平衡Precision和Recall)。如果需偏重Precision或Recall,可调整β参数。
- R是参考文本,m是R的词的数