大模型评估指标:PPL BLEU METEOR ROUGE CIDEr BertScore FLOPS!!草履虫也能看懂!!!!求点赞!!!!

0428补充评估指标的内容。

0507更新。

评估指标FLOPS,已写)

PPL困惑度

perplexitynlp评估性能指标之一主要是用于衡量语言模型对于一个给定文本困惑程度如果模型句子概率估计准确那么这个就越小

例子每一个肯定时候每一个预测概率更高这样PPL就会下降

benchmark

不便分享

找到了一个训练经验

2024年,做大模型增量预训练(continue pretrain)的注意事项!!!-CSDN博客

如果希望不断增加模型数据数据提升效果不一定会很好需要考虑到遗忘。但是这个部分确实还挺麻烦挺重要的以前不够重视。

alignment tax

对齐是指训练优化模型时候,为了模型行为人类希望的目标对齐所产生额外的开销这种情况主要出现在使用RLHF和Instruction Tuning的情况下

这种情况影响比较大高精度领域比如医疗法律通用能力减弱比如整个框架结构消失了输出平铺直叙过度对齐产生幻觉问题

避免的方法混合训练PPO监督微调针对场景微调

LLM训练-pretrain,大模型预训练,非常详细收藏我这一篇就够了-CSDN博客

这个后续可以总结一下

BLEU

文本生成任务的评价方法BLEU 和 ROUGE、BERTScore_bleu指标-CSDN博客

指标使用原文生成的内容进行比较n-gram。计算精确率取值范围0-1分数接近1翻译的质量越高此外还考虑一个简短惩罚项BP用于处理原文生成内容长度关系比便出现过短内容获取高分的情况

计算步骤

缺点主要是计算词汇是否重叠没有考虑语义是否正确因此即使是意思相同但是用词得分可能也会很低;此外使用这个也没有考虑语法结构是否正确

METEOR

为了解决BLEU缺陷提出了这个度量方法主要基于原有的n-gram扩展了词语变体比如happyhappiness扩展了同义词词典词序调整引入相关惩罚

把候选译文和参考译文看作两个坐标轴,对齐的词就是这两个轴上的点。如果这些点在两个句子中都是连续排列的,就构成一个 chunk;否则就断开,形成新的 chunk。

如何计算chunk?

首先找出候选译文哪些词参考译文出现了(含同义词)如何记录匹配索引位置位置如果中间被截断了变为两个chunk.

ROUGE

BLEU不同ROUGE主要关注多少个相同n-gram出现在输出了而不是没有出现也就是说涉及到一个n-gram每一个数量统计

文本生成评估指标:ROUGE、BLEU详谈_bleu rouge-CSDN博客

评估指标主要考虑模型生成的文本中有多少内容也出现在参考文本也就是更加关注覆盖了多少信息而不是精确地复现因此相同内容进行计算数量

如何计算LCS

CIDEr

这个评估指标适用于图像描述生成任务主要衡量机器生成的图像描述一组参考描述之间的相似性如果生成的内容能捕捉多个参考提到的内容那么得分就更

计算方法

评价由于主要是用于图像文本生成任务所以核心任务图片关键信息是否抓取所以需要这样一个非关键词降权操作漏掉一些非关键的信息无关紧要

一文彻底搞懂BLEU, CIDEr, METEOR, ROUGE-L计算流程,区别,计算细节,单样本,单一hyp句子多参考ref计算细节!-CSDN博客

BERTScore

对于两句要对比句子每一个进行词语向量余弦相似度计算生成一个矩阵类似于混淆矩阵但是不是对角线最大然后最相似相似度拿出来计算平均值候选词对应的平均值precision,参考对应的平均值Recall.

这个计算方法缺点无法区分事实错误比如“太阳绕着地球转。”所以专业领域不适合使用

每秒浮点运算次数FLOPS!!草履虫也能看懂!!!求点赞!!!!-CSDN博客

### 大模型评估常用指标ROUGE分数的作用与计算方式 #### 1. 常见的大模型评估指标 大模型评估通常依赖多种指标,这些指标从不同角度衡量模型的性能。以下是常见的评估指标及其含义: - **Accuracy(准确率)**:模型预测正确的样本数量占总样本量的比重[^2]。 - **Precision(精确率)**:在被识别为正类别的样本中,实际为正类别的比例。 - **Recall(召回率)**:在所有正类别样本中,被正确识别为正类别的比例[^2]。 - **BLEU(Bilingual Evaluation Understudy)**:主要用于机器翻译任务,通过比较生成文本与参考文本的 n-gram 匹配度来衡量相似性[^1]。BLEU 更注重准确率。 - **ROUGE(Recall-Oriented Understudy for Gisting Evaluation)**:广泛应用于文本摘要和生成任务,基于召回率评估生成文本与参考文本的匹配程度[^1]。 - **Perplexity(困惑度,PPL)**:衡量语言模型对句子的概率分布预测能力,值越低表示模型预测能力越强[^2]。 #### 2. ROUGE 分数的具体作用 ROUGE 是一种基于召回率的评估指标,主要用于衡量生成文本与参考文本之间的重叠程度。它特别适合用于评估文本摘要、机器翻译和对话系统等生成任务。ROUGE 的核心思想是通过统计生成文本与参考文本之间的重叠部分来量化生成质量[^1]。 ROUGE 分数的作用包括: - 衡量生成摘要或文本的覆盖范围,确保生成内容尽可能包含参考文本中的关键信息。 - 提供多维度的评估方式,例如基于 n-gram(ROUGE-N)、最长公共子序列(ROUGE-L)以及加权匹配(ROUGE-W)等[^1]。 #### 3. ROUGE 分数的计算方式 ROUGE 的计算方式因变体而异,以下以 ROUGE-N 为例说明其具体计算过程: - **ROUGE-N**:基于 n-gram 的匹配,计算公式如下: \[ \text{ROUGE-N} = \frac{\text{匹配的 n-gram 数量}}{\text{参考文本中的 n-gram 总数}} \] 假设候选文本(candidate)和参考文本(reference)如下: - candidate: It is a nice day today - reference: today is a nice day 使用 ROUGE-1 进行匹配: - candidate: {it, is, a, nice, day, today} - reference: {today, is, a, nice, day} 匹配的 n-gram 数量为 5,参考文本中的 n-gram 总数也为 5,因此 ROUGE-1 分数为 \( \frac{5}{5} = 1 \)[^1]。 代码实现示例: ```python from rouge_score import rouge_scorer # 初始化 ROUGE 计算器 scorer = rouge_scorer.RougeScorer(['rouge-1', 'rouge-2', 'rouge-l'], use_stemmer=True) # 定义候选文本和参考文本 candidate = "It is a nice day today" reference = "today is a nice day" # 计算 ROUGE 分数 scores = scorer.score(candidate, reference) print(scores) ``` #### 4. ROUGE 分数的其他变体 除了 ROUGE-N,还有以下变体: - **ROUGE-L**:基于最长公共子序列(LCS),衡量生成文本与参考文本之间的最大连续匹配部分。 - **ROUGE-W**:引入权重因子,对较长的连续匹配给予更高的权重,强调连贯性。 - **ROUGE-S**:基于 skip-bigram,允许中间插入其他词的两词组合匹配[^1]。 #### 5. ROUGE 分数的应用场景 ROUGE 广泛应用于以下领域: - **文本摘要**:评估生成摘要是否涵盖了参考摘要中的关键信息[^1]。 - **机器翻译**:作为 BLEU 的补充指标,衡量译文与参考译文的相似性[^1]。 - **对话系统**:评估生成回复与理想回复之间的匹配程度。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值