0428补充评估指标的内容。
0507更新。
评估指标(含FLOPS,已写)
PPL困惑度
perplexity是nlp中评估性能的指标之一。主要是用于衡量语言模型对于一个给定文本的困惑程度的,如果模型对句子概率估计的越准确,那么这个值就越小。
例子。当对每一个词都很肯定的时候,每一个词预测的概率就更高,这样PPL就会下降。
benchmark
(不便分享)
找到了一个训练的经验:
2024年,做大模型增量预训练(continue pretrain)的注意事项!!!-CSDN博客
如果说希望不断增加模型数据的数据量来提升效果,不一定会很好,需要考虑到遗忘的量。但是这个部分确实还挺麻烦挺重要的以前不够重视。
alignment tax
对齐税是指在训练和优化模型的时候,为了让模型的行为和人类希望的目标对齐所产生的额外的开销。这种情况主要出现在使用RLHF和Instruction Tuning的情况下。
这种情况影响比较大的是:高精度领域比如医疗、法律;通用能力减弱比如我的整个框架结构消失了输出平铺直叙;过度对齐产生幻觉问题。
避免的方法:混合训练如PPO和监督微调;针对场景微调等。
LLM训练-pretrain,大模型预训练,非常详细收藏我这一篇就够了-CSDN博客
这个后续可以总结一下:
BLEU
文本生成任务的评价方法BLEU 和 ROUGE、BERTScore_bleu指标-CSDN博客
该指标使用原文和生成的内容进行比较n-gram。计算精确率,取值范围是0-1,分数越接近1时翻译的质量越高。此外还考虑了一个简短惩罚项BP用于处理原文和生成内容的长度关系,比便出现过短内容获取高分的情况。
计算步骤:
缺点:主要是计算的词汇是否重叠,没有考虑语义是否正确,因此即使是意思相同但是用词不同,得分可能也会很低;此外使用这个也没有考虑到语法结构是否正确。
METEOR
为了解决BLEU中的缺陷提出了这个度量方法,主要基于原有的n-gram扩展了词语变体比如happy和happiness;扩展了同义词的词典;词序调整后引入相关惩罚。
把候选译文和参考译文看作两个坐标轴,对齐的词就是这两个轴上的点。如果这些点在两个句子中都是连续排列的,就构成一个 chunk;否则就断开,形成新的 chunk。
如何计算chunk?
首先找出候选译文中哪些词在参考译文中出现了(含同义词);如何记录匹配词在同的索引位置;位置如果中间被截断了则变为两个chunk.
ROUGE
与BLEU不同,ROUGE主要关注的是有多少个相同的n-gram出现在输出了,而不是有没有出现。也就是说它涉及到一个对n-gram每一个的数量的统计。
文本生成评估指标:ROUGE、BLEU详谈_bleu rouge-CSDN博客
此评估指标主要考虑模型生成的文本中有多少内容也出现在参考文本当中。也就是更加关注覆盖了多少信息而不是精确地复现,因此会对相同内容进行计算数量。
如何计算LCS:
CIDEr
这个评估指标适用于图像描述生成的任务,主要衡量机器生成的图像描述和一组参考描述之间的相似性。如果生成的内容能捕捉到多个参考句都提到的内容那么得分就更高。
计算方法:
评价:由于主要是用于图像文本生成任务的,所以核心任务是对图片中的关键信息是否能抓取到,所以需要这样一个非关键词降权的操作,漏掉一些非关键的信息是无关紧要的。
一文彻底搞懂BLEU, CIDEr, METEOR, ROUGE-L计算流程,区别,计算细节,单样本,单一hyp句子多参考ref计算细节!-CSDN博客
BERTScore
对于两句要对比的句子中的每一个词进行词语向量的余弦相似度计算,生成一个矩阵,类似于混淆矩阵但是不是对角线最大。然后将最相似的词的相似度值拿出来计算平均值,候选词对应的平均值是precision,参考词对应的平均值是Recall.
这个计算方法的缺点是无法区分事实错误,比如“太阳绕着地球转。”所以专业领域不适合使用。