1. 引言
经过前文对数据的校正与增强后,我们的预期生成结果中不再仅仅是分类标签,还多了欺诈者和分类原因。这样之前模型评测和批量评测两篇文章所封装的evaluate.py脚本就不再满足,需要对脚本进行改造,以支持新输出内容的评测。
新的预期结果中共包含三个信息,由于三个信息的特点不同,需要为每个字段制定不同的评测方式:
- is_fraud: 属于二分类,继续采用精确率和召回率作为评测指标。
- fraud_speaker: 属于多分类,多分类没有混淆矩阵,可以使用sklearn包提供的accuracy_score计算准确率作为评测指标。
- reason: 属于分文生成,由于没有准确值,可以通过rouge_score计算文本串的相似度作为评测指标。
2. rouge指标调研
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)指标是用于评估文本摘要质量的一种常用指标。它通过比较生成的