一:基础介绍
1、PR曲线与ROC曲线的定义
把正例正确判定为正例,表示为TP(true positive)
把正例错误判定为负例,表示为FN(false negative)
把负例正确判定为负例,表示为TN(true negative)
把负例错误判定为正例,表示为FP(false positive)
通过混淆矩阵可以计算出精确率precision 召回率recall :
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
TPR=TP/(TP+FN)
FPR=FP/(FP+TN)
Precision的具体含义其实就是预测为正例的样本中预测正例中所占的比例。
Recall的具体含义就是预测正确的正例的样本在所有真正正例样本中的比例。
TPR的具体含义就是预测正确的正例样本在所有真正正例样本中的比例,跟Recall一样。
TFR的具体含义就是预测正确的反例样本在所有真正反例样本中的比例。
如上,P-R曲线就是Recall为横轴、Precision为纵轴绘制的一条曲线,表示在所取的阈值不一样时,对应的precision值与recall值,然后构成一条曲线。
而ROC曲线则是PR曲线横轴、纵轴的度量发生变化,横轴是FPR,纵轴是TPR。
PR曲线
在很多情形下,我们可根据学习器的预测结果对样例进行排序,排在前面的是学习器认为"最可能"是正例的样本,排在最后的则是学习器认为"最不可能"是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率,以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称"