AUC曲线计算方法及代码实现

最新推荐文章于 2025-07-18 10:48:39 发布

ytusdc

最新推荐文章于 2025-07-18 10:48:39 发布

阅读量3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： AI之路 - Face 文章标签： sklearn 机器学习概率论

原文链接：https://www.zhihu.com/question/39840928

AI之路 - Face 专栏收录该内容

71 篇文章

订阅专栏

本文介绍了计算AUC（Area Under Curve）的三种方法：直接计算面积、概率统计和秩和方法，并提供了Python代码实现。通过排序样本得分，计算正负样本对中正样本得分大于负样本得分的概率，从而求得AUC值。同时，文章讨论了处理得分相等情况的策略，确保计算的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AUC计算

1. 根据定义Aera Under Curve，计算面积。样本有限，所以得到的AUC曲线一般是个阶梯状，所以计算这些阶梯的面积即可。先按score排个序，然后从头遍历一遍，把每个score作为划分阈值，可以得到对应的TPR和FPR，计算出底下的面积。更直观的计算方法，参考《百面机器学习》：

这种直接计算面积的方法比较麻烦，一般使用下面的等价方法进行计算。

2. AUC等价于：测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。所以可以计算这个概率。具体来说就是统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数（即n=M+N）
3. 第三种方法实际上和上述第二种方法是一样的，但是复杂度减小了。它也是首先对score从大到小排序，然后令最大score对应的sample 的rank为n，第二大score对应sample的rank为n-1，以此类推。然后把所有的正类样本的rank相加，再减去M-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即

公式解释：

1、为了求的组合中正样本的score值大于负样本，如果所有的正样本score值都是大于负样本的，那么第一位与任意的进行组合score值都要大，我们取它的rank值为n，但是n-1中有M-1是正样例和正样例的组合这种是不在统计范围内的（为计算方便我们取n组，相应的不符合的有M个），所以要减掉，那么同理排在第二位的n-1，会有M-1个是不满足的，依次类推，故得到后面的公式M*(M+1)/2，我们可以验证在正样本score都大于负样本的假设下，AUC的值为1

2、根据上面的解释，不难得出，rank的值代表的是能够产生score前大后小的这样的组合数，但是这里包含了（正，正）的情况，所以要减去这样的组（即排在它后面正例的个数），即可得到上面的公式

另外，特别需要注意的是，在存在score相等的情况时，对相等score的样本，需要赋予相同的rank(无论这个相等的score是出现在同类样本还是不同类的样本之间，都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。（以下代码中未对rank求平均，但结果与sklearn中的auc计算基本一致）

详细解释如下：（暂时不考虑样本score 相等的情况）

n -- 正负样本之和

随机抽取一个样本，对应每一潜在可能值X都对应有一个判定位正样本的概率P。

对一批已知正负的样本集合进行分类，

按score从高到矮排个降序，对于正样本中概率最高的，排序为rank_1 = n，比它概率小的有M-1个正样本（M为正样本个数），

(rank_1 - （M-1）- 1) = (rank_1 - M) 个负样本 ------ 即当前正样本score 大于负样本 score 的正负样本对个数为 (rank_1 - M)

正样本概率第二高的，排序为rank_2，比它概率小的有M-2个正样本，(rank_2 - （M - 2） - 1) = (rank_2 - M + 1) 个负样本。

以此类推

正样本中概率最小的，排序为rank_M，比它概率小的有0个正样本，（rank_M - （0） - 1） = rank_M - 1 个负样本。

总共有MxN个正负样本对（N为负样本个数）。把所有比较中正样本概率大于负样本概率的例子都算上，得到公式（（rank_1 - M） + （rank_2 - M + 1 ）.... +（ rank_M - 1）） / (MxN) 就是正样本概率大于负样本概率的可能性了。化简后（因为后面是个等差数列）得：

{ rank_1 + rank_2 + rank_3 .... + rank_M - （M + （M - 1） + (M - 2) + ...... +1）} / (M x N)

import numpy as np
from sklearn.metrics import roc_auc_score
 
 
def calc_auc(y_labels, y_scores):
    f = list(zip(y_scores, y_labels))
    rank = [values2 for values1, values2 in sorted(f, key=lambda x:x[0])]
    rankList = [i+1 for i in range(len(rank)) if rank[i] == 1]
    pos_cnt = np.sum(y_labels == 1)
    neg_cnt = np.sum(y_labels == 0)
    auc = (np.sum(rankList) - pos_cnt*(pos_cnt+1)/2) / (pos_cnt*neg_cnt)
    print(auc)
 
 
def get_score():
    # 随机生成100组label和score
    y_labels = np.zeros(100)
    y_scores = np.zeros(100)
    for i in range(100):
        y_labels[i] = np.random.choice([0, 1])
        y_scores[i] = np.random.random()
    return y_labels, y_scores
 
 
if __name__ == '__main__':
    y_labels, y_scores = get_score()
    # 调用sklearn中的方法计算AUC，与后面自己写的方法作对比
    print('sklearn AUC:', roc_auc_score(y_labels, y_scores))
    calc_auc(y_labels, y_scores)