python计算auc_机器学习笔记：重拾AUC计算公式

全栈程序员-站长 • 2026年3月26日下午10:06 • 未分类 • 阅读 2

@作者: 机器学习算法 @迪吉老农

AUC这个指标在排序问题里经常用到，之前也有个模糊的印象，就是一个排序正确的比例。

这个模糊印象是，

分母是选两个例子的的方式数

分子是这两个例子的预测顺序正确的次数

但是今天看了一个python的实现，发现不是很能理解里面的公式，于是赶紧查了一下维基百科的定义，

the probability that a classifier will rank a randomly chosen positive instance higher than a randomly chosen negative one (assuming ‘positive’ ranks higher than ‘negative’).

上面的意思是，

分母是分别选一个正例，一个负例的方式数

分子是这两个例子的预测顺序正确的次数

也就是去掉两个负例或者两个正例，这两种情况。想来也是，这种数据属于不知道是对还是错，无法标定，不应该放到准确率中计算。

于是自己试着用一个例子来辅助推导一下公式，如下表所示，

python计算auc_机器学习笔记：重拾AUC计算公式是现实的正负例，

python计算auc_机器学习笔记：重拾AUC计算公式是模型给出的预测的分数，

index

python计算auc_机器学习笔记：重拾AUC计算公式

0.9

0.5

0.8

0.7

0.6

我们需要计算

python计算auc_机器学习笔记：重拾AUC计算公式

其中的

python计算auc_机器学习笔记：重拾AUC计算公式和

python计算auc_机器学习笔记：重拾AUC计算公式是随机的一对正负例

python计算auc_机器学习笔记：重拾AUC计算公式和

python计算auc_机器学习笔记：重拾AUC计算公式的预测值。

按照定义，分母就是从正例选一个，从负例选一个的方式数，

python计算auc_机器学习笔记：重拾AUC计算公式

分子要看预测的分数，一个直接的想法是去生成一个矩阵，比较预测分数，正例和负例谁大，如下面的表格，

正例

1(.9>.5)

1(.9>.7)

1(.8>.5)

1(.8>.7)

1(.6>.5)

0(.6<.7>

然后去计算矩阵的sum就是正确排序数

python计算auc_机器学习笔记：重拾AUC计算公式

但是这个计算方式有性能问题，类似于冒泡排序的计算量

python计算auc_机器学习笔记：重拾AUC计算公式；高效一点的实现就是先全排序，复杂度是

python计算auc_机器学习笔记：重拾AUC计算公式，生成一个下面的表中rank值，表明每个值排在第几个位置，

index

python计算auc_机器学习笔记：重拾AUC计算公式

tied_rank

0.9

0.5

0.8

0.7

0.6

注释，这里的tied_rank是指，分数一样的话，几个平分一个rank，比如，

>>> tied_rank([1.0, 0.1, 0.8, 0.7, 0.6])

[5.0, 1.0, 4.0, 3.0, 2.0]

>>> tied_rank([1.0, 0.1, 0.7, 0.7, 0.6])

[5.0, 1.0, 3.5, 3.5, 2.0]

继续说回来，如果一个正例在整体中从低分到高分，排在第

python计算auc_机器学习笔记：重拾AUC计算公式个，那么他比

python计算auc_机器学习笔记：重拾AUC计算公式个数大。不过，里面既有正例也有负例，我们必须知道里面的正例/负例数才行。所以还需要一个只保留正例的计算，如下表。假设他在正例中排第

python计算auc_机器学习笔记：重拾AUC计算公式，在全体中排第

python计算auc_机器学习笔记：重拾AUC计算公式，那么他比

python计算auc_机器学习笔记：重拾AUC计算公式个负例大，也就是我们在分子中，要进行求和的对象。

index

python计算auc_机器学习笔记：重拾AUC计算公式

tied_rank

pos_rank

0.9

0.8

0.6

所以，分子的计算可以写成，

python计算auc_机器学习笔记：重拾AUC计算公式

上面的公式又可以化简，这是因为

python计算auc_机器学习笔记：重拾AUC计算公式其实是是固定的值，只和正例的数目有关系，

python计算auc_机器学习笔记：重拾AUC计算公式

所以最终的公式为

python计算auc_机器学习笔记：重拾AUC计算公式

最后，贴一下网上开源的代码benhamner/Metrics，里面就是这个计算公式。

def auc(actual, posterior):

“””

Computes the area under the receiver-operater characteristic (AUC)

This function computes the AUC error metric for binary classification.

Parameters

———-

actual : list of binary numbers, numpy array

The ground truth value

posterior : same type as actual

Defines a ranking on the binary numbers, from most likely to

be positive to least likely to be positive.

Returns

——-

score : double

The mean squared error between actual and posterior

“””

r = tied_rank(posterior)

num_positive = len([0 for x in actual if x==1])

num_negative = len(actual)-num_positive

sum_positive = sum([r[i] for i in range(len(r)) if actual[i]==1])

auc = ((sum_positive – num_positive*(num_positive+1)/2.0) /

(num_negative*num_positive))

return auc

以上文章为本人@迪吉老农原创，首发于简书，文责自负。文中如有引用他人内容的部分(包括文字或图片)，均已明文指出，或做出明确的引用标记。如需转载，请联系作者，并取得作者的明示同意。感谢。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/176370.html原文链接：https://javaforall.net

python计算auc_机器学习笔记：重拾AUC计算公式

关于作者

全栈程序员-站长

发表回复

python计算auc_机器学习笔记：重拾AUC计算公式

关于作者

全栈程序员-站长

相关推荐

Java集合框架关系图谱

线性规划

Java 调用 DeepSeek API 的 8 个高频坑

零基础学Java（3）运算符

idea如何创建一个javaweb项目_Java创建一个新项目

ACM中Java输入输出[通俗易懂]

发表回复