sklearn计算准确率、精确率、召回率、F1 score

分类是机器学习中比较常见的任务，对于分类任务常见的评价指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 score、ROC曲线（Receiver Operating Characteristic Curve）等。
这篇文章将结合sklearn对准确率、精确率、召回率、F1 score进行讲解，ROC曲线可以参考我的这篇文章： sklearn ROC曲线使用。

混淆矩阵

pic_1
如上图所示，要了解各个评价指标，首先需要知道混淆矩阵，混淆矩阵中的P表示Positive，即正例或者阳性，N表示Negative，即负例或者阴性。
表中FP表示实际为负但被预测为正的样本数量，TN表示实际为负被预测为负的样本的数量，TP表示实际为正被预测为正的样本数量，FN表示实际为正但被预测为负的样本的数量。
另外，TP+FP=P’表示所有被预测为正的样本数量，同理FN+TN为所有被预测为负的样本数量，TP+FN为实际为正的样本数量，FP+TN为实际为负的样本数量。

准确率

import numpy as np from sklearn.metrics import accuracy_score y_pred = [0, 2, 1, 3] y_true = [0, 1, 2, 3] print(accuracy_score(y_true, y_pred)) # 0.5 print(accuracy_score(y_true, y_pred, normalize=False)) # 2 # 在具有二元标签指示符的多标签分类案例中 print(accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2)))) # 0.5

函数接口的描述是这样的：

代码的输出我已经写在注释中了，需要注意的是最后一行代码中，y_true为 $\begin{bmatrix}0 & 1 \\ 1 & 1 \\\end{bmatrix}$ ，y_pred为 $\begin{bmatrix}1 & 1 \\ 1 & 1 \\\end{bmatrix}$ ，矩阵的行表示样本，列表示标签（样本具有两个标签，标签0和1共同确定样本类别），那么这时实际上只有一个样本是预测正确的，因此准确率为 $\frac{1}{2}$ ，即0.5。
另外，因为准确率的缺陷比较明显，所以在多分类问题中一般不直接使用整体的分类准确率，而是使用每个类别下的样本准确率的算术平均作为模型的评估指标。

精确率

官方示例代码为：

from sklearn.metrics import precision_score y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print(precision_score(y_true, y_pred, average='macro')) # 0.22222 print(precision_score(y_true, y_pred, average='micro')) # 0.33333 print(precision_score(y_true, y_pred, average='weighted')) # 0.22222 print(precision_score(y_true, y_pred, average=None)) # [0. 0. 0. ]

直接看函数接口和示例代码还是让人有点云里雾里的，我们这里先介绍两个与多分类相关的概念，再说说上面的代码是如何计算的。

Macro Average
宏平均是指在计算均值时使每个类别具有相同的权重，最后结果是每个类别的指标的算术平均值。
Micro Average
微平均是指计算多分类指标时赋予所有类别的每个样本相同的权重，将所有样本合在一起计算各个指标。

根据precision_score接口的解释，我们可以知道，当average参数为None时，得到的结果是每个类别的precision。上面的y_true有3个类别，分别为类0、类1、类2。我们将每个类别的TP、FP、FN列在下表中。

类别	TP	FP	FN
类0	2	1	0
类1	0	2	2
类2	0	1	1

如果每个类别的样本数量差不多，那么宏平均和微平均没有太大差异
如果每个类别的样本数量差异很大，那么注重样本量多的类时使用微平均，注重样本量少的类时使用宏平均
如果微平均大大低于宏平均，那么检查样本量多的类来确定指标表现差的原因
如果宏平均大大低于微平均，那么检查样本量少的类来确定指标表现差的原因

召回率

官方示例代码为：

from sklearn.metrics import recall_score y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print(recall_score(y_true, y_pred, average='macro')) # 0.33333 print(recall_score(y_true, y_pred, average='micro')) # 0.33333 print(recall_score(y_true, y_pred, average='weighted')) # 0.33333 print(recall_score(y_true, y_pred, average=None)) # [1. 0. 0.]

Recall和Precision只有计算公式不同，它们average参数为’macro’，‘micro’，’weighted’和None时的计算方式都是相同的，具体计算可以使用上节列出来的TP、FP、FN表，这里不再赘述。

P-R曲线

F1 score

官方示例代码为：

from sklearn.metrics import f1_score y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print(f1_score(y_true, y_pred, average='macro')) # 0. print(f1_score(y_true, y_pred, average='micro')) # 0.33333 print(f1_score(y_true, y_pred, average='weighted')) # 0. print(f1_score(y_true, y_pred, average=None)) # [0.8 0. 0. ]

这里计算还是套公式，所以也就不再多说了。

参考资料

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/204573.html原文链接：https://javaforall.net

sklearn计算准确率、精确率、召回率、F1 score

目录

混淆矩阵

准确率

精确率

召回率

P-R曲线

F1 score

参考资料

关于作者

全栈程序员-站长

发表回复

sklearn计算准确率、精确率、召回率、F1 score

目录

混淆矩阵

准确率

精确率

召回率

P-R曲线

F1 score

参考资料

关于作者

全栈程序员-站长

相关推荐

为了帮粉丝完成毕业设计，我发现了一款私活神器

jmeter 通过beanshell获取变量

volatile关键字及其作用「建议收藏」

每日一练No.1

向量范数和矩阵范数的理解

pycharm修改字体大小和主题_pycharm调字体

发表回复