分类是机器学习中比较常见的任务,对于分类任务常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等。
这篇文章将结合sklearn对准确率、精确率、召回率、F1 score进行讲解,ROC曲线可以参考我的这篇文章: sklearn ROC曲线使用。
混淆矩阵

如上图所示,要了解各个评价指标,首先需要知道混淆矩阵,混淆矩阵中的P表示Positive,即正例或者阳性,N表示Negative,即负例或者阴性。
表中FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量。
另外,TP+FP=P’表示所有被预测为正的样本数量,同理FN+TN为所有被预测为负的样本数量,TP+FN为实际为正的样本数量,FP+TN为实际为负的样本数量。
准确率
import numpy as np from sklearn.metrics import accuracy_score y_pred = [0, 2, 1, 3] y_true = [0, 1, 2, 3] print(accuracy_score(y_true, y_pred)) # 0.5 print(accuracy_score(y_true, y_pred, normalize=False)) # 2 # 在具有二元标签指示符的多标签分类案例中 print(accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2)))) # 0.5
函数接口的描述是这样的:
代码的输出我已经写在注释中了,需要注意的是最后一行代码中,y_true为 [ 0 1 1 1 ] \begin{bmatrix}0 & 1 \\ 1 & 1 \\\end{bmatrix} [0111],y_pred为 [ 1 1 1 1 ] \begin{bmatrix}1 & 1 \\ 1 & 1 \\\end{bmatrix} [1111],矩阵的行表示样本,列表示标签(样本具有两个标签,标签0和1共同确定样本类别),那么这时实际上只有一个样本是预测正确的,因此准确率为 1 2 \frac{1}{2} 21,即0.5。
另外,因为准确率的缺陷比较明显,所以在多分类问题中一般不直接使用整体的分类准确率,而是使用每个类别下的样本准确率的算术平均作为模型的评估指标。
精确率
官方示例代码为:
from sklearn.metrics import precision_score y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print(precision_score(y_true, y_pred, average='macro')) # 0.22222 print(precision_score(y_true, y_pred, average='micro')) # 0.33333 print(precision_score(y_true, y_pred, average='weighted')) # 0.22222 print(precision_score(y_true, y_pred, average=None)) # [0. 0. 0. ]
直接看函数接口和示例代码还是让人有点云里雾里的,我们这里先介绍两个与多分类相关的概念,再说说上面的代码是如何计算的。
- Macro Average
宏平均是指在计算均值时使每个类别具有相同的权重,最后结果是每个类别的指标的算术平均值。 - Micro Average
微平均是指计算多分类指标时赋予所有类别的每个样本相同的权重,将所有样本合在一起计算各个指标。
根据precision_score接口的解释,我们可以知道,当average参数为None时,得到的结果是每个类别的precision。上面的y_true有3个类别,分别为类0、类1、类2。我们将每个类别的TP、FP、FN列在下表中。
| 类别 | TP | FP | FN |
|---|---|---|---|
| 类0 | 2 | 1 | 0 |
| 类1 | 0 | 2 | 2 |
| 类2 | 0 | 1 | 1 |
- 如果每个类别的样本数量差不多,那么宏平均和微平均没有太大差异
- 如果每个类别的样本数量差异很大,那么注重样本量多的类时使用微平均,注重样本量少的类时使用宏平均
- 如果微平均大大低于宏平均,那么检查样本量多的类来确定指标表现差的原因
- 如果宏平均大大低于微平均,那么检查样本量少的类来确定指标表现差的原因
召回率
官方示例代码为:
from sklearn.metrics import recall_score y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print(recall_score(y_true, y_pred, average='macro')) # 0.33333 print(recall_score(y_true, y_pred, average='micro')) # 0.33333 print(recall_score(y_true, y_pred, average='weighted')) # 0.33333 print(recall_score(y_true, y_pred, average=None)) # [1. 0. 0.]
Recall和Precision只有计算公式不同,它们average参数为’macro’,‘micro’,’weighted’和None时的计算方式都是相同的,具体计算可以使用上节列出来的TP、FP、FN表,这里不再赘述。
P-R曲线
F1 score
官方示例代码为:
from sklearn.metrics import f1_score y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print(f1_score(y_true, y_pred, average='macro')) # 0. print(f1_score(y_true, y_pred, average='micro')) # 0.33333 print(f1_score(y_true, y_pred, average='weighted')) # 0. print(f1_score(y_true, y_pred, average=None)) # [0.8 0. 0. ]
这里计算还是套公式,所以也就不再多说了。
参考资料
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/204573.html原文链接:https://javaforall.net
