机器学习 F1-Score, recall, precision

机器学习 F1-Score, recall, precision在机器学习,模式识别中,我们做分类的时候,会用到一些指标来评判算法的优劣,最常用的就是识别率,简单来说,就是acc=Npre/Ntotalacc=N_{pre}/N_{total}这里的NpreN_{pre}表示预测对的样本数,NtotalN_{total}表示测试集总的样本数。识别率有的时候过于简单,不能全面反应算法的性能,除了识别率,还有一些常用的指标,就是我们要介绍的

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

在机器学习,模式识别中,我们做分类的时候,会用到一些指标来评判算法的优劣,最常用的就是识别率,简单来说,就是
A c c = N p r e / N t o t a l Acc=N_{pre}/N_{total} Acc=Npre/Ntotal
这里的 N p r e N_{pre} Npre表示预测对的样本数, N t o t a l N_{total} Ntotal表示测试集总的样本数。

识别率有的时候过于简单, 不能全面反应算法的性能,除了识别率,还有一些常用的指标,就是我们要介绍的
F1-score, recall, precision.

在介绍这些概念之前,我们先来看一个二分类的问题,给定一组训练集:
D = { ( x i , y i ) ∣ x i ∈ R n , y i ∈ { 0 , 1 } } i = 1 N D=\{ (x_{i}, y_{i}) | x_{i} \in R^{n}, y_{i} \in \{0, 1\} \}_{i=1}^{N} D={
(xi,yi)xi
Rn,yi{
0,1}}i=1N

这里假定 y i = 1 y_{i}=1 yi=1 对应正样本, y i = 0 y_{i}=0 yi=0 对应负样本。假设我们建立了一个分类模型 H H H, 对每一个输入的样本 x i x_{i} xi 会输出一个预测值 H ( x i ) H(x_{i}) H(xi), 那么将预测值 H ( x i ) H(x_{i}) H(xi) 与样本对应的实际值 y i y_{i} yi做比较,会得到以下四种情况:

H ( x i ) = 1 , y i = 1 H(x_{i})=1, y_{i}=1 H(xi)=1,yi=1
H ( x i ) = 1 , y i = 0 H(x_{i})=1, y_{i}=0 H(xi)=1,yi=0
H ( x i ) = 0 , y i = 1 H(x_{i})=0, y_{i}=1 H(xi)=0,yi=1
$H(x_{i})=0, y_{i}=0 $

第一种情况,预测为正,实际也为正,我们称为 true positive (TP),第二种情况,预测为正,实际为负,我们称为 false positive (FP),第三种情况,预测为负,实际为正,称为false negative (FN),最后一种情况,预测为负,实际也为负,称为 true negative (TN),每一个样本只可能属于这四种情况中的某一种,不会有其它的可能。
很显然,给定一个测试集,我们可以得到如下的关系:
N p r e = T P + T N N_{pre}=TP+TN Npre=TP+TN
N t o t a l = T P + T N + F P + F N N_{total}=TP+TN+FP+FN Ntotal=TP+TN+FP+FN
如果我们定义一个测试集中,正样本个数为 P P P, 负样本个数为 N N N, 那么我们可以知道: P = T P + F N P=TP+FN P=TP+FN, N = T N + F P N=TN+FP N=TN+FP
所以,我们常用的识别率 a c c acc acc 其实就等于
A c c = T P + T N T P + T N + F P + F N = T P + T N P + N Acc=\frac{TP+TN}{TP+TN+FP+FN}=\frac{TP+TN}{P+N} Acc=TP+TN+FP+FNTP+TN=P+NTP+TN
进一步,我们可以定义 recall ,precision, F1-score 如下所示:
R e c a l l = T P T P + F N = T P P Recall=\frac{TP}{TP+FN}= \frac{TP}{P} Recall=TP+FNTP=PTP
P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP
F 1 = 2 T P 2 T P + F N + F P = 2 ⋅ P r e c i s i o n ⋅ R e c a l l P r e c i s i o n + R e c a l l F1=\frac{2TP}{2TP+FN+FP}=\frac{2 \cdot Precision \cdot Recall}{Precision+Recall} F1=2TP+FN+FP2TP=Precision+Recall2PrecisionRecall

可以看到,recall 体现了分类模型 H H H对正样本的识别能力,recall 越高,说明模型对正样本的识别能力越强,precision 体现了模型对负样本的区分能力,precision越高,说明模型对负样本的区分能力越强。F1-score 是两者的综合。F1-score 越高,说明分类模型越稳健。

比如我们常见的雷达预警系统,我们需要对雷达信号进行分析,判断这个信号是飞行器(正样本)还是噪声 (负样本), 很显然,我们希望系统既能准确的捕捉到飞行器信号,也可以有效地区分噪声信号。所以就要同时权衡recall 和 precision这两个指标,如果我们把所有信号都判断为飞行器,那 recall 可以达到1,但是precision将会变得很低(假设两种信号的样本数接近),可能就在 0.5 左右,那F1-score 也不会很高。

有的时候,我们对recall 与 precision 赋予不同的权重,表示对分类模型的偏好:

F β = ( 1 + β 2 ) T P ( 1 + β 2 ) T P + β 2 F N + F P = ( 1 + β 2 ) ⋅ P r e c i s i o n ⋅ R e c a l l β 2 ⋅ P r e c i s i o n + R e c a l l F_{\beta}=\frac{(1+\beta^{2})TP}{(1+\beta^{2})TP+\beta^{2}FN+FP}=\frac{(1+\beta^{2}) \cdot Precision \cdot Recall}{\beta^{2} \cdot Precision+Recall} Fβ=(1+β2)TP+β2FN+FP(1+β2)TP=β2Precision+Recall(1+β2)PrecisionRecall

可以看到,当 β = 1 \beta=1 β=1,那么 F β F_{\beta} Fβ就退回到 F 1 F1 F1了, β \beta β 其实反映了模型分类能力的偏好, β > 1 \beta>1 β>1 的时候,precision的权重更大,为了提高 F β F_{\beta} Fβ,我们希望precision 越小,而recall 应该越大,说明模型更偏好于提升recall,意味着模型更看重对正样本的识别能力; 而 β < 1 \beta<1 β<1 的时候,recall 的权重更大,因此,我们希望recall越小,而precision越大,模型更偏好于提升precision,意味着模型更看重对负样本的区分能力。

参考来源:
https://en.wikipedia.org/wiki/Receiver_operating_characteristic
https://en.wikipedia.org/wiki/F1_score

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183272.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 算法学习–整型转字符串

    算法学习–整型转字符串字符串转整型的逆过程代码思路:1、输入一个整型数,判断整型数是否<0;2、不断地对整型数做取余,得出余数与‘0’相加,然后整型除去10,就是说,把整型个十百千每一位都取出来,变成ASCII码的数字,存起来;3、最后把正负号补上。代码如下:#include#include#include#includeusingnamespacestd;

    2022年10月19日
    0
  • shell编程100例(附PDF下载)「建议收藏」

    shell编程100例(附PDF下载)「建议收藏」1、编写helloworld脚本#!/bin/bash#编写helloworld脚本echo”HelloWorld!”2、通过位置变量创建Linux系统账户及密码#!/bin/bash#通过位置变量创建Linux系统账户及密码#$1是执行脚本的第一个参数,$2是执行脚本的第二个参数useradd”$1″echo”…

    2022年10月3日
    0
  • 罗技键盘怎么连台式电脑_罗技键盘蓝牙搜不到

    罗技键盘怎么连台式电脑_罗技键盘蓝牙搜不到罗技蓝牙键盘连接电脑需装入电池,打开电源开关,转动拨盘至【1】位置,然后长按【PC】键3秒进入【搜索】模式。打开电脑,前往【设置】-【设备】-【蓝牙和其他设备】,打开【蓝牙】,在蓝牙搜索列表中选中罗技蓝牙键盘的名称,确认配对即可完成连接。本文以惠普光影精灵6MAX,MacbookPro(分别连接K835有线键盘和K480蓝牙键盘);Windows10,macOSCatalina10.15.7…

    2022年10月16日
    0
  • Anycast

    AnycastAliDNS(www.alidns.com)近期上线。看到同事说更换localDNS后,访问淘宝明显快了。以我当前的理解能力,认为无非是快在DNS解析这一步上,缩短的时间应该在毫秒级别,而浏览器与淘宝集群之间的延时应该不会有变化。但试了后,果然明显感觉变快了。好奇心驱使,学习了下Anycast技术。当然,AliDNS还采用了集群缓存共享的设计…

    2022年5月24日
    95
  • Linux常用命令总结(mysql数据库常用命令)

    熬夜爆肝Linux集合,还不收藏?

    2022年4月16日
    71
  • 程序员法则xiazai_程序员手册

    程序员法则xiazai_程序员手册第六章论剑  我深深的吸了一口气,让自己的激动的心情平息下来。“大家好,很高兴可以和大家合作开发这个项目,我也不浪费大家的时间,下面我就给大家讲一下这个项目的具体构架情况”。一个个的方案才我的嘴里轻松的说出来,每个人都分配到合适的任务,每个人都清楚的明白自己的目的,我全身心的投入指挥当中,我记得BRUCE,也是我程序道路上的领路人之一,曾经在发给我的EMAIL中说过:“许,你编写的程序让我感受到

    2022年10月7日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号