准确率、精确率、召回率、F1值、ROC/AUC整理笔记

准确率、精确率、召回率、F1值、ROC/AUC整理笔记对于二分类问题 机器预测的和实际的还是会有所偏差 所以我们引入以下几个概念来评价分类器的优良 一 TP TN FP FN 概念首先有关 TP TN FP FN 的概念 大体来看 TP 与 TN 都是分对了情况 TP 是正类 TN 是负类 则推断出 FP 是把错的分成了对的 而 FN 则是把对的分成了错的 我的记忆方法 首先看第一个字母是 T 则代表分类正确 反之分类错误 然后看 P 在 T 中则是正类 若在 F 中则实际为

对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。

一、TP、TN、FP、FN概念

首先有关TP、TN、FP、FN的概念。大体来看,TP与TN都是分对了情况,TP是正类,TN是负类。则推断出,FP是把错的分成了对的,而FN则是把对的分成了错的。(我的记忆方法:首先看第一个字母是T则代表分类正确,反之分类错误;然后看P,在T中则是正类,若在F中则实际为负类分成了正的。)

【举例】一个班里有男女生,我们来进行分类,把女生看成正类,男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN。

 

混淆矩阵
  相关(Relevant),正类 无关(NonRelevant),负类
被检索到(Retrieved) True Positives(TP,正类判定为正类。即女生是女生) False Positives(FP,负类判定为正类,即“存伪”。男生判定为女生)
未被检索到(Not Retrieved) False Negatives(FN,正类判定为负类,即“去真”。女生判定为男生) True Negatives(TN,负类判定为负类。即男生判定为男生)

 

二、准确率、精确率(精准率)、召回率、F1值

1.准确率(Accuracy)。顾名思义,就是所有的预测正确(正类负类)的占总的比重。

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

2.精确率(Precision),查准率。即正确预测为正的占全部预测为正的比例。个人理解:真正正确的占所有预测为正的比例。

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

3.召回率(Recall),查全率。即正确预测为正的占全部实际为正的比例。个人理解:真正正确的占所有实际为正的比例。

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

4.F1值(H-mean值)。F1值为算数平均数除以几何平均数,且越大越好,将Precision和Recall的上述公式带入会发现,当F1值小时,True Positive相对增加,而false相对减少,即Precision和Recall都相对增加,即F1对Precision和Recall都进行了加权。

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

公式转化之后为:

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

 

三、ROC曲线、AUC值

1.ROC曲线。接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,ROC曲线上每个点反映着对同一信号刺激的感受性。下图是ROC曲线例子。

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

横坐标:1-Specificity,伪正类率(False positive rate,FPR,FPR=FP/(FP+TN)),预测为正但实际为负的样本占所有负例样本的比例;

纵坐标:Sensitivity,真正类率(True positive rate,TPR,TPR=TP/(TP+FN)),预测为正且实际为正的样本占所有正例样本的比例。

在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

真正的理想情况,TPR应接近1,FPR接近0,即图中的(0,1)点。ROC曲线越靠拢(0,1)点,越偏离45度对角线越好

2.AUC值。AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
 

从AUC判断分类器(预测模型)优劣的标准:

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

一句话来说,AUC值越大的分类器,正确率越高。

 

【参考文献】

https://www.jianshu.com/p/c61ae11cc5f6

https://www.cnblogs.com/sddai/p/5696870.html

https://blog.csdn.net/xyzx043874/article/details/

https://blog.csdn.net/weeeeeida/article/details/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/208484.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 上午11:29
下一篇 2026年3月19日 上午11:29


相关推荐

  • Raven 2 靶机渗透

    前言近几天比较闲,在上周也闲着无聊跑去盒子挖了一周的洞。这周又开始不知道干些啥了,所以就找个靶机来玩玩。Raven2靶机渗透搭建完环境后,发现并没有登录账号和密码,使用御剑高速扫描,先扫描机

    2021年12月11日
    42
  • wxPython的基础教程

    wxPython的基础教程写在前面的话:上个假期学习了Python,发现它真的是一门很有趣的语言,所以这学期想学一些python的可视化编程,于是选择了wxPython。但是我在网上找中文教程找了好久都没有找到中文的教程(额,也许是我方法不对),无奈只好看英文的啦。于是在这个网站上看完了wxPython的基础教程,但是为了方便广大网友所以决定将这个网页中的内容翻译过来。花费了3个晚上的时间,终于把它翻译完了。但是我只是一个

    2022年5月21日
    30
  • Linux下的经常使用性能查询命令top、vmstat、gprof、pidstat之对照

    Linux下的经常使用性能查询命令top、vmstat、gprof、pidstat之对照

    2021年12月4日
    158
  • layui 表单验证案例

    layui 表单验证案例文本框 手机 邮箱 textarea 等格式的验证 HTML 代码 反馈主题

    2026年3月19日
    2
  • 史上最详细的虚拟机VMware12安装Windows7教程「建议收藏」

    摘要:VMware是一个强大的虚拟机,可以在一台电脑上模拟真实的环境,创建出一个虚拟机系统,并且可以在这个系统进行测试和其他的操作,当然你也可以直接网上下载现成的虚拟机镜像或者,网络上有很多的Ghost等文件,这类系统可能经过别人一些优化,但是优化的过程可能阉割了某些系统的文件,或者被植入一些广告等,文本一步步详细说明如何利用VMware12安装一个Win7系统,虚拟机win7镜像文件iso…

    2022年4月12日
    45
  • clion激活码 2021.4.14_通用破解码

    clion激活码 2021.4.14_通用破解码,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月16日
    188

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号