roc曲线的意义_Pre / Rec / ROC / PR「建议收藏」

roc曲线的意义_Pre / Rec / ROC / PR「建议收藏」Precision和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分类器需要尽量在“更有把握”时(即,提高分类阈值!)才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致Recall值降低。ROC(ReceiverOperatorCharacteristic)曲线被广泛应用于二分类问题中来评估分类器的可信度,但是当处理一…

大家好,又见面了,我是你们的朋友全栈君。

Precision 和 Recall值是既矛盾又统一的两个指标,为了提高 Precision 值,分类器需要尽量在 “更有把握” 时(即,提高分类阈值!)才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多 “没有把握” 的正样本,导致 Recall 值降低。

ROC(Receiver Operator Characteristic)曲线被广泛应用于二分类问题中来评估分类器的可信度,但是当处理一些高度不均衡的数据集时,PR 曲线能表现出更多的信息,发现更多的问题。

首先理解这四个基本指标:

9f313402767be5e69ef2e89b5881fc57.png

ROC曲线中,是以FPR为x轴,TPR为y轴。

PR曲线中,以Recall为x轴,Precision为y轴。

绘制ROC曲线和PR曲线都是选定不同阈值,从而得到不同的x轴和y轴的值,画出曲线。

在 ROC 空间,ROC 曲线越凸向左上方向效果越好,但是,PR 曲线是右上凸效果越好。

当正负样本比例差距不大时,ROC和PR的趋势是差不多的,当正负样本比例差距很大时,ROC效果依然看似很好,但是PR曲线则会表现的比较差。

所以,PR曲线在正负样本比例悬殊较大时,更能反映分类器的性能。

当正负样本分布发生变化时,ROC 曲线的形状能够基本保持不变,而 P-R 曲线的形状一般会发生较剧烈的变化。这个特点让 ROC 曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能

这有什么实际意义呢?在很多实际问题中,正负样本数量往往很不均衡。比如,计算广告领域经常涉及转化率模型,正样本的数量往往是负样本数量的 1/1000 甚至 1/10000。若选择不同的测试集,P-R 曲线的变化就会非常大,而 ROC 曲线则能够更加稳定地反映模型本身的好坏。

所以,ROC 曲线的适用场景更多,被广泛用于排序、推荐、广告等领域。但需要注意的是,选择 P-R 曲线还是 ROC 曲线是因实际问题而异的,如果研究者希望更多地看到模型在特定数据集上的表现,P-R 曲线则能够更直观地反映其性能。

AUC(Area Under Curve) 即指曲线下面积占总方格的比例。有时不同分类算法的 ROC 曲线存在交叉,因此很多时候用 AUC 值作为算法好坏的评判标准。面积越大,表示分类性能越好。

wdmad:机器学习之类别不平衡问题 (2) —— ROC和PR曲线​zhuanlan.zhihu.com

10860a781b0eae86afa08179bd55df8f.png

(分析了ROC曲线的优缺点,以及ROC和PR的使用场景)

ROC曲线和PR(Precision-Recall)曲线的联系_SEAN是一只程序猿​www.fullstackdevel.com

7670f2ababefbf9e289a7322a188aff3.png

(解释了ROC和PR曲线的概念与画法)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145450.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • sklearn.KFold「建议收藏」

    sklearn.KFold「建议收藏」K折交叉验证:将样本切成K份,每次取其中一份做为测试集,剩余的K-1份做为训练集。在sklearn.model_selection中提供了几种K折交叉验证。生成样本>>>fromsklearn.datasetsimportmake_classification>>>data,target=make_classification(n_…

    2022年9月20日
    0
  • 为什么会有内存屏障呢_内存出问题有什么现象

    为什么会有内存屏障呢_内存出问题有什么现象复习一下内存屏障主要解决指令重排和可见性,需要了解JMM架构原文链接为什么会有内存屏障每个CPU都会有自己的缓存(有的甚至L1,L2,L3),缓存的目的就是为了提高性能,避免每次都要向内存取。但是这样的弊端也很明显:不能实时的和内存发生信息交换,分在不同CPU执行的不同线程对同一个变量的缓存值不同。用volatile关键字修饰变量可以解决上述问题,那么volatile是如何做到这一点的呢?那就是内存屏障,内存屏障是硬件层的概念,不同的硬件平台实现内存屏障的手段并不是一样,java通过屏蔽这些差异,统

    2022年8月8日
    3
  • vue/uniapp 如何让页面的 onLoad 在 onLaunch 之后执行[通俗易懂]

    app.vue里的onLaunch中如果有异步方法(比如:登录),返回结果可能会在页面的onLoad之后,但onLoad中的方法需要登录回调的结果。为了让页面的onLoad在onLaunch之后执行,解决方案:1.main.js添加代码Vue.prototype.$onLaunched=newPromise(resolve=>{Vue.prototype.$isResolve=resolve;})2.在App.vue的onLau

    2022年4月14日
    54
  • 几种IO流读写文件

    几种IO流读写文件一、超类:字节流:InputStream(读入流)OutputStream(写出流)字符流:Reader(字符读入流)Writer(字符写出流)二、文件操作流字节流:FileInputStream,FileOutputStream字符流:FileReader,FileWriter(用法与字节流基本相同,不写)//1.指定要读

    2022年5月18日
    43
  • 手把手教你学SVN

    手把手教你学SVN注意转载须保留原文链接(http://www.cnblogs.com/wzhiq896/p/6822713.html)作者:wangwen896SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS、CVS,它采用了分支管理系统,它的设计目标就是取代CVS。互联网上很多版本控制服务已从CVS迁移到Subversion。对于很多新手来…

    2022年5月6日
    40
  • 大话无线通讯基础之:WIFI和5G信道划分

    大话无线通讯基础之:WIFI和5G信道划分目前主流的无线WIFI网络设备802.11a/b/g/n/ac:各种协议的数据传输率:80211.a协议支持的数据传输率:6、9、12、18、24、36、48和54Mbps80211.b协议支持的数据传输率:1、2、5.5和11Mbps80211.g协议支持的数据传输率:6、9、12、18、24、36、48和54Mbps;可以降级到1、2、5.5…

    2022年5月2日
    98

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号