PR曲线和ROC曲线概念及其区别

PR曲线和ROC曲线概念及其区别将测试样本的预测结果按照置信度排序,由高到低,卡个阈值作为正负样本的判定依据,阈值较高时,Precision比较大,阈值较低时,Recall较大。(推荐的话,想Precision较大,用户希望排名靠前的推荐是自己想要的,刑侦的话希望Recall较大,不错过一个犯人)知识点Precision=TP/(TP+FP)Recall=TP/(总的正样本)=TP/(TP+FN)#这个时候的TP…

大家好,又见面了,我是你们的朋友全栈君。

知识点

Precision=TP/(TP+FP)
Recall=TP/(总的正样本)=TP/(TP+FN) # 这个时候的
TPR=TP/(TP+FN)=Recall # 真正例率
FPR=FP/(TN+FP) #
PR曲线
横Recall,纵Precision
PR曲线的绘制
场景:有限样本。
方法:固定分类阈值(比如0.5),对分类器的预测结果按照置信度进行降序排序,然后按此顺序对样例进行预测,每次可以计算出当前的查全率(Recall)和查准率(Precision),然后以此作图,绘制出P-R曲线。(疑惑??:P-R曲线是按照固定的分类阈值,还是按照西瓜书所讲,按照置信度降序的顺序,逐个把样本作为正例进行预测??我做商汤的笔试题,是采取固定分类阈值的策略)
ROC曲线 横FPR,纵TPR,理想的情况是TPR=1,FPR=0,一般来说,FPR增大,则TPR也会跟着增大。
ROC曲线的绘制:
场景:有限样本。
方法:卡阈值,对学习器的预测结果排序,排在前面的是最可能为正例的样本,最后的是最不可能的样本,然后计算不同阈值下的TPR和FPR值,绘制出曲线。
卡阈值作为正负样本的判定依据,阈值较高时,Precision比较大,阈值较低时,Recall较大。(推荐的话,想Precision较大,用户希望排名靠前的推荐是自己想要的,刑侦的话希望Recall较大,不错过一个犯人)
AUC:ROC曲线下面积。
PR和ROC曲线应用范围:
1.当正负样本比例差不多的时候,两者区别不大。
2.PR曲线比ROC曲线更加关注正样本,而ROC则兼顾了两者。
3.AUC越大,反映出正样本的预测结果更加靠前。(推荐的样本更能符合用户的喜好)
4.当正负样本比例失调时,比如正样本1个,负样本100个,则ROC曲线变化不大,此时用PR曲线更加能反映出分类器性能的好坏。
5.PR曲线和ROC绘制的方法不一样。

PR曲线和ROC曲线区别参考链接:
http://www.fullstackdevel.com/computer-tec/data-mining-machine-learning/501.html

附:商汤计算PR题

#-*-coding:utf-8-*-
def s4j5(a):
    a1=float(int(a*100))
    tag=a*100-a1
    if tag>=0.5:
        return((a1+1)/100)
    else:
        return(a1/100)

N = int(raw_input())
recall = 0.0
labelCon = []
totalPos = 0
for i in range(N):
    temp = [xx for xx in raw_input().strip().split()]
    target, confidence = int(temp[0]), float(temp[0])
    labelCon.append([target, confidence])
    if target==1:
        totalPos+=1
count = 0
posCount = 0
correctCount = 0
FP = 0
FN = 0
someRecallDict = {0.3:0,
            0.4:0,
            0.5:0,
            0.6:0,
            0.7:0,
            0.8:0,
            0.9:0}

someRecall = [0.3,0.4,0.5,0.6,0.7,0.8,0.9]
res = []
posId = 0
predictPos = 0
for target, confidence in labelCon:
    count+=1
    if confidence>=0.5:
        predictPos+=1 # 预测为正类的样本个数
    if target==0:
        if confidence>=0.5:
            FP+=1
    if target==1:
        posCount+=1
        if confidence>=0.5:
            correctCount+=1
        else:
            FN+=1
        recall = float(correctCount)/float(totalPos)
        if posId<=6:
            if recall==someRecall[posId] and someRecallDict[someRecall[posId]]==0:
                someRecallDict[someRecall[posId]]=1
                posId+=1
                precision = int(str(s4j5(float(correctCount)/float(predictPos))*100).split('.')[0])
                res.append(precision)

for i in res:
    print(i)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/148428.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • GridView用法,分页

    GridView用法,分页一.基础部分分页:只有用SqlDataSource作为数据源的时候才有在用ObjectDataSource的时候需要另外写代码另外该控件的“排序”和“分页”都打勾的时候,先进行整体排序,再分页;当启用

    2022年7月1日
    18
  • JAVA解析xml的五种方式比较

    JAVA解析xml的五种方式比较1)DOM解析 DOM是html和xml的应用程序接口(API),以层次结构(类似于树型)来组织节点和信息片段,映射XML文档的结构,允许获取 和操作文档的任意部分,是W3C的官方标准 【优点】 ①允许应用程序对数据和结构做出更改。 ②访问是双向的,可以在任何时候在树中上下导航,获取和操作任意部分的数据。 【缺点】 ①通常需要加载整个XML文档来构造层次结构,消耗资源大。…

    2022年6月3日
    28
  • 深拷贝和浅拷贝的区别,说法正确的是_前端浅拷贝和深拷贝的区别

    深拷贝和浅拷贝的区别,说法正确的是_前端浅拷贝和深拷贝的区别首先,明确一点深拷贝和浅拷贝是针对对象属性为对象的,因为基本数据类型在进行赋值操作时(也就是拷贝)是直接将值赋给了新的变量,也就是该变量是原变量的一个副本,这个时候你修改两者中的任何一个的值都不会影响另一个,而对于对象或者引用数据来说在进行浅拷贝时,只是将对象的引用复制了一份,也就内存地址,即两个不同的变量指向了同一个内存地址,那么在改变任一个变量的值都是该变这个内存地址的所存储的值,所以两个变量的值都会改变。一、clone()方法在Java中是用clone()方法实现深拷贝的,比如以下代码在Jav

    2022年10月1日
    2
  • Maven历史版本下载「建议收藏」

    Maven历史版本下载「建议收藏」一.Maven官网下载历史版本1.maven下载地址(1)、打开Mvaen官网下载地址(2)、进入历史版本下载地址(3)、历史版本下载页面,选择一个版本进入。(4)、我们选择一个历史版本进来后显示二进制和源码两个下载方式。二进制版本是编译好的,可以直接使用。源码版本未经编译,需要自行编译(5)、选择二进制版本,点击进入下载。(6)、下载下来后直接解压就可以使用了。…

    2022年8月21日
    9
  • 数据库概念设计与逻辑设计[通俗易懂]

    数据库概念设计与逻辑设计[通俗易懂]一、概念设计概念设计的目的就是为了建立概念数据模型,概念数据模型也称为高级数据模型,之所以称为高级数据模型是因为它更接近于人的思维,而不是机器的思维,相比于关系模型更容易理解,此处的高级和低级的概念,与程序语言领域的高低级是一样的。我们通常称Java语言为高级语言,汇编语言为低级语言,是因为高级语言对于我们而言要比汇编语言更容易理解。关于概念数据模型,我们一般都会采用E-R图进行描述。E-R图的规则如下:1.实体采用矩形框,联系采用菱形框,属性采用椭圆形框。2.实体、联系、属性必须使用文字描

    2022年10月9日
    3
  • 数据库中的having语句_sql的having语句

    数据库中的having语句_sql的having语句SQL语句HAVING的用法HAVING语句通常与GROUPBY子句及聚集函数COUNT,AVG,SUM,MAX,MIN语句联合使用,用来过滤由GROUPBY语句返回的记录集,通常跟在GROUPBY后边作用相当于WHERE。where子句后边是指定行所对应的条件,并且不能含有聚集函数,而HAVING后边是指定组所对应的条件,可以含有聚合函数。HAVING语句的存在弥补了WHERE关键字不能与聚集函数联合使用的不足。我们可以这样理解:where筛选的是行(一个元组),而having筛选的是组(多

    2025年8月30日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号