基于R语言的分位数回归(quantile regression)

基于R语言的分位数回归(quantile regression)分位数回归 quantileregr 这一讲 我们谈谈分位数回归的知识 我想大家传统回归都经常见到 分位数回归可能大家见的少一些 其实这个方法也很早了 大概 78 年代就有了 但是那个时候这个理论还不完善 到 2005 年的时候 分位数回归的创立者 KoenkerR 写了一本分位数回归的专著 剑桥大学出版社出版的 今年本来老爷子要出一本 handbookofqu

分位数回归(quantile regression)
这一讲,我们谈谈分位数回归的知识,我想大家传统回归都经常见到。分位数回归可能大家见的少一些,其实这个方法也很早了,大概78年代就有了,但是那个时候这个理论还不完善。到2005年的时候,分位数回归的创立者Koenker R写了一本分位数回归的专著,剑桥大学出版社出版的。今年本来老爷子要出一本《handbook of quantile regression》,还没有正式出来呢,目前来看,分位数回归应用的范围非常广。在金融领域尤为重要。下面先给大家简单介绍一下,分位数回归的基本原理,完后拿R做一个完整的案例。为什么拿R软件,因为分位数回归的发明者最早拿R写了一个包,叫quantreag,是当时唯一一个分位数回归的包,现在的话,看到python,julia也有相关的包了。但是感觉这个R的还是最好的。
那么什么是分位数回归呢,这个就要从传统的回归说起,传统回归呢,一般叫最小二乘回归,也叫均值回归。这个均值是指条件均值。比较抽象,在前面有一篇博文中,我比较详细地解释过。那么分位数回归就是均值回归的拓展,也就是它可以拟合均值以外的其它分位点,形成多条回归线,这里首先需要强调的是分位数回归的分位点是指因变量y的分位点,不是x的。这样我们如果设定多个分位点就得到了多条回归直线。当然分位数回归现在也发展出来非线性分位数回归,就是可以拟合出多条曲线,或者和广义线性回归模型一样可以适用二值变量。要说分位数回归具体的原理,后面有空再细谈。下面我们拿R语言做一个案例,大家就可以逐渐感受到分位数回归具体的含义了。案例所用的数据呢,大家应该都比较熟悉,就是收入和食品消费支出的数据,下面看代码。

#导入分位数回归的包 library(quantreg) # 引入数据 data(engel) #查看数据格式 mode(engel) [1] "list" #查看变量名 names(engel) [1] "income" "foodexp" #查看格式 class(engel) [1] "data.frame" #查看数据的前五行 head(engel) income foodexp 1 420.1577 255.8394 2 541.4117 310.9587 3 901.1575 485.6800 4 639.0802 402.9974 5 750.8756 495.5608 6 945.7989 633.7978 #画个散点图看看数据 plot(engel$income, engel$foodexp, xlab='income', ylab='foodexp')
#查看foodexp的变化范围 boxplot(engel$foodexp, xlab='foodexp') #简单验证一下因变量foodexp是否服从正态分布 norm(engel$foodexp, main=' plot') line(engel$foodexp, col='red', lwd=2)
#可以直接调用数据框里变量 attach(engel) #设置0.05, 0.25, 0.5, 0.75, 0.95五个分位点,并且进行分位数回归,这样可以得到五条分位数回归线 rq_result <- rq(foodexp ~ income, tau=c(0.05, 0.25, 0.5, 0.75, 0.95)) summary(rq_result) Call: rq(formula = foodexp ~ income, tau = c(0.05, 0.25, 0.5, 0.75, 0.95)) tau: [1] 0.05 Coefficients: coefficients lower bd upper bd (Intercept) 124.88004 98.30212 130.51695 income 0.34336 0.34333 0.38975 Call: rq(formula = foodexp ~ income, tau = c(0.05, 0.25, 0.5, 0.75, 0.95)) tau: [1] 0.25 Coefficients: coefficients lower bd upper bd (Intercept) 95.48354 73.78608 120.09847 income 0.47410 0.42033 0.49433 Call: rq(formula = foodexp ~ income, tau = c(0.05, 0.25, 0.5, 0.75, 0.95)) tau: [1] 0.5 Coefficients: coefficients lower bd upper bd (Intercept) 81.48225 53.25915 114.01156 income 0.56018 0.48702 0.60199 Call: rq(formula = foodexp ~ income, tau = c(0.05, 0.25, 0.5, 0.75, 0.95)) tau: [1] 0.75 Coefficients: coefficients lower bd upper bd (Intercept) 62.39659 32.74488 107.31362 income 0.64401 0.58016 0.69041 Call: rq(formula = foodexp ~ income, tau = c(0.05, 0.25, 0.5, 0.75, 0.95)) tau: [1] 0.95 Coefficients: coefficients lower bd upper bd (Intercept) 64.10396 46.26495 83.57896 income 0.70907 0.67390 0.73444 #上面就是没条回归线的回归系数,我们做个图看一下 plot(income, foodexp, cex=0.25, type='n', xlab='income', ylab='foodexp') points(income, foodexp, cex=0.5, col='blue') #加中位数数回归的直线 abline(rq(foodexp~income, tau=0.5), col='blue') #加均值回归的五条直线 abline(lm(foodexp~income), lty=2, col='red') #将分位数回归的五条线加上去 taus <- c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95) # for (i in 1:length(taus)){ abline(rq(foodexp~income, tau=taus[i]), col='gray') } 
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/232215.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java中遍历数组_java遍历object数组

    java中遍历数组_java遍历object数组遍历数组目录遍历数组三种方式:for循环遍历foreach语句遍历Arrays工具类中toString静态方法遍历Arrays.deepToString()与Arrays.toString()的区别Java中对Array数组的常用操作(了解即可)三种方式: for for-each, toString 题目描述给一个数组:intArr={{5,7,15},{8,4,11},{3,6,13}};for循环遍历通常遍历数组都是使用f

    2026年1月21日
    3
  • C#操作配置文件中appSettings,connectionStrings节点「建议收藏」

    C#操作配置文件中appSettings,connectionStrings节点「建议收藏」usingSystem;usingSystem.Configuration;usingSystem.Web;usingSystem.Web.Configuration;namespacemyConfiguration{   #region配置信息的操作类   ///   ///配置信息的操作   ///   publiccl

    2022年5月21日
    119
  • 为什么国内很少人用树莓派(树莓派怎么玩)

    1.网站服务器在树莓派上搭建了一个博客网站,树莓派就放在家里,常年开机,使用内网穿透技术使得任何地方都可以访问我的博客,节省了服务器费用。虽然树莓派的性能比较差,但是当一个基本的服务器也足够了。树莓派安装lnmp套件搭建个人博客网站服务器|科技爱好者博客​www.lxx1.com2.做了一个广告屏蔽器用树莓派搭建了一个DNS服务器,主要用来屏蔽广告,效果非常不错,家里所有的上网设备都没有广…

    2022年4月12日
    599
  • 一个导致502 bad gateway的原因[通俗易懂]

    一个导致502 bad gateway的原因[通俗易懂]最近一段时间系统经常出现502badgateway,一开始没在意,以为是偶发现象,后来越来越多改了nginx配置,问题没有解决观察日志,出现502badgateway时系统并没有出异常,猜测可能系统负载较大,把所有定时任务迁移到另外一台服务器,问题仍然没有解决最后通过Jconsole监控JVM发现每5分钟的第0秒,线程和内存曲线都会降为0,这个时候正好是出

    2022年6月18日
    49
  • ONOS 中的LLDP协议,用到一个固定的MAC

    ONOS 中的LLDP协议,用到一个固定的MAC使用ONOS+openflow硬件交换机的环境中,在交换机上可以看到02-EB-9F-67-C9-42这个MAC及相关流表。其并不是某个交换机、host的MAC,而是ONOSLLDPapp中定义的一个源MAC,用于ONOS的链路发现功能。ONOSPacketout消息抓包截图:关于SDN控制器+openflow+LLDP,网上已经很多人写了,在此就直接搬移一篇总结不错的:Op…

    2022年5月29日
    47
  • 如何查看被占用的端口_java端口被占用怎么解决

    如何查看被占用的端口_java端口被占用怎么解决一、通过命令查找端口被谁占用1、开始—->运行—->cmd,或者是window+R组合键,调出命令窗口2、输入命令:netstat-ano,列出所有端口的情况。在列表中我们观察被占用的端口,比如是49157,首先找到它。3、查看被占用端口对应的PID,输入命令:netstat-aon|findstr”49157″,回车,记下最后一位数字,即PID,这里是27204、继续输…

    2022年7月27日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号