手把手教你使用R语言做LASSO 回归

手把手教你使用R语言做LASSO 回归LASSO回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO回归最先由英国人RobertTibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO惩罚函数。今天我们来讲讲怎么使用R语言通过LASSO回归构造预测模型。首先我们要下载R的glmnet包,由LASSO回归的发明人,斯坦福统计学家TrevorHastie领衔开发。加载

大家好,又见面了,我是你们的朋友全栈君。

LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO 惩罚函数。今天我们来讲讲怎么使用R语言通过LASSO 回归构造预测模型。
首先我们要下载R的glmnet包,由 LASSO 回归的发明人,斯坦福统计学家 Trevor Hastie 领衔开发。
加载需要的包,导入数据(还是我们既往的SPSS乳腺癌数据),删除缺失值

library(glmnet)
library(foreign)
bc <- read.spss("E:/r/Breast cancer survival agec.sav",
                use.value.labels=F, to.data.frame=T)
bc <- na.omit(bc)

在这里插入图片描述
目前,glmnet包只能接受矩阵形式的数据,数据框的数据会报错,所以我们先要把数据转换成矩阵形式,这一步很重要。

y<-as.matrix(bc[,8])
x<-as.matrix(bc[,c(2:7,9:11)])

在这里插入图片描述
通过转换后,我们得到了两个数据矩阵,Y是结果,X是数据的变量
开始构建模型

f1 = glmnet(x, y, family="binomial", nlambda=100, alpha=1) #这里alpha=1为LASSO回归,如果等于0就是岭回归
#参数 family 规定了回归模型的类型:
family="gaussian" 适用于一维连续因变量(univariate)
family="mgaussian" 适用于多维连续因变量(multivariate)
family="poisson" 适用于非负次数因变量(count)
family="binomial" 适用于二元离散因变量(binary)
family="multinomial" 适用于多元离散因变量(category)
我们这里结局指标是2分类变量,所以使用binomial
print(f1)#把f1结果输出

在这里插入图片描述
在这里插入图片描述
可以看到随着lambdas增加,自由度和残差减少,最小lambda为0.000233
输出图形

plot(f1, xvar="lambda", label=TRUE)

在这里插入图片描述
横坐标为随着lambdas的对数,纵坐标为变量系数,可以看到随着lambdas增加变量系数不断减少,部分变量系数变为0(等于没有这个变量了)

下面进行交叉验证
我们可以把数据集取一部分进行验证(这步不做也可以)

predict(f1, newx=x[2:5,], type = "response")

在这里插入图片描述
然后通过glmnet自带函数进行交叉检验,并输出图形

cvfit=cv.glmnet(x,y)
plot(cvfit)

在这里插入图片描述
我们这个图中有两条虚线,一个是均方误差最小时的λ值,一个是距离均方误差最小时一个标准误的λ值,有点拗口没关系,我们只要知道它是多少就可以了

cvfit$lambda.min#求出最小值
cvfit$lambda.1se#求出最小值一个标准误的λ值

在这里插入图片描述
在这里插入图片描述
OK,我们得出这两个值后分别带进模型看一看

l.coef2<-coef(cvfit$glmnet.fit,s=0.004174369,exact = F)
l.coef1<-coef(cvfit$glmnet.fit,s=0.04272596,exact = F)
l.coef1
l.coef2

在这里插入图片描述
在这里插入图片描述
我们看到第一个模型变量都没有了,第二个模型还有5个变量,因此就只能选第2个了。
我们把这几个系数拿出来组成广义线性方程,时间变量time懒得拿了(做示范而已,拿也是可以的)

mod<-glm(status~age+pathsize+lnpos+pr,family="binomial",data = bc)
summary(mod)

在这里插入图片描述
有3个指标入选,我们还可以求出OR和95%CI
在这里插入图片描述
OK,做到这里,模型已经全部做出来啦,您学会了吗?
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/133212.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • matlab保存所有图,Matlab中图片保存的5种方法

    matlab保存所有图,Matlab中图片保存的5种方法matlab的绘图和可视化能力是不用多说的,可以说在业内是家喻户晓的。Matlab提供了丰富的绘图函数,比如ez**系类的简易绘图函数,surf、mesh系类的数值绘图函数等几十个。另外其他专业工具箱也提供了专业绘图函数,这些值得大家深入学习好久。今天我只是讨论下如何保存这些由Matlab绘制出来的图像呢?当然借助第三方截图软件,就算了!1、使用imwrite函数如图像是img,则可以使用im…

    2025年9月7日
    5
  • nfc怎么复制门禁卡,相关教程在这里

    nfc怎么复制门禁卡,相关教程在这里  在生活中小区、学校都有门禁的,为了保证安全,每一次都要刷门禁卡才能进去,但有时忘记了或者丢了怎么办呢,拉下来看看相关教程。  当然,不是所有的门禁卡都能模拟,所以我们就需要了解你的门禁卡是否是能模拟的类型。  门禁卡一般分为:ID卡和IC卡。而EM卡、M1卡、CPU卡等等,都是这两种卡的细分。  我们看上面这张图。在这张图中,卡是按工作频率来分的:ID卡的工作频率为125KHz频率,而IC卡的工作频率为13.56MHz以上。显然看出,因为IC卡的频率高,所以,它的安全性比较高。小区基本上选择

    2022年5月11日
    157
  • 教大家如何去做外链才是最好的[通俗易懂]

    教大家如何去做外链才是最好的[通俗易懂]外链是我们做SEO优化中每天都要去做的事情,我们一天发几十条,一百条的外链有什么用呢?外链到底有什么价值呢?对我们优化网站又有什么帮助呢?外链的价值主要就是获取投票和增加曝光率,外链可以提升网站的关键

    2022年8月3日
    8
  • Springboot引入本地jar包,并通过maven把项目成功打包成jar包部署[通俗易懂]

    Springboot引入本地jar包,并通过maven把项目成功打包成jar包部署[通俗易懂]引入钉钉的sdk打包到线上,各种报错:ClassNofFoundException…第一步:将jar包放到resource的lib文件夹下:第二部:在pom文件中引入:第三部:继续修改pom文件的打包插件配置:<includeSystemScope>true</includeSystemScope>打包时候IDEA还是会报警告,不用管它;…

    2022年6月29日
    25
  • 基于51单片机的毕业设计题目_单片机全自动洗衣机毕业设计

    基于51单片机的毕业设计题目_单片机全自动洗衣机毕业设计仿真链接:基于单片机的智能衣柜设计–仿真设计软件安装:Keil:点击下载 Proteus:点击下载 AD:点击下载 Visio:点击下载 烧录软件:点击下载设计简介:本设计是基于单片机的智能衣柜设计,主要实现以下功能:可实现通过DHT11测量衣柜的温湿度,并可自动进行除湿 可实现通过DS1302获取当前时间,并可通过按键调整 可实现通过按键设置紫外线消毒的开始时间和结束时间 可实现通过按键模拟打开衣柜或关闭衣柜 可实现通过LCD1602显示衣柜内的温湿度、衣柜的开关状态

    2022年10月3日
    5
  • Python,PyCharm,Anaconda三者间的关系[通俗易懂]

    Python,PyCharm,Anaconda三者间的关系[通俗易懂]1.Python:解释性脚本语言,提供人机对话的解释工作。2.PyCharm:用来写Python代码的工具,是一种集成开发环境(IDE)。在这种环境下可进行可视化地代码程序编写工作。3.Anaconda:Python自身缺少一些包(如:NumPy,Scipy),需要在cmd终端输入pipinstallnumpy安装包。Anaconda内置了许多第三方库,是一个基于Python的数据处理和科学计算平台。…

    2022年8月27日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号