Python statsmodel包训练LR模型

Python statsmodel包训练LR模型Python中训练LR模型一般使用sklearn包,输出模型报告和其他机器学习方法一样。但从统计背景出发,想看更详细的报告,statsmodel包可以帮助实现。1.训练模型importstatsmodels.apiassmfromstatsmodels.stats.outliers_influenceimportvariance_inflation_factor#tr…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

Python中训练LR模型一般使用sklearn包,输出模型报告和其他机器学习方法一样。但从统计背景出发,想看更详细的报告,statsmodel包可以帮助实现。

1.训练模型

import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

    #train样本上训练模型
    y = trainData[y_name]
    X = trainData[model_list]
    X['intercept'] = [1] * X.shape[0]
    
    LR = sm.Logit(y, X).fit()

2.模型报告

	#LR自带的summary报告,直接输出到excel不方便
    summary = LR.summary()

    #查看VIF
    X_m = np.matrix(X)
    VIF_list = [variance_inflation_factor(X_m, i) for i in range(X_m.shape[1])]
    #varname_list = [X.columns[i] for i in range(len(VIF_list))]
    
    #计算标准化系数
    X_new = X.drop(['intercept'],axis = 1)
    X_new2 = X_new.apply(lambda x: (x - np.mean(x)) / np.std(x))
    LR_N = sm.Logit(trainData[y_name], X_new2).fit()

    #wald检验
    wald_test = LR.wald_test_terms().table

    #拼接report
    model_rpt1 = pd.concat([LR.params,LR.pvalues,wald_test['statistic'],LR_N.params],sort = False,axis = 1)
    model_rpt1.columns = ['params','pvals','wald','normal_params']
    model_rpt1['VIF'] = VIF_list
    model_rpt1.sort_values(['normal_params'],ascending = True,inplace = True)
    model_rpt1.fillna(0,inplace = True)
    
    #计算模型变量间的相关系数
    corr = X.drop(['intercept'],axis = 1).corr()
    corr2 = corr.reset_index()    

3.其他

1.statsmodel训练模型过程不涉及筛选变量,所有送进去的模型变量都会参与拟合;
2.LR.predict(X_test) 可以给其他样本打分,其结果是p,而根据系数得到的结果是log(p/1-p)。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/182541.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • phpStudy2016 配置多个域名期间遇到的问题

    phpStudy2016 配置多个域名期间遇到的问题

    2021年10月10日
    43
  • JS定时器是什么「建议收藏」

    JS定时器是什么「建议收藏」很多人都会遇到图片的轮播效果,并且两分钟播放一下,这时候就会需要定时器,那么js定时器是什么?下面我们来讲解一下js定时器使用方法。1.js定时器是什么js定时器是利用js实现定时的一种方法,在网

    2022年7月3日
    24
  • navicat 15 最新 激活码_在线激活

    (navicat 15 最新 激活码)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年4月1日
    140
  • 粘包问题怎么解决_包带粘手怎么处理

    粘包问题怎么解决_包带粘手怎么处理如何解决粘包问题粘包就是连续向对端发送两个或者两个以上的数据包,对端在一次收取中受到的数据包数量可能大于1个,当大于1个时,可能时几个包加上某个包的部分,这这干脆几个完整的包在一起。当然,也可能收到的数据只是一个包的部分,这种情况一般也叫做半包。无论是半包问题还是粘包问题,因为TCP是流式数据,所以其解决思路还是从收到的数据中把包与包的边界区分出来。如何区分,有以下三种办法。固定包长的数据包。固定包长,即每个协议包的长度都是固定的。假如我们规定每个协议包的大小都是64字节,每收满64字节,就取出来

    2022年8月11日
    9
  • Docker使用教程超详细[通俗易懂]

    Docker使用教程超详细[通俗易懂]TableofContents1.Docker简介 1.1.Docker守护进程 1.2.Docker客户端 1.3.Docker内部 1.3.1.Docker镜像 1.3.2.Docker仓库 1.3.3.Docker容器 1.4.libcontainer 1.5.命名空间「Namespaces」 1.5.1.pidnamespace 1.5.2.mntnamespace 1.5.3.netnam

    2022年10月16日
    2
  • 数据库中间件简介_数据库中间件还用吗

    数据库中间件简介_数据库中间件还用吗数据库中间件可以简化对读写分离以及分库分表的操作,并隐藏底层实现细节,可以像操作单库单表那样操作多库多表,主流的设计方案主要有两种:1、服务端代理:需要独立部署一个代理服务,该代理服务后面管理多个数据库实例,在应用中通过一个数据源与该代理服务器建立连接,由该代理去操作底层数据库,并返回相应结果。优点是支持多语言,对业务透明,缺点是实现复杂,实现难度大,同时代理需要确保自身高可用2、客户端代理:在连接池或数据库驱动上进行一层封装,内部与不同的数据库建立连接,并对SQL…

    2025年8月5日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号