赤池信息准则AIC,BIC「建议收藏」

赤池信息准则AIC,BIC「建议收藏」很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法——赤池信息准则(AkaikeInfo…

大家好,又见面了,我是你们的朋友全栈君。

很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。

人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法——赤池信息准则(Akaike Information Criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterion,BIC)。

1.AIC准则

AIC是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下,它是拟合精度和参数未知个数的加权函数,AIC定义为:

赤池信息准则AIC,BIC「建议收藏」AIC=2k-2In(L)

当在两个模型之间存在着相当大的差异时,这个差异出现于上式第二项,而当第二项不出现显著性差异时,第一项起作用,从而参数个数少的模型是好的模型。

让n为观察数,RSS为剩余平方和,那么AIC变为:

AIC=2k+nIn(RSS/n)

其中k是模型中未知参数个数,L是模型中极大似然函数值似然函数。从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型。

当两个模型之间存在较大差异时,差异主要体现在似然函数项,

当似然函数差异不显著时,上式第一项,即模型复杂度则起作用,从而参数个数少的模型是较好的选择。

一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然),而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。可见AIC准则有效且合理地控制了参数的维数k。显然AIC准则追求似然函数尽可能大的同时,k要尽可能的小。

举例:

设y1,y2,….,yn是来自未知总体g(y)的样本。总体的概率密度为f(y;θ),θ是r*1未知参数向量。若θ的极大似然估计是θ*,则L(θ*)=∑_(i=1)^n▒〖Inf(y_i;θ*)〗就是对数似然函数,由此,

AIC=-2L(θ*)+2r

可以度量f(y;θ)与g(y)之间的差异。

2.BIC

BIC(Bayesian InformationCriterion)贝叶斯信息准则与AIC相似,用于模型选择,1978年由Schwarz提出。训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

赤池信息准则AIC,BIC「建议收藏」BIC=kIn(n)-2In(L)

其中,k为模型参数个数,n为样本数量,L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。

3.QAIC

为了使用过度离散(或缺乏拟合),提出了改进的AIC准则QAIC:

QAIC=-2In(L)/c+2k

c是方差膨胀因子

转载于:https://www.cnblogs.com/lantingg/p/9533303.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145888.html原文链接:https://javaforall.net

(1)
上一篇 2022年5月16日 上午11:00
下一篇 2022年5月16日 上午11:20


相关推荐

  • Pytest(16)随机执行测试用例pytest-random-order[通俗易懂]

    Pytest(16)随机执行测试用例pytest-random-order[通俗易懂]前言通常我们认为每个测试用例都是相互独立的,因此需要保证测试结果不依赖于测试顺序,以不同的顺序运行测试用例,可以得到相同的结果。pytest默认运行用例的顺序是按模块和用例命名的ASCII编码

    2022年7月29日
    10
  • MyBatis 批量插入数据的 3 种方法

    MyBatis 批量插入数据的 3 种方法批量插入功能是我们日常工作中比较常见的业务功能之一 今天来一个 MyBatis 批量插入的汇总篇 同时对 3 种实现方法做一个性能测试 以及相应的原理分析 先来简单说一下 3 种批量插入功能分别是 循环单次插入 MP 批量插入功能 原生批量插入功能 准备工作开始之前我们先来创建数据库和测试数据 执行的 SQL 脚本如下 创建数据库 SETNAMESutf

    2025年6月20日
    4
  • UIImageView圆角

    UIImageView圆角

    2021年8月18日
    61
  • 刘兴亮 — IT博客-中国最具人气的IT博客-赛迪网IT人家园

    刘兴亮 — IT博客-中国最具人气的IT博客-赛迪网IT人家园刘兴亮 非有名 IT 评论人 笔名后马铃薯时代 英文名 LantisLiu 山西吕梁人氏 现假寓北京 日志分类文章搜寻帮运营商整治违规 SP 支一招昨天 我在北京国际会议中心加入了由中移动主办的 2009 第三届 挪动互联网研究会 并发表了主题演讲 会场上碰到的新朋旧友 谈论至多的就是关于整治 SP 的话题 现在 运营商把 WAP 网站一刀切了 无论是正规的还是违规的 这下好了 一视同仁 整治违规 SP 堪称是运

    2026年3月18日
    2
  • 系统管理日志怎么看_19年发生了太多事日志

    系统管理日志怎么看_19年发生了太多事日志说起日志,大家都是耳熟能详的,一大堆日志插件映入眼帘,日志收集的方式也历历在目,但是,今天我们的重点不仅仅是收集日志了,今天我们主要说说怎么管理日志收集日志日志管理的第一件事,就是日志的收集。日志

    2022年8月4日
    10
  • 扣子工作流最新实用功能更新

    扣子工作流最新实用功能更新

    2026年3月12日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号