费雪信息 (Fisher information)

费雪信息 (Fisher information)——————————————————————————作者:知乎用户链接:https://www.zhihu.com/question/26561604/answer/33275982来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。——————

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

——————————————————————————

作者:知乎用户
链接:https://www.zhihu.com/question/26561604/answer/33275982
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

——————————————————————————

首先我们看一下 Fisher Information 的定义:
假设你观察到 i.i.d 的数据 X_1, X_2, \ldots X_n 服从一个概率分布f(X; \theta),\theta是你的目标参数(for simplicity, 这里\theta是个标量,且不考虑 nuissance parameter),那么你的似然函数(likelihood)就是:
L(\bold{X};\theta) = \prod_{i=1}^n f(X_i;\theta)
为了解得Maximum Likelihood Estimate(MLE),我们要让log likelihood的一阶导数得0,然后解这个方程,得到\hat{\theta}_{MLE}
这个log likelihood的一阶导数也叫,Score function :
S(\bold{X};\theta) = \sum_{i=1}^n \frac{\partial log f(X_i;\theta)}{\partial \theta}

那么Fisher Information,用I(\theta)表示,的定义就是这个Score function的二阶矩(second moment)I(\theta) = E[S(X;\theta)^2]
一般情况下(under specific regularity conditions)可以很容易地证明,E[S(\bold{X};\theta)]= 0, 从而得到:
I(\theta) = E[S(X;\theta)^2]-E[S(X;\theta)]^2 = Var[S(X;\theta)]
于是得到了Fisher Information的第一条数学意义:就是用来估计MLE的方程的方差。它的直观表述就是,随着收集的数据越来越多,这个方差由于是一个Independent sum的形式,也就变的越来越大,也就象征着得到的信息越来越多。

而且,如果log likelihood二阶可导,在一般情况下(under specific regularity conditions)可以很容易地证明:
E[S(\bold{X};\theta)^2] = -E(\frac{\partial^2}{\partial \theta^2}log L(\bold{X};\theta))
于是得到了Fisher Information的第二条数学意义:log likelihood在参数真实值处的负二阶导数的期望。这个意义好像很抽象,但其实超级好懂。
首先看一下一个normalized Bernoulli log likelihood长啥样:

费雪信息 (Fisher information)对于这样的一个log likelihood function,它越平而宽,就代表我们对于参数估计的能力越差,它高而窄,就代表我们对于参数估计的能力越好,也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数,就反应了这个log likelihood在顶点处的弯曲程度,弯曲程度越大,整个log likelihood的形状就越偏向于高而窄,也就代表掌握的信息越多。

然后,在一般情况下(under specific regularity conditions),通过对score function在真实值处泰勒展开,然后应用中心极限定理,弱大数定律,依概率一致收敛,以及Slutsky定理,可以证明MLE的渐进分布的方差是
I^{-1}(\theta),即
Var(\hat{\theta}_{MLE}) = I^{-1}(\theta), 这也就是
Fisher Information的第三条数学意义。不过这样说不严谨,严格的说,应该是
\sqrt{n}(\hat{\theta}_{MLE}-\theta) \xrightarrow{D} N(0,I^*(\theta)^{-1}), 这里
I^*(\theta)是当只观察到一个X值时的Fisher Information,当有n个 i.i.d 观测值时,
I^*(\theta) = I(\theta)/n。所以这时的直观解释就是,Fisher Information反映了我们对参数估计的准确度,它越大,对参数估计的准确度越高,即代表了越多的信息。

—————————————————————————–

作者:小Q痴子
链接:https://www.zhihu.com/question/26561604/answer/145734266
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

——————————————————————————

参数估计的本质是,假设样本的数据来自于某一个分布,然后利用样本中蕴含的信息来估计参数。一个自然的问题就是:对于分布里的未知参数,这个样本数据给出了多少信息呢?Fisher Information 就衡量了这样的“信息”。

什么样的样本给出的信息更多?直觉上思考这个问题,如果一个事件发生的概率很大,那发生这件事并不能带来太多信息;相反,如果一个事件发生的概率很小,那发生这件事可以带来比较多的信息。

现在我们再回顾一下最大似然估计(Maximum Likelihood Estimation)的基本思想。对于随机变量X \sim f(x|\theta) ,直觉上,当\theta 取到参数的真实值时,似然函数的值应该很大,最大似然估计的思想就是认为 当\theta 取到参数的真实值时似然函数的值应该取到最大值,或者(对数)似然函数的一阶导数为0。

定义对数似然函数为l (x|\theta)=\log f(x|\theta) ,从而l'(x|\theta)=\frac{\partial}{\partial \theta} \log f(x|\theta) = \frac{f'(x|\theta)}{f(x|\theta)},其中f'(x|\theta)f(x|\theta)关于\theta的导数。

根据上面的两段分析,如果l'(x|\theta)非常接近于0,这将是意料之中的事情,因此样本没有带来太多关于参数\theta的信息;相反,如果|l'(x|\theta)|很大,或者说[l'(x|\theta)]^2很大,那么样本就提供了比较多的关于参数\theta的信息。所以,我们可以用[l'(x|\theta)]^2来衡量X提供的信息(information)。但是X是个随机变量,于是我们就考虑[l'(x|\theta)]^2的期望值。

于是就有了Fisher Information的定义(1):
I(\theta)=E{[l'(X|\theta)^2]}=\int [l'(X|\theta)^2] f(x|\theta) dx
如果假设可以交换求导和积分的顺序,那么
\int f'(x|\theta)dx=\frac{\partial}{\partial \theta} \int f(x|\theta) dx =0
\int f''(x|\theta)dx=\frac{\partial^2}{\partial \theta^2} \int f(x|\theta) dx =0
容易看出,
E[l'(X|\theta)]=\int l'(x|\theta)f(x|\theta)dx=\int \frac{f'(x|\theta)}{f(x|\theta)}f(x|\theta)dx=\int f'(x|\theta)dx=0

所以Fisher Information的定义(1)可以改写成定义(2):
I(\theta)=Var [l'(X|\theta)]

(其中用到Var[l'(X|\theta)]=E [l'(X|\theta)]^2 - E^2 [l'(X|\theta)]。)
注意到
l''(x|\theta)=\frac{\partial}{\partial \theta} [\frac{f'(x|\theta)}{f(x|\theta)}]=\frac{f''(x|\theta)f(x|\theta)-[f'(x|\theta)]^2}{[f(x|\theta)]^2}=\frac{f''(x|\theta)}{f(x|\theta)}-[l'(x|\theta)]^2
因此
E[l''(x|\theta)]=\int [\frac{f''(x|\theta)}{f(x|\theta)}-[l'(x|\theta)]^2] f(x|\theta)dx=\int f''(x|\theta)dx - E[l'(x|\theta)]^2=-I(\theta)

至此我们有了关于Fisher Information的第(3)个表达式:
I(\theta)=-E[l''(x|\theta)]=-\int [\frac{\partial ^2}{\partial \theta ^2} \log f(x|\theta)] f(x|\theta) dx
综上所述,我们有三个办法来计算Fisher Information。实际上在大多数问题中,(3)将是最方便的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/192063.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java dump分析工具_java线程dump分析工具

    java dump分析工具_java线程dump分析工具一、【内存dump】jmap–dump:live,format=b,file=heap.bin二、【线程dump】jstack是java虚拟机自带的一种堆栈跟踪工具。基本介绍:jstack用于生成java虚拟机当前时刻的线程快照。线程快照是当前java虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间…

    2022年10月2日
    0
  • Application received signal SIGABRT[通俗易懂]

    ApplicationreceivedsignalSIGABRT(null)(( 0CoreFoundation0x0000000182bbadc8<redacted>+148 1libobjc.A.dylib0x000000018221ff80ob…

    2022年4月8日
    105
  • idea2022.01.13永久激活码【2021免费激活】「建议收藏」

    (idea2022.01.13永久激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/ide…

    2022年3月31日
    65
  • vue-router路由懒加载以及三种实现方式「建议收藏」

    vue-router路由懒加载以及三种实现方式「建议收藏」什么是路由懒加载?也叫延迟加载,即在需要的时候进行加载,随用随载。官方解释: 1:当打包构建应用时,JavaScript包会变得非常大,影响页面加载。 2:如果我们能把不同路由对应的组件分割成不同的代码块,然后当路由被访问的时候才加载对应组件,这样就更加高效了。官方在说什么呢?为什么需要懒加载? 1:首先,我们知道路由中通常会定义很多不同的页面。 2:这个页面这项目build打包后,一般情况下,会放在一个单独的js文件中 3:但是,如果很多的页面都放在同一个js文件.

    2022年10月6日
    0
  • Microsoft Office 2007 中文专业版密钥

    Microsoft Office 2007 中文专业版密钥MicrosoftOffice2007中文专业版(微软原版)正版密钥MicrosoftOfficeVisio2007简体中文专业版:简介:    便于IT和商务专业人员就复杂信息、系统和流程进行可视化处理、分析和交流。使用具有专业外观的OfficeVisio2007图表,可以促进对系统和流程的了解,深入了解复杂信息并利用这些知识做出更好的业务决策。迅雷下载    …

    2022年7月19日
    18
  • 题目:Fizz Buzz

    题目:Fizz Buzz给你一个整数n.从1到n按照下面的规则打印每个数:如果这个数被3整除,打印fizz.如果这个数被5整除,打印buzz.如果这个数能同时被3和5整除,打印fizzbuzz.您在真实的面试中是否遇到过这个题?Yes哪家公司问你的这个题?AirbnbAlibabaAmazonAppleBaiduBloombergCisc

    2022年10月10日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号