最大似然函数

似然函数

似然函数在给定参数的条件下就是观测到一组数据概率密度函数（连续分布）或概率聚集函数（离散分布）

在统计学中，似然函数（likelihood function，通常简写为likelihood，似然）是一个非常重要的内容，在非正式场合似然和概率（Probability）几乎是一对同义词，但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性，比如抛硬币，抛之前我们不知道最后是哪一面朝上，但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%，这个概率只有在抛硬币之前才是有意义的，抛完硬币后的结果便是确定的；而似然刚好相反，是在确定的结果下去推测产生这个结果的可能环境（参数），还是抛硬币的例子，假设我们随机抛掷一枚硬币1,000次，结果500次人头朝上，500次数字朝上（实际情况一般不会这么理想，这里只是举个例子），我们很容易判断这是一枚标准的硬币，两面朝上的概率均为50%，这个过程就是我们根据结果来判断这个事情本身的性质（参数），也就是似然。

最大似然估计原理

最大似然估计是一种统计方法，最大似然估计的思想就是最大似然函数取什么样的参数才能使我们观测到目前这组数据的概率是最大的。而似然描述的是结果已知的情况下，该事件在不同条件下发生的可能性，似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

最大似然原理解决的问题

已知该事件的结果，以及事件的概率密度函数（连续分布）或概率聚集函数（离散分布）。求此函数的参数。（在此参数下，该事件发生的可能性最大）。

举例说明

离散分布，离散有限参数空间

考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次（即，我们获取一个采样 $x_1=\mbox{H}, x_2=\mbox{T}, \ldots, x_{80}=\mbox{T}$ 并把正面的次数记下来，正面记为H，反面记为T）。并把抛出一个正面的概率记为p，抛出一个反面的概率记为1 − p（因此，这裡的p即相当于上边的θ）。假设我们抛出了49个正面，31个反面，即49次H，31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为p = 1 / 3, p = 1 / 2, p = 2 / 3.这些硬币没有标记，所以我们无法知道哪个是哪个。使用最大似然估计，通过这些试验数据（即采样数据），我们可以计算出哪个硬币的可能性最大。这个似然函数取以下三个值中的一个：
$P(\mbox{H=49, T=31 }\mid p=1/3) = \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000$
$P(\mbox{H=49, T=31 }\mid p=1/2) = \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012$
$P(\mbox{H=49, T=31 }\mid p=2/3) = \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054$

我们可以看到当 $\widehat{p}=2/3$ 时，似然函数取得最大值。这就是p的最大似然估计。

连续分布

现在假设例子1中的盒子中有无数个硬币，对于 $0\leq p \leq 1$ 中的任何一个p，都有一个抛出正面概率为p的硬币对应，我们来求其似然函数的最大值：
$\mbox{lik}(\theta) = f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31}$

其中 $0\leq p \leq 1$ . 我们可以使用微分法来求最值。方程两边同时对p取微分，并使其为零。
$0 = \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right)$

$= 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30}$

$= p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right]$

其解为p = 0, p = 1，以及p = 49 / 80.使可能性最大的解显然是p = 49 / 80（因为p = 0和p = 1这两个解会使可能性为零）。因此我们说最大似然估计值为 $\widehat{p}=49/80$ .

连续分布，连续参数空间

$= \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right)$

$= 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2}$
这个方程的解是 $\widehat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n$ .这的确是这个函数的最大值，因为它是μ里头惟一的一阶导数等于零的点并且二阶导数严格小于零。
同理，我们对σ求导，并使其为零。
$0 = \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right)$
$= \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right)$
$= -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3}$
这个方程的解是 $\widehat{\sigma}^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n$ .

因此，其关于 $θ = (μ,σ^2$ )的最大似然估计为：

$\widehat{\theta}=(\widehat{\mu},\widehat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n).$

性质

泛函不变性（Functional invariance）

如果 $\widehat{\theta}$ 是θ的一个最大似然估计，那么α = g(θ)的最大似然估计是 $\widehat{\alpha} = g(\widehat{\theta})$ .函数g无需是一个一一映射。请参见George Casella与Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的证明。（中国大陆出版的大部分教材上也可以找到这个证明。）

渐近线行为

偏差

最大似然估计的偏差是非常重要的。考虑这样一个例子，标有1到n的n张票放在一个盒子中。从盒子中随机抽取票。如果n是未知的话，那么n的最大似然估计值就是抽出的票上标有的n，尽管其期望值的只有(n + 1) / 2.为了估计出最高的n值，我们能确定的只能是n值不小于抽出来的票上的值。

参见

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/232454.html原文链接：https://javaforall.net

似然函数

最大似然估计原理

最大似然原理解决的问题

举例说明

离散分布，离散有限参数空间

连续分布

连续分布，连续参数空间

性质

泛函不变性（Functional invariance）

渐近线行为

偏差

参见

相关推荐

根据eia/tia接线标准,简述双绞线的线序_rj45接线图

修改ligerui的display内容

Snmp学习笔记

利用ffmpeg将H264解码为RGB

常见分布式文件存储介绍、选型比较、架构设计

Vue（3）webstorm代码格式规范设置与vue模板配置

发表回复