最大似然估计详解

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46，售后保障稳定

1.引入概念

最大似然估计是建立在最大似然原理的基础之上。最大似然原理的直观理解是：设一个随机试验有若干个可能的结果 $A_1,A_2,...,A_n$ ，在一次试验中，结果 $A_k$ 出现，则一般认为实验对 $A_k$ 的出现最有利，即 $A_k$ 出现的概率较大。这里用到了”概率最大的事件最可能出现”的直观想法，然后对 $A_k$ 出现的概率公式求极大值，这样便可解未知参数。下面用一个例子说明最大似然估计的思想方法。

假设一个服从离散型分布的总体X,不妨设 $X\sim B(4,p)$ ，其中参数 $p$ 未知.现抽取容量为3的样本， $X1,X2,X3$ ,如果出现的样本观测值为1,2,1，此时 $p$ 的取值如何估计比较合理？注： $B(n,p)$ 为二项分布，二项分布指每一次实验只有0和1两个结果，其中 $n$ 表示实验次数， $p$ 表示每次结果为1的概率，概率求解公式为：
$P(x=k) = C_n^k * p^k * (1-p)^{n-k}$ (1.1)

考虑这样一个问题，为什么样本结果是1,2,1，而不是另外一组 $x1,x2,x3$ 呢？设事件 $A=\{X_1=1,X_2=2,X_3=1\}$ ，事件 $B=\{X_1=x_1,X_2=x_2,X_3=x_3\}$ ,应用概率论的思想，大概率事件发生的可能性比小概率事件发生的可能性要大，即A发生的概率较大，套用公式1.1可以得出：
$P(A)=C_4^1p(1-p)^3*C_4^2p^2(1-p)^2*C_4^1p(1-p)^3=96p^4(1-p)^8$

应该让P(A)的取值应该尽可能大。对P(A)进行求导取极值可知，当p=1/3时，P(A)取到最大值，所有有理由认为p=1/3有利于事件A发生，所有p应该取值为1/3比较合理。

2.给出似然函数定义

设 $X1,X2,...,Xn$ 为来自总体 $X$ 的简单随机样本， $x1,x2,...,xn$ 为样本观测值.称

L (θ) = \prod i = 1 n p (x i, θ)

$L(\theta)=\prod_{i=1}^np(x_i,\theta)$

为参数

$\theta$ 的似然函数。其中，当总体

$X$ 为离散型随机变量时，

$p(x_i,\theta)$ 表示X的分布列

$P\{X=x_i\}=p(x_i,\theta)$ ；当总体

$X$ 为连续性型随机变量时，

$p(x_i,\theta)$ 表示

$X$ 的密度函数

$f(x,\theta)$ 在

$x_i$ 处的取值

$f(x_i,\theta)=p(x_i,\theta)$ 。

参数 $\theta$ 的似然函数 $L(\theta)$ 实际上就是样本 $X1,X2,...,Xn$ 恰好取观察值 $x1,x2,...,xn(或其领域)$ 的概率。如果总体 $X$ 为离散型随机变量时，
$L(\theta)=P\{X_1 = x_1,X_2 = x_2,...,X_n = x_n\}=P\{X_1 = x_1\}*P\{X_2 = x_2\}*...*P\{X_n = x_n\}=$

\prod i = 1 n p (x i, θ)

$\prod_{i=1}^np(x_i,\theta)$

如果总体

$X$ 为连续性型随机变量，由于当

$\Delta x_i$ 非常小时,

$P\{x_i-\frac{\Delta x_i}{2} < X_i < x_i+\frac{\Delta x_i}{2}\}=P\{x_i-\frac{\Delta x_i}{2} < X < x_i+\frac{\Delta x_i}{2}\}=\int_{x_i-\frac{\Delta x_i}{2}}^{x_i+\frac{\Delta x_i}{2}}f(x,\theta)dx \approx f(x_i,\theta)*\Delta x_i$

于是

$P\{x_1-\frac{\Delta x_1}{2} < X_1 < x_1+\frac{\Delta x_1}{2},x_2-\frac{\Delta x_2}{2} < X_2 < x_2+\frac{\Delta x_2}{2},...,x_n-\frac{\Delta x_n}{2} < X_n< x_n+\frac{\Delta x_n}{2}\}=$

\prod i = 1 n P {x i - Δ x i 2 < X i < x i + Δ x i 2} \approx \prod i = 1 n f (x i, θ) Δ x i = L (θ) \prod i = 1 n Δ x i

$\prod_{i=1}^nP\{x_i-\frac{\Delta x_i}{2} < X_i < x_i+\frac{\Delta x_i}{2}\}\approx \prod_{i=1}^nf(x_i,\theta)\Delta x_i=L(\theta)\prod_{i=1}^n\Delta x_i$

注意我们求的是样本落在区间 $[x_i-\Delta x_i,x_i+\Delta x_i]$ 的概率，而不是样本落在点 $x_i$ 的概率，现在我们求出了落在区间的概率为

L (θ) \prod i = 1 n Δ x i

$L(\theta)\prod_{i=1}^n\Delta x_i$
又该区间的概率应该近视等于 $P\{X=x_i\}*\Delta x_i$ ,即用点 $x_i$ 的发生概率代表区间平均概率密度，所以

$L(\theta)$ 代表的是一组点对应的概率的乘积，即样本

$X_1,X_2,...,X_n$ 落在观测值

$x_1,x_2,...,x_n$ 附近的概率。

3.最大似然估计

设

L (θ) = \prod i = 1 n p (x i, θ)

$L(\theta)=\prod_{i=1}^np(x_i,\theta)$ 为参数

$\theta$ 的似然函数，若存在一个只与样本观察值

$x_1,x_2,...,x_n$ 有关的实数

$\hat\theta (x_1,x_2,...,x_n),使得$

$L(\hat\theta)=max L(\theta)$

则称

$\hat\theta (x_1,x_2,...,x_n)$ 为参数

$\theta$ 的最大似然估计值，称

$\hat\theta (X_1,X_2,...,X_n)$ 为参数

$\theta$ 的最大估计量。
注意 $\hat\theta(x_1,x_2,...,x_n)$ 仅仅是一个实数值，后面带的 $(x_1,x_2,...,x_n)$ 表示这个值的取值与它们有关。

由上可知，所谓最大似然估计是指通过求似然函数

$L(\theta)$ 的最大(或极大)值点来估计参数

$\theta$ 的一种方法。
另外，最大似然估计对总体中未知参数的个数没有要求，可以求一个未知参数的最大似然估计，也可以一次求多个未知参数的最大似然估计，这个通过对多个未知参数求偏导来实现，因为多变量极值就是偏导运算。需要注意的是，似然函数 $L(\theta)$ 不一定有极大值点，但是未必没有最大值点，所以对于有些问题，求导求极大值可能会失效，这时需要考虑边界点。