样本峰度(kurtosis)与随机变量的峰度及四阶统计量之间的关系和计算估计

样本峰度(kurtosis)与随机变量的峰度及四阶统计量之间的关系和计算估计随机变量的峰度定义与样本峰度的定义表达式 给出总体峰度的估计

一、峰度kurtosis

1. 随机变量的峰度定义(Pearson’s moment coefficient of kurtosis)

随机变量 X {X} X的峰度kurtosis为四阶标准矩,标准定义为:

K u r t [ X ] = E [ ( X − μ σ ) 4 ] = μ 4 σ 4 = E [ ( X − μ ) 4 ] ( E [ ( X − μ ) 2 ] ) 2 , Kurt[X]=\displaystyle E \Big[(\frac{X-\mu}{\sigma})^4\Big]=\frac{\mu_4}{\sigma^4}=\frac{E\Big[(X-\mu)^4\Big]}{\Big(E\Big[(X-\mu)^2\Big]\Big)^2}, Kurt[X]=E[(σXμ)4]=σ4μ4=(E[(Xμ)2])2E[(Xμ)4],

其中, μ 4 \mu_4 μ4为随机变量 X {X} X的四阶中心距, σ \sigma σ为随机变量 X {X} X的标准差, E E E是求期望。

2. 样本峰度的定义

具有n( n ≥ 3 n\geq 3 n3)个样本的峰度定义为:

g 2 = m 4 m 2 2 − 3 = 1 n Σ i = 1 n ( x i − x ˉ ) 4 [ 1 n Σ i = 1 n ( x i − x ˉ ) 2 ] 2 − 3 \displaystyle g_2=\frac{m_4}{m_2^2} – 3=\frac{\frac{1}{n}\Sigma_{i=1}^{n}(x_i-{\bar x})^4}{\Big[\frac{1}{n}\Sigma_{i=1}^{n}(x_i-{\bar x})^2\Big]^2} – 3 g2=m22m43=[n1Σi=1n(xixˉ)2]2n1Σi=1n(xixˉ)43

其中, x ˉ \bar x xˉ为样本的均值, m 2 m_2 m2为关于均值二阶样本矩(即二阶样本中心矩,或样本方差), m 4 m_4 m4为关于均值的四阶样本矩(即四阶样本中心矩)。

3. 总体峰度的估计

实际上,在许多文献中,尤其对于总体的样本子集来说,样本峰度是关于总体峰度的一个无偏估计量;一个常用的总体峰度的估计量计算公式为:

G 2 = k 4 k 2 2 = n 2   [ ( n + 1 )   m 4 − 3   ( n − 1 )   m 2 2 ] ( n − 1 )   ( n − 2 )   ( n − 3 )    ( n − 1 ) 2 n 2   m 2 2 = n − 1 ( n − 2 )   ( n − 3 ) [ ( n + 1 )   m 4 m 2 2 − 3   ( n − 1 ) ] = n − 1 ( n − 2 )   ( n − 3 ) [ ( n + 1 )   g 2 + 6 ] / / 样 本 峰 度 的 无 偏 估 计 量 = ( n + 1 )   n   ( n − 1 ) ( n − 2 )   ( n − 3 )    ∑ i = 1 n ( x i − x ˉ ) 4 [ ∑ i = 1 n ( x i − x ˉ ) 2 ] 2 − 3   ( n − 1 ) 2 ( n − 2 )   ( n − 3 ) = ( n + 1 )   n ( n − 1 )   ( n − 2 )   ( n − 3 )    ∑ i = 1 n ( x i − x ˉ ) 4 k 2 2 − 3   ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) {\displaystyle {\begin{aligned}G_{2}&={\frac {k_4}{k_2^{2}}} \\[18pt]&={\frac {n^{2}\,[(n+1)\,m_{4}-3\,(n-1)\,m_{2}^{2}]}{(n-1)\,(n-2)\,(n-3)}}\;{\frac {(n-1)^{2}}{n^{2}\,m_{2}^{2}}} \\[18pt]&={\frac {n-1}{(n-2)\,(n-3)}}\left[(n+1)\,{\frac {m_{4}}{m_{2}^{2}}}-3\,(n-1)\right] \\[18pt]&={\frac {n-1}{(n-2)\,(n-3)}}\left[(n+1)\,g_{2}+6\right]//样本峰度的无偏估计量 \\[18pt]&={\frac {(n+1)\,n\,(n-1)}{(n-2)\,(n-3)}}\;{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{4}}{\left[\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\right]^{2}}}-3\,{\frac {(n-1)^{2}}{(n-2)\,(n-3)}} \\[18pt]&={\frac {(n+1)\,n}{(n-1)\,(n-2)\,(n-3)}}\;{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{4}}{k_{2}^{2}}}-3\,{\frac {(n-1)^{2}}{(n-2)(n-3)}}\end{aligned}}} G2=k22k4=(n1)(n2)(n3)n2[(n+1)m43(n1)m22]n2m22(n1)2=(n2)(n3)n1[(n+1)m22m43(n1)]=(n2)(n3)n1[(n+1)g2+6]//=(n2)(n3)(n+1)n(n1)[i=1n(xixˉ)2]2i=1n(xixˉ)43(n2)(n3)(n1)2=(n1)(n2)(n3)(n+1)nk22i=1n(xixˉ)43(n2)(n3)(n1)2

其中, κ 4 \kappa_4 κ4为四阶累积量的唯一对称无偏估计量, κ 2 \kappa_2 κ2为二阶累积量的对称无偏估计量(即样本方差的无偏估计量), m 4 m_4 m4为四阶样本中心矩, m 2 m_2 m2为二阶样本中心矩, x ˉ \bar x xˉ为样本均值。

通常来说,峰度 G 2 G_2 G2都是有偏估计量,只有正态分布是无偏的。

大多数软件实现的峰度计算公式包括Python的Pandas库都是采用 G 2 G_2 G2的计算公式实现的。

Pandas 源码片段

def nankurt(values, axis=None, skipna=True, mask=None): """ Compute the sample excess kurtosis The statistic computed here is the adjusted Fisher-Pearson standardized moment coefficient G2, computed directly from the second and fourth central moment. """ ...... mean = values.sum(axis, dtype=np.float64) / count if axis is not None: mean = np.expand_dims(mean, axis) adjusted = values - mean if skipna: np.putmask(adjusted, mask, 0) adjusted2 = adjusted  2 adjusted4 = adjusted2  2 m2 = adjusted2.sum(axis, dtype=np.float64) m4 = adjusted4.sum(axis, dtype=np.float64) with np.errstate(invalid='ignore', divide='ignore'): adj = 3 * (count - 1)  2 / ((count - 2) * (count - 3)) numer = count * (count + 1) * (count - 1) * m4 denom = (count - 2) * (count - 3) * m2  2 with np.errstate(invalid='ignore', divide='ignore'): result = numer / denom - adj ...... return result 

参考资料

  1. Skewness – WikiPedia
  1. Joanes D N, Gill C A. Comparing measures of sample skewness and kurtosis[J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1998, 47(1): 183-189.
  1. binti Yusoff S, Wah Y B. Comparison of conventional measures of skewness and kurtosis for small sample size[C]//2012 International Conference on Statistics in Science, Business and Engineering (ICSSBE). IEEE, 2012: 1-6.
  1. Pebay P P. Formulas for robust, one-pass parallel computation of covariances and arbitrary-order statistical moments[R]. Sandia National Laboratories, 2008.
  1. Online skewness kurtosis computing
  1. Online linear regression computing
  1. Pandas
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/225201.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 上午9:52
下一篇 2026年3月17日 上午9:52


相关推荐

  • 树莓派 1602A显示屏[通俗易懂]

    树莓派 1602A显示屏[通俗易懂]树莓派1602A显示屏下面代码本人测试过没有问题,开始运行完屏幕上什么也没有显示出来,后来调整了下电位器可以了,所以大家如果按着下面的做出来之后运行什么也没有显示的话,记得调整下电位器[img]http://dl2.iteye.com/upload/attachment/0128/7783/cefa073e-97ee-3d45-bddf-d7a878c232a1.png[/img…

    2026年2月15日
    4
  • TIFF文件结构详解

    TIFF文件结构详解1 TIFF 概述 TIFF 是 TaggedImageF 的缩写 在现在的标准中 只有 TIFF 存在 其他的提法已经舍弃不用了 做为一种标记语言 TIFF 与其他文件格式最大的不同在于除了图像数据 它还可以记录很多图像的其他信息 它记录图像数据的方式也比较灵活 理论上来说 任何其他的图像格式都能为 TIFF 所用 嵌入到 TIFF 里面 比如 JPEG LosslessJPEG JPEG2000 和任意数据宽度的原始无压缩数据都可以方便的嵌入到 TIFF 中去 由于它的可扩展性 TIFF 在数

    2026年3月26日
    2
  • 数据库基础(常用SQL语句)[通俗易懂]

    数据库基础(常用SQL语句)[通俗易懂]一、数据库级及SQL语言简介1、目前主流数据库微软:sqlserver、access瑞典:mysqlibm:db2sybase:sybaseibm:informixoracle:oracle2、SQL语言DQL————-数据查询语言select…From…WhereDML————-数据操纵语言insert、upda…

    2022年5月6日
    47
  • c++ fstream流seekg()重定位问题

    c++ fstream流seekg()重定位问题  在看c++中fstream时,突然想到一个问题。当读取完整个文件之后如果再想读取一遍该如何去写?首先想到seekg()函数把读指针重定位到文件开头。但是我试了一下发现指针并没有移动,后来才搞清楚原来是当读指针指到EOF后就没办法再进行指针的控制了。#include<iostream>#include<fstream>#include<string&g…

    2022年6月10日
    34
  • java字符串去重_java字符串去重方法详解,字符串如何去重?

    java字符串去重_java字符串去重方法详解,字符串如何去重?在 Java 面试的时候 你一定遇到过 java 字符串去重这个面试题 那么这个题目你是怎样解答的呢 下面一起来看看相关答案吧 具体的问题 输入一串带重复字符的字符串 输出第一次出现的字符的字符串 例 输入 acvbabcd 输出的结果应该为 acvbd 这里的话 我们可以使用两种方法来做解答 首先的话就是利用 StringBuffer indexof 第二种方法就是利用 StringBuffer 正则表达式 一

    2026年3月18日
    2
  • python如何安装numpy

    python如何安装numpy1 根据 python 版本下载相应版本的 numpy 保存至 D ProgramFiles x86 Python Python37 Scripts numpy 下载地址 2 win R 输入 cmd 打开命令行窗口 定位到 python 的安装目录 3 输入 python mpipinstalln 或定位到目录 D ProgramFiles x86 Python Python37 Scripts 输入 pip3 7installnump 1 19 1 cp37 cp37m win

    2026年3月18日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号