t分布与t检验的一点理解

t分布与t检验的一点理解

        最近又遇到了t分布及t检验方面的内容,发现有些地方自己当初没有很明白,就又查了些资料,加深了一下自己的理解,这里也将自己的一些理解记录下来。

1. 理论基础——大数定理与中心极限定理

       在正式介绍t分布前,还是再强调一下数理统计学中的两大基石般的定理:大数定理与中心极限定理,后面会用到。这里我就不以数学公式的方式来说明了,直接说一下两个定理所表达的意思。

  • 大数定理。不管是强大数定理还是弱大数定理,都表达着这样一个意思:当样本数量足够大时,这些样本的均值无限接近总体的期望。  
  • 中心极限定理。不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。中心极限定理的表达方式可以有多种,我这里只是其中一种。

2. t 统计量

       t 统计量是英国化学家、数学家、统计学家 William Sealy Gosset提出的,当年他在爱尔兰的吉尼斯酒厂(这个酒厂还有个很牛的事儿,它的老板编著了现今著名的《吉尼斯世界纪录》)工作时,酒厂禁止其将研究成果公开发表,以免泄露秘密,迫不得已William Sealy Gosset以笔名“The Student”发表研究成果,t统计量及t分布的命名就是源于改笔名。

      大麦是酿造啤酒的主要原料,因此酒厂就希望大麦产量越高越好,于是就不断改进大麦种植工艺,此时就需要做试验来比较不同工艺下大麦的产量,但是实际条件不允许(或者为了减轻工作负担)大面积种植麦子来比较工艺的优劣,因此试验田种植是比较合适的方式。比如现在有两片试验田(如下图所示),左边的是采用工艺A种植的麦子,右边的是采用工艺B种植的麦子,两边各种100株麦子。下面我要开始编故事啦。。。

                                                      t分布与t检验的一点理解t分布与t检验的一点理解

       现在发现左边麦田中平均每株麦穗上有100粒麦子,右边麦田中平均每株麦穗上有120粒麦子,这说明啥?说明采用工艺B能得到更高的麦子产量对不?咱们外行可能会这么看,但是人家专业的可不轻易这么认为。这是采用小面积的试验田种出的麦子,一个是量少,不足以说明问题(想想咱们的大数定理),另一个是无法保证除工艺区别外其它因素都一样。因此,William Sealy Gosset就想,这20粒麦子的差值能不能说明工艺的优劣问题呢?

       William Sealy Gosset知道,每株麦穗上的平均麦子数是有波动的,可能这一次种的麦子平均值是100,下一次就不一定了,可能就是105,也可能是95。那可以这样考虑啊,这20的差值是不是在工艺A下麦子平均产量的正常波动范围内?样本均值的波动可以用样本均值的标准差表示,注意:这里说的是样本均值的标准差,而不是样本的标准差,基于这种想法可以构造这样一个统计量

                                                                                             \frac{\bar{u}_{A}-\bar{u}_{B}}{S_{\bar{u}_{A}}}

       来评估工艺的优劣,其中\bar{u}_{A}是工艺A下每株麦穗上结的麦子数,\bar{u}_{B}是工艺B下每株麦穗上结的麦子数,s_{\bar{u}_{A}}是工艺A下每株麦穗上结的麦子数平均值的标准差。好了,到了这里故事也编得差不多了,t 统计量的由来也差不多就这样了,下面咱们严谨的定义一下 t 统计量,分两种情况,一种是单总体情况,另一种是双总体情况。

  • 单总体情况。这种情况下 t 统计量的定义为

                                                                                        t=\frac{\bar{X}-u_{0}}{\sigma /\sqrt{N}}

       式中\bar{X}为样本的均值,u_{0}为总体的均值,\sigma为总体标准差,N为样本个数,由于总体标准差无法得知,因此一般用样本标准差S来估计总体标准差。从数学上可以证明,若样本个数为N,样本均值的标准差(样本均值的波动)等于总体的标准差(总体波动)除以样本个数N,我们可以通过大数定理来简单理解一下,当样本个数增大时,样本均值的波动也应该是越小的。总体的标准差是无法获知的,一般用样本标准差来估计。这里着重强调一个概念——标准误,标准误即样本均值的标准差,它对于理解假设检验很重要。

  • 双总体的情况。这种情况下t 统计量的定义为

                                                                                    t=\frac{\bar{X_{1}}-\bar{X_{2}}}{S_{ \bar{X_{1}}-\bar{X_{2}} } }

       式中\bar{X_{1}}为样本1的均值,\bar{X_{2}}为样本2的均值,S_{ \bar{X_{1}}-\bar{X_{2}} }为样本1与样本2均值差值的标准误。这里我不再说明S_{ \bar{X_{1}}-\bar{X_{2}} }是怎么计算的了,一个原因是比较复杂,需要分几种情况讨论,另一个更主要的原因是S_{ \bar{X_{1}}-\bar{X_{2}} }如何计算不重要,计算机内置函数会帮我们计算的,重要的是理解 t 统计量是如何提出的以及表示什么意思。

3. t 分布与正态分布

        t 统计量的分布就是 t 分布了,下面我们以单总体时的 t 统计量为例,说明一下 t 分布与正态分布的关系。我们已经知道了样本的均值为\bar{X},也知道\bar{X}的标准差为S/\sqrt{N},那么依据中心极限定理,样本均值\bar{X}服从均值为u_{0},方差为S^{2}/N的正态分布,也许你已经发现了,没错,当样本数量足够大时,t 分布无限接近标准的正态分布N(0,1)

        在第一节中也强调了,不管是大数定理还是中心极限定理,都是在样本数量足够大时管用的。在样本数量不是足够大时,尽管t 分布的概率密度曲线和正态分布N(0,1)分布曲线相近,但是还是有所区别,用样本标准差估计总体标准差是一个原因。

                                                t分布与t检验的一点理解t分布与t检验的一点理解

      f(t)是t分布的概率密度曲线,这里我不写出f(t)的具体公式了,有兴趣的同学可以自行研究,伟大的统计学家们已经研究透测f(t)了,并且制作了t分布的概率表。从 t 统计量的定义式看就知道,样本个数的影响非常关键,因此 t 分布中有一个重要的概念——自由度,其值为N-1。为什么是N-1呢?我拿样本方差的计算过程来说明吧,样本方差为

                                                                             S^{2}=\sum_{i=1}^{N}(X_{i}-\bar{X})^{2}

N个样本均值确定时,如果知道了其中的任意N-1个样本的值,那么剩下的一个样本的值自然就确定了,这就是为什么自由度为N-1。这里还是在贴一次t分布的概率表吧。

                                    t分布与t检验的一点理解t分布与t检验的一点理解

4. t 检验

       现在我们再回到一开始的“比较麦子种植工艺A和B的优劣比较”问题,   William Sealy Gosset提出的问题是:这20的差值是否在工艺A下麦子平均产量的正常波动范围内?这实际上是一个双样本的 t 检验问题,不过可以将其转化为单样本的 t 检验问题,认为工艺B下麦子的均值也为100,即然后看一下这20的差值是否是显著的。现在我们提出如下假设

                                                                     H_{0}:  工艺B与工艺A下大麦产量一致

       上面的例子中没有给出工艺B下麦子产量的标准差,我这里先假设一个,为5\sqrt{5},那么可以按照单样本的 t 统计量定义式计算此时的统计量值

                                                                           \frac{120-100}{5\sqrt{5}/\sqrt{100}}=17.889

       选定\alpha= 95%的置信水平,自由度为99(样本个数为100),查 t 概率分布表得到1.660(自由度99与自由度100接近,我这里就按100算了),这远小于17.889,因此我们有理由拒绝接受原假设,从而认为工艺B提升了麦子的产量。

5. 小结

       对于 t 检验,我还想再说两句,不管是独立样本还是相依样本的 t 检验,目的都是为了判断两类样本在某一变量上的均值差异是否显著,这也是构造 t 检验的作用。

 

转载于:https://www.cnblogs.com/hgz-dm/p/10886155.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100913.html原文链接:https://javaforall.net

(0)
上一篇 2021年7月7日 上午11:00
下一篇 2021年7月7日 下午12:00


相关推荐

  • vue.js和jquery的区别_人和人类的区别是什么

    vue.js和jquery的区别_人和人类的区别是什么jquery:曾经是前端最流行的js库。vue:是一个精简的MVVM,从技术角度讲。vue.js专注于MVVM模型的ViewModel层,它通过双向数据绑定把view和Model层连接起来,通过对数据的操作就可以完成对页面视图的渲染。vue和jQuery区别:①vue和jQuery对比jquery是使用选择器()选取DOM对象,对其进行赋值、取值、事件绑定等操作,其实和原生的HTML的区别只在于可以更方便的选取和操作DOM对象,而数据和界面是在一起的。②比如需要获取label标签的内..

    2022年10月15日
    5
  • qemu -img_qemu manager

    qemu -img_qemu manager一、virsh基本操作1、列出当前正在运行的虚拟机[root@room9pc01~]#virshlist2、查看虚拟机的信息[root@room9pc01~]#virshdominfonode1//查看node1的信息Id:1Name:node1UUID:20…

    2022年8月11日
    8
  • git拉取代码冲突了怎么解决_github拉取代码慢

    git拉取代码冲突了怎么解决_github拉取代码慢问题描述在idea通过git从develop分支拉取最新代码时,又遇到了git冲突,特此记录一下原因分析:大部分原因都是其他同事更改了某些文件然后本地也更改了同样的文件导致冲突,所以每天上班先拉取一下最新代码,这样会大大减少冲突发生的可能(别问我怎么知道的)解决方案:如下图所示:我们点击merge去合并即可,解决冲突,不建议直接选择acceptyours或者accepttheirs会导致代码覆盖…

    2022年10月20日
    5
  • 小波去噪程序c语言,小波去噪c语言程序

    小波去噪程序c语言,小波去噪c语言程序小波去噪c语言程序1、小波阈值去噪理论小波阈值去噪就是对信号进行分解,然后对分解后的系数进行阈值处理,最后重构得到去噪信号。该算法其主要理论依据是:小波变换具有很强的去数据相关性,它能够使信号的能量在小波域集中在一些大的小波系数中;而噪声的能量却分布于整个小波域内。因此,经小波分解后,信号的小波系数幅值要大于噪声的系数幅值。可以认为,幅值比较大的小波系数一般以信号为主,而幅值比较小的系数在很大程度…

    2022年6月17日
    37
  • 一篇文章带你快速弄清楚什么是终端问题_清楚对什么

    一篇文章带你快速弄清楚什么是终端问题_清楚对什么Linux的使用者可能每天都会接触到Bash、Shell、控制台、终端。它们之间有什么不同吗?本文为你快速解释这些概念以及它们的区别。什么是终端首先我们来弄清楚什么是终端(terminal)。按

    2022年8月3日
    8
  • OpenClaw(Clawdbot)是什么?2026年OpenClaw本地部署步骤及云上极速部署教程+一键接入企微/QQ/钉钉/飞书!

    OpenClaw(Clawdbot)是什么?2026年OpenClaw本地部署步骤及云上极速部署教程+一键接入企微/QQ/钉钉/飞书!

    2026年3月13日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号