分类变量的卡方检验(python实现&SPSS实现)「建议收藏」

分类变量的卡方检验(python实现&SPSS实现)「建议收藏」卡方介绍卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。案例介绍本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

卡方介绍

卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

案例介绍

本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。标签是0、1区分,聚类是0、1、2区分的
在这里插入图片描述
首先我们需要检查他们的交叉表,即
在这里插入图片描述

然后我们通过这个表看不出聚类结果的簇间患病差异性大小,因此采用卡方检验,首先做出假设:
在这里插入图片描述
然后计算理论值:
示例:比如cluster0&DR=0的理论值是:sum(cluster0)*sum(DR=0)/总数
在这里插入图片描述
然后通过卡方的公式:
在这里插入图片描述
A是实际值,T是理论值,

再计算卡方的 自由度 v:

						v=(行数-1)(列数-1)=(2-1)(3-1) = 2

最后根据计算结果查表即可。
在这里插入图片描述
卡方临界值 为 (一般取 p=0.05),因此对应表中的结果是5.99,我们的程序结果:
在这里插入图片描述

22.6>5.99,因此拒绝0假设,即两个因素之间存在联系。

python实现

程序示例如下:

# -*- encoding: utf-8 -*-
""" @Modify Time 2021/6/26 15:44 @Author Tunan @Filename test1.py @Desciption """
from scipy.stats import chi2_contingency


class CHISQUARE:
    def __init__(self, d0, d1):
        self.d0 = d0
        self.d1 = d1

    def get_tabel(self):
        dd0 = []
        dd1 = []
        y0 = sum(self.d0)
        y1 = sum(self.d1)
        x0 = self.d0[0] + self.d1[0]
        x1 = self.d0[1] + self.d1[1]
        x2 = self.d0[2] + self.d1[2]
        total = y0+y1

        dd0.append(x0 * y0 / total)
        dd0.append(x1 * y0 / total)
        dd0.append(x2 * y0 / total)
        dd1.append(x0 * y1 / total)
        dd1.append(x1 * y1 / total)
        dd1.append(x2 * y1 / total)

        return dd0, dd1

    def get_classification(self):
        print('=======================================')
        print('实际频率 cluster0 cluster1 cluster2')
        # d0, d1 = [93, 83, 143], [143, 45, 131]
        print("DR=0 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': self.d0[0], 'dd1': self.d0[1], 'dd2': self.d0[2]})
        print("DR=1 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': self.d1[0], 'dd1': self.d1[1], 'dd2': self.d1[2]})
        print('=======================================')

        print('理论频率 cluster0 cluster1 cluster2')
        dd0, dd1 = self.get_tabel()
        print("DR=0 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': dd0[0], 'dd1': dd0[1], 'dd2': dd0[2]})
        print("DR=1 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': dd1[0], 'dd1': dd1[1], 'dd2': dd1[2]})
        print('=======================================')
        x = [self.d0, self.d1]
        chi2, p, df, expected = chi2_contingency(x)  # 卡方值、P值、自由度、理论值
        print('卡方值:χ2 = %s' % chi2)
        print('p值:p-value = %s' % p)
        print('自由度:v = %s' % df)


if __name__ == "__main__":
    y = [95, 90, 134]
    y_pred = [143, 48, 128]
    chi = CHISQUARE(y, y_pred)
    chi.get_classification()

SPSS实现

第一步:
在这里插入图片描述

第二步:

选择你要比较的因素,分别加入行和列中:
在这里插入图片描述
第三步:
在统计选显卡中,选择卡方检验
在这里插入图片描述
第四步,点击确定,分析结果:
在这里插入图片描述
常用的是皮尔逊卡方,他的显著性远小于0.05,因此拒绝原假设,与我们程序分析结果一样。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/179198.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • AJAX

    相关准备说起json,我们大家都了解,就是python中的json模块,那么json模块具体是什么呢?那我们现在详细的来说明一下JSION是什么1、JSON(JavascriptObiect

    2022年3月29日
    37
  • CloseableHttpClient发送http请求

    Stringresponse=null;//客户端接口请求路径Stringurl=EspConfig.getClientBaseUrl()+ClientUtil.CLIENT_METHODNAME;//创建请求CloseableHttpClienthttpclient=HttpClientBuilder.create().build();HttpPostpos…

    2022年4月9日
    143
  • 不同卷积操作详解

    不同卷积操作详解不同卷积操作详解References:Aguidetoconvolutionarithmeticfordeeplearning,VincentDumoulinandFrancescoVisin;https://github.com/vdumoulin/conv_arithmetic/blob/master/README.md.引言我们知道CNN在深度学习中占有举…

    2022年5月25日
    67
  • mysql开启慢日志查询_MySQL慢sql检验生效

    mysql开启慢日志查询_MySQL慢sql检验生效MySQL给我们提供了一个很好的功能,那就是慢查询!所谓的慢查询就是通过设置来记录超过一定时间的SQL语句!那么如何应用慢查询呢?1.开启MySQL的慢查询日志功能默认情况下,MySQL是不会记录超过一定执行时间的SQL语句的。要开启这个功能,我们需要修改MySQL的配置文件:windows下修改my.ini,(注册表,计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentCo…

    2022年10月14日
    4
  • ATA考试注意事项「建议收藏」

    ATA考试注意事项「建议收藏」一、考试前将所有计算机除掉还原卡及还原软件。二、officeXp安装要用完全安装。三、服务器端尽量不要刷新所有客户端否则引起考试管理系统死机。四、拍照功能无法使用,可重新启动考试管理系统。五、服务器端无法扫描到客户端,除了服务器与客户端必须在同一网段内,可看一下客户端是否启动llistening    …

    2022年7月13日
    23
  • CIDR地址块及其子网划分(内含原始IP地址分类及其子网划分的介绍)

    CIDR地址块及其子网划分(内含原始IP地址分类及其子网划分的介绍)CIDR地址块及其子网划分1.CIDR概述及其地址块计算  CIDR中文全称是无分类域间路由选择,英文全称是ClasslessInter-DomainRouting,在平常,大家多称之为无分类编址,它也是构成超网的一种技术实现。2.CIDR子网划分3.总结

    2022年4月29日
    98

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号