分类变量的卡方检验(python实现&SPSS实现)「建议收藏」

分类变量的卡方检验(python实现&SPSS实现)「建议收藏」卡方介绍卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。案例介绍本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

卡方介绍

卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

案例介绍

本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。标签是0、1区分,聚类是0、1、2区分的
在这里插入图片描述
首先我们需要检查他们的交叉表,即
在这里插入图片描述

然后我们通过这个表看不出聚类结果的簇间患病差异性大小,因此采用卡方检验,首先做出假设:
在这里插入图片描述
然后计算理论值:
示例:比如cluster0&DR=0的理论值是:sum(cluster0)*sum(DR=0)/总数
在这里插入图片描述
然后通过卡方的公式:
在这里插入图片描述
A是实际值,T是理论值,

再计算卡方的 自由度 v:

						v=(行数-1)(列数-1)=(2-1)(3-1) = 2

最后根据计算结果查表即可。
在这里插入图片描述
卡方临界值 为 (一般取 p=0.05),因此对应表中的结果是5.99,我们的程序结果:
在这里插入图片描述

22.6>5.99,因此拒绝0假设,即两个因素之间存在联系。

python实现

程序示例如下:

# -*- encoding: utf-8 -*-
""" @Modify Time 2021/6/26 15:44 @Author Tunan @Filename test1.py @Desciption """
from scipy.stats import chi2_contingency


class CHISQUARE:
    def __init__(self, d0, d1):
        self.d0 = d0
        self.d1 = d1

    def get_tabel(self):
        dd0 = []
        dd1 = []
        y0 = sum(self.d0)
        y1 = sum(self.d1)
        x0 = self.d0[0] + self.d1[0]
        x1 = self.d0[1] + self.d1[1]
        x2 = self.d0[2] + self.d1[2]
        total = y0+y1

        dd0.append(x0 * y0 / total)
        dd0.append(x1 * y0 / total)
        dd0.append(x2 * y0 / total)
        dd1.append(x0 * y1 / total)
        dd1.append(x1 * y1 / total)
        dd1.append(x2 * y1 / total)

        return dd0, dd1

    def get_classification(self):
        print('=======================================')
        print('实际频率 cluster0 cluster1 cluster2')
        # d0, d1 = [93, 83, 143], [143, 45, 131]
        print("DR=0 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': self.d0[0], 'dd1': self.d0[1], 'dd2': self.d0[2]})
        print("DR=1 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': self.d1[0], 'dd1': self.d1[1], 'dd2': self.d1[2]})
        print('=======================================')

        print('理论频率 cluster0 cluster1 cluster2')
        dd0, dd1 = self.get_tabel()
        print("DR=0 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': dd0[0], 'dd1': dd0[1], 'dd2': dd0[2]})
        print("DR=1 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': dd1[0], 'dd1': dd1[1], 'dd2': dd1[2]})
        print('=======================================')
        x = [self.d0, self.d1]
        chi2, p, df, expected = chi2_contingency(x)  # 卡方值、P值、自由度、理论值
        print('卡方值:χ2 = %s' % chi2)
        print('p值:p-value = %s' % p)
        print('自由度:v = %s' % df)


if __name__ == "__main__":
    y = [95, 90, 134]
    y_pred = [143, 48, 128]
    chi = CHISQUARE(y, y_pred)
    chi.get_classification()

SPSS实现

第一步:
在这里插入图片描述

第二步:

选择你要比较的因素,分别加入行和列中:
在这里插入图片描述
第三步:
在统计选显卡中,选择卡方检验
在这里插入图片描述
第四步,点击确定,分析结果:
在这里插入图片描述
常用的是皮尔逊卡方,他的显著性远小于0.05,因此拒绝原假设,与我们程序分析结果一样。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/179198.html原文链接:https://javaforall.net

(0)
上一篇 2022年8月30日 上午11:16
下一篇 2022年8月30日 上午11:36


相关推荐

  • list集合为空或为null的区别

    list集合为空或为null的区别简述判断一个list集合是否为空,我们的惯性思维是判断list是否等于null即可,但是在Java中,list集合为空还是为null,这是两码事。引用举个形象的例子,我有一个空着的水杯(list),而你没有,那你是null,我的size为0。你想装水就需要自己去买个水杯(new ArrayList();),但是我就可以直接装水(list.add(水))。你要是没有杯子直接倒水,水就流出…

    2022年6月13日
    30
  • 支持向量机与支持向量回归(support vector machine and support vector regression)

    支持向量机与支持向量回归(support vector machine and support vector regression)支持向量机和支持向量回归是目前机器学习领域用得较多的方法,不管是人脸识别,字符识别,行为识别,姿态识别等,都可以看到它们的影子。在我的工作中,经常用到支持向量机和支持向量回归,然而,作为基本的理论,却没有认真地去梳理和总结,导致有些知识点没有彻底的弄明白。这篇博客主要就是想梳理一遍支持向量机和支持向量回归的基础理论知识,一个是笔记,另一个是交流学习,便于大家共勉。凸集、凸函数、凸优化凸集:如果集合…

    2022年5月29日
    34
  • java中random的用法详解

    java中random的用法详解  java中存在两个随机函数,它们分别来自java.long.Math.random()和  java.util.Random();其中前者的适用范围比较小,完全可以被后者取代。一、java.lang.Math.random()方法的用法   ①、方法类型:      publicstaticdoublerandom();      此方法是一个无参,dou…

    2022年6月9日
    49
  • uniapp中globalData刷新后会丢失

    uniapp中globalData刷新后会丢失globalData 只是一种变量缓存 刷新后就会丢失 解决办法 使用 uniapp 本地缓存

    2026年3月18日
    2
  • Nginx 面试 40 问

    Nginx 面试 40 问什么是Nginx?Nginx有哪些优点?Nginx应用场景?Nginx怎么处理请求的?Nginx是如何实现高并发的?什么是正向代理?什么是反向代理?反向代理服务器的优点是什么?Nginx目录结构有哪些?Nginx配置文件nginx.conf有哪些属性模块?cookie和session区别?为什么Nginx不使用多线程?什么是动态资源、静态资源分离?为什么要做动、静分离?什么叫CDN服务?Nginx怎么做的动静分离?Nginx负载均衡的算法..

    2025年7月23日
    5
  • “鹅厂门口免费安装”近千人排队,爆火的“龙虾”究竟是什么?

    “鹅厂门口免费安装”近千人排队,爆火的“龙虾”究竟是什么?

    2026年3月17日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号