基于spss的聚类分析(Cluster analysis)「建议收藏」

基于spss的聚类分析(Cluster analysis)「建议收藏」聚类分析是统计学中研究这种“物以类聚”问题的一种有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。定义:聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数.

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

聚类分析是统计学中研究这种“物以类聚” 问题的一种有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分类方 法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具 有相似性的个体的集合,不同类之间具有明显的区别。

目录

一、定义:

二、区别于分类分析:

三、聚类方法

四、层次聚类分析原理

五、举例分析

六、参考文献


一、定义:

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准, 聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 因此我们说聚类分析是一种探索性的分析方法。

二、区别于分类分析:

聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类是将数据分析到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件中,如SPSSSAS等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

三、聚类方法

  1. 层次聚类(Hierarchical Clustering)
    合并法、分解法、树状图
  2. 非层次聚类
    划分聚类、谱聚类

四、层次聚类分析原理

层次聚类法的运算原理都是基于事物(个案)之间的距离,它的运算过程可以总结成下面两个步骤:

  • 在聚类开始前,假设有n个事物(个案),每个个案(事物)都自成一类,然后按照定义的距离公式计算个案之间的距离,这些距离可以整理成一个n*n的距离矩阵。将距离最近的两个个案合并为一类,那么总类别就减少为n-1个。

  • 重复上面的过程,计算出n-1个类别间的距离,形成新的距离矩阵,再将距离最接近的两个类别合并。重复以上过程,直至所有的个案都被归为一类为止。

从以上层次聚类分析的运算过程可知:层次聚类可以对个案(事物)进行聚类。因为层次聚类提供的距离测量方法非常丰富,所以能够用于计算的个案(事物)的指标数据可以是连续型数据,也可以是分类型数据。

在以上聚类过程中,还涉及到类别起点的选择,可以思考一下,当两个个案(事物)被并为一类后,下一次计算距离时,该类别的起点坐标如何确定?以不同的类别起点计算类别之间的距离,会得到不同的距离结果。根据类别距离的不同确定方式,层次聚类法可以分为以下几种类型,如下图:

基于spss的聚类分析(Cluster analysis)「建议收藏」

注:使用的是spss处理,具体方法为:分析>>分类>>系统聚类>>方法

  • 组间联接:用两个类别间各个事物(个案)两两之间距离的平均值来表示两个类别之间的距离,这是SPSS默认的方法,也是最为稳健的聚类方法。

  • 组内联接:除了考虑上面组间联接的距离之外,还需要综合考虑类别内部在合并之前的类别距离。也就是充分考虑所有数据点之间的距离关系。

  • 最短距离法:也称为最近邻元素聚类,用两个类别中各个事物(个案)之间最短的那个距离来表示两个类别之间的距离。

  • 最长距离法:也称为最远邻元素聚类,用两个类别中各个事物(个案)之间最长的那个距离来表示两个类别之间的距离。

  • 重心法:也称为质心聚类,用两个类别重心之间的距离来表示两个类别之间的距离。重心就是类别中所有事物(个案)指标数据的平均值。

  • 中位数聚类:也称为中间距离聚类。类与类之间的距离既不采用最近距离,也不采用最远距离,而是将两者的平均值作为两个类别的距离。

  • 离差平方和法:也称为瓦尔德(Wald)法。该聚类方法是使各类别中的离差平方和较小,而不同类别之间的离差平方和较大,将两个类别合并后增加的离差平方和作为两类之间的距离。

五、举例分析

我们国家是一个自然地质灾害频发的国家。6月24日四川茂县叠溪镇新磨村突发山体垮塌,造成全村100余人被掩埋,截止6月25日14时,已经确认10人遇难,仍有93人失联。面对突发的自然灾害,正确的应急救灾程序尤为重要,这决定是否能够最大限度的减少伤亡,而应急物资的分类、储备和物流是重要组成部分。

应急物资的种类繁多,涉及到衣食住行的各个方面,各种物资的价格也不尽相同,库存条件、数量等都存在差别,这些问题都给应急物资管理带来困难。面对品种繁多的应急物资,对所有品种都给予相同程度的重视是不合理的,要达到有限资源的作用最大化,就必须对应急物资进行分类管理。在应急物资管理领域,物资的分类主要依据物资的性质进行定性分类,然后制定优先级,并没有定量的评定标准,不能很好的表明某类物资的重要性。因此有些学者提出基于聚类分析的应急物资储备分类方法。

首先选取20种常用应急物资:防护服、安全帽、止血绷带、担架、红外探测仪、生命探测仪、输液设备、输氧设备、急救药品、防疫药品、瓶装水、压缩食品、帐篷、棉衣、棉被、消毒杀菌药品、蓄电池、灭火器、探照灯、帆布。从以下四个一级指标对它们进行评价,每个一级指标下面还有3到4个二级指标,如下图所示:

基于spss的聚类分析(Cluster analysis)「建议收藏」

通过问卷调查的形式,咨询专家和储备工作相关人员对以上各项指标进行打分,然后采用模糊评价的形式,得到以上20种物资的综合评价值。

基于spss的聚类分析(Cluster analysis)「建议收藏」

分析>>分类>>系统聚类>>方法>>组间>>图>>勾选谱系图>>确认

结果分析:

谱系图:谱系图显示了上方聚类步骤的综合情况。我们以距离20为切点,将20种物资分类3大类。然后根据每类物资的特点对它们进行描述。

基于spss的聚类分析(Cluster analysis)「建议收藏」

类别特点描述及对待措施:

基于spss的聚类分析(Cluster analysis)「建议收藏」

  • 第一类为高物资成本、高储存要求的物资。尤其对仓储条件的要求很严,例如,生命探测仪对于仓库的存储容量和温湿度都要求很高,必须要重点管理,与此同时,该类物资的采购难度和物资储存寿命较低。综上所述,对于该类物资的管理重点在于提高仓库储存水平。

  • 第二类为高物资成本、低仓储要求的物资。该类物资的特点是物资成本相对较高(低于第一类物资的物资成本),但对仓储条件的要求不高。例如,蓄电池的采购成本相对较高,但对储存条件的要求不高,只需保持仓库合理的温湿度,防止受潮即可。对于此类应急物资在储备管理方面应侧重于降低物资存储量的管理,避免高库存,进行中度管理即可。

  • 第三类为低物资成本、易采购物资。例如,瓶装水的物资成本低,市场供应充足,生产厂商较多,在灾害发生时即使储备不充足,也容易在市场上快速购买获得。同时,该类物资的储存寿命较长,对仓储条件的要求不高,在储备管理方面进行一般管理即可。

六、参考文献

[1]摘自泰山教育:聚类分析及其SPSS实现

[2]摘自微信公众号生活统计学:SPSS分析技术:层次聚类分析;为四川茂县祈福!聚类分析应用于救灾物资的高效管理

[3]摘自百度百科:聚类分析

 

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/180858.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 拦截器,过滤器,监听器执行顺序(被拦截个人过滤器)

    拦截器(Interceptor)和过滤器(Filter)的执行顺序和区别

    2022年4月12日
    262
  • 5分钟实现微信云小程序支付功能(含源码)

    5分钟实现微信云小程序支付功能(含源码)1 先上效果图快速实现支付功能 有多快 有五连鞭这么快 不用搭建自己的服务器 不用买域名 不用备案域名 不用支持 https 只需要一个简单的云函数 就可以轻松的实现微信小程序支付功能 2 准备工作 1 非个人小程序 个人小程序用不了支付 小程序 appid 2 已经申请微信支付的商户号 商户 id 商户秘钥 3 小程序里关联你的商户号 小程序和商户号绑定 4 微信小程序开通云开发 3 开干 1 初始化云开发环境 2 创建云函数 pay 3 引入第三方支付依赖 tenpaypay 文

    2025年10月30日
    5
  • cad注释比例和打印比例不一样_cad注释比例(cad注释比例与打印比例)

    cad注释比例和打印比例不一样_cad注释比例(cad注释比例与打印比例)这两个比例有什么区别分别代表的是什么意思麻烦说详细点谢谢是物体被缩小了50倍后的图形这两个比例。但是一张图纸不允许出现两个或以上的比例(局部放大除外),但是标注的数字是实际尺寸,两个没有区别画的是800*500mm的线,注释比例用的1:1,这样是不是不行?我的标注字体.注释比例就是按图框大小来标注的,比如将1:1的图框放大到1:5,那么就选择1:5大小的注释比例,当然注释比例是你事先设置好的…

    2022年5月14日
    98
  • oracle的number类型

    oracle的number类型1.简介一个可变长度的数据类型,使用四舍五入实现;既可以存储整数,也可以存储小数;2.使用语法(1)可指定两个参数:p:精度位precision,数据的有效位;取值范围38;默认38;*表示38s:小数位scale,小数点右边的位数;取值范围-84~127;默认:指定了p,默认s为最大范围;未指定p,默认s=0;numbernumber(p)number(p,s)(2)最高整数位数=p-ss正数,精确到小数点右边s位,四舍五入;s负数,精确

    2022年7月24日
    15
  • 微信小程序简洁登录页面(附源码)

    微信小程序简洁登录页面(附源码)微信小程序简洁登录页面 附源码 1 上图 2 用户不存在 3 上代码 3 1login wxml viewclass v1 style height clientHeight clientHeight px auto v2 父容器子 view 使用绝对布局 viewclass v2 viewclass v2 viewclass v1 style height clientHeight clientHeight px auto

    2025年7月21日
    4
  • Java读取txt文件和写入txt文件

    Java读取txt文件和写入txt文件原文:Java读取txt文件和写入txt文件写Java程序时经常碰到要读如txt或写入txt文件的情况,但是由于要定义好多变量,经常记不住,每次都要查,特此整理一下,简单易用,方便好懂!packageedu.thu.keyword.test;importjava.io.File;importjava.io.InputStreamReader;i

    2022年7月26日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号