- 与聚类分析的比较
判别分析是判别样品所属类型的一种统计方法。
判别分析与聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据。在实际中判别分析和聚类分析往往联合起来用,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 - 判别分析基本思想:样品和哪个总体距离最近,就判断它属于哪个总体。距离判别也称为直观判别。
逐步判别法要求指标变量在各组内服从多元正态分布,并且具有相同的协方差阵。因此各个类之间的统计差别表现在均值向量上。若各个均值相等,则各个总体的统计差异不显著,在此基础上建立判别函数肯定不好。就产生了对各个类均值的假设检验。
用前进法选择变量时,stepdisc过程依据每一个变量对判别效能贡献(由WILKs` lambda值及相应统计量进行判断)的大小次序排序,将贡献最大者作为待选择变量,然后判断该变量是否达到事先指定的变量选入标准(依据方差分析的F检验)。
用后退法选择变量时,最初的判别模型包括了所有待选择的变量,在后续操作的每一步,依据每一个变量对判别效能贡献的大小次序,将贡献最小者作为考察变量,判断该变量是否达到事先指定的变量剔除标准,如果是则将其剔除模型,直到留下的变量没有达到事先指定的变量剔除标准。
用逐步法选择变量时,最初的判别模型与用前进法时的相同,未包含任何变量。后续的每一步操作中,先对已选入模型的变量进行比较,进行剔除操作,再对未入选的变量进行选入操作,重复以上步骤,直到模型中的变量没有任何一个达到剔除标准并且模型外的变量没有任何一个达到选入标准。
要注意的是,在选入变量的过程中,每一步只选择一个变量进入模型,而且在此过程中并未考虑模型外变量之间的关系问题,因此一些重要的变量可能会被排出在模型外,因此在实际应用中,要善于用交叉验证结果对判别模型进行恰当的评价,Wilks` lambda值也并不总是评价判别效能的最佳指标。
附上上文结构:
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/204949.html原文链接:https://javaforall.net
