四种主流聚类方法

2015-07-29

聚类就是按照某个特定标准(如距离准则，即数据点之间的距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。我们可以具体地理解为，聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。
聚类技术[2]正在蓬勃发展，对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进，而不同的方法适合于不同类型的数据，因此对各种聚类方法、聚类效果的比较成为值得研究的课题。

2.1 k-means聚类算法

k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。
k-means算法目标是，以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。

总结：

优点：简单直接（体现在逻辑思路以及实现难度上），易于理解，在低维数据集上有不错的效果（简单的算法不见得就不能得到优秀的效果）。

缺点：对于高维数据（如成百上千维，现实中还不止这么多），其计算速度十分慢，主要是慢在计算距离上（参考欧几里得距离，当然并行化处理是可以的，这是算法实现层面的问题），它的另外一个缺点就是它需要我们设定希望得到的聚类数k，若我们对于数据没有很好的理解，那么设置k值就成了一种估计性的工作。

优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系（在一些特定领域如生物有很大作用）；

总结：

优点：相比起前面的”硬聚类“，FCM方法会计算每个样本对所有类的隶属度，这给了我们一个参考该样本分类结果可靠性的计算方法，我们可以这样想，若某样本对某类的隶属度在所有类的隶属度中具有绝对优势，则该样本分到这个类是一个十分保险的做法，反之若该样本在所有类的隶属度相对平均，则我们需要其他辅助手段来进行分类。

缺点：KNN的缺点基本它都有。

3 四种聚类算法试验
3.1 试验数据

实验中，选取专门用于测试分类、聚类算法的国际通用的UCI数据库中的IRIS[13]数据集，IRIS数据集包含150个样本数据，分别取自三种不同的莺尾属植物setosa、versicolor和virginica的花朵样本,每个数据含有4个属性，即萼片长度、萼片宽度、花瓣长度，单位为cm。在数据集上执行不同的聚类算法，可以得到不同精度的聚类结果。
3.2 试验结果说明
　文中基于前面所述各算法原理及算法流程，用matlab进行编程运算，得到表1所示聚类结果。

四种主流聚类方法

如表1所示，对于四种聚类算法，按三方面进行比较：(1)聚错样本数：总的聚错的样本数，即各类中聚错的样本数的和；(2)运行时间：即聚类整个过程所耗费的时间，单位为s；(3)平均准确度：设原数据集有k个类,用ci表示第i类，ni为ci中样本的个数，mi为聚类正确的个数,则mi/ni为第i类中的精度，则平均精度为：
四种主流聚类方法

3.3 试验结果分析
四种聚类算法中，在运行时间及准确度方面综合考虑，k-means和FCM相对优于其他。但是，各个算法还是存在固定缺点：k-means聚类算法的初始点选择不稳定，是随机选取的，这就引起聚类结果的不稳定，本实验中虽是经过多次实验取的平均值，但是具体初始点的选择方法还需进一步研究；层次聚类虽然不需要确定分类数，但是一旦一个分裂或者合并被执行，就不能修正，聚类质量受限制；FCM对初始聚类中心敏感，需要人为确定聚类数，容易陷入局部最优解；SOM与实际大脑处理有很强的理论联系。但是处理时间较长，需要进一步研究使其适应大型数据库。

参考文献
[1] HAN Jia Wei， KAMBER M.数据挖掘概念与技术[M]．范明，孟晓峰，译．北京：机械工业出版社，2001．
[2] 杨小兵．聚类分析中若干关键技术的研究[D]．杭州：浙江大学，2005．
[3] XU Rui, Donald Wunsch 1 1． survey of clustering algorithm[J]．IEEE．Transactions on Neural Networks, 2005,16(3)：645-67 8.
[4] YI Hong, SAM K． Learning assignment order of instances for the constrained k-means clustering algorithm[J]．IEEE Transactions on Systems, Man, and Cybernetics, Part B：Cybernetics,2009,39 (2)：568-574.
[5] 贺玲，吴玲达，蔡益朝．数据挖掘中的聚类算法综述[J]．计算机应用研究，2007，24(1):10-13．
[6] 孙吉贵，刘杰，赵连宇．聚类算法研究[J]．软件学报，2008，19(1)：48-61．
[7] 孔英会，苑津莎，张铁峰,等．基于数据流管理技术的配变负荷分类方法研究．中国国际供电会议，CICED2006．
[8] 马晓艳，唐雁．层次聚类算法研究[J]．计算机科学,2008,34(7)：34-36．
[9] 汪海波，张海臣，段雪丽．基于MATLAB的自组织竞争神经网络聚类研究[J]．邢台职业技术学院学报，2005，22(1)：45-47．
[10] 吕晓燕，罗立民，李祥生．FCM算法的改进及仿真实验研究[J]．计算机工程与应用，2009，45(20)：144-147．
[11] 李戈，邵峰晶，朱本浩．基于神经网络聚类的研究[J]．青岛大学学报，2001，16(4)：21-24．
[12] 戈国华,肖海波,张敏．基于FCM的数据聚类分析及matlab实现[J].福建电脑，2007，4:89-90．
[13] FISHER R A． Iris Plants Database//http：//www.ics.uci.edu/~mlearn /MLRepository．Html．Authorized license．

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/175919.html原文链接：https://javaforall.net

四种主流聚类方法