文本聚类算法总结

文本聚类算法总结一 文本聚类定义文本聚类主要是依据著名的聚类假设 同类的文档相似度较大 而不同类的文档相似度较小 作为一种无监督的机器学习方法 聚类由于不需要训练过程 以及不需要预先对文档手工标注类别 因此具有一定的灵活性和较高的自动化处理能力 已经成为对文本信息进行有效地组织 摘要和导航的重要手段 二 算法分类 1 划分法 基于划分的聚类算法 给定一个有 N 个元组或者纪录

一、文本聚类定义

       文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。

二、算法分类

1、划分法(基于划分的聚类算法)

       给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K

       使用这个基本思想的算法有:K-Means算法、K-MEDOIDS算法、CLARANS算法。

       K-means算法是一种典型的基于划分的聚类算法,该聚类算法的基本思想是在聚类开始时根据用户预设的类簇数目k随机地在所有文本集当中选择k个对象,将这些对象作为k个初始类簇的平均值或者中心,对于文本集中剩余的每个对象,根据对象到每一个类簇中心的欧几里得距离,划分到最近的类簇中;全部分配完之后,重新计算每个类簇的平均值或者中心,再计算每篇文本距离这些新的类簇平均值或中心的距离,将文本重新归入目前最近的类簇中;不断重复这个过程,直到所有的样本都不能再重新分配为止。

       K-means算法优点:(1)对待处理文本的输入顺序不太敏感(2)对凸型聚类有较好结果(3)可在任意范围内进行聚类。

       缺点:(1)对初始聚类中心的选取比较敏感,往往得不到全局最优解,得到的多是次优解(2)关于算法需要预先设定的k值,限定了聚类结果中话题的个数,这在非给定语料的应用中并不可行(3)该算法容易受到异常点的干扰而造成结果的严重偏差(4)算法缺少可伸缩性

2、层次法(基于层次的聚类算法)

       这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案,即合并聚类(由下而上)和分裂聚类(由上而下)。

       合并层次聚类是将语料库中的任一数据都当作一个新的簇,计算所有簇相互之间的相似度,然后将相似度最大的两个簇进行合并,重复这个步骤直到达到某个终止条件,因此合并聚类方法也被称为由下而上的方法。

       分裂聚类恰好与合并聚类进行相反的操作,它是一种由上而下的方法,该方法先将数据集中所有的对象都归为同一簇,并将不断地对原来的簇进行划分从而得到更小的簇,直到满足最初设定的某个终止条件。

       层次聚类法的优点:(1)适用于发现任意形状的簇(2)适用于任意形式的相似度或距离表示形式(3)聚类粒度的灵活性

       缺点:(1)算法终止的条件很模糊,难以精确表达并控制算法的停止(2)一旦聚类结果形成,一般不再重新构建层次结构来提高聚类的性能(3)难以处理大规模数据,也不能适应动态数据集的处理。

       由于层次聚类算法简单,因此针对它的研究也比较多,也提出了不少改进算法,主要方向就是将该策略与其他聚类策略相结合从而形成多层聚类。

       代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。

3、基于密度的方法

       基于密度的方法与其他方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法智能发现“类圆形”的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

       代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

       典型的基于密度的算法是DBSCAN算法,该算法基本思想是:对于一个类中的每一个对象,在其给定半径R的区域中包含的对象数目不小于某一给定的最小数目,即在DBSCAN中,一个类被认为是密度大于一个给定阈值的一组对象的集合,能够被其中的任意一个核心对象所确定。DBSCAN算法执行时,先从数据集w中找到任意一个对象q,并查找w中关于R和最小下限数MinPts的从q密度到达的所有对象。如果q是核心对象,也就是说,q半径为R的领域中包含的对象数不少于MinPts,则根据算法可以找到一个关于参数R和MinPts的类。如果q是一个边界点,即q半径为R的领域包含的对象数小于MinPts,则没有对象从q密度到达,q被暂时标注为噪声点。然后,DBSCAN处理数据集W中的下一个对象。

       DBSCAN聚类算法存在如下缺点:(1)随着对于大数据量的应用,需要有很大的内存支持与I/O开销。(2)由于使用了全局参数R和MinPts,因此没有考虑数据密度和类别距离大小的不均匀性,所以DBSCAN算法很难得到高质量的聚类结果。(3)算法参数过于复杂,领域外人员很难理解和掌握。

4、基于网格的方法

       这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与数据空间分为多少个单元有关。

       代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

5、基于模型的方法

       基于模型的方法给每一个聚类假定一个模型,然后去寻找一个能很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其他。它的一个潜在的假定就是:目标数据集是由一系列的概率分布

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/202729.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午11:26
下一篇 2026年3月19日 下午11:26


相关推荐

  • Eureka集群(Eureka详解)

    Eureka集群(Eureka详解)前言上篇文章,我们已经搭建了微服务的框架,使用了SOA(服务治理)Eureka参考:Eureka注册中心这篇文章教大家,如何使用IDEA搭建SpringCloud的集群,Spring拥有最简单的搭建集群方法一、使用IDEA二、配置写上你配置的名字,01,02区分就好,以及要集群那个模块三、端口号-Dserver.port=10087-D是修改,必须写…

    2022年5月5日
    62
  • Mysql修改字段名、修改字段类型

    Mysql修改字段名、修改字段类型mysql修改字段类型: –能修改字段类型、类型长度、默认值、注释–对某字段进行修改ALTERTABLE表名MODIFYCOLUMN字段名新数据类型新类型长度新默认值新注释;–COLUMN可以省略altertabletable1modifycolumncolumn1decimal(10,1)DEFAULTNULLCOMMENT’…

    2022年4月28日
    324
  • Windws如何安装Pycharm——超详细的图文安装教程

    Windws如何安装Pycharm——超详细的图文安装教程Windws 如何安装 Pycharm 超详细的图文安装教程简介 Jetbrains 家族和 Pycharm 版本划分 pycharm 是 Jetbrains 家族中的一个明星产品 Jetbrains 开发了许多好用的编辑器 包括 Java 编辑器 IntelliJIDEA JavaScript 编辑器 WebStorm PHP 编辑器 PHPStorm Ruby 编辑器 RubyMine C 和 C 编辑器 CLion Net 编辑器 Rider iOS macOS 编辑器 AppCode 等 pycharm

    2026年3月27日
    3
  • 场景管理,放弃场景图

    场景管理,放弃场景图场景图一直被认为是适合游戏的通用场景管理算法 仿佛没实现过场景图就不算写过引擎 但是经过思考和分析 我觉得场景图并不适合作为一种通用的场景组织方式 在下面我会说明理由 并提出一种替代的适合目前 mmorpg 网游的场景管理方式 如果大家有什么不同看法可以和我讨论 nbsp nbsp nbsp 场景图是一种层级组织场景的数据结构 要生成场景图就要选择一种层级关系 或曰父子关系 或曰继承关系 比如几何变换矩阵的

    2026年3月16日
    2
  • 动态规划优缺点_巴西优化航空路线利用率

    动态规划优缺点_巴西优化航空路线利用率C 国有 n 个大城市和 m 条道路,每条道路连接这 n 个城市中的某两个城市。任意两个城市之间最多只有一条道路直接相连。这 m 条道路中有一部分为单向通行的道路,一部分为双向通行的道路,双向通行的道路在统计条数时也计为 1 条。C 国幅员辽阔,各地的资源分布情况各不相同,这就导致了同一种商品在不同城市的价格不一定相同。但是,同一种商品在同一个城市的买入价和卖出价始终是相同的。商人阿龙来到 C 国旅游。当他得知“同一种商品在不同城市的价格可能会不同”这一信息之后,便决定在旅游的同时,利用商品在

    2022年8月8日
    9
  • goland-2022.01激活码_在线激活2022.02.22「建议收藏」

    (goland-2022.01激活码)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.htmlHCIQ56F36O-eyJsa…

    2022年4月1日
    69

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号