文本分类算法之–KNN算法的简介「建议收藏」

文本分类算法之–KNN算法的简介「建议收藏」1、KNN算法的简介kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k=3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k=5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所

大家好,又见面了,我是你们的朋友全栈君。

1、KNN算法的简介

kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k = 5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所属于的类。kNN你也可以取多个类别,就是绿色圆圈既属于蓝色框,也属于红色三角所属的类别。

kNN理解

2、KNN算法分类的一般过程的定义

(1)样本的选择

(2)中文文本分词(工具如下:Rwordseg,LTP,Bamboo,RostCM)

(3)特征的选择(CHI,IG等)

(4)向量空间模型的构建(将文档转换成VSM,每一个特征的值是由TF-IDF计算,特征项的个数是所有文本文档集合的总体弃掉重复的单词)

(5)将 预测的文本分词与样本进行计算,主要使用余弦定理进行计算如下

文本分类算法之--KNN算法的简介「建议收藏」

(6)对结果进行测试是否满足准确率

(7)如果准确率太低,可以调整样本等一些其他的措施


KNN算法的缺点,如果训练的样本过多,则容易造成内存的溢出,因此我们可以改进KNN算法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144008.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 游戏开发完整流程

      1. 立项   Ø 一个项目立项的原因可能性非常多,有可能是公司拿到一个好的IP,也有可能是几个负责人有个很棒的idea,亦或是老板的梦想是做一个XX类型的游戏,这边不做过多的讨论。   Ø 立项过程中应该包含市场调查和产品定位,需要分析当前市场并且预测未来市场趋势,同时还要知道产品面对的对象以及这些对象应该有的特征、消费习惯等等。  …

    2022年4月5日
    365
  • 计算机网络笔记Part1 概述「建议收藏」

    计算机网络笔记Part1 概述「建议收藏」概述1.速率相关性能指标速率定义:连接在计算机网络上的主机在数字信道上传送数据位数的速率单位:b/s,Kb/s,Mb/s,Tb/s,如果用字节表示,则是B/s,KB/s,MB/s,TB/s1Byte=8Bit带宽在计算机网络中,指的是网络设备所支持的最高速度,单位同速率,是理想条件下最高速率吞吐量指的是单位时间内通过某个网络的数据总量个人理解速率就是实际网速,带宽是理论网速(长城宽带警告),吞吐量是一个或多个设备的综合速率,比如说1000m宽带的路由器连着三部手机,每部手机都是10m

    2022年6月6日
    28
  • 在线更换背景网站(白色背景换为蓝色背景证件照)[通俗易懂]

    在线更换背景网站(白色背景换为蓝色背景证件照)

    2022年2月10日
    64
  • UML类图关系全面剖析

    UML的类图关系分为: 关联、聚合/组合、依赖、泛化(继承)。而其中关联又分为双向关联、单向关联、自身关联;下面就让我们一起来看看这些关系究竟是什么,以及它们的区别在哪里。1、关联双向关联:

    2021年12月25日
    88
  • tomcat自定义类加载器_开发者不可以自定义类加载器

    tomcat自定义类加载器_开发者不可以自定义类加载器tomcat自定义类加载器

    2025年9月17日
    6
  • SSRF漏洞进阶——攻击内网Redis

    SSRF漏洞进阶——攻击内网Redis警告请勿使用本文提到的内容违反法律。本文不提供任何担保目录警告一、拓展攻击面二、实验环境三、实践漏洞学习(一)环境部署与BlindSSRF方法是:通过观察响应时间和响应状态判断指定端口是否打开。(二)CentOS机器开启Redis服务,kali机器写定时任务到CentOS机器中。(三)通过gopher协议攻击Redis四、漏洞修复警告SSRF漏洞分析与实践_xiaochuhe.的博客-CSDN博客一、拓展攻击面结合gop…

    2022年6月25日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号