文本分类算法之–KNN算法的简介「建议收藏」

文本分类算法之–KNN算法的简介「建议收藏」1、KNN算法的简介kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k=3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k=5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所

大家好,又见面了,我是你们的朋友全栈君。

1、KNN算法的简介

kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k = 5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所属于的类。kNN你也可以取多个类别,就是绿色圆圈既属于蓝色框,也属于红色三角所属的类别。

kNN理解

2、KNN算法分类的一般过程的定义

(1)样本的选择

(2)中文文本分词(工具如下:Rwordseg,LTP,Bamboo,RostCM)

(3)特征的选择(CHI,IG等)

(4)向量空间模型的构建(将文档转换成VSM,每一个特征的值是由TF-IDF计算,特征项的个数是所有文本文档集合的总体弃掉重复的单词)

(5)将 预测的文本分词与样本进行计算,主要使用余弦定理进行计算如下

文本分类算法之--KNN算法的简介「建议收藏」

(6)对结果进行测试是否满足准确率

(7)如果准确率太低,可以调整样本等一些其他的措施


KNN算法的缺点,如果训练的样本过多,则容易造成内存的溢出,因此我们可以改进KNN算法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144008.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月11日 下午8:40
下一篇 2022年5月11日 下午9:00


相关推荐

  • 虚拟IP简介「建议收藏」

    虚拟IP简介「建议收藏」什么是虚拟IP虚拟IP(VirtualIPAddress,简称VIP)是一个未分配给真实弹性云服务器网卡的IP地址。弹性云服务器除了拥有私有IP地址外,还可以拥有虚拟IP地址,用户可以通过其中任意一个IP(私有IP/虚拟IP)访问此弹性云服务器。同时,虚拟IP地址拥有私有IP地址同样的网络接入能力,包括VPC内二三层通信、VPC之间对等连接访问,以及弹性公网IP、VPN、云专线等网络接入。多个主备部署的弹性云服务器可以在绑定虚拟IP地址时选择同一个虚拟IP地址。用户可以为该虚拟IP地址绑定一个弹

    2022年10月20日
    3
  • java开发中什么是bd设计,西安交通大学17年9月课程考试《Java语言程序设计》作业考核试题…

    java开发中什么是bd设计,西安交通大学17年9月课程考试《Java语言程序设计》作业考核试题…西安交通大学17年9月课程考试《Java语言程序设计》作业考核试题试卷总分:100得分:0一、单选题(共25道试题,共50分)1.设x为float型变量,y为double型变量,a为int型变量,b为long型变量,c为char型变量,则表达式x+y*a/x+b/y+c的值为()类型。A.intB.longC.doubleD.char满分:2分2.在Java中用什么关键…

    2022年7月8日
    27
  • php ecshop二次开发,ecshop二次开发对ecshop系统框架分析

    php ecshop二次开发,ecshop二次开发对ecshop系统框架分析ecshop 二次开发对 ecshop 系统框架分析第一 整体框架结构 整个系统是层结构有数据层有外观层比如我们 index php 是外观层 和用户打交道的层 那推荐产品来说吧在 index php 是对数据层函数的调用 get recommend goods new 这个函数那么他是在 include 目录下的 lib goods php 进行定义既数据层 第二 重要目录 首先

    2026年3月19日
    2
  • 数组对象转json格式[通俗易懂]

    数组对象转json格式[通俗易懂]1、数组转化成JSON对象后,key值是索引,value是数组对应的值。//数组也可以转化成JSON对象varjStr3="[[10,20,30],40,50,60]";varj3=JSON.parse(jStr3);for(letkeyinj3){console.log(‘key:’,key);}//key…

    2026年1月19日
    3
  • Win8下用DOSBox编写汇编语言

    Win8下用DOSBox编写汇编语言      DOSBox 是一个 DOS模拟程序,可以很方便的移植到其他的平台,因此可以使用它在Win8系统中编写汇编语言。下面提供相关下载链接:     DOSBox下载: http://pan.baidu.com/s/1qWwkss0      汇编工具下载: http://pan.baidu.com/s/1i3taKmT  DOSB

    2022年4月7日
    47
  • mysql官网下载_mysql的jdbc的jar包

    mysql官网下载_mysql的jdbc的jar包1、在百度搜索mysql,点击mysql官网上下载mysql的地址在url直接输入mysql的下载地址也可以:https://dev.mysql.com/downloads/mysql/如图:

    2022年8月2日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号