文本相似度度量_文本相似度分析

文本相似度度量_文本相似度分析文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤:将文本表示为向量(文本表示);衡量两个向量的相似度(相似度度量)。1文本表示文本表示也包括两部分:文本切分粒度(按什么粒度切分得到文本特征),如何构造特征(如何将文本特征转化成数值特征)。1.1文本切分粒度可以按照字,词,n-gram对文本进行切分;当文本是长文本时,也可以利用主题模型提取关键词,来减少词的维度。1.2文本特征构建特征构建就是如何将词袋模型中的词转化成向量表示。可以用one-hot,对应位置的权重可以是TF或者.

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

在这里插入图片描述

文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤:将文本表示为向量(文本表示);衡量两个向量的相似度(相似度度量)。

1 文本表示

文本表示也包括两部分:文本切分粒度(按什么粒度切分得到文本特征),如何构造特征(如何将文本特征转化成数值特征)。

1.1 文本切分粒度

可以按照字,词,n-gram对文本进行切分;当文本是长文本时,也可以利用主题模型提取关键词,来减少词的维度。

1.2 文本特征构建

特征构建就是如何将词袋模型中的词转化成向量表示。可以用one-hot,对应位置的权重可以是TF或者是TF-IDF。也可以用分布式表示word2vec。或者是google发布的simhash。

simhash:

google发布的初衷是解决亿万级别的网页去重任务。通常用于长文本,降维将长文本压缩至几个关键词表示(如取TF-IDF权重大的top k个词)。然后将关键词编码成固定长度的二进制字符串。用固定长度的编码来表示一篇文章。

2 相似度度量

(1)欧式距离
L ( x 1 , x 2 ) = ( x 1 − x 2 ) 2 L(x_1,x_2)=\sqrt{(x_1-x_2)^2} L(x1,x2)=(x1x2)2

(2)余弦距离

用两个向量夹角的余弦值来衡量距离。
L ( x 1 , x 2 ) = x 1 ⋅ x 2 ∣ x 1 ∣ ∣ x 2 ∣ L(x_1,x_2)=\frac{x_1\cdot x_2}{|x_1||x_2|} L(x1,x2)=x1x2x1x2
(3)杰卡德距离
L ( A , B ) = ∣ A ⋃ B ∣ ∣ A ⋂ B ∣ L(A,B)=\frac{|A\bigcup B|}{|A\bigcap B|} L(A,B)=ABAB
(4)海明距离

海明距离主要用于simhash算法。

海明距离是用特征各维度不相等的个数来衡量差异性。

(5)最小编辑距离

字符串A不断增删改直至与字符串B相等,所需要的最少修改次数作为距离的度量。一般用动态规划来求解

参考:

[1]知乎:常见文本相似度计算方法简介

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/213554.html原文链接:https://javaforall.net

(0)
上一篇 2025年7月20日 下午9:22
下一篇 2025年7月20日 下午10:01


相关推荐

  • js中遍历数组加到新数组_js数组遍历:JavaScript如何遍历数组?

    js中遍历数组加到新数组_js数组遍历:JavaScript如何遍历数组?什么是数组的遍历 操作数组中的每一个数组元素 使用 for 循环来遍历数组因为数组的下标是连续的 数组的下标是从 0 开始 我们也可以得到数组的长度 格式 for vari 0 i 数组变量名 i 注意 条件表达式的写法 i i lt 数组的长度 1 数组最大下标案例 求数组里面元素的和 vararr 10 20 3 22 90 定义一个变量 用于临时统计所有元素的和 varsum 0

    2026年3月26日
    1
  • 超分辨率重建总结(超分辨率重建算法程序)

    1.SRCNN:—2,3改进开山之作,三个卷积层,输入图像是低分辨率图像经过双三次(bicubic)插值和高分辨率一个尺寸后输入CNN。图像块的提取和特征表示,特征非线性映射和最终的重建。使用均方误差(MSE)作为损失函数。2.FSRCNN特征提取:低分辨率图像,选取的核9×9设置为5×5。收缩:1×1的卷积核进行降维。非线性映射:用两个串联的3×3的卷积核可以替代一个5×5…

    2022年4月9日
    165
  • 计算机常用1700英语单词及缩写_计算机必背英语单词

    计算机常用1700英语单词及缩写_计算机必背英语单词 1.filen. 文件;v. 保存文件     2.commandn. 命令,指令     3.usev. 使用,用途     4.programn. 程序     5.linen.(数据,程序)行,线路     6.ifconj. 如果     7.displayvt. 显示,显示器     8.setv. 设置,n…

    2026年4月13日
    4
  • 使用 Linux 命令行发送邮件

    使用 Linux 命令行发送邮件mailx与sendmail辨析mailx是邮件客户端。人们可以使用它编写邮件,然后把邮件传递给本地的邮件传输服务器。sendmail是邮件服务器。它可以与远端的邮件服务器通信,收发邮件

    2022年7月2日
    22
  • win32创建窗口函数(windows程序内部运行机制)

    win32创建窗口函数(windows程序内部运行机制)

    2021年11月19日
    47
  • win10配置jdk环境变量[通俗易懂]

    win10配置jdk环境变量[通俗易懂]一、JDK安装包用的是JDK1.8解压包,百度云网盘地址:网盘地址提取码:qqs2二、配置详细过程开系统环境变量配置的页面。具体操作是:打开开始菜单,找到“控制面板”,点击系统在弹出的页面,选择“高级系统设置”选择环境变量在弹出的页面,系统变量区域,选择“新建”在新建页面,输入变量名“JAVA_HOME”;变量值“你的jdk的路径(请参照下图,找到你的安装路径)”,然后点击“确定”在系统变量区域,选择“新建”,输入变量名“CLASSPATH”;变量值:“.

    2022年7月24日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号