文本挖掘的介绍

文本挖掘的介绍1、文本挖掘的定义文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→p。2、文本挖掘过程包含的技术文本特征的提取、信息检索、自然语言处理、文本挖掘、文本分类、文本聚类、关联分析等等3、文本挖掘的一般过程3.1 数据预处理技术预处理技术主要包括Stemming(英文)/分词(中文

大家好,又见面了,我是你们的朋友全栈君。

1、文本挖掘的定义

文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→ p。

2、文本挖掘过程包含的技术

文本特征的提取、信息检索、自然语言处理、文本挖掘、文本分类、文本聚类、关联分析等等

3、文本挖掘的一般过程

文本挖掘的介绍

3.1 数据预处理技术

预处理技术主要包括Stemming(英文)/分词(中文)、特征表示和特征提取

3. 1. 1 分词技术

目前主要有基于词库的分词算法和无词典的分词技术两种。

(1)基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这类算法的特点是易于实现,设计简单;但分词的正确性很大程度上取决于所建的词库

(2)基于无词典的分词技术的基本思想是:基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大,在频率超过某个预先设定的阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。

3. 1. 2 特征表示

1、文本特征指的是关于文本的元数据,分为描述性特征(如文本的名称、日期、大小、类型等)和语义性特征(如文本的作者、机构、标题、内容等)。

2、特征表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本处理。

3、特征表示的构造过程就是挖掘模型的构造过程。特征表示模型有多种,常用的有布尔逻辑型、向量空间模型(Vector SpaceModel,VSM)、概率型以及混合型等

3. 1. 3 特征提取

1、用向量空间模型得到的特征向量的维数往往会达到数十万维,如此高维的特征对即将进行的分类学习未必全是重要、有益的。因此需要选择一些价值高的特征。

2、特征提取算法一般是构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排队,预定数目分数最高的特征被选取。在文本处理中,常用的评估函数有信息增益(Informa-tionGain)、期望交叉熵(Expected Cross Entropy)、互信息(Mu-
tual Information)、文本证据权(TheWeightofEvidence forText)和词频。

4、挖掘分析技术

文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等

4.1文本摘要

任何一篇文章总有一些主题句,大部分位于整篇文章的开头或末尾部分,而且往往是在段首或段尾,因此文本摘要自动生成算法主要考察文本的开头、末尾,而且在构造句子的权值函数时,相应的给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组成相应的摘要。

4.2文本分类

文本分类的目的是让机器学会一个分类函数或分类模型,该模型能把文本映射到己存在的多个类别中的某一类,使检索或查询的速度更快,准确率更高。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多,主要有朴素贝叶斯分类(Native Bayes)、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K -最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘(LinearLeastSquare Fit,LLSF)。

4.3文本聚类

文本分类是将文档归入到己经存在的类中,文本聚类的目标和文本分类是一样的,只是实现的方法不同。文本聚类是无教师的机器学习,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。

层次凝聚法和以K-means等算法为代表的平面划分法。

4.4关联分析

关联分析是指从文档集合中找出不同词语之间的关系。

4.5分布分析与趋势预测

分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。

4.6可视化技术

数据可视化(DataVisualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/148182.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • idea2021激活码永久【中文破解版】

    (idea2021激活码永久)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.htmlS32PGH0SQB-eyJsa…

    2022年3月26日
    75
  • 复变函数—–区域「建议收藏」

    复变函数—–区域「建议收藏」邻域、去心邻域平面上以Z0为中心,δ(任意的正数)为半径的圆:|Z-Z0|<δ内部的点的集合称为Z0的邻域,而称由不等式0<|Z-Z0|<δ所确定的点集为Z0的去心邻域。内点、开集设G为一平面点集,Z0为G中任意一点,如果存在Z0的一个邻域,该邻域内的所有点都属于G,那么称Z0为G的内点。如果G内的每个点都是它的内点,那么称G为开集。区域平面点集D称为一个区域,如果满足下列两个条件:1.D是一个开集;2.D是连通的,就是说D中任何两点都可以用完全属于D的一条折线连

    2022年7月15日
    26
  • C++读写锁介绍_数据库读写锁

    C++读写锁介绍_数据库读写锁一点睛先看看互斥锁,它只有两个状态,要么是加锁状态,要么是不加锁状态。假如现在一个线程a只是想读一个共享变量i,因为不确定是否会有线程去写它,所以我们还是要对它进行加锁。但是这时又有一个线程b试图去读共享变量i,发现被锁定了,那么b不得不等到a释放了锁后才能获得锁并读取i的值,但是两个读取操作即使是同时发生的,也并不会像写操作那样造成竞争,因为它们不修改变量的值。所以我们期望在多个线…

    2022年8月12日
    8
  • 武汉java公司排名_武汉十大it培训机构

    武汉java公司排名_武汉十大it培训机构说起Java大家一定不陌生,毕竟Java这几年通过互联网+理念慢慢的渗透到了各大行业中,现在的Java软件开发岗位尤为火爆。同时也吸引着不少年轻人选择通过Java培训加入到行业中,在武汉,Java培训机构也是不少,想要在其中选择一家适合自己的是不太简单的,在这里,排名榜小编作为一名IT行业的观察者,从课程设计、教师资质、就业等多方面对武汉Java培训机构进行了一系列的考察和筛选,得到了如下武汉Java培训机构排名榜单,排名结果仅供大家参考:1.武汉动力节点上榜理由:我相信大家对于动力节点的.

    2022年10月3日
    2
  • 解决 GPG error

    解决 GPG errorapt keyadvkeyser ubuntu comrecv keysD45DF2E8

    2025年9月26日
    2
  • 小程序中的视频下载「建议收藏」

    小程序中的视频下载「建议收藏」一个朋友问我他看到小程序中有一个视频,但是他不知道如何下载下来,我在手机上面打开想直接下载发现还真没有可以直接下载的按钮,然后研究得出大概思路如下,在电脑中打开小程序,然后使用wireshark转包工具抓取数据分析获视频下载地址,通过下载地址下载视频。使用工具:Wireshark3.2.2第一步:打开Wireshark启动监听网卡。(注意如果是多张网卡包括虚拟网卡…

    2022年5月30日
    141

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号