python jieba库_Python jieba库的使用说明「建议收藏」

python jieba库_Python jieba库的使用说明「建议收藏」1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语-jieba是优秀的中文分词第三方库,需要额外安装-jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库-利用一个中文词库,确定汉字之间的关联概率-汉字间概率大的组成词组,形成分词结果-除了分词,用户还可以添加自定义…

大家好,又见面了,我是你们的朋友全栈君。

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

– 中文文本需要通过分词获得单个的词语

– jieba是优秀的中文分词第三方库,需要额外安装

– jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

– 利用一个中文词库,确定汉字之间的关联概率

– 汉字间概率大的组成词组,形成分词结果

– 除了分词,用户还可以添加自定义的词组

2、jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

– 精确模式:把文本精确的切分开,不存在冗余单词

– 全模式:把文本中所有可能的词语都扫描出来,有冗余

– 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

1358881-20180816143426803-566451906.png

3、jieba应用实例

1358881-20180816144716135-2034557332.png

4、利用jieba库统计三国演义中任务的出场次数

importjieba

txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()

words= jieba.lcut(txt) #使用精确模式对文本进行分词

counts = {} #通过键值对的形式存储词语及其出现的次数

for word inwords:if len(word) == 1: #单个词语不计算在内

continue

else:

counts[word]= counts.get(word, 0) + 1 #遍历所有词语,每出现一次其对应的值加 1

items= list(counts.items())#将键值对转换成列表

items.sort(key=lambda x: x[1], reverse=True) #根据词语出现的次数进行从大到小排序

for i in range(15):

word, count=items[i]print(“{0:<5}{1:>5}”.format(word, count))

1358881-20180816151416727-306611449.png

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142156.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 关系数据库的设计_关系型数据库的设计原则

    关系数据库的设计_关系型数据库的设计原则1、设计一个合适的关系数据库系统的关键是关系数据库模式的设计,即应构造几个关系模式, 每个模式有哪些属性,怎样将这些相互关联的关系模式组建成一个适合的关系模型,关系数据库 的设计必须在关系数据库设计理论的指导下进行。2、关系数据库设计理论有三个方面的内容:函数依赖、范式和模式设计。函数依赖起核心作用, 它是模式分解和模式设计的基础,范式是模式分解的标准。【例1】设计一个学生课程数据库,其关系…

    2022年8月18日
    26
  • mysql 获取当前的时间戳

    mysql 获取当前的时间戳获取系统当前时间,类型:timestamp格式yyyy-MM-ddHH:mm:ss selectNOW(),CURRENT_TIMESTAMP(),SYSDATE();结果:三者基本没有区别,稍微一点的区别在于:NOW(),CURRENT_TIMESTAMP()都表示SQL开始执行的时间;SYSDATE()表示执行此SQL的时间selectNOW(),CURRE…

    2022年9月28日
    4
  • uwsgi模式_uwsgi配置详解[通俗易懂]

    uwsgi模式_uwsgi配置详解[通俗易懂]#先激活virtualenv#启动:uwsgiuwsgi.ini#停止:uwsgi–stopuwsgi.pid[uwsgi]#对外提供http服务的端口http=:8000#thelocalunixsocketfilethancommnuincatetoNginx用于和nginx进行数据交互的端口socket=127.0.0.1:8001#the…

    2025年10月26日
    6
  • 2018怎样发英文外链才能提升谷歌排名

    2018怎样发英文外链才能提升谷歌排名自从搜索引擎诞生以来,外链一直都是占比较重要的位置,但是谷歌一直在完善算法,让搜索引擎显示更好的搜索结果,2014年以前,通过软件群发外链,会收到不错的效果,但是现在谷歌搜索引擎已经可以识别这些不自然的外链,一旦你的网站再这些群发外链,就会被惩罚,严重的话,被K。我们一直坚守手工做高质量相关性外链,无论谷歌算法如何变,我们的网站一直迄立不倒!那么2018年,我们如何做高质量的相关性英文外链呢?1,…

    2022年5月13日
    52
  • .pfx 证书和 .cer 证书

    .pfx 证书和 .cer 证书证书系列:1:.pfx证书和.cer证书2:导入pfx证书通常情况下,作为文件形式存在的证书一般有三种格式:第一种:带有私钥的证书,由PublicKeyCryptographyStandards#12,PKCS#12标准定义,包含了公钥和私钥的二进制格式的证书形式,以.pfx作为证书文件后缀名。 第二种:DEREncodedBinary(.cer)二进制编码的证书,证书中没有私钥,DER编码二进制格式的证书文件,以.cer作为证书文件后缀名。 第三种:Bas.

    2022年6月3日
    95
  • 加入购物车怎么操作_买家加入购物车不买怎么办

    加入购物车怎么操作_买家加入购物车不买怎么办ShoppingCart.javapackagecom.aff.bookstore.domain;importjava.util.Collection;importjava.util.Ha

    2022年8月1日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号