python jieba库_Python jieba库的使用说明「建议收藏」

python jieba库_Python jieba库的使用说明「建议收藏」1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语-jieba是优秀的中文分词第三方库,需要额外安装-jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库-利用一个中文词库,确定汉字之间的关联概率-汉字间概率大的组成词组,形成分词结果-除了分词,用户还可以添加自定义…

大家好,又见面了,我是你们的朋友全栈君。

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

– 中文文本需要通过分词获得单个的词语

– jieba是优秀的中文分词第三方库,需要额外安装

– jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

– 利用一个中文词库,确定汉字之间的关联概率

– 汉字间概率大的组成词组,形成分词结果

– 除了分词,用户还可以添加自定义的词组

2、jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

– 精确模式:把文本精确的切分开,不存在冗余单词

– 全模式:把文本中所有可能的词语都扫描出来,有冗余

– 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

1358881-20180816143426803-566451906.png

3、jieba应用实例

1358881-20180816144716135-2034557332.png

4、利用jieba库统计三国演义中任务的出场次数

importjieba

txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()

words= jieba.lcut(txt) #使用精确模式对文本进行分词

counts = {} #通过键值对的形式存储词语及其出现的次数

for word inwords:if len(word) == 1: #单个词语不计算在内

continue

else:

counts[word]= counts.get(word, 0) + 1 #遍历所有词语,每出现一次其对应的值加 1

items= list(counts.items())#将键值对转换成列表

items.sort(key=lambda x: x[1], reverse=True) #根据词语出现的次数进行从大到小排序

for i in range(15):

word, count=items[i]print(“{0:<5}{1:>5}”.format(word, count))

1358881-20180816151416727-306611449.png

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142156.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 【Android】PreferenceFragment「建议收藏」

    【Android】PreferenceFragment「建议收藏」调用PreferenceFragment类出错,用了我三天时间才搞定,查官方文档,看百度最后在这位大佬的帖子帮助下终于搞定了。https://blog.csdn.net/cqx13763055264/article/details/78498419#commentBoxPreferenceActivity创建和使用比较复杂,Android官方现在不建议使用了,使用Preferenc…

    2025年8月28日
    6
  • 关于gsync 和 freesync[通俗易懂]

    关于gsync 和 freesync[通俗易懂]最近我的很多朋友都在问我怎么开启gsync以及gsync的作用还有些小伙伴的台式机有freesync我就随便说下要是有不对的希望各位大佬指正首先我们先了解下垂直同步:1、什么是垂直同步?普通情况下显卡是逐行扫描到显示器,这就导致前面一帧还没扫完下一帧就上去了,因此会产生撕裂,垂直同步则是让显卡去适应显示器,即显示器每次刷新的时候显卡再把算好的图像传给显示器。…

    2022年5月1日
    406
  • 使用优启通(EasyU)重装系统教程(详细)「建议收藏」

    使用优启通(EasyU)重装系统教程(详细)「建议收藏」文章目录前言资源下载第一步:制作启动盘第二步:下载镜像并存入u盘第三步:正式开始重装第四步:激活系统完成系统激活注意事项前言为什么要制作一个启动盘才能重装系统?通俗点来说就是你自己生病了,自己一般不能自己帮自己看病,一般都是别人看病。电脑也是如此,需要一个第三方来“治疗”。为什么使用EasyU?而不使用老毛_,巴拉巴拉。。。。。因为其他的很多启动盘制作工具有广告,会在系统安装的时候安装第三方软件。资源下载启动盘制作工具(任选一个下载地址):下载地址1:123盘(不限速)下载地址

    2022年6月25日
    94
  • Git教程 Git Bash详细教程「建议收藏」

    Git教程 Git Bash详细教程「建议收藏」  作为一个萌新,我翻遍了网上的GitBash教程,可能因为我理解力比较差,经常看不懂教程上在说什么。(。-`ω´-)所以我决定自己一边摸索一边记录,写教程造福那些理解力跟我一样差的人……第一篇教程会涉及如下内容(按照一般人的使用流程):下载、登录GitBash如何在GitBash中进入或者退出文件夹如何建立本地仓库配置SSHkey如何建立本地仓库和远程仓库的连接…

    2022年4月29日
    40
  • 如何在Pycharm上安装PyQt5[通俗易懂]

    如何在Pycharm上安装PyQt5[通俗易懂]这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好!这是你第一次使用Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

    2022年8月25日
    5
  • tcp洪水攻击_udp编程socket

    tcp洪水攻击_udp编程socket#include/**UDP洪水攻击:不停的向目的主机发送UDP包,让目的主机接收端口拥塞,以达到攻击的目的**/#defineMAXCHILD2#defineK1024#defineDATUML1*KstaticintPROTO_UDP=-1;//UDP协议类型staticunsignedlongdest=0;//目的地址,32位二进制staticintdest_po…

    2022年10月1日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号