python jieba库_Python jieba库的使用说明「建议收藏」

python jieba库_Python jieba库的使用说明「建议收藏」1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语-jieba是优秀的中文分词第三方库,需要额外安装-jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库-利用一个中文词库,确定汉字之间的关联概率-汉字间概率大的组成词组,形成分词结果-除了分词,用户还可以添加自定义…

大家好,又见面了,我是你们的朋友全栈君。

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

– 中文文本需要通过分词获得单个的词语

– jieba是优秀的中文分词第三方库,需要额外安装

– jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

– 利用一个中文词库,确定汉字之间的关联概率

– 汉字间概率大的组成词组,形成分词结果

– 除了分词,用户还可以添加自定义的词组

2、jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

– 精确模式:把文本精确的切分开,不存在冗余单词

– 全模式:把文本中所有可能的词语都扫描出来,有冗余

– 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

1358881-20180816143426803-566451906.png

3、jieba应用实例

1358881-20180816144716135-2034557332.png

4、利用jieba库统计三国演义中任务的出场次数

importjieba

txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()

words= jieba.lcut(txt) #使用精确模式对文本进行分词

counts = {} #通过键值对的形式存储词语及其出现的次数

for word inwords:if len(word) == 1: #单个词语不计算在内

continue

else:

counts[word]= counts.get(word, 0) + 1 #遍历所有词语,每出现一次其对应的值加 1

items= list(counts.items())#将键值对转换成列表

items.sort(key=lambda x: x[1], reverse=True) #根据词语出现的次数进行从大到小排序

for i in range(15):

word, count=items[i]print(“{0:<5}{1:>5}”.format(word, count))

1358881-20180816151416727-306611449.png

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142156.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • C++模板

    C++模板模(mu)板是泛型编程的基础,泛型编程即以一种独立于任何特定类型的方式编写代码。模板是创建泛型类或函数的蓝图或公式。(反正教程上抄的定义,理解不怎么深刻。)函数模板返回两个数中最大一个。template&amp;amp;amp;lt;classT&amp;amp;amp;gt;TMax(constT&amp;amp;amp;amp;value1,constT&amp;amp;amp;amp;value2){ returnvalue1

    2022年7月24日
    8
  • U盘pe(理论大白菜、优启通、微PE都可以) 装ESXI方案 (非通用UltraISO重做启动U盘),省U盘「建议收藏」

    U盘pe(理论大白菜、优启通、微PE都可以) 装ESXI方案 (非通用UltraISO重做启动U盘),省U盘「建议收藏」此文是我发的一篇的准备工作,因为ESXi6.7刚发布的原因,很多同学等着升级,故而先写了出来。原文如下:戴尔R730安装升级VMwarevSphereHypervisor(ESXi)6.7https://koolshare.cn/thread-139061-1-1.html这一篇,介绍怎样从U盘加载ISO镜像,并引导电脑/服务器,完成新安装/升级系统的操作,当然,实际中不仅仅用于ESXi的安装升级,也可以用于NAS4Free、FreeNAS、ProxmoxVE虚拟机系统,爱快软路由系统、Pan

    2022年9月3日
    15
  • android缩放动画中心缩放_安卓动画缩放调到多少比较好

    android缩放动画中心缩放_安卓动画缩放调到多少比较好什么是ScaleAnimationScaleAnimation即缩放动画,应用场景特别多,比如常见的隐藏菜单点击显示下面我分两种方式来介绍ScaleAnimation如何使用。1.xml文件形式文件名:anim_scale_in.xml效果:呈现view放大显示效果源码:<?xmlversion=”1.0″encoding=”utf-8″?><setxmlns:android=”http://schemas.android.com/apk/res/

    2022年10月15日
    0
  • 使用等价类划分法设计测试用例_等价类划分法和边界值分析法

    使用等价类划分法设计测试用例_等价类划分法和边界值分析法by青竹居士  等价列划分设计方法是把所有可能的输入数据,即程序的输入域划分成若干部分(子集),然后从每一个子集中选取少量具有代表性的数据作为测试用例。等价类是指某个输入域的子集合。在该子集合中,各个输入数据对于揭露程序中的错误都是等效的。并合理地假定:测试某等价类的代表值就等于对这一类其他值的测试。等价类划分有两种不同的情况:有效等价类和无效等价类。设计时要同时考虑这两种等价类

    2022年10月9日
    0
  • idea激活码永久有效-激活码分享

    (idea激活码永久有效)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html9A…

    2022年3月22日
    745
  • JDBC:深入理解PreparedStatement和Statement[通俗易懂]

    JDBC:深入理解PreparedStatement和Statement[通俗易懂]前言最近听一个老师讲了公开课,在其中讲到了PreparedStatement的执行原理和Statement的区别。当时听公开课老师讲的时候感觉以前就只知道PreparedStatement是“预编译类”,能够对sql语句进行预编译,预编译后能够提高数据库sql语句执行效率。但是,听了那个老师讲后我就突然很想问自己,预编译??是谁对sql语句的预编译??是数据库?还是PreparedStatement

    2022年6月13日
    27

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号