python jieba库_Python jieba库的使用说明「建议收藏」

python jieba库_Python jieba库的使用说明「建议收藏」1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语-jieba是优秀的中文分词第三方库,需要额外安装-jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库-利用一个中文词库,确定汉字之间的关联概率-汉字间概率大的组成词组,形成分词结果-除了分词,用户还可以添加自定义…

大家好,又见面了,我是你们的朋友全栈君。

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

– 中文文本需要通过分词获得单个的词语

– jieba是优秀的中文分词第三方库,需要额外安装

– jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

– 利用一个中文词库,确定汉字之间的关联概率

– 汉字间概率大的组成词组,形成分词结果

– 除了分词,用户还可以添加自定义的词组

2、jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

– 精确模式:把文本精确的切分开,不存在冗余单词

– 全模式:把文本中所有可能的词语都扫描出来,有冗余

– 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

1358881-20180816143426803-566451906.png

3、jieba应用实例

1358881-20180816144716135-2034557332.png

4、利用jieba库统计三国演义中任务的出场次数

importjieba

txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()

words= jieba.lcut(txt) #使用精确模式对文本进行分词

counts = {} #通过键值对的形式存储词语及其出现的次数

for word inwords:if len(word) == 1: #单个词语不计算在内

continue

else:

counts[word]= counts.get(word, 0) + 1 #遍历所有词语,每出现一次其对应的值加 1

items= list(counts.items())#将键值对转换成列表

items.sort(key=lambda x: x[1], reverse=True) #根据词语出现的次数进行从大到小排序

for i in range(15):

word, count=items[i]print(“{0:<5}{1:>5}”.format(word, count))

1358881-20180816151416727-306611449.png

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142156.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Python基础(3)—八种数据类型

    Python基础(3)—八种数据类型Python的八种数据类型八种数据类型分别是:number(数字)、string(字符串)、Boolean(布尔值)、None(空值)list(列表)、tuple(元组)、dict(字典)、set(集合)。下面,我将这八种类型的相关知识,做一个梳理。 1.number(数字类型)2.string(字符串类型)3.Boolean(布尔值)与空值4.list…

    2022年6月10日
    26
  • SDL2来源分析3:渲染(SDL_Renderer)

    SDL2来源分析3:渲染(SDL_Renderer)

    2022年1月11日
    46
  • 中图分类法—-T-0

    中图分类法—-T-0 T工业技术   T-0工业技术理论     T-01方针、政策及其阐述       T-012中国       T-013/-017各国     T-09工业技术发展史   T-1工业技术现状与发展     T-18专利     T-19先进经验、创造发明   T-2机构、团体、会议     

    2022年5月15日
    91
  • fastclick

    fastclickfastclick–处理移动端click事件300毫秒延迟安装:npminstallfastclick–save   之后,在main.js中引入    importFastClickfrom’fastclick’    并绑定到bodyFastClick.attach(document.body);1、兼容性iOS3及更高版本的移动SafariiOS5及更高版本的C…

    2022年6月19日
    51
  • 动态规划 4、基础背包问题总结(从01开始)「建议收藏」

    动态规划 4、基础背包问题总结(从01开始)「建议收藏」一、01背包问题简述:n种物品,每种一个,选或不选随你,背包一定有容量,求不超过容量的情况下,价值最大。递归方程:dp[i][v]=max{dp[i][v],dp[i-1][v-c[i]]+w[i]}

    2022年7月3日
    24
  • JQuery Div scrollTop ScrollHeight

    JQuery Div scrollTop ScrollHeightjQuery里和滚动条有关的概念很多,但是有三个属性和滚动条的拖动有关,就是:scrollTop、scrollLeft、scrollHeight。其中scrollHeight属性,互联网上几乎搜素不到关于它的应用技巧,而我正好需要用到它。我们现在只探讨和垂直滚动有关的scrollTop、scrollHeight属性。一、滚动条有关属性的正确理解:假设有以下Html代码:

    2022年7月23日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号