jieba库的安装教程_利用jieba库进行txt分词

jieba库的安装教程_利用jieba库进行txt分词jieba库jieba库的安装jieba库的基本介绍jieba库的使用jieba库的安装(cmd命令行)pipinstalljiebajieba库的基本介绍(1)jieba库概述jieba库是优秀的中文分词第三方库。中文文本需要通过分词获得单个的词语;jieba是优秀的中文分词第三方库,需要额外安装;jieba库提供三种分词模式,最简单只需掌握一个函数;(2)jieba…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

jieba库的安装

(cmd命令行)

pip install jieba

也可以安装国内镜像:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

在这里插入图片描述

jieba库的基本介绍

(1)jieba库概述

jieba库是优秀的中文分词第三方库。

中文文本需要通过分词获得单个的词语;
jieba是优秀的中文分词第三方库,需要额外安装;
jieba库提供三种分词模式,最简单只需掌握一个函数;

(2)jieba库分词原理

Jieba分词依靠中文词库

利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组

jieba库的使用

jieba分词的三种模式
  精确模式:把文本精确的切分开,不存在冗余单词
  全模式:把文本中所有可能的词语都扫描出来,有冗余
  搜索引擎模式:在精确模式基础上,对长词再次切分

jieba库函数的使用

函数 描述
jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’,‘是’,‘一个’,’伟大‘,’的‘,’国家‘]
jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余。
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’,‘国是’,‘一个’,’伟大‘,’的‘,’国家‘]
jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余。
>>>jieba.lcut_for_search(“中华人民共和国是伟大的”)
[‘中华’,‘华人’,’人民‘,’共和‘,’共和国‘,’中华人民共和国‘,’是‘,’伟大‘,’的‘]
jieba.add_word(w) 向分词词典增加新词w
>>>jieba.add_word(“蟒蛇语言”)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191052.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java课程设计-多人聊天工具(socket+多线程)

    大一下学期的java期末课程设计,分享一下文章目录课设要求相关知识点类图项目框架核心代码1.服务器端Server.java课设要求多人聊天工具服务器要求1:能够看到所有在线用户(25%)服务器要求2:能够强制用户下线(25%)客户端要求1:能够看到所有在线用户(25%)客户端要求2:能够向某个用户发送消息(25%)相关知识点1.服务端能够看到所有在线用户服务端继承了JFrame,实现可视化,通过socket实现服务端与客户端的连接,服务端每接收一个连接,把传进来的用户名和对应的s.

    2022年4月7日
    58
  • 陈述python中运算符的优先级_numpy逻辑运算符

    陈述python中运算符的优先级_numpy逻辑运算符python逻辑运算符1.成员andornot优先级:()>not>and>or2.and逻辑运算符and,aandb,如果a和b都为True,则返回True,如果其中一个为False,返回False,简言之:一假则假,全真则真3.or逻辑运算符or,aorb,如果a和b有一个为True,则返回True,如果全为False,返回False,简言之:一真则真…

    2022年10月23日
    0
  • YGC和FGC是什么「建议收藏」

    YGC和FGC是什么「建议收藏」1.YGC和FGC是什么YGC:对新生代堆进行gc。频率比较高,因为大部分对象的存活寿命较短,在新生代里被回收。性能耗费较小。FGC:全堆范围的gc。默认堆空间使用到达80%(可调整)的时候会触发fgc。以我们生产环境为例,一般比较少会触发fgc,有时10天或一周左右会有一次。2.什么时候执行YGC和FGCedn空间不足,执行younggcb.old空间不足,…

    2022年6月19日
    41
  • python小项目:3、九九乘法表与斐波那契数列

    python小项目:3、九九乘法表与斐波那契数列

    2021年10月6日
    32
  • java cloneable 用途_java中cloneable的使用「建议收藏」

    java cloneable 用途_java中cloneable的使用「建议收藏」什么是java中的浅克隆和深克隆?浅克隆:克隆对象中的变量与之前对象的值相同,并且对象中的引用类型变量仍然指向原来对象引用类型变量的地址.深克隆:克隆对象中的变量与之前对象的值相同,并且对象中的引用类型变量指向了新的对象的引用变量的地址.要想实现克隆,只需定义的类声明下cloneable这个标记性接口,并且衍生重写Object类中就有的clone()方法即可.为什么类要首先声明cloneable标…

    2022年10月14日
    0
  • 四个好看的CSS样式表格

    四个好看的CSS样式表格

    2021年11月14日
    83

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号