jieba库的安装教程_利用jieba库进行txt分词

jieba库的安装教程_利用jieba库进行txt分词jieba库jieba库的安装jieba库的基本介绍jieba库的使用jieba库的安装(cmd命令行)pipinstalljiebajieba库的基本介绍(1)jieba库概述jieba库是优秀的中文分词第三方库。中文文本需要通过分词获得单个的词语;jieba是优秀的中文分词第三方库,需要额外安装;jieba库提供三种分词模式,最简单只需掌握一个函数;(2)jieba…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

jieba库的安装

(cmd命令行)

pip install jieba

也可以安装国内镜像:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

在这里插入图片描述

jieba库的基本介绍

(1)jieba库概述

jieba库是优秀的中文分词第三方库。

中文文本需要通过分词获得单个的词语;
jieba是优秀的中文分词第三方库,需要额外安装;
jieba库提供三种分词模式,最简单只需掌握一个函数;

(2)jieba库分词原理

Jieba分词依靠中文词库

利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组

jieba库的使用

jieba分词的三种模式
  精确模式:把文本精确的切分开,不存在冗余单词
  全模式:把文本中所有可能的词语都扫描出来,有冗余
  搜索引擎模式:在精确模式基础上,对长词再次切分

jieba库函数的使用

函数 描述
jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’,‘是’,‘一个’,’伟大‘,’的‘,’国家‘]
jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余。
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’,‘国是’,‘一个’,’伟大‘,’的‘,’国家‘]
jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余。
>>>jieba.lcut_for_search(“中华人民共和国是伟大的”)
[‘中华’,‘华人’,’人民‘,’共和‘,’共和国‘,’中华人民共和国‘,’是‘,’伟大‘,’的‘]
jieba.add_word(w) 向分词词典增加新词w
>>>jieba.add_word(“蟒蛇语言”)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191052.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Ubuntu安装yum失败

    Ubuntu安装yum失败先看一下虚拟机可以上网;那么联网没有问题;yum-ylistjava*;查看jdk版本;提示yum没有安装;那么先要安装yum;输入rpm-qayum,查看yum的安装情况,rpm也没有安装;输入apt-getinstallyum安装yum,提示权限不足,areyouroot?当前是root用户;在命令前加sudo就对了;sudoapt-getinstallyum;然后提示不能定位yum包;需要先执行apt-getupdate;前面还

    2022年6月16日
    34
  • kettle使用教程(超详细)

    kettle使用教程(超详细)今天详细详细说一下kettle的安装,安装的版本:jdk:jdk-8u152-windows–x64kettle:KETTLE-5.4一、环境部署1、安装JDK,按默认值安装即可2、设置环境变量,如图下图具体步骤:1.右击我的电脑-属性-高级系统设置-环境变量-系统变量-新建2.变量名:JAVA_HOME3.变量值:JDK安装目录3、…

    2022年5月24日
    109
  • C语言学生管理系统源代码「建议收藏」

      新人博主不易,希望看完点赞“`c/***autor:旋尘*time:2020.4.20*/#includeintMenu(){intcheck_number;do{system(“cls”);/运行前清屏,把选择清掉/printf(“\t学生成绩管理系统*\n”);printf(“\t*|1.添加学生信息\n”);printf(“\t|2.显示学生信息\

    2022年4月12日
    30
  • java中println和printf有什么区别_java println和print

    java中println和printf有什么区别_java println和printJava语言中print和println的区别简单的说:print意思是:打印而println是print+line的缩写,即:换行打印举例打印1和2:⑴不换行打印:publicclassMyDemo{ publicstaticvoidmain(Stringargs[]){ inti=1; intj=2; System.out.print(i)…

    2022年10月31日
    0
  • 在pycharm中安装opencv_pycharm opencv

    在pycharm中安装opencv_pycharm opencv打开pycharm下方的terminal终端在路径下直接输入pipinstallopencv-python稍等片刻既安装成功在这里查看项目安装的模块点击左上方文件-设置-项目-Protect-Interpreter看到我们已经安装了opencv-python与numpy模块…

    2022年8月27日
    2
  • datetime.date()_datenum函数使用

    datetime.date()_datenum函数使用比如在windowscmd命令行窗口执行date命令后这个环境变量的值为当前日期:2014-03-01 星期六那么如下的各个操作的意义如下:%date:~0,4% 表示从左向右指针向右偏0位,然后从指针偏移到的位置开始提取4位字符,结果是2014(年的值)%date:~5,2% 表示指针从左向右偏移5位,然后从偏移处开始提取2位字符,结果是03(月的值)%date:~8,

    2022年9月20日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号