jieba库的安装教程_利用jieba库进行txt分词

jieba库的安装教程_利用jieba库进行txt分词jieba库jieba库的安装jieba库的基本介绍jieba库的使用jieba库的安装(cmd命令行)pipinstalljiebajieba库的基本介绍(1)jieba库概述jieba库是优秀的中文分词第三方库。中文文本需要通过分词获得单个的词语;jieba是优秀的中文分词第三方库,需要额外安装;jieba库提供三种分词模式,最简单只需掌握一个函数;(2)jieba…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

jieba库的安装

(cmd命令行)

pip install jieba

也可以安装国内镜像:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

在这里插入图片描述

jieba库的基本介绍

(1)jieba库概述

jieba库是优秀的中文分词第三方库。

中文文本需要通过分词获得单个的词语;
jieba是优秀的中文分词第三方库,需要额外安装;
jieba库提供三种分词模式,最简单只需掌握一个函数;

(2)jieba库分词原理

Jieba分词依靠中文词库

利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组

jieba库的使用

jieba分词的三种模式
  精确模式:把文本精确的切分开,不存在冗余单词
  全模式:把文本中所有可能的词语都扫描出来,有冗余
  搜索引擎模式:在精确模式基础上,对长词再次切分

jieba库函数的使用

函数 描述
jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’,‘是’,‘一个’,’伟大‘,’的‘,’国家‘]
jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余。
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’,‘国是’,‘一个’,’伟大‘,’的‘,’国家‘]
jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余。
>>>jieba.lcut_for_search(“中华人民共和国是伟大的”)
[‘中华’,‘华人’,’人民‘,’共和‘,’共和国‘,’中华人民共和国‘,’是‘,’伟大‘,’的‘]
jieba.add_word(w) 向分词词典增加新词w
>>>jieba.add_word(“蟒蛇语言”)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191052.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Mybatis二级缓存原理

    Mybatis二级缓存原理记录是一种精神,是加深理解最好的方式之一。最近看了下Mybatis的源码,分析了二级缓存的实现方式,在这里把他记下来。虽然这不复杂,对这方面的博客也有很多,写的也很好。但我坚信看懂了是其一,能够教别人或者描述清楚记下来才能真正的掌握。曹金桂cao_jingui@163.com(如有欠缺还请指教)时间:2016年10月11日16:00这篇文章能够帮你学会对Mybatis配置…

    2022年9月20日
    1
  • Windows Server AppFabric安装与步署[通俗易懂]

    Windows Server AppFabric安装与步署[通俗易懂]WindowsServerAppFabric正式版已经发布。今天测试一下,把域环境中安装遇到的问题告诉大家,只针对缓存服务这一块,希望大家少走一些弯路。1、首先下载安装WindowsServerAppFabric,地址:http://www.microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=467e5…

    2022年10月11日
    2
  • 支持无限加载的js图片画廊插件

    支持无限加载的js图片画廊插件支持无限加载的js图片画廊插件 natural-gallery-js是一款支持无限加载的js图片画廊插件。该js图片画廊支持图片的懒加载,可以对图片进行搜索,分类,还可以以轮播图的方式来展示和切换图片。使用方法在页面中引入下面的CSS和js文件。<linkrel=”stylesheet”hr…

    2022年6月11日
    30
  • qxdm 激活_腾讯视频怎么激活

    qxdm 激活_腾讯视频怎么激活UserName: ZTEPassword:    walshcodeAdminKey:   1071

    2022年10月2日
    2
  • 基于Vue的电商后台管理系统(2)

    基于Vue的电商后台管理系统(2)电商后台管理系统2前言上期已经实现该系统的登陆界面、路由、登录、退出及导航守卫功能,本期将继续完善该系统的以下功能:从后端获取后台列表数据并渲染到前端页面、用户列表的展示、修改、删除和添加。后台页面布局本系统后台将采用ElementUI中的Container布局容器。基本结构如下:代码框架:<el-container><el-header>Header</el-header><el-container><el-a

    2022年6月11日
    31
  • Python量化投资:技术、模型与策略_量化金融投资及其python应用

    Python量化投资:技术、模型与策略_量化金融投资及其python应用python量化投资-01

    2022年4月20日
    78

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号