NLTK 基础知识总结

NLTK 基础知识总结什么事实 NLTKNLTK 全称 NaturalLangu 自然语言处理工具包 是 NLP 研究领域常用的一个 Python 库 由宾夕法尼亚大学的 StevenBird 和 EdwardLoper 在 Python 的基础上开发的一个模块 至今已有超过十万行的代码 这是一个开源项目 包含数据集 Python 模块 教程等 怎样安装详情可以参见我的另一篇博客 NLP 的开发环境搭建 通

什么是 NLTK

NLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven BirdEdward LoperPython的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;

如何安装

详情可以参见我的另一篇博客NLP的开发环境搭建,通过这篇博客,你将学会Python环境的安装以及NLTK模块的下载;

常见模块及用途

NLTK 基础知识总结

NLTK能干啥?

  • 搜索文本
    • 单词搜索:
    • 相似词搜索;
    • 相似关键词识别;
    • 词汇分布图;
    • 生成文本;
  • 计数词汇
    NLTK 基础知识总结
    NLTK 基础知识总结

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018-9-28 22:21 # @Author : Manu # @Site :  # @File : python_base.py # @Software: PyCharm from __future__ import division import nltk import matplotlib from nltk.book import * from nltk.util import bigrams # 单词搜索 print('单词搜索') text1.concordance('boy') text2.concordance('friends') # 相似词搜索 print('相似词搜索') text3.similar('time') #共同上下文搜索 print('共同上下文搜索') text2.common_contexts(['monstrous','very']) # 词汇分布表 print('词汇分布表') text4.dispersion_plot(['citizens', 'American', 'freedom', 'duties']) # 词汇计数 print('词汇计数') print(len(text5)) sorted(set(text5)) print(len(set(text5))) # 重复词密度 print('重复词密度') print(len(text8) / len(set(text8))) # 关键词密度 print('关键词密度') print(text9.count('girl')) print(text9.count('girl') * 100 / len(text9)) # 频率分布 fdist = FreqDist(text1) vocabulary = fdist.keys() for i in vocabulary: print(i) # 高频前20 fdist.plot(20, cumulative = True) # 低频词 print('低频词:') print(fdist.hapaxes()) # 词语搭配 print('词语搭配') words = list(bigrams(['louder', 'words', 'speak'])) print(words) 

NLTK设计目标

  • 简易性;
  • 一致性;
  • 可扩展性;
  • 模块化;

NLTK中的语料库

  • 古腾堡语料库:gutenberg
  • 网络聊天语料库:webtextnps_chat
  • 布朗语料库:brown
  • 路透社语料库:reuters
  • 就职演说语料库:inaugural
  • 其他语料库;

文本语料库结构

  • isolated: 独立型;
  • categorized:分类型;
  • overlapping:重叠型;
  • temporal:暂时型;

基本语料库函数

NLTK 基础知识总结

条件频率分布

NLTK 基础知识总结

总结

以上就是自然语言处理NLPNLTK模块的相关知识介绍了,希望通过本文能解决你对NLTK的相关疑惑,欢迎评论互相交流!!!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/231651.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 你的礼物

    你的礼物你的礼物

    2022年4月23日
    38
  • 菜鸟学Linux 第059篇笔记 编译安装MySQL,PHP 压力测试

    菜鸟学Linux 第059篇笔记 编译安装MySQL,PHP 压力测试

    2022年3月8日
    84
  • 大篆汉字对照表_篆书转换器软件下载(篆体字转换汉字对照表)[通俗易懂]

    笔顺篆书的笔顺和汉字笔顺规则基本相仿,如先横后竖、从上到下、从左到右等,这些对初学者来说是不成问题的。重要的是和汉字不同的笔顺,而这些不同之处正是篆书笔顺的特点,掌握了这些特点,就能把握好篆书的结体,做到匀称匀衡。先中间后左右对称均衡是篆字的特点。对于有中心竖线的篆字,应先写中间竖笔或中间部位的笔画,中间定位后,再写左右对称的其他笔画。对于有中心长弧(一般为撇、捺笔)的篆字,应先从中间长弧写起,再…

    2022年4月18日
    112
  • 3306端口被占用解决方式

    3306端口被占用解决方式3306 端口被占用解决方式打开 phpstudy 发现 3306 端口被占用了 win r 然后 cmd 进入命令行 输入 netstat ano 查看所有端口信息接着可以 netstat ano findstr 11412 输入对应端口的 PID 可以看到当前的端口被占用情况 打开任务管理器 在详细信息中找到对应 PID 结束该任务接着就可以成功开启了

    2025年12月6日
    6
  • 2021 Java面试真题集锦

    2021 Java面试真题集锦目录…1大厂面试的基本流程 17字节跳动 17阿里 17腾讯 18网易游戏 18面试前需要准备: 18面试中可以借鉴的套路 19用简历争取到更多的面试机会 19自我介绍时,立即全面抛出技术栈和亮点 20先介绍项目背景,打消面试官疑问 21通过说项目管理工具,说明你不仅会写代码 22用SPRINGBOOT项目举例,说明你的技术基本面 23用实例说明你在内存调优方面的经验 24展示你在数据库调优方面的经验 25总结前文说辞 26准备项目说辞时,更可以准备后继面试官的问

    2022年7月8日
    53
  • VS2008 WEB组件安装失败——解决办法[通俗易懂]

    VS2008 WEB组件安装失败——解决办法[通俗易懂]    最近在安装SqlServer2008R2时意外失败,错误从来没见过,原因无从查起。于是卸载了VisualStudio2008,然后把数据库和VS2008都重新装一遍,谁知道VS2008安装时竟然失败了,提示“WEB组件安装失败”。在网上查了下原因,很多人说的都是废话,结合部分有用的意见,我尝试了如下解决办法:  1、根据提示,是第一个组件“VisualStudioWeb…

    2025年8月26日
    11

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号