NLTK 基础知识总结

NLTK 基础知识总结什么事实 NLTKNLTK 全称 NaturalLangu 自然语言处理工具包 是 NLP 研究领域常用的一个 Python 库 由宾夕法尼亚大学的 StevenBird 和 EdwardLoper 在 Python 的基础上开发的一个模块 至今已有超过十万行的代码 这是一个开源项目 包含数据集 Python 模块 教程等 怎样安装详情可以参见我的另一篇博客 NLP 的开发环境搭建 通

什么是 NLTK

NLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven BirdEdward LoperPython的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;

如何安装

详情可以参见我的另一篇博客NLP的开发环境搭建,通过这篇博客,你将学会Python环境的安装以及NLTK模块的下载;

常见模块及用途

NLTK 基础知识总结

NLTK能干啥?

  • 搜索文本
    • 单词搜索:
    • 相似词搜索;
    • 相似关键词识别;
    • 词汇分布图;
    • 生成文本;
  • 计数词汇
    NLTK 基础知识总结
    NLTK 基础知识总结

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018-9-28 22:21 # @Author : Manu # @Site :  # @File : python_base.py # @Software: PyCharm from __future__ import division import nltk import matplotlib from nltk.book import * from nltk.util import bigrams # 单词搜索 print('单词搜索') text1.concordance('boy') text2.concordance('friends') # 相似词搜索 print('相似词搜索') text3.similar('time') #共同上下文搜索 print('共同上下文搜索') text2.common_contexts(['monstrous','very']) # 词汇分布表 print('词汇分布表') text4.dispersion_plot(['citizens', 'American', 'freedom', 'duties']) # 词汇计数 print('词汇计数') print(len(text5)) sorted(set(text5)) print(len(set(text5))) # 重复词密度 print('重复词密度') print(len(text8) / len(set(text8))) # 关键词密度 print('关键词密度') print(text9.count('girl')) print(text9.count('girl') * 100 / len(text9)) # 频率分布 fdist = FreqDist(text1) vocabulary = fdist.keys() for i in vocabulary: print(i) # 高频前20 fdist.plot(20, cumulative = True) # 低频词 print('低频词:') print(fdist.hapaxes()) # 词语搭配 print('词语搭配') words = list(bigrams(['louder', 'words', 'speak'])) print(words) 

NLTK设计目标

  • 简易性;
  • 一致性;
  • 可扩展性;
  • 模块化;

NLTK中的语料库

  • 古腾堡语料库:gutenberg
  • 网络聊天语料库:webtextnps_chat
  • 布朗语料库:brown
  • 路透社语料库:reuters
  • 就职演说语料库:inaugural
  • 其他语料库;

文本语料库结构

  • isolated: 独立型;
  • categorized:分类型;
  • overlapping:重叠型;
  • temporal:暂时型;

基本语料库函数

NLTK 基础知识总结

条件频率分布

NLTK 基础知识总结

总结

以上就是自然语言处理NLPNLTK模块的相关知识介绍了,希望通过本文能解决你对NLTK的相关疑惑,欢迎评论互相交流!!!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/231651.html原文链接:https://javaforall.net

(0)
上一篇 2025年11月29日 下午12:01
下一篇 2025年11月29日 下午12:22


相关推荐

  • 涂鸦模组开发光照传感器的作用_光学模组

    涂鸦模组开发光照传感器的作用_光学模组涂鸦模组开发光照传感器(OPT3006)概述涂鸦智能系统框架设计OPT3006超薄环境光传感器TYZS5模组特点PCB绘制涂鸦零代码开发涂鸦模组开发文章概述亮度传感器是一种常用的智能检测设备,主要利用亮度集成传感器,实时检测环境明暗的亮度数据。它不仅仅适用于智能家居体系,同样被广泛应用于场景中,例如办公楼、酒店、公寓、学校、医院、养老院、商场、餐厅、银行、仓库、街道等。根据外界环境光线的明暗,实现与其它智能设备的联动;还可通过设定延时功能,避免光线瞬间变化造成干扰。在此,分析并选取合适的平台、传

    2026年4月18日
    5
  • 说说Python程序的执行过程

    说说Python程序的执行过程1.Python是一门解释型语言?我初学Python时,听到的关于Python的第一句话就是,Python是一门解释性语言,我就这样一直相信下去,直到发现了*.pyc文件的存在。如果是解释型语言,

    2022年7月5日
    24
  • shell变量学习记录

    shell变量学习记录

    2022年3月11日
    37
  • 怎么检查iis是否安装成功_注册表信息

    怎么检查iis是否安装成功_注册表信息利用注册表检测IIS是否安装

    2022年4月21日
    109
  • 如何将本地文件通过终端上传到linux服务器 /服务器/阿里云「建议收藏」

    如何将本地文件通过终端上传到linux服务器 /服务器/阿里云「建议收藏」scp-P端口c://xxxx.txtuser@ip:/home/root注意:-P大写-i公钥(我是将文件上传到阿里云)(1)在本地的终端下,而不是在服务器上。在本地的终端上才能将本地的文件拷入服务器。(2)scp-rlocalfile.txtusername@192.168.0.1:/home/username/其中,1)scp是命令,-r是参…

    2022年4月30日
    405
  • Mac时钟屏保_屏保显示mac地址

    Mac时钟屏保_屏保显示mac地址实用兼美观,Fliqlo称得上是人气最高的屏保之一。翻页日历式的复古界面,结合了电子和机械的美感,下载地址:Fliqlo-TheFlipClockScreensaver

    2026年4月18日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号