unicodeencodeerror latin-1_gbk codec

unicodeencodeerror latin-1_gbk codec最近在搞人工智能的东东,玩了玩词云的东西,在编写代码时,出现了一个问题。目的:统计西游记里出现的词的内容。读取西游记整本小说的内容,然后进行统计分析。代码如下:text=open(‘西游记.txt’).read()但是在执行的时候一直报错:UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x80inposition2:i…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

最近在搞人工智能的东东,玩了玩词云的东西,在编写代码时,出现了一个问题。

目的:统计西游记里出现的词的内容。

读取西游记整本小说的内容,然后进行统计分析。

代码如下:

text = open('西游记.txt').read()

但是在执行的时候一直报错:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 2: illegal multibyte sequence

分析可能是由于小说里的内容不是标准的gbk的内容导致的。

查看小说内容截图:

在这里插入图片描述

于是乎查找了一番,分析可能是由于小说里还有特殊的符号等内容导致的。

想法:需要进行编码转换。

于是修改代码为,添加了编码范围为utf-8:

text = open('西游记.txt' ,encoding='utf-8').read()

若依然报错,可以添加属性忽略非法字符内容

text = open('西游记.txt', encoding='utf-8', errors='ignore' )

哦了!!问题解决!!成功显示出图如下!!!

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/194510.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • c++中map遍历_怎么遍历map集合

    c++中map遍历_怎么遍历map集合C++结构化绑定声明在map容器遍历上的应用

    2025年11月29日
    5
  • 统计模型评价准则 AIC「建议收藏」

    统计模型评价准则 AIC「建议收藏」统计模型评价时,经常见到一个准则AIC,全称是Akaikeinformationcriterion,是以日本的统计学家Akaike命名的,它的计算公式为:AIC=2k−ln⁡(L^)AIC=2k-\ln(\hat{L})AIC=2k−ln(L^)其中,kkk是模型中的待估参数数量,L^\hat{L}L^是该模型极大似然估计的最大值。AIC值越小,说明该统计模型损失的信息越少。…

    2022年5月23日
    50
  • mpVue_mpvue是什么

    mpVue_mpvue是什么mpvue配置flyio安装flyio配置fly安装flyiofly中文文档https://wendux.github.io/dist/#/doc/flyio/interceptor使用npm安装fly:npminstallflyio在src/main.js文件下引入其它引入方式请查看https://github.com/wendux/fly配置fly在使用fly请求借口是,…

    2025年10月9日
    2
  • glassfish是什么_glasses of

    glassfish是什么_glasses of一:安装下载:    必须预先安装Jdk,并且设置JAVA_HOME环境变量。从官网下载GlassFish,是一个jar文件。下载后运行:F:\>java-Xmx256m-jarglassfish-installer-v2ur2-b04-windows.jar如果这里不加上-Xmx256m,很有可能会报OutOfMemoryException。这个命令会产生一个名为glassf

    2022年8月20日
    7
  • get请求怎么传递多个参数

    get请求怎么传递多个参数

    2020年11月12日
    347
  • ConnectionString属性「建议收藏」

    ConnectionString属性「建议收藏」ConnectionString类似于OLEDB连接字符串,但并不相同。与OLEDB或ADO不同,如果“PersistSecurityInfo”值设置为false(默认值),则返回的连接字符串与用户设置的ConnectionString相同但去除了安全

    2022年7月12日
    21

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号