unicodeencodeerror latin-1_gbk codec

unicodeencodeerror latin-1_gbk codec最近在搞人工智能的东东,玩了玩词云的东西,在编写代码时,出现了一个问题。目的:统计西游记里出现的词的内容。读取西游记整本小说的内容,然后进行统计分析。代码如下:text=open(‘西游记.txt’).read()但是在执行的时候一直报错:UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x80inposition2:i…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

最近在搞人工智能的东东,玩了玩词云的东西,在编写代码时,出现了一个问题。

目的:统计西游记里出现的词的内容。

读取西游记整本小说的内容,然后进行统计分析。

代码如下:

text = open('西游记.txt').read()

但是在执行的时候一直报错:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 2: illegal multibyte sequence

分析可能是由于小说里的内容不是标准的gbk的内容导致的。

查看小说内容截图:

在这里插入图片描述

于是乎查找了一番,分析可能是由于小说里还有特殊的符号等内容导致的。

想法:需要进行编码转换。

于是修改代码为,添加了编码范围为utf-8:

text = open('西游记.txt' ,encoding='utf-8').read()

若依然报错,可以添加属性忽略非法字符内容

text = open('西游记.txt', encoding='utf-8', errors='ignore' )

哦了!!问题解决!!成功显示出图如下!!!

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/194510.html原文链接:https://javaforall.net

(0)
上一篇 2025年11月4日 下午2:22
下一篇 2025年11月4日 下午3:01


相关推荐

  • MySQL:两表取交集、并集、差集「建议收藏」

    MySQL:两表取交集、并集、差集「建议收藏」创建两个表:CREATETABLEa_student(idINTNOTNULLPRIMARYKEYAUTO_INCREMENTCOMMENT'主键',sno

    2022年7月4日
    140
  • Java + Ajax跨域解决方案整理

    Java + Ajax跨域解决方案整理为什么会跨域呢?简单来说就是前端页面与后台服务没有部署在同一个服务器上。产生跨域的情况有:1.域名不同,端口也不同;2.域名相同但是端口不同;3.域名不同,端口相同。解决方案:一、JSONP方式1.只支持get方法,不支持postfang方法;使用时需修改前端和后端代码,用起来也不太方便,本文不推荐使用。二、使用springMVC架构的,使用版本4.2以上…

    2022年8月24日
    7
  • js 将字符串中指定字符全局替换

    js 将字符串中指定字符全局替换JavaScript 中的 replace 方法用于将字符串或其中的子字符串替换为指定字符 或替换一个与正则表达式匹配的子串 该方法不会改变原始字符串 语法 stringObject replace regexp substr replacement 它将在 stringObject 中查找与 regexp 相匹配的子字符串 然后用 replacement 来替换这些子串 如果 r

    2026年3月18日
    3
  • Canny边缘检测及C++实现「建议收藏」

    Canny边缘检测及C++实现「建议收藏」Canny边缘检测算法是澳大利亚科学家JohnF.Canny在1986年提出来的,不得不提一下的是当年JohnCanny本人才28岁!到今天已经30年过去了,Canny算法仍然是图像边缘检测算法中最经典有效的算法之一。一起睹一下大家芳容:JohnCanny研究了最优边缘检测方法所需的特性,给出了评价边缘检测性能优劣的3个指标:1 好的信噪比,即将非边缘点判定为

    2022年5月30日
    43
  • 协同过滤推荐算法代码实现(rsa算法例题)

    什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤(CollaborativeFiltering,简称CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。换句话说,就是借鉴和你相关人群的观点来进行推

    2022年4月17日
    43
  • 2019年互联网企业软件测试面试题(常考)

    2019年互联网企业软件测试面试题(常考)很多软件测试工程师在面试互联网企业的时候都会遇到考官给的几道面试题 这也反应了测试工程师对企业的重要性 今天传智播客整理了一份 2019 年的互联网企业软件测试面试题 希望能帮助到大家 2019 年互联网企业软件测试面试题 常考 1 什么是兼容性测试 答 兼容性测试是检查软件在不同软件平台 硬件平台上是否可以正常运行的测试 主要查看软件在不同操作系统 浏览器 数据库中运行是否正常 2 你能不能

    2026年3月27日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号