真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法问题现象:在Windows下使用Python读文件时,经常遇到UnicodeDecodeError:’gbk’codeccan’tdecodebyte0xffinposition0:illegalmultibytesequence错误。在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError:’utf-8’codeccan’tdecodebyte0xffinposition0:invalidsta

大家好,又见面了,我是你们的朋友全栈君。

问题现象:

在Windows下使用Python读文件时,经常遇到UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence错误。

在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte类似错误。

问题原因:

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式,含义为:

  • ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
  • Unicode: UTF-16(LE)
  • Unicode big endian: UTF-16(BE)
  • UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种,这3种编码方式的区别不再赘述,我们可以从文件的头部(即Windows中的特色!BOM:byte order mark)来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时,是UTF-16(LE)编码;当头部的两个字节为FEFF时,是UTF-16(BE)编码;当头部两个字节为EF BB时,是UTF-8-sig编码

因此,错误信息中0xff说明文件的编码为UTF-16!因此,设置UTF-8编码根本不解决问题。

解决方法:

在open函数encoding参数中设置正确的文件编码。

推荐使用chardet模块,检测文件编码方式。chardet非标准库模块,需要安装:pip install chardet

示例代码:

# coding=utf-8
def check_charset(file_path):
    import chardet
    with open(file_path, "rb") as f:
        data = f.read(4)
        charset = chardet.detect(data)['encoding']
    return charset

your_path = 你的文件路径
with open(your_path, encoding=check_charset(your_path)) as f:
    data = f.read()
    print(data)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149493.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 关系数据模型表示采用_数据库常见的数据模型

    关系数据模型表示采用_数据库常见的数据模型关系模型是目前最常用地数据模型之一。关系型数据库系统采用关系模型作为数据的组织方式,在关系模型中用表格结构表达实体集,以及实体集之间的联系,其最大特点是描述的一致性。关系模型是由若干个关系模式组成的集合。关系模式可记为R(A1,A2,A3,…,An),其中,R表示关系名,A1,A2,A3,…,An表示属性名。一个关系模式相当于一个记录型,对应与程序设计语言中类型定义的概念。关系是一个实例,也是一张…

    2025年6月23日
    2
  • 关于文件夹病毒exe的处理方法_文件夹自动生成快捷方式病毒

    关于文件夹病毒exe的处理方法_文件夹自动生成快捷方式病毒最近,因为U盘用的比较频繁,所以经常会感染到病毒,最常见的就是原来的文件夹后面增加了扩展名,变成了可执行文件。如原文件夹为“老舍”,感染病毒后变为“老舍.exe”。大小为665.KB。但是这种病毒不影响文件夹中文件的使用,只会影响文件夹的复制,粘贴,且它只存在在第一层目录中,后面的就没有影响。我给出的解决办法(只针对U盘)是:下载DirFixer.exe,并运行。这样会恢复出原来的文件夹,且e

    2025年7月2日
    5
  • JSP程序设计习题4-3.6[通俗易懂]

    JSP程序设计习题4-3.6[通俗易懂]3、编写两个JSP页面inputString.jsp和computer.jsp,用户可以使用inputString.jsp提供的表单输入一个字符串,并停交给computer.jsp页面,该页面通过内置对象获取inputString.jsp页面提交的字符串,并且是该字符串的长度。inputString.jsp代码如下:<%@pagelanguage=”java”contentType…

    2022年6月17日
    28
  • js的模块化可以怎么做_jscript和javascript的区别

    js的模块化可以怎么做_jscript和javascript的区别写了十年JS却不知道模块化为何物?

    2022年4月22日
    208
  • 使用 tar 压缩和解压缩的常用参数

    使用 tar 压缩和解压缩的常用参数tar常用参数:-A新增文件到已压缩文件中-c新建新压缩文件-r将新文件添加到已压缩文件的末尾-x解压缩文件-k保留原压缩文件-f待压缩或待解压缩文件-jbzip2格式-zgzip格式-v显示过程 常用解压缩:tar-xzvffile.gztar-xjvffile.bz2常用压缩:tar-czvfarchi…

    2022年5月25日
    41
  • DirectX修复工具下载(exagear模拟器数据包在哪里)

    DirectX修复工具通用数据包2019Q3版大小:135MB/7z格式压缩下载地址1:https://download.csdn.net/download/vbcom/11692840说明:本资源中包含DirectX修复工具数据包2019Q3版,适合已经有主程序而缺少数据包的用户使用。本数据包为通用数据包,适合各种版本的Direc…

    2022年4月13日
    467

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号