真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法问题现象:在Windows下使用Python读文件时,经常遇到UnicodeDecodeError:’gbk’codeccan’tdecodebyte0xffinposition0:illegalmultibytesequence错误。在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError:’utf-8’codeccan’tdecodebyte0xffinposition0:invalidsta

大家好,又见面了,我是你们的朋友全栈君。

问题现象:

在Windows下使用Python读文件时,经常遇到UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence错误。

在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte类似错误。

问题原因:

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式,含义为:

  • ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
  • Unicode: UTF-16(LE)
  • Unicode big endian: UTF-16(BE)
  • UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种,这3种编码方式的区别不再赘述,我们可以从文件的头部(即Windows中的特色!BOM:byte order mark)来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时,是UTF-16(LE)编码;当头部的两个字节为FEFF时,是UTF-16(BE)编码;当头部两个字节为EF BB时,是UTF-8-sig编码

因此,错误信息中0xff说明文件的编码为UTF-16!因此,设置UTF-8编码根本不解决问题。

解决方法:

在open函数encoding参数中设置正确的文件编码。

推荐使用chardet模块,检测文件编码方式。chardet非标准库模块,需要安装:pip install chardet

示例代码:

# coding=utf-8
def check_charset(file_path):
    import chardet
    with open(file_path, "rb") as f:
        data = f.read(4)
        charset = chardet.detect(data)['encoding']
    return charset

your_path = 你的文件路径
with open(your_path, encoding=check_charset(your_path)) as f:
    data = f.read()
    print(data)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149493.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 访问网站出现 Directory Listing Denied This Virtual Directory 

    访问网站出现 Directory Listing Denied This Virtual Directory 

    2021年9月20日
    48
  • MySQL5.7版本sql_mode=only_full_group_by问题解决办法

    MySQL5.7版本sql_mode=only_full_group_by问题解决办法在服务器数据库查询使用了GROUPBY居然报出了1055-Expression#1ofSELECTlistisnotinGROUPBYclauseandcontainsnonaggregatedcolumn’csc_risk.a.DefaultDate’whichisnotfunctionallydependentoncolumnsin…

    2022年5月9日
    62
  • 并发测试工具jmeter了解下?

    并发测试工具jmeter了解下?并发测试工具jmeter了解下?前言随着互联网规模的不断发展壮大,系统接口的并发要求也是越来越高了,虽然现在已经有了很多技术可以提升系统的并发性能,但是测试又遇到了新的问题,我们该如何模拟线上环境

    2022年7月4日
    24
  • 关于tcp连接中timewait的作用

    关于tcp连接中timewait的作用今天简单的谈一下tcp连接中timewait的作用,如果没有timewait会发生什么呢?我们知道首先请求关闭连接的一方会存在timewait状态。首先我们来看一下tcp四次挥手的过程示意图:客户端首先发起FIN请求,所以客户端会进入time_wait状态。如果没有time_wait或者用户自己通过调整tcp_tw_recycle缩短了time_wait的时间会出现生什问题呢?

    2022年6月9日
    35
  • windows上mysql安装教程_mysql和oracle的区别

    windows上mysql安装教程_mysql和oracle的区别前期在windows电脑尝试安装mysql,经历诸多不顺,特把安装详细步骤以及遇见的问题记录下来,提供给有需者使用。配置过程主要分为五个步骤,如下所示:(1)确认本地是否安装mysql(2)下载mysql安装包(3)添加配置文件并安装mysql(4)修改mysql密码(5)配置环境变量【确认本地是否安装mysql】(1)按【win+r】快捷键打开运行;(2)输入services.msc,点击【确定】;(3)在打开的服务列表中查找mysql服务,如果没有mysql服务,说明本机没有安装my

    2025年11月15日
    4
  • 踩坑啥意思_年轻人踩坑

    踩坑啥意思_年轻人踩坑Unity小科普老规矩,先介绍一下Unity的科普小知识:Unity是实时3D互动内容创作和运营平台。包括游戏开发、美术、建筑、汽车设计、影视在内的所有创作者,借助Unity将创意变成现实。Unity平台提供一整套完善的软件解决方案,可用于创作、运营和变现任何实时互动的2D和3D内容,支持平台包括手机、平板电脑、PC、游戏主机、增强现实和虚拟现实设备。也可以简单把Unity理解为一个游戏引擎,可以用来专业制作游戏!

    2025年9月6日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号