真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法问题现象:在Windows下使用Python读文件时,经常遇到UnicodeDecodeError:’gbk’codeccan’tdecodebyte0xffinposition0:illegalmultibytesequence错误。在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError:’utf-8’codeccan’tdecodebyte0xffinposition0:invalidsta

大家好,又见面了,我是你们的朋友全栈君。

问题现象:

在Windows下使用Python读文件时,经常遇到UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence错误。

在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte类似错误。

问题原因:

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式,含义为:

  • ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
  • Unicode: UTF-16(LE)
  • Unicode big endian: UTF-16(BE)
  • UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种,这3种编码方式的区别不再赘述,我们可以从文件的头部(即Windows中的特色!BOM:byte order mark)来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时,是UTF-16(LE)编码;当头部的两个字节为FEFF时,是UTF-16(BE)编码;当头部两个字节为EF BB时,是UTF-8-sig编码

因此,错误信息中0xff说明文件的编码为UTF-16!因此,设置UTF-8编码根本不解决问题。

解决方法:

在open函数encoding参数中设置正确的文件编码。

推荐使用chardet模块,检测文件编码方式。chardet非标准库模块,需要安装:pip install chardet

示例代码:

# coding=utf-8
def check_charset(file_path):
    import chardet
    with open(file_path, "rb") as f:
        data = f.read(4)
        charset = chardet.detect(data)['encoding']
    return charset

your_path = 你的文件路径
with open(your_path, encoding=check_charset(your_path)) as f:
    data = f.read()
    print(data)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149493.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月24日 下午8:00
下一篇 2022年6月24日 下午8:00


相关推荐

  • Gemini-2.5-Flash-Image-Preview 与 GPT-4o 图像生成能力技术差异解析​ – 教程

    Gemini-2.5-Flash-Image-Preview 与 GPT-4o 图像生成能力技术差异解析​ – 教程

    2026年3月16日
    2
  • 局域网攻击ettercap 详解(dns 欺诈)

    局域网攻击ettercap 详解(dns 欺诈)ettercap是一个基于ARP地址欺骗方式的网络嗅探工具,主要适用于交换局域网络。借助于EtterCap嗅探软件,渗透测试人员可以检测网络内明文数据通讯的安全性,及时采取措施,避免敏感的用户名/密码等数据以明文的方式进行传输。ettercap几乎是每个渗透测试人员必备的工具之一。 ettercap是一款现有流行的网络抓包软件,它利用计算机在局域网内进行通信的ARP协议的缺陷进行攻击,在目标与服务…

    2022年6月28日
    180
  • Pandas的Apply函数——Pandas中最好用的函数

    Pandas的Apply函数——Pandas中最好用的函数Pandas最好用的函数Pandas是Python语言中非常好用的一种数据结构包,包含了许多有用的数据操作方法。而且很多算法相关的库函数的输入数据结构都要求是pandas数据,或者有该数据的接口。仔细看pandas的API说明文档,就会发现有好多有用的函数,比如非常常用的文件的读写函数就包括如下函数:FormatTypeDataDescriptionRe…

    2022年6月22日
    34
  • OpenClaw Ansible 安装

    OpenClaw Ansible 安装

    2026年3月14日
    1
  • Python内置函数作用及解析

    Python内置函数作用及解析Python 内置的函数及其用法 为了方便记忆 已经有很多开发者将这些内置函数进行了如下分类 数学运算 7 个 类型转换 24 个 序列操作 8 个 对象操作 7 个 反射操作 8 个 变量操作 2 个 交互操作 2 个 文件操作 1 个 编译执行 4 个 装饰器 3 个 接下来看看具体每个类别里包含了那些内置函数一 数学运算类 abs x

    2026年3月20日
    3
  • Python的strftime函数与calendar模块函数

    Python的strftime函数与calendar模块函数Python 的 strftime 函数与 calendar 模块函数一 strftime 函数二 使用步骤 1 引入库 2 读入数据总结一 strftime 函数 strftime 函数的调用格式为 strftime 日期格式 表示按指定的日期格式返回当前日期二 使用步骤 1 引入库代码如下 示例 importnumpya pyplotasplti

    2026年3月16日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号