真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法问题现象:在Windows下使用Python读文件时,经常遇到UnicodeDecodeError:’gbk’codeccan’tdecodebyte0xffinposition0:illegalmultibytesequence错误。在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError:’utf-8’codeccan’tdecodebyte0xffinposition0:invalidsta

大家好,又见面了,我是你们的朋友全栈君。

问题现象:

在Windows下使用Python读文件时,经常遇到UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence错误。

在open函数参数中设置encoding=’utf-8’也不能解决问题,会出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte类似错误。

问题原因:

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式,含义为:

  • ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
  • Unicode: UTF-16(LE)
  • Unicode big endian: UTF-16(BE)
  • UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种,这3种编码方式的区别不再赘述,我们可以从文件的头部(即Windows中的特色!BOM:byte order mark)来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时,是UTF-16(LE)编码;当头部的两个字节为FEFF时,是UTF-16(BE)编码;当头部两个字节为EF BB时,是UTF-8-sig编码

因此,错误信息中0xff说明文件的编码为UTF-16!因此,设置UTF-8编码根本不解决问题。

解决方法:

在open函数encoding参数中设置正确的文件编码。

推荐使用chardet模块,检测文件编码方式。chardet非标准库模块,需要安装:pip install chardet

示例代码:

# coding=utf-8
def check_charset(file_path):
    import chardet
    with open(file_path, "rb") as f:
        data = f.read(4)
        charset = chardet.detect(data)['encoding']
    return charset

your_path = 你的文件路径
with open(your_path, encoding=check_charset(your_path)) as f:
    data = f.read()
    print(data)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149493.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 信用卡行为评分风险等级_信用卡综合评分标准

    信用卡行为评分风险等级_信用卡综合评分标准WOE&IVwoe全称叫WeightofEvidence,常用在风险评估、授信评分卡等领域。IV全称是Informationvalue,可通过woe加权求和得到,衡量自变量对应变量的预测能力。虽然网上到处都是神经网络、xgboost的文章,但当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:logistic模型客群变化的敏感度不如其他高…

    2025年6月13日
    5
  • [WinAPI] 获取窗口句柄的几种方法[通俗易懂]

    [WinAPI] 获取窗口句柄的几种方法[通俗易懂]转:http://www.cnblogs.com/zjutlitao/p/3889900.html1、使用FindWindow函数获取窗口句柄示例:使用FindWindow函数获取窗口句柄,然后获得窗口大小,并且移动窗口到指定位置。我们想获得酷我音乐盒的窗口句柄并移动它,该怎么办呢?首先打开VC或者VS里面tool中的SPY++点击查找窗口如下:PS:把那个靶心似的的东西…

    2022年7月21日
    42
  • bs和cs开发架构的详细解析区别_BS与CS架构区别

    bs和cs开发架构的详细解析区别_BS与CS架构区别目前开发的基本架构。一、CS结构—-Client/Server1、开发者需要编写两个端点,一个是客户端程序,一个是服务端程序。举例:QQ、360等等。2、需要再客户机安装客户端的部分。3、弊端:客户端的维护比较麻烦,机器只要一重装,就需要重新安装该软件,同时升级也比较麻烦。后期有了一个解决方案:对于升级,可以通过网络升级的形式完成。4、好处:客户端的出现,可以

    2022年10月16日
    2
  • java栈方法_java栈的两种实现方法[通俗易懂]

    java栈方法_java栈的两种实现方法[通俗易懂]java栈的实现有两种方式:一.使用数组来实现://使用数组实现栈,功能包括进行内存扩展publicclassStack{privateint[]data;privateintlength;//表示初始化栈的内存长度privateinttop;//用来表示栈的实际长度privatefinalintexpandLength=20;//表示扩展的长度publicStack(i…

    2025年9月19日
    5
  • tabnine激活码【注册码】

    tabnine激活码【注册码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月20日
    51
  • pytest 执行用例_测试用例一般执行多少次

    pytest 执行用例_测试用例一般执行多少次前言平常我们功能测试用例非常多时,比如有1千条用例,假设每个用例执行需要1分钟,如果单个测试人员执行需要1000分钟才能跑完当项目非常紧急时,会需要协调多个测试资源来把任务分成两部分,于是执行时间

    2022年7月31日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号