真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

问题现象：

在Windows下使用Python读文件时，经常遇到UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence错误。

在open函数参数中设置encoding='utf-8'也不能解决问题，会出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte类似错误。

问题原因：

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式，含义为：

ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
Unicode: UTF-16(LE)
Unicode big endian: UTF-16(BE)
UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种，这3种编码方式的区别不再赘述，我们可以从文件的头部（即Windows中的特色！BOM:byte order mark）来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时，是UTF-16(LE)编码；当头部的两个字节为FEFF时，是UTF-16(BE)编码；当头部两个字节为EF BB时，是UTF-8-sig编码。

因此，错误信息中0xff说明文件的编码为UTF-16！因此，设置UTF-8编码根本不解决问题。

解决方法：

在open函数encoding参数中设置正确的文件编码。

推荐使用chardet模块，检测文件编码方式。chardet非标准库模块，需要安装：pip install chardet

示例代码：

# coding=utf-8
def check_charset(file_path):
    import chardet
    with open(file_path, "rb") as f:
        data = f.read(4)
        charset = chardet.detect(data)['encoding']
    return charset

your_path = 你的文件路径
with open(your_path, encoding=check_charset(your_path)) as f:
    data = f.read()
    print(data)

本文地址：https://blog.csdn.net/mighty13/article/details/107132272

《真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法.doc》

下载本文的Word格式文档，以方便收藏与打印。

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

相关推荐

xpath之string(.)方法

Python time strftime() 方法的使用

2022-07-05：给定一个数组，想随时查询任何范围上的最大值。如果只是根据初始数组建立、并且以后没有修改，那么RMQ方法比线段树方法好实现，时间复杂度O(NlogN)，额外空间复杂度O(N

解决：Invalid HTTP_HOST header: '192.168.56.1:8001'. You may need to add '192.168.56.1' to ALLOWED_HOSTS.

【Redis】-使用Lua脚本解决多线程下的超卖问题以及为什么？

2022-11-08：以下go语言代码输出什么？A：2；B：编译错误；C：运行 panic。 package main import “fmt“ func main() { a := []int

python3安装xadmin出现 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 3444: illegal multibyte sequence

Django错误大汇总

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

相关推荐

xpath之string(.)方法

Python time strftime() 方法的使用

2022-07-05：给定一个数组，想随时查询任何范围上的最大值。 如果只是根据初始数组建立、并且以后没有修改， 那么RMQ方法比线段树方法好实现，时间复杂度O(N*logN)，额外空间复杂度O(N*

解决：Invalid HTTP_HOST header: '192.168.56.1:8001'. You may need to add '192.168.56.1' to ALLOWED_HOSTS.

【Redis】-使用Lua脚本解决多线程下的超卖问题以及为什么？

2022-11-08：以下go语言代码输出什么？A：2；B：编译错误；C：运行 panic。 package main import “fmt“ func main() { a := []int

python3安装xadmin出现 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 3444: illegal multibyte sequence

Django错误大汇总

2022-07-05：给定一个数组，想随时查询任何范围上的最大值。如果只是根据初始数组建立、并且以后没有修改，那么RMQ方法比线段树方法好实现，时间复杂度O(NlogN)，额外空间复杂度O(N