Python源文件中设置字符编码

Lasted 2020-01-08 10:41:05

默认情况下，Python 源码文件以 UTF-8 编码方式处理。在这种编码方式中，世界上大多数语言的字符都可以同时用于字符串字面值、变量或函数名称以及注释中——尽管标准库中只用常规的 ASCII 字符作为变量或函数名，而且任何可移植的代码都应该遵守此约定。要正确显示这些字符，你的编辑器必须能识别 UTF-8 编码，而且必须使用能支持打开的文件中所有字符的字体。

如果不使用默认编码，要声明文件所使用的编码，文件的第一行要写成特殊的注释。语法如下所示：

# -*- coding: encoding -*-

比如，要声明使用 Windows-1252 编码，你的源码文件要写成：

# -*- coding: cp1252 -*-

关于第一行规则的一种例外情况是，源码以 UNIX "shebang" 行开头。这种情况下，编码声明就要写在文件的第二行。例如：

#!/usr/bin/env python3
# -*- coding: gbk -*-

字符编码集参见：https://docs.python.org/3/library/codecs.html#module-codecs

Python2的默认编码是ASCII码，当后来大家对支持汉字、日文、法语等语言的呼声越来越高时，Python于是准备引入unicode,但若直接把默认编码改成unicode的话是不现实的，因为很多软件就是基于之前的默认编码ASCII开发的，编码一换，那些软件的编码就都乱了。通常为了不出现乱码需要设置 coding。

Python3文件默认编码 UTF-8，字符串编码为 unicode，直接打印中文一般不会出现乱码。