IT博客汇 | [原]回顾乱码(by quqi99)

[原]回顾乱码(by quqi99)

quqi99发表于 2016-12-07 18:08:56

**作者：张华发表于：2016-12-07
版权声明：可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明
( http://blog.csdn.net/quqi99 )**

python3中的默认编码unicode(UCS-2编码）采用2个字节表示全世界字符, 因为计算机内存只能存储二进制数据，因此需要对每一个unicode字符进行编码（即采用一串二进制数据来表示特定的字符）。utf-8是一种采用1到3个字节进行编码的格式，转换规则是：
UCS-2这符(16进制） UTF-8字节流(2进制）

000-007F           0xxxxxxx
0080-07FF          110xxxxx 10xxxxxx
0800-FFFF          1110xxxx 10xxxxxx 10xxxxxx

例如：中文字符”汉”的unicode(2个字节）字符编码的16进制数据为0x6C49(01101100 01001001)，它在0800-FFFF之间所以套用的模板为’1110xxxx 10xxxxxx 10xxxxxx’, 这样’01101100 01001001’为’0110 110001 001001’，套用模板后为’11100110 10110001 10001001’即’E6 B1 89’.

Python3中字符串str(“”)默认为unicode编码，字节流可以使用byte(b”“)
Python2中字符串str(“”)默认为字节流, unicode流可以使用unicode(u”“)

Python3中字符串默认为unicde编码，Python中和编码相关的两个函数为decode和encode：

encode，unicode字符串 -> 某个编码方式的字节
decode, 某个编码方式的字节流 -> unicode字符串

这时候可能有人会问：那么对于一个str类型（在Python2中已经是字节数组）再应用decode是什么概念呢？这时候其实str.encode(e)是和unicode(str).encode(e)是一样的，python底层做的时候也是确实这么做的。
所以对于Python2:

str.decode('中文编码').encode('utf-8')
str.decode('utf-8').encode('中文编码')
unicode("中文字符").encode("utf-8")

编码不一致就会报错：

>>> u'汉'
u'\u6c49'
>>> u'汉'.encode('utf8')
'\xe6\xb1\x89'
>>> u'汉'.encode('utf8').decode('utf8')
u'\u6c49'
>>> u'汉'.encode('utf8').decode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 2: incomplete multibyte sequence

#sys.stdout = codecs.getwriter('utf-8')(sys.stdout)
>>> print sys.stdin.encoding
UTF-8
>>> str('汉')
'\xe6\xb1\x89'
>>> str('汉').decode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 2: incomplete multibyte sequence
>>> str('汉').decode('utf8')
u'\u6c49'
>>> print str('汉').decode('utf8')
汉
>>> print sys.getdefaultencoding()
ascii
>>> sys.setdefaultencoding('UTF8')
>>> print sys.getdefaultencoding()
UTF8

#How to change file's encoding
#!/usr/bin/env python
# -*- coding: gbk -*-