編碼

danny posted @ 2010年1月10日 04:28 in defaults with tags encode , 1703 阅读

PS：依据这以下文字可以得出几种编码内容之间的集合关系。

1 、所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就
可以用不同字节来存储英语的文字了。这个方案叫做 ANSI 的"Ascii"编码（American Standard Code for Information Interchange，美国信息互换标准代码）。当时世界上所有的计算机都用

同样的ASCII方案来保存英文文字。

2 、GB2312 是对 ASCII 的中文扩展。

3、 (GB2312)扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

4、 GBK 扩成了GB18030"DBCS"（Double Byte Charecter Set 双字节字符集）

5、包括了地球上所有文化、所有字母和符号的编码！他们打算叫它"Universal Multiple-Octet Coded Character Set"，简称 UCS, 俗称 "UNICODE"

6 、UNICODE 来到时，一起到来的还有计算机网络的兴起，UNICODE 如何在网络上传输也是一个必须考虑的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF8就是每次8个位传输数据，而UTF16就是每次16个位，只不过为了传输时的可靠性，从UNICODE到 UTF时并不是直接的对应，而是要过一些算法和规则来转换。

内容关系：ASCII＜GB2312＜GBK＜GB18030＜UNICODE

这里用＜表示包含于。

UTF8和UTF16是UNICODE的传输时所采用的形式