編碼
PS:依据这以下文字可以得出几种编码内容之间的集合关系。
1 、所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就
可以用不同字节来存储英语的文字了。这个方案叫做 ANSI 的"Ascii"编码(American Standard Code for Information Interchange,美国信息互换标准代码)。当时世界上所有的计算机都用
同样的ASCII方案来保存 英文文字。
2 、GB2312 是对 ASCII 的中文扩展。
3、 (GB2312)扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
4、 GBK 扩成了GB18030"DBCS"(Double Byte Charecter Set 双字节字符集)
5、 包括了地球上所有文化、所有字母 和符号的编码!他们打算叫它"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 "UNICODE"
6 、UNICODE 来到时,一起到来的还有计算机网络的兴起,UNICODE 如何在网络上传输也是一个必须考虑的问题 ,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据 ,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要过一些算法和规则来转换。
内容关系:ASCII<GB2312<GBK<GB18030<UNICODE
这里用<表示包含于。
UTF8和UTF16是UNICODE的传输时所采用的形式