編碼

danny posted @ 2010年1月10日 04:28 in defaults with tags encode , 1643 阅读

PS:依据这以下文字可以得出几种编码内容之间的集合关系。

 

  1 、所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就
可以用不同字节来存储英语的文字了。这个方案叫做 ANSI 的"Ascii"编码(American Standard Code for Information Interchange,美国信息互换标准代码)。当时世界上所有的计算机都用

同样的ASCII方案来保存   英文文字。 


2 、GB2312 是对 ASCII 的中文扩展。


3、 (GB2312)扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。


4、 GBK 扩成了GB18030"DBCS"(Double Byte Charecter Set 双字节字符集)


5、 包括了地球上所有文化、所有字母 和符号的编码!他们打算叫它"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 "UNICODE" 


6 、UNICODE 来到时,一起到来的还有计算机网络的兴起,UNICODE 如何在网络上传输也是一个必须考虑的问题 ,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据   ,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要过一些算法和规则来转换。

内容关系:ASCII<GB2312<GBK<GB18030<UNICODE

这里用<表示包含于。

UTF8和UTF16是UNICODE的传输时所采用的形式

  • 无匹配

登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter