基本知識(shí)字節(jié)和字符的區(qū)別Bi" />

欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

Unicode詳解

系統(tǒng) 1813 0

最近一直在忙點(diǎn)私活,又好久沒(méi)寫(xiě)blog了,再不寫(xiě)點(diǎn)的話二月份就又要以單篇文章結(jié)束了。前一陣子一直在研究Unicode,索性把研究結(jié)果介紹一下吧。

可能大家都聽(tīng)說(shuō)過(guò) Unicode、UCS-2、UTF-8 等等詞匯,但它們具體是什么意思,是什么原理,之間有什么關(guān)系,恐怕就很少有人明白了。下面就分別介紹一下它們。

<!-- end Pukiwiki generated code-->

?

<!-- begin Pukiwiki generated code-->

基本知識(shí)

介紹Unicode之前,首先要講解一些基礎(chǔ)知識(shí)。雖然跟Unicode沒(méi)有直接的關(guān)系,但想弄明白Unicode,沒(méi)這些還真不行。

字節(jié)和字符的區(qū)別

咦,字節(jié)和字符能有什么區(qū)別?。坎欢际且粯拥膯幔客耆_,但只是在古老的DOS時(shí)代。當(dāng)Unicode出現(xiàn)后,字節(jié)和字符就不一樣了。

字節(jié)(octet)是一個(gè)八位的存儲(chǔ)單元,取值范圍一定是0~255。而字符(character,或者word)為語(yǔ)言意義上的符號(hào),范圍就不一定了。例如在UCS-2中定義的字符范圍為0~65535,它的一個(gè)字符占用兩個(gè)字節(jié)。

Big Endian和Little Endian

上面提到了一個(gè)字符可能占用多個(gè)字節(jié),那么這多個(gè)字節(jié)在計(jì)算機(jī)中如何存儲(chǔ)呢?比如字符0xabcd,它的存儲(chǔ)格式到底是 AB CD,還是 CD AB 呢?

實(shí)際上兩者都有可能,并分別有不同的名字。如果存儲(chǔ)為 AB CD,則稱為 Big Endian ;如果存儲(chǔ)為 CD AB,則稱為 Little Endian 。

具體來(lái)說(shuō),以下這種存儲(chǔ)格式為Big Endian,因?yàn)橹?0xabcd)的高位(0xab)存儲(chǔ)在前面:

地址
0x00000000 AB
0x00000001 CD

相反,以下這種存儲(chǔ)格式為L(zhǎng)ittle Endian:

地址
0x00000000 CD
0x00000001 AB

UCS-2和UCS-4

Unicode是為整合全世界的所有語(yǔ)言文字而誕生的。任何文字在Unicode中都對(duì)應(yīng)一個(gè)值,這個(gè)值稱為 代碼點(diǎn) (code point)。代碼點(diǎn)的值通常寫(xiě)成 U+ABCD 的格式。而文字和代碼點(diǎn)之間的對(duì)應(yīng)關(guān)系就是 UCS-2 (Universal Character Set coded in 2 octets)。顧名思義,UCS-2是用兩個(gè)字節(jié)來(lái)表示代碼點(diǎn),其取值范圍為 U+0000~U+FFFF。

為了能表示更多的文字,人們又提出了UCS-4,即用四個(gè)字節(jié)表示代碼點(diǎn)。它的范圍為 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一樣的。

要注意,UCS-2和UCS-4只規(guī)定了代碼點(diǎn)和文字之間的對(duì)應(yīng)關(guān)系,并沒(méi)有規(guī)定代碼點(diǎn)在計(jì)算機(jī)中如何存儲(chǔ)。規(guī)定存儲(chǔ)方式的稱為 UTF (Unicode Transformation Format),其中應(yīng)用較多的就是UTF-16和UTF-8了。

UTF-16和UTF-32

UTF-16

UTF-16由 RFC2781 規(guī)定,它使用兩個(gè)字節(jié)來(lái)表示一個(gè)代碼點(diǎn)。

不難猜到,UTF-16是完全對(duì)應(yīng)于UCS-2的,即把UCS-2規(guī)定的代碼點(diǎn)通過(guò)Big Endian或Little Endian方式直接保存下來(lái)。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

UTF-16BE和UTF-16LE不難理解,而UTF-16就需要通過(guò)在文件開(kāi)頭以名為BOM(Byte Order Mark)的字符來(lái)表明文件是Big Endian還是Little Endian。BOM為U+FEFF這個(gè)字符。

其實(shí)BOM是個(gè)小聰明的想法。由于UCS-2沒(méi)有定義U+FFFE,因此只要出現(xiàn) FF FE 或者 FE FF 這樣的字節(jié)序列,就可以認(rèn)為它是U+FEFF,并且可以判斷出是Big Endian還是Little Endian。

舉個(gè)例子?!癆BC”這三個(gè)字符用各種方式編碼后的結(jié)果如下:

UTF-16BE 00 41 00 42 00 43
UTF-16LE 41 00 42 00 43 00
UTF-16(Big Endian) FE FF 00 41 00 42 00 43
UTF-16(Little Endian) FF FE 41 00 42 00 43 00
UTF-16(不帶BOM) 00 41 00 42 00 43

Windows平臺(tái)下默認(rèn)的Unicode編碼為L(zhǎng)ittle Endian的UTF-16(即上述的 FF FE 41 00 42 00 43 00)。你可以打開(kāi)記事本,寫(xiě)上ABC,然后保存,再用二進(jìn)制編輯器看看它的編碼結(jié)果。

另外,UTF-16還能表示一部分的UCS-4代碼點(diǎn)——U+10000~U+10FFFF。表示算法比較復(fù)雜,簡(jiǎn)單說(shuō)明如下:

  1. 從代碼點(diǎn)U中減去0x10000,得到U'。這樣U+10000~U+10FFFF就變成了 0x00000~0xFFFFF。
  2. 用20位二進(jìn)制數(shù)表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
  3. 將前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,則 W1 = D800~DBFF,W2 = DC00~DFFF。

例如,U+12345表示為 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。

但是由于這種算法的存在,造成UCS-2中的 U+D800~U+DFFF 變成了無(wú)定義的字符。

UTF-32

UTF-32用四個(gè)字節(jié)表示代碼點(diǎn),這樣就可以完全表示UCS-4的所有代碼點(diǎn),而無(wú)需像UTF-16那樣使用復(fù)雜的算法。與UTF-16類似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼,UTF-32也同樣需要BOM字符。僅用'ABC'舉例:

UTF-32BE 00 00 00 41 00 00 00 42 00 00 00 43
UTF-32LE 41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(Big Endian) 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
UTF-32(Little Endian) FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(不帶BOM) 00 00 00 41 00 00 00 42 00 00 00 43

UTF-8

UTF-16和UTF-32的一個(gè)缺點(diǎn)就是它們固定使用兩個(gè)或四個(gè)字節(jié),這樣在表示純ASCII文件時(shí)會(huì)有很多00字節(jié),造成浪費(fèi)。而 RFC3629 定義的UTF-8則解決了這個(gè)問(wèn)題。

UTF-8用1~4個(gè)字節(jié)來(lái)表示代碼點(diǎn)。表示方式如下:

UCS-2 (UCS-4) 位序列 第一字節(jié) 第二字節(jié) 第三字節(jié) 第四字節(jié)
U+0000 .. U+007F 00000000-0xxxxxxx 0xxxxxxx ? ? ?
U+0080 .. U+07FF 00000xxx-xxyyyyyy 110xxxxx 10yyyyyy ? ?
U+0800 .. U+FFFF xxxxyyyy-yyzzzzzz 1110xxxx 10yyyyyy 10zzzzzz ?
U+10000..U+10FFFF 00000000-000wwwxx-
xxxxyyyy-yyzzzzzzz
11110www 10xxxxxx 10yyyyyy 10zzzzzz

可見(jiàn),ASCII字符(U+0000~U+007F)部分完全使用一個(gè)字節(jié),避免了存儲(chǔ)空間的浪費(fèi)。而且UTF-8不再需要BOM字節(jié)。

另外,從上表中可以看出,單字節(jié)編碼的第一字節(jié)為[00-7F],雙字節(jié)編碼的第一字節(jié)為[C2-DF],三字節(jié)編碼的第一字節(jié)為[E0-EF]。這樣只要看到第一個(gè)字節(jié)的范圍就可以知道編碼的字節(jié)數(shù)。這樣也可以大大簡(jiǎn)化算法。

?

Unicode詳解


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 色综合久久综合中文小说 | 九九爱国产 | 久久精品国产第一区二区 | 免费欧美黄色网址 | av网站在线看 | 欧美一区二区三区免费不卡 | 欧美精品一区二区三区在线 | 欧美在线视频一区二区三区 | a级特黄的片子 | 午夜资源在线 | 国产精品亚洲第一 | 尤物网站永久在线观看 | 精品三级国产 | 91社区在线高清 | 欧美久久xxxxxx影院 | 亚洲午夜精品A片久久不卡蜜桃 | 青青青国产依人精品视频 | 欧美黄视频网站 | 亚洲一区二区三区久久 | 欧美极品在线 | 亚洲欧美中文在线观看4 | 成人免费大片a毛片 | a在线免费观看 | 色婷婷久久久亚洲一区二区三区 | 狠狠操夜夜操 | 嫩草影院永久在线播放 | 国内精品视频免费观看 | 人人澡人人澡人人看添欧美 | 日韩有码在线播放 | 亚洲精品久 | 美女吊逼| 国产野花视频天堂视频免费 | 日韩欧美在线视频 | 欧美视频观看 | 久久久久久一区 | a级片在线免费观看 | 成人一级片 | 欧美精品久久久 | 日韩大片免费在线观看 | 在线a人片免费观看国产 | 三黄日本三级在线观看 |