黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

輸入碼、區(qū)位碼、國標(biāo)碼與機(jī)內(nèi)碼

系統(tǒng) 2168 0
  我們知道,鍵盤是當(dāng)前微機(jī)的主要輸入設(shè)備,輸入碼就是使用英文鍵盤輸入漢字時(shí)的編碼。目前,我國已推出的輸入碼有數(shù)百種,但用戶使用較多的約為十幾種,按輸入碼編碼的主要依據(jù),大體可分為順序碼、音碼、形碼、音形碼四類,如"保"字,用全拼,輸入碼為碼為"BAO",用區(qū)位碼,輸入碼為"1703",用五筆字型則為"WKS"。
  計(jì)算機(jī)只識別由0、1組成的代碼,ASCII碼是英文信息處理的標(biāo)準(zhǔn)編碼,漢字信息處理也必須有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)編碼。我國國家標(biāo)準(zhǔn)局于1981年5月頒布了《信息交換用漢字編碼字符集──基本集》,代號為GB2312-80,共對6763個(gè)漢字和682個(gè)圖形字符進(jìn)行了編碼,其編碼原則為:漢字用兩個(gè)字節(jié)表示,每個(gè)字節(jié)用七位碼(高位為0),國家標(biāo)準(zhǔn)將漢字和圖形符號排列在一個(gè)94行94列的二維代碼表中,每兩個(gè)字節(jié)分別用兩位十進(jìn)制編碼,前字節(jié)的編碼稱為區(qū)碼,后字節(jié)的編碼稱為位碼,此即區(qū)位碼,如"保"字在二維代碼表中處于17區(qū)第3位,區(qū)位碼即為"1703
"。
  國標(biāo)碼并不等于區(qū)位碼,它是由區(qū)位碼稍作轉(zhuǎn)換得到,其轉(zhuǎn)換方法為:先將十進(jìn)制區(qū)碼和位碼轉(zhuǎn)換為十六進(jìn)制的區(qū)碼和位碼,這樣就得了一個(gè)與國標(biāo)碼有一個(gè)相對位置差的代碼,再將這個(gè)代碼的第一個(gè)字節(jié)和第二個(gè)字節(jié)分別加上20H,就得到國標(biāo)碼,相當(dāng)于如果不轉(zhuǎn)換的話,在兩個(gè)字節(jié)上分別加上32即可。如:"保"字的國標(biāo)碼為3123H,它是經(jīng)過下面的轉(zhuǎn)換得到的:1703D->1103H->+20H->3123H。
  國標(biāo)碼是漢字信息交換的標(biāo)準(zhǔn)編碼,但因其前后字節(jié)的最高位為0,與ASCII碼發(fā)生沖突,如"保"字,國標(biāo)碼為31H和23H,而西文字符"1"和"#"的SCII也為31H和23H,現(xiàn)假如內(nèi)存中有兩個(gè)字節(jié)為31H和23H,這到底是一個(gè)漢字,還是兩個(gè)西文字符"1"和"#"?于是就出現(xiàn)了二義性,顯然,國標(biāo)碼是不可能在計(jì)算機(jī)內(nèi)部直接采用的,于是,漢字的機(jī)內(nèi)碼采用變形國標(biāo)碼,其變換方法為:將國標(biāo)碼的每個(gè)字節(jié)都加上128,即將兩個(gè)字節(jié)的最高位由0改1,其余7位不變,也就是如果國標(biāo)碼是16進(jìn)制的,直接加上8080H即可。如:由上面我們知道,"保"字的國標(biāo)碼為3123H,前字節(jié)為00110001B,后字節(jié)為00100011B,高位改1為10110001B和10100011B
即為B1A3H,因此,"保"字的機(jī)內(nèi)碼就是B1A3H。
顯然,漢字機(jī)內(nèi)碼的每個(gè)字節(jié)都大于128,這就解決了與西文字符的ASCII碼沖突的問題。
  如上所述,漢字輸入碼、區(qū)位碼、國標(biāo)碼與機(jī)內(nèi)碼都是漢字的編碼形式,它們之間有著千絲萬縷的聯(lián)系,但其間的區(qū)別也是不容忽視的。
  公式總結(jié):
  區(qū)位碼 + 2020H = 國標(biāo)碼

  國標(biāo)碼 + 8080H = 機(jī)內(nèi)碼

? ? ? ?為了適應(yīng)計(jì)算機(jī)處理漢字信息的需要,1981年我國頒布了GB2312國家標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)選出6763個(gè)常用漢字(其中,一級常用漢字3755個(gè),二級漢字3008個(gè))和682個(gè)非漢字字符,并為每個(gè)字符規(guī)定了標(biāo)準(zhǔn)代碼,以便在不同的計(jì)算機(jī)系統(tǒng)之間進(jìn)行漢字文本交換。

GB2312字符集構(gòu)成一個(gè)94行、94列的二維表,行號稱為區(qū)號,列號稱為位號,每一個(gè)漢字或符號在碼表中的位置用它所在的區(qū)號和位號來表示。

為了處理與存儲的方便,每個(gè)漢字的區(qū)號和位號在計(jì)算機(jī)內(nèi)部分別用一個(gè)字節(jié)來表示。例如,“學(xué)”字的區(qū)號為49,位號為07,它的區(qū)位碼即為4907,用2個(gè)字節(jié)的二進(jìn)制數(shù)表示為:

00110001 00000111

區(qū)位碼無法用于漢字通信,因?yàn)樗赡芘c通信使用的控制碼(00H~1FH)(即0~31)發(fā)生沖突。ISO2022規(guī)定每個(gè)漢字的區(qū)號和位號必須分別加上32(即二進(jìn)制數(shù)00100000),經(jīng)過這樣的處理而得的代碼稱為國標(biāo)交換碼,簡稱交換碼,因此,“學(xué)”字的國標(biāo)交換碼計(jì)算為:

?00110001 00000111
+00100000 +00100000
-------------------
?01010001 00100111

用十六進(jìn)制數(shù)表示即為5127H。

由于文本中通常混合使用漢字和西文字符,漢字信息如果不予以特別標(biāo)識,就會與單字節(jié)的ASCII碼混淆。此問題的解決方法之一是將一個(gè)漢字看成是兩個(gè)擴(kuò)展ASCII碼,使表示GB2312漢字的兩個(gè)字節(jié)的最高位都為1。這種高位為1的雙字節(jié)漢字編碼即為GB2312漢字的機(jī)內(nèi)碼,簡稱為內(nèi)碼。

因此,“學(xué)”字的機(jī)內(nèi)碼為:

11010001 10100111

用16進(jìn)制表示即為D1A7H。

最后要指出的是,漢字的輸入編碼與漢字的機(jī)內(nèi)碼是不同范疇的概念。不管采用什么樣的編碼輸入法(例如拼音、五筆字型等)來輸入一個(gè)漢字,其機(jī)內(nèi)碼都是相同的。

說明:本文整理自《大學(xué)計(jì)算機(jī)信息技術(shù)教程》(南京大學(xué)出版社)一書。

-----------------------------------------------------------------

漢字庫通俗地說就是計(jì)算機(jī)軟件系統(tǒng)中的漢字倉庫,依據(jù)不同的標(biāo)準(zhǔn),字庫中漢字的數(shù)量是不同的,以前的主要標(biāo)準(zhǔn)有:
  1、GB 2312 漢字編碼字符集
  從1975年開始,我國為了研究漢字的使用頻度,進(jìn)行了大規(guī)模的字頻統(tǒng)計(jì)工作,內(nèi)容包括工業(yè)、農(nóng)業(yè)、軍事、科技、政治、經(jīng)濟(jì)、文學(xué)、藝術(shù)、教育、體育、醫(yī)藥衛(wèi)生、天文地理、自然、化學(xué)、文字改革、考古等多方面的出版物,在數(shù)以億計(jì)的浩瀚文獻(xiàn)資料中,統(tǒng)計(jì)出實(shí)際使用的不同的漢字?jǐn)?shù)為6335個(gè),而其中有3000多個(gè)漢字的累計(jì)使用頻度達(dá)到了99.9%,而另外的3000多個(gè)累計(jì)頻度不到0.1%,說明了常用漢字與次常用漢字的數(shù)量不足7000個(gè),這就為國家制定漢字庫標(biāo)準(zhǔn)提供了依據(jù)。1980年頒布了《信息交換用漢字編碼字符集—基本集》的國標(biāo)交換碼,國家標(biāo)準(zhǔn)號為:GB2312-80,選入了6763個(gè)漢字,分為兩級,一級字庫中有3755個(gè),是常用漢字,二級字庫中有3008個(gè),是次常用漢字;還選入了682個(gè)字符,包含有數(shù)字、一般符號、拉丁字母、***假名、希臘字母、俄文字母、拼音符號、注音字母等。以前我國大陸的各種中文DOS版本、Windows3.1 /3.2版本,裝入的字庫都是國標(biāo)一二級字庫。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等漢字,既無法輸入,又不能打印。?
后來國家技術(shù)監(jiān)督局又頒布了一個(gè)與之相對應(yīng)的繁體字集,全稱《信息交換用漢字編碼字符集輔助集》,標(biāo)準(zhǔn)號為GB/T12345-90。

-----------------------------------------------------------------

GB2312編碼大約包含6000多漢字(不包括特殊字符),編碼范圍為第一位b0-f7,第二位編碼范圍為a1-fe(第一位為cf時(shí),第二位為a1-d3),計(jì)算一下漢字個(gè)數(shù)為6762個(gè)漢字。當(dāng)然還有其他的字符。包括控制鍵和其他字符大約7573個(gè)字符編碼。

GBK編碼是對GB2312編碼的擴(kuò)充,容納的漢字更多,但僅僅是擴(kuò)充,沒有質(zhì)的變化。保留了所有G B2312編碼,在此基礎(chǔ)上進(jìn)行編碼范圍的擴(kuò)充.容納(包含特殊字符)共22014個(gè)字符編碼。

GB18030編碼是在gbk編碼基礎(chǔ)上的擴(kuò)充,因?yàn)闈h字更多,僅僅使用兩位編碼已經(jīng)不能容納要求的漢字,所以采用了2\4位混和的辦法,可以支持更多的漢字編碼。并且保留了原有的GBK 2字節(jié)編碼兼容GB2312和GBK編碼的文件。大概容納55657個(gè)編碼(包含特殊字符)。

unicode編碼(也就是UTF編碼):俗稱萬國碼,致力于使用統(tǒng)一的編碼準(zhǔn)則表達(dá)各國的文字。為表達(dá)更多的文字,utf-8采用2/3混編的方式。目前容納的漢字范圍小于gbk編碼。并且以3字節(jié)的方式處理中文,帶來了兼容性的問題,原有的GBK,GB2312,GB18030編碼文件都不能正常的處理,還有很長的路要走。

輸入碼、區(qū)位碼、國標(biāo)碼與機(jī)內(nèi)碼


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論