>>name='老齊'>>>name'\xe8\x80\x81\xe9\xbd\x90'在你的編程中,你遇到過上面的情形嗎?認識最下面一行打印出來的東西嗎?看人家英文,就好多了>>>name="qiwsir">>>name'qiwsir'難道這是中文的錯嗎?看來投胎真的是一個技" />

欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

跟老齊學Python之坑爹的字符編碼

系統 1771 0

字符編碼,在編程中,是一個讓學習者比較郁悶的東西,比如一個str,如果都是英文,好說多了。但恰恰不是如此,中文是我們不得不用的。所以,哪怕是初學者,都要了解并能夠解決字符編碼問題。

            
>>> name = '老齊'
>>> name
'\xe8\x80\x81\xe9\xbd\x90'

          

在你的編程中,你遇到過上面的情形嗎?認識最下面一行打印出來的東西嗎?看人家英文,就好多了

            
>>> name = "qiwsir"
>>> name
'qiwsir'

          

難道這是中文的錯嗎?看來投胎真的是一個技術活。是的,投胎是技術活,但上面的問題不是中文的錯。

編碼

什么是編碼?這是一個比較玄乎的問題。也不好下一個普通定義。我看到有的教材中有定義,不敢說他的定義不對,至少可以說不容易理解。

古代打仗,擊鼓進攻、鳴金收兵,這就是編碼。吧要傳達給士兵的命令對應為一定的其它形式,比如命令“進攻”,經過如此的信息傳遞:

跟老齊學Python之坑爹的字符編碼_第1張圖片

長官下達進攻命令,傳令員將這個命令編碼為鼓聲(如果復雜點,是不是有幾聲鼓響,如何進攻呢?)。
鼓聲在空氣中傳播,比傳令員的嗓子吼出來的聲音傳播的更遠,士兵聽到后也不會引起歧義,一般不會有士兵把鼓聲當做打呼嚕的聲音。這就是“進攻”命令被編碼成鼓聲之后的優勢所在。
士兵聽到鼓聲,就是接收到信息之后,如果接受過訓練或者有人告訴過他們,他們就知道這是讓我進攻。這個過程就是解碼。所以,編碼方案要有兩套。一套在信息發出者那里,另外一套在信息接受者這里。經過解碼之后,士兵明白了,才行動。
以上過程比較簡單。其實,真實的編碼和解碼過程,要復雜了。不過,原理都差不多的。

舉一個似乎遙遠,其實不久前人們都在使用的東西做例子:電報

復制代碼 代碼如下:

電報是通信業務的一種,在19世紀初發明,是最早使用電進行通信的方法。電報大為加快了消息的流通,是工業社會的其中一項重要發明。早期的電報只能在陸地上通訊,后來使用了海底電纜,開展了越洋服務。到了20世紀初,開始使用無線電撥發電報,電報業務基本上已能抵達地球上大部份地區。電報主要是用作傳遞文字訊息,使用電報技術用作傳送圖片稱為傳真。
中國首條出現電報線路是1871年,由英國、俄國及丹麥敷設,從香港經上海至日本長崎的海底電纜。由于清政府的反對,電纜被禁止在上海登陸。后來丹麥公司不理清政府的禁令,將線路引至上海公共租界,并在6月3日起開始收發電報。至于首條自主敷設的線路,是由福建巡撫丁日昌在臺灣所建,1877年10月完工,連接臺南及高雄。1879年,北洋大臣李鴻章在天津、大沽及北塘之間架設電報線路,用作軍事通訊。1880年,李鴻章奏準開辦電報總局,由盛宣懷任總辦。并在1881年12月開通天津至上海的電報服務。李鴻章?h:“五年來,我國創設沿江沿海各省電線,總計一萬多里,國家所費無多,巨款來自民間。當時正值法人挑釁,將帥報告軍情,朝廷傳達指示,均相機而動,無絲毫阻礙。中國自古用兵,從未如此神速。出使大臣往來問答,朝發夕至,相隔萬里好似同居庭院。舉設電報一舉三得,既防止外敵侵略,又加強國防,亦有利于商務?!碧旖蚬匐娋钟诟釉鈦y全毀。1887年,臺灣巡撫劉銘傳敷設了福州至臺灣的海底電纜,是中國首條海底電纜。1884年,北京電報開始建設,采用"安設雙線,由通州展至京城,以一端引入署中,專遞官信,以一端擇地安置用便商民",同年8月5日,電報線路開始建設,所有電線桿一律漆成紅色。8月22日,位于北京崇文門外大街西的喜鵲胡同的外城商用電報局開業。同年8月30日,位于崇文門內泡子和以西的呂公堂開局,專門收發官方電報。
為了傳達漢字,電報部門準備由4位數字或3位羅馬字構成的代碼,即中文電碼,采用發送前將漢字改寫成電碼發出,收電報后再將電碼改寫成漢字的方法。
列位看官注意了,這里出現了電報中用的“中文電碼”,這就是一種編碼,將漢字對應成阿拉伯數字,從而能夠用電報發送漢字。

1873年,法國駐華人員威基杰參照《康熙字典》的部首排列方法,挑選了常用漢字6800多個,編成了第一部漢字電碼本《電報新書》。
電報中的編碼被稱為摩爾斯電碼,英文是Morse Code

摩爾斯電碼(英語:Morse Code)是一種時通時斷的信號代碼,通過不同的排列順序來表達不同的英文字母、數字和標點符號。是由美國人薩繆爾?摩爾斯在1836年發明。
摩爾斯電碼是一種早期的數字化通信形式,但是它不同于現代只使用0和1兩種狀態的二進制代碼,它的代碼包括五種:點(.)、劃(-)、每個字符間短的停頓(在點和劃之間的停頓)、每個詞之間中等的停頓、以及句子之間長的停頓
看來電報員是一個技術活,不同長短的停頓都代表了不同意思。哦,對了,有一個老片子《永不消逝的電波》,看完之后保證你才知道,里面根本就沒有講電報是怎么編碼的。

摩爾斯電碼在海事通訊中被作為國際標準一直使用到1999年。1997年,當法國海軍停止使用摩爾斯電碼時,發送的最后一條消息是:“所有人注意,這是我們在永遠沉寂之前最后的一聲吶喊!”

跟老齊學Python之坑爹的字符編碼_第2張圖片
我瞪著眼看了老長時間,這兩行不是一樣的嗎?

不管這個了,總之,這就是編碼。

計算機中的字符編碼

先抄一段維基百科對字符編碼的解釋:

復制代碼 代碼如下:
字符編碼(英語:Character encoding)、字集碼是把字符集中的字符編碼為指定集合中某一對象(例如:比特模式、自然數串行、8位組或者電脈沖),以便文本在計算機中存儲和通過通信網絡的傳遞。常見的例子包括將拉丁字母表編碼成摩斯電碼和ASCII。其中,ASCII將字母、數字和其它符號編號,并用7比特的二進制來表示這個整數。通常會額外使用一個擴充的比特,以便于以1個字節的方式存儲。
在計算機技術發展的早期,如ASCII(1963年)和EBCDIC(1964年)這樣的字符集逐漸成為標準。但這些字符集的局限很快就變得明顯,于是人們開發了許多方法來擴展它們。對于支持包括東亞CJK字符家族在內的寫作系統的要求能支持更大量的字符,并且需要一種系統而不是臨時的方法實現這些字符的編碼。
在這個世界上,有好多不同的字符編碼。但是,它們不是自己隨便搞搞的。而是要有一定的基礎,往往是以名叫ASCII的編碼為基礎,這里邊也應該包括北朝鮮吧(不知道他們用什么字符編碼,瞎想的,別當真,不代表本教材立場,只代表瞎想)。

ASCII(pronunciation: 英語發音:/??ski/ ASS-kee1,American Standard Code for Information Interchange,美國信息交換標準代碼)是基于拉丁字母的一套電腦編碼系統。它主要用于顯示現代英語,而其擴展版本EASCII則可以部分支持其他西歐語言,并等同于國際標準ISO/IEC 646。由于萬維網使得ASCII廣為通用,直到2007年12月,逐漸被Unicode取代。
上面的引文中已經說了,現在我們用的編碼標準,已經不是ASCII了,我上大學那時候老師講的還是ASCII呢(最坑爹的是貴國的大學教育,前幾天面試一個大學畢業生,計算機專業的,他告訴我他的老師給他們講的就是ASCII為編碼標準呢,我說你別埋汰老師了,你去看看教材,今天這哥們真給我發短信了,告訴我教材上就是這么說的。),時代變遷,現在已經變成了Unicode了,那么什么是Unicode編碼呢?還是抄一段來自維基百科的說明(需要說明一下,本講不是我qiwsir在講,是維基百科在講,我只是一個配角,哈哈)

Unicode(中文:萬國碼、國際碼、統一碼、單一碼)是計算機科學領域里的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。
Unicode伴隨著通用字符集的標準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為7.0.0,已收入超過十萬個字符(第十萬個字符在2005年獲采納)。Unicode涵蓋的數據除了視覺上的字形、編碼方法、標準的字符編碼外,還包含了字符特性,如大小寫字母。


聽這名字:萬國碼,那就一定包含了中文嘍。的確是。但是,光有一個Unicode還不行,因為....(此處省略若干字,看官可以到上面給出的維基百科連接中看),還要有其它的一些編碼實現方式,Unicode的實現方式稱為Unicode轉換格式(Unicode Transformation Format,簡稱為UTF),于是乎有了一個我們在很多時候都會看到的utf-8。

什么是utf-8 ,還是看維基百科上怎么說的吧

復制代碼 代碼如下:
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字符編碼,也是一種前綴碼。它可以用來表示Unicode標準中的任何字符,且其編碼中的第一個字節仍與ASCII兼容,這使得原來處理ASCII字符的軟件無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中,優先采用的編碼。
不再多引用了,如果要看更多,請到原文。

看官現在是不是就理解了,前面寫程序的時候,曾經出現過:coding:utf-8的字樣。就是在告訴python我們要用什么字符編碼呢。

encode和decode

歷史部分說完了,接下怎么講?比較麻煩了。因為不管怎么講,都不是三言兩語說清楚的。姑且從encode()和decode()兩個內置函數起吧。

codecs.encode(obj[, encoding[, errors]]):Encodes obj using the codec registered for encoding.
codecs.decode(obj[, encoding[, errors]]):Decodes obj using the codec registered for encoding.
python2默認的編碼是ascii,通過encode可以將對象的編碼轉換為指定編碼格式,而decode是這個過程的逆過程。

做一個實驗,才能理解:

復制代碼 代碼如下:
>>> a = "中"
>>> type(a)

>>> a
'\xe4\xb8\xad'
>>> len(a)
3

>>> b = a.decode()
>>> b
u'\u4e2d'
>>> type(b)

>>> len(b)
1


這個實驗不做之前,或許看官還不是很迷茫(因為不知道,知道的越多越迷茫),實驗做完了,自己也迷茫了。別急躁,對編碼問題的理解,要慢慢來,如果一時理解不了,也肯定理解不了,就先注意按照要求做,做著做著就豁然開朗了。

上面試驗中,變量a引用了一個字符串,所謂字符串(str),嚴格地將是字節串,它是經過編碼后的字節組成的序列。也就是你在上面的實驗中,看到的是“中”這個字在計算機中編碼之后的字節表示。(關于字節,看官可以google一下)。用len(a)來度量它的長度,它是由三個字節組成的。

然后通過decode函數,將字節串轉變為字符串,并且這個字符串是按照unicode編碼的。在unicode編碼中,一個漢字對應一個字符,這時候度量它的長度就是1.

反過來,一個unicode編碼的字符串,也可以轉換為字節串。

復制代碼 代碼如下:
>>> c = b.encode('utf-8')
>>> c
'\xe4\xb8\xad'
>>> type(c)

>>> c == a
True

關于編碼問題,先到這里,點到為止吧。因為再扯,還會扯出問題來??垂倏隙ǜ械讲粷M意,因為還沒有知其所以然。沒關系,請盡情google,即可解決。

python中如何避免中文是亂碼

這個問題是一個具有很強操作性的問題。我這里有一個經驗總結,分享一下,供參考:

首先,提倡使用utf-8編碼方案,因為它跨平臺不錯。

經驗一:在開頭聲明:

# -*- coding: utf-8 -*-
有朋友問我-*-有什么作用,那個就是為了好看,愛美之心人皆有,更何況程序員?當然,也可以寫成:

# coding:utf-8
經驗二:遇到字符(節)串,立刻轉化為unicode,不要用str(),直接使用unicode()

unicode_str = unicode('中文', encoding='utf-8')
print unicode_str.encode('utf-8')
經驗三:如果對文件操作,打開文件的時候,最好用codecs.open,替代open(這個后面會講到,先放在這里)

import codecs
codecs.open('filename', encoding='utf8')
我還收集了網上的一片文章,也挺好的,推薦給看官:Python2.x的中文顯示方法

最后告訴給我,如果用python3,坑爹的編碼問題就不煩惱了。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久久久久国产一区二区三区 | 狠狠的撸2015最新版狠狠的撸2015最新版 | 国产不卡一区 | 久久草在线视频 | 99re3| 无限资源动漫精彩日本 | 日本久久综合网 | 三级在线观看 | 日日碰狠狠躁久久躁婷婷 | 欧美区在线 | 精品一区二区国语对白 | 日色视频 | 热伊人99re久久精品最新地 | 丁香婷婷色综合亚洲小说 | 成人免费视频观看视频 | 亚洲国产精品视频 | 麻豆精品国产自产在线 | 欧美成人影院在线观看三级 | 五月综合色 | 日日骚网 | 日本三级免费 | 91久久久久久 | 久操伊人 | 9久热这里只有精品视频在线观看 | 五月综合激情婷婷六月 | 久草在线免费新视频 | aaqqw| 国产成人综合久久 | 国产高清在线视频 | 亚洲精品国产综合一线久久 | 国产精品视频网站 | 初女破苞国语在线观看免费 | 小明看看在线视频 | 波多野一区二区 | 上海一级毛片 | 国产精品手机在线 | 日韩视频在线播放 | 国产精品国产三级国产aⅴ入口 | 欧美极品在线观看 | 青娱分类视频精品免费2 | 91中文字幕在线 |