字符串在 Python 中是最簡單也是最常用的數(shù)據(jù)類型之一,在 CPython 中字符串的實現(xiàn)原理使用了一種叫做 Intern(字符串駐留)的技術(shù)來提高字符串效率。究竟什么是 intern 機制,這種機制又是通過什么方式來提高字符串效率的呢?希望這篇文章能夠拋磚引玉。
先來看一段代碼:
>>> s3 = "hello!" >>> s4 = "hello!" >>> s3 is s4 False >>> id(s3) 80325968L >>> id(s4) 80326048L
s3 和 s4 雖然值是一樣的,但確確實實是兩個不同的字符串對象,Python 會為它們倆各自分配一段內(nèi)存空間,假設(shè)程序中存在大量值相同的字符串,系統(tǒng)就不得不為每個字符串重復(fù)地分配內(nèi)存空間,顯然,對系統(tǒng)來說是一種無謂的資源浪費。為了解決這種問題,Python 引入了 intern 機制。
再來看:
>>> s3 = intern('hello!') >>> s4 = intern('hello!') >>> s3 is s4 True >>> id(s3) 80325968L >>> id(s4) 80325968L
intern 是 Python 中的一個內(nèi)建函數(shù),該函數(shù)的作用就是對字符串進(jìn)行 intern 機制處理,處理后返回字符串對象。我們發(fā)現(xiàn)但凡是值相同的字符串經(jīng)過 intern 機制處理之后,返回的都是同一個字符串對象,這種方式在處理大數(shù)據(jù)的時候無疑能節(jié)省更多的內(nèi)存空間,系統(tǒng)無需為相同的字符串重復(fù)分配內(nèi)存,對于值相同的字符串共用一個對象即可。
其實,實現(xiàn) Intern 機制的方式非常簡單,就是通過維護(hù)一個字符串儲蓄池,這個池子是一個字典結(jié)構(gòu),如果字符串已經(jīng)存在于池子中了就不再去創(chuàng)建新的字符串,直接返回之前創(chuàng)建好的字符串對象,如果之前還沒有加入到該池子中,則先構(gòu)造一個字符串對象,并把這個對象加入到池子中去,方便下一次獲取,用偽代碼就可以描述為:
intern_pool = {} def intern(s): if s in intern_pool: return intern_pool[s] else: obj = PyStringObject(s) intern_pool[s] = obj return obj
在主流面向?qū)ο蟮木幊陶Z言中intern 機制對于處理字符串已經(jīng)成為一種標(biāo)配,通過 intern 機制可以提高字符串的處理效率,當(dāng)然,解釋器內(nèi)部很對 intern 機制的使用策略是有考究的,有些場景會自動使用 intern ,有些地方需要通過手動方式才能啟動。比如:
>>> s1 = "hello" >>> s2 = "hello" >>> s1 is s2 True >>> id(s1) 72320704L >>> id(s2) 72320704L
這段代碼就是 Python自動使用了intern機制的結(jié)果。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
