發(fā)現(xiàn)問題
上周,我的測試同事告訴我,你的用戶名怎么還允許中文啊?當(dāng)時(shí)我心里就想,你們測試肯定又搞錯(cuò)接口了,我用的是正則w過濾了參數(shù),怎么可能出錯(cuò),除非Python正則系統(tǒng)出錯(cuò)了,那是不可能的。本著嚴(yán)謹(jǐn)?shù)淖黠L(fēng),我自己先測試一下,沒問題看我怎么懟回去。可是當(dāng)我測試,我就懵逼了,中文真TM都驗(yàn)證通過,不對啊,我以前也是這么過濾參數(shù)的,測試沒問題啊?唯一的區(qū)別是現(xiàn)在用的是Python3。
上網(wǎng)搜了一圈,發(fā)現(xiàn)沒有一篇文章講述Python2和Python3的正則在處理字符串是的區(qū)別,都是一視同仁,知道我去翻了一遍官方文檔,才明白怎么回事。
問題復(fù)現(xiàn)
我們都知道,Python有個(gè)正則規(guī)則
w
,幾乎所有的網(wǎng)上博客文章都告訴你,這個(gè)規(guī)則匹配字母數(shù)字及下劃線,但實(shí)際并不是這樣:
有Python2代碼如下:
~|? python
Python 2.7.10 (default, Aug 17 2018, 19:45:58)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = '捕蛇者說'
>>> re.match('\w{1,20}', aa)
>>> bb = 'abc123ADB'
>>> re.match('\w{1,20}', bb)
<_sre.SRE_Match object at 0x1031b0b28>
我們可以看到,在python2中,
w
是無法匹配中文的。那么,同樣的代碼在Python3中運(yùn)行結(jié)果是什么樣子的了?
~|? python3
Python 3.7.1 (default, Nov 28 2018, 11:55:14)
[Clang 9.0.0 (clang-900.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = '捕蛇者說'
>>> re.match('\w{1,20}', aa)
>>> bb = 'abc123ADB'
>>> re.match('\w{1,20}', bb)
但在Python3中
w
是可以匹配中文的,這是怎么回事了?要回答這個(gè)問題,我們要回到Python官方文檔中來尋找答案。
解決問題
當(dāng)我們仔細(xì)閱讀Python的官方文檔時(shí),就會發(fā)現(xiàn),對于同樣的正則規(guī)則
w
,Python2和Python3區(qū)別好大,我們先來看看Python2:
When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.
翻譯一下:當(dāng)沒有設(shè)置LOCALE(re.L)和UNICODE(re.U)標(biāo)志,匹配數(shù)字字母和下劃線,如果設(shè)置了LOCALE(re.L)則匹配數(shù)字下劃線和LOCALE文字。如果設(shè)置了UNICODE(re.U)標(biāo)志,匹配數(shù)字下劃線和Unicode字符集里的字符。
那么Python3了:
對于 Unicode (str) 樣式:
匹配Unicode詞語的字符,包含了可以構(gòu)成詞語的絕大部分字符,也包括數(shù)字和下劃線。如果設(shè)置了 ASCII 標(biāo)志,就只匹配 [a-zA-Z0-9_] 。
對于8位(bytes)樣式:
匹配ASCII字符中的數(shù)字和字母和下劃線,就是 [a-zA-Z0-9_] 。如果設(shè)置了 LOCALE 標(biāo)記,就匹配當(dāng)前語言區(qū)域的數(shù)字和字母和下劃線。
到此,我明白了,默認(rèn)情況下,不設(shè)置任何標(biāo)志,Python2 w匹配ASCII字符集里的字符,包括數(shù)字字符和下劃線,Python3 w匹配數(shù)字下劃線和Unicode字符集。所以,為了遷移方便,如果你想匹配ASCII字符集里的字符,指定標(biāo)志為re.A,如果你想匹配Unicode字符集里的字符,指定標(biāo)志為re.U。
總結(jié)
到此,我的問題是徹底解決了,但也有兩個(gè)教訓(xùn):
- 看網(wǎng)上的教程要多注意,特別是教程里的環(huán)境和自己環(huán)境的區(qū)別
- 多看官方文檔
關(guān)于Python2和Python3,還有很多區(qū)別,這里就不一一列舉了,歡迎大家留言討論。
獲取更多文章,關(guān)注我的公眾號:littlebyte
收藏我的博客
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
