什么是正則?
假如現在你用python寫一段代碼,類似:
phone_number = input('please input your phone number : ')
你怎么判斷這個phone_number是合法的呢?
根據手機號碼一共11位并且是只以13、14、15、16、17、18、19開頭的數字這些特點,用python寫如下代碼:
判斷手機號碼是否合法:
# 方法1
while True:
phone_number = input('please input your phone number : ')
if len(phone_number) == 11 \
and phone_number.isdigit()\
and (phone_number.startswith('13') \
or phone_number.startswith('14') \
or phone_number.startswith('15') \
or phone_number.startswith('16')\
or phone_number.startswith('17')\
or phone_number.startswith('18')\
or phone_number.startswith('19')):
print('是合法的手機號碼')
else:
print('不是合法的手機號碼')
# 方法2
import re
phone_number = input('please input your phone number : ')
if re.match('^(1[3-9])[0-9]{9}$',phone_number):
print('是合法的手機號碼')
else:
print('不是合法的手機號碼')
上面第二種更簡練的方法就是正則。
??????? 正則表達式不僅在Python領域,在整個編程界都占有舉足輕重的地位。 正則表達式 本身也和Python沒有什么關系,就是 匹配字符串內容的一種規則 。而re模塊是Python對正則的實現。
?
?
正則表達式
現在就先來看一些實際的應用。在線測試工具 ? http://tool.chinaz.com/regex/
首先要知道的是,談到正則,就只和字符串相關了。在提供的工具中,你輸入的每一個字都是一個字符串。
其次,如果在一個位置的一個值,不會出現什么變化,那么是不需要規則的。
比如你要用"1"去匹配"1",或者用"2"去匹配"2",直接就可以匹配上。這連python的字符串操作都可以輕松做到。
那么在之后我們更多要考慮的是在同一個位置上可以出現的字符的范圍。
字符組
字符組 : [字符組]
在同一個位置可能出現的各種字符組成了一個字符組,在正則表達式中用[]表示
字符分為很多類,比如數字、字母、標點等等。
假如你現在要求一個位置"只能出現一個數字",那么這個位置上的字符只能是0、1、2...9這10個數之一。
|
|
|
|
|
|
|
|
|
|
|
|
?
|
?
|
|
|
?
|
?
|
?
|
?
|
?
|
?
|
?
|
?
|
?
|
?
|
?
|
?
|
字符:
?
|
?
|
.? | 匹配除換行符以外的任意字符 |
\w | 匹配字母或數字或下劃線 |
\s | 匹配任意的空白符 |
\d | 匹配數字 |
\n | 匹配一個換行符 |
\t | 匹配一個制表符 |
\b | 匹配一個單詞的結尾 |
^ | 匹配字符串的開始 |
$ | 匹配字符串的結尾 |
\W |
|
\D |
|
\S |
|
a|b |
|
() |
|
[...] |
|
[^...] |
|
?
量詞:
|
|
* | 重復零次或更多次 |
+ | 重復一次或更多次 |
? | 重復零次或一次 |
{n} | 重復n次 |
{n,} | 重復n次或更多次 |
{n,m} | 重復n到m次 |
?
. ^ $
正則 | 待匹配字符 |
匹配
結果 |
說明 |
海. | 海燕海嬌海東 | 海燕海嬌海東 | ? 匹配所有"海."的字符 |
^海. | 海燕海嬌海東 | 海燕 | 只從開頭匹配"海." |
? 海.$ | ? 海燕海嬌海東 | 海東 | 只匹配結尾的"海.$" |
?
* + ? { }
正則 | 待匹配字符 |
匹配
結果 |
說明 |
李.? | 李杰和李蓮英和李二棍子 |
李杰
|
?
?
|
李.* | 李杰和李蓮英和李二棍子 | 李杰和李蓮英和李二棍子 |
|
李.+ | 李杰和李蓮英和李二棍子 | 李杰和李蓮英和李二棍子 |
|
李.{1,2} | 李杰和李蓮英和李二棍子 |
李杰和
|
|
?注意:前面的*,+,?等都是貪婪匹配,也就是盡可能匹配,后面加?號使其變成惰性匹配
正則 | 待匹配字符 |
匹配
結果 |
說明 |
李.*? | 李杰和李蓮英和李二棍子 |
李
李 李 |
惰性匹配 |
?
字符集[][^]
正則 | 待匹配字符 |
匹配
結果 |
說明 |
李[杰蓮英二棍子]* | 李杰和李蓮英和李二棍子 |
李杰
|
?
?
|
李[^和]* | 李杰和李蓮英和李二棍子 |
李杰
|
|
[\d] | 456bdha3 |
4
|
|
[\d]+ | 456bdha3 |
456
|
|
?
分組 ()與 或 |[^]
?身份證號碼是一個長度為15或18個字符的字符串,如果是15位則全部?數字組成,首位不能為0;如果是18位,則前17位全部是數字,末位可能是數字或x,下面我們嘗試用正則來表示:
正則 | 待匹配字符 |
匹配
結果 |
說明 |
^[1-9]\d{13,16}[0-9x]$ | 110101198001017032 |
110101198001017032 |
? ?表示可以匹配一個正確的身份證號 |
^[1-9]\d{13,16}[0-9x]$ | 1101011980010170 |
1101011980010170 |
|
^[1-9]\d{14}(\d{2}[0-9x])?$ | 1101011980010170 |
False |
|
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ | 110105199812067023 |
110105199812067023 |
|
?
轉義符 \
??????? 在正則表達式中,有很多有特殊意義的是元字符,比如\n和\s等,如果要在正則中匹配正常的"\n"而不是"換行符"就需要對"\"進行轉義,變成'\\'。
??????? 在python中,無論是正則表達式,還是待匹配的內容,都是以字符串的形式出現的,在字符串中\也有特殊的含義,本身還需要轉義。所以如果匹配一次"\n",字符串中要寫成'\\n',那么正則里就要寫成"\\\\n",這樣就太麻煩了。這個時候我們就用到了r'\n'這個概念,此時的正則是r'\\n'就可以了。
正則 | 待匹配字符 |
匹配
結果 |
說明 |
\n | \n | ?False |
|
\\n | \n | ?True |
|
"\\\\n" | '\\n' | ?True |
|
r'\\n' | r'\n' | ?True |
|
?
貪婪匹配
貪婪匹配:在滿足匹配時,匹配盡可能長的字符串,默認情況下,采用貪婪匹配
正則 | 待匹配字符 |
匹配
結果 |
說明 |
<.*> |
你可能感興趣的 |
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
