日本视频在线观看免费,国产成人精品高清在线,欧美精品色网

1.元字符

很多人對正則表達式的印象就是亂碼。。許許多多的符號組合在一起，偶見單詞，正則確實是這樣的，所以下面我們要看看這些符號都是什么意思

有些符號不是大家看到的字面上的意思：比如 “.”、“!”、“?” ……

這些符號就稱之為元字符

很遺憾，這些字符的意義必須牢記

注意：本文的所有紅色加粗中文引號內的內容均為正則表達式，而不是一般的字符和符號

下面我們逐一說明

“\” ：轉義符號，在字符組內依然是元字符。

在檢查一行文本時

“^” ：脫字符：表示一行的開始

“$” ：美元符號：表示一行的結束

字符組

“[]” ：一對中括號，里面可以添加任何內容，比如[hate]，括號里面的內容是或者的關系， 這個正則的意義是：我想匹配一個字符，這個字符可以是h，可以是a，也可以是t或e。

記住：字符組最終只會匹配一個字符。 即使你的目標字符串是hate，那么一次匹配成功的結果也只是第一個字母h，并不是整個單詞，如果我就想匹配hate這個單詞怎么辦？很容易，正則內容為“hate”，在字符組外面的字符的關系是“和，并且”的意思。

注意：字符組內的元字符和字符組外的元字符并不一樣，即使字符一樣，表示的意義也未必相同（*）

我們先學習下一個內容，然后再來給大家解釋上面的這句話

“[^]” ： 括號里面以“^”開頭，是字符組的否定形式 ，比如：[^hate]表示：匹配除了h、a、t、e以外的其他字符，依然 只會匹配一個字符

之前剛剛學過“^”表示一行的開始，但是脫字符位于[]內的起始位置則表示否定，這也解釋了 （*） 的內容

如果脫字符位于括號內其他位置表示什么呢？那它表示它自己，此時并不再是一個元字符

“-” ：減號，可以在字符組內表示區間、范圍。比如“[a-z]”，表示匹配a到z直接的任意一個小寫字母，如果是“[-z]”，那么“-”只表示它自己，沒有任何特殊意義，它在字符組外也沒有任何特殊意義。

ps：關于“^”、“$”、“-”的其他用法將在高級基礎篇講述

“.” ：點號，匹配一個任意字符的字符組簡便寫法。 “.”在字符組內沒不是元字符

ps：“.”也不是萬能的，有些字符無法匹配，之后會詳細解釋并給出替代方案

“|” ：豎線，表示或者，這個很容易記憶，如果想匹配hate或者like，那么正則為：“hate|like”

注意：如果想匹配I hate you和I like you。那么正則為：“I (hate|like) you”。如果寫成“I hate|like you”，那么匹配的結果為“I hate”或者是“like you”了

這里圓括號的作用是控制豎線的作用范圍，“()”有很多作用，稍后再說

（對于傳統NFA來說，選擇結構是按順序的，并不是匹配優先也不是忽略優先，關于NFA請參看 深入入門正則表達式（java） - 匹配原理 - 1 - 引擎分類與普適原則）

“\b” ：它的作用是單詞分隔符，如果我想匹配like，那么正則為“like”，沒錯，但是會得到一些我不想要的結果，比如likely也會跑到結果集中，我可不想要這些單詞。那么修改正則為：“\blike\b”，這回就只能匹配like這個單詞了。

注意：java中的單詞分隔符為“\b”，有些語言的單詞分隔符為 “\<” 和 “\>” 。

單詞邊界是什么呢？其實正則沒有那么聰明，它不會識別“Ilikeyou”為“I like you”，它只是找到數字和字母的起始位置和結束位置而已

“\w” ：單詞字符。 在java中相當于“[a-zA-Z0-9_]”。 但是java中的“\b”卻支持Unicode字符。

下面我們來看看正則中的“數字” - 量詞

“?” ：表示0個至1個

“*” ：表示0個至任意多個

“+” ：表示至少一個

“{min,max}” ：區間量詞。 “{2,5}”，表示匹配2到5次。“{2,}”表示至少兩次，“{2}”表示只匹配兩次。 “{,2}”，正則錯誤，無意義

舉個例子：正如上面的反面教程所說，如果想匹配一個正整數，那么應該如何來做

首先我們需要明確：我不想匹配0123，只想匹配123這樣的數字，0不能開頭，第二個要求就是除了數字不能有其他字符了

之前我們學過字符組了，“[0-9]”可以表示0至9中任意一個數字，那么根據上面的量詞，我們改正則為“[0-9]+”，表示至少有一個數字，至多沒有限制。但是0123這樣的數字也會滿足要求。那么我們再修改一下，首先第一位不能為0，那么這一位可以寫為“[1-9]”，表示匹配1到9的任何一個數字，之后呢？后面的數字有沒有都無所謂了，有，那就是多位數，沒有，那就是一位數。所以正則為“[1-9][0-9]*”。

貪婪與懶惰

我們再來看一個量詞的例子。比如我想匹配一個單詞，正則可以這么寫“[a-zA-Z]+”。

RegexBuddy每次匹配顏色交叉，就能知道每次都匹配到的是什么了

我們來看第一次的結果，是“there”

有個問題就出來了：“\w+”表示至少一個“\w”，那么為什么結果不是“t”、“h”、“e”、“r”、“e”，而是“there”。

上面的量詞，除了“{times}”這種指定匹配次數的，其余默認均為貪婪匹配。也就是說盡可能多的匹配。

相對的就有惰性匹配，那么惰性匹配如何使用？

下面修改一下例子：“\w*e”表示以e結尾的單詞，現在這里的*還是貪婪匹配。

如果我想匹配到單詞中的第一個e，那么如何修改呢？

還是來看there，這回“\w+”只匹配了“th”，并沒有匹配到“ther”才停止。

惰性匹配就是盡可能少的匹配，使用方法就是在量詞后面加上“?”

如果量詞后面沒有“?”等其他量詞，那么就是默認的貪婪匹配。

“?”，“*”，“+”：也叫匹配優先量詞

“*?”，“+?”，“??”：也叫忽略優先量詞

其實還有一種量詞：

“?+”，“*+”，“++”：占有優先量詞。 （支持這種量詞的正則引擎很少，java支持）

這節不討論這種類型量詞，之后的章節討論

() ：將括號里面的內容作為一個獨立的單元，理解為一組。

反向引用

“\”+數字 ：好多語言能記住“()”里面匹配到的內容，比如java。如果我只想使用“()”匹配到的內容，那么可以使用反向引用。

比如我想找兩個一樣的單詞，總有不小心寫錯的時候，可能會出現hate hate這樣的時候，那么正則應該如何書寫呢？

“(hate) \1”

這樣就能匹配到了

通常我們不只局限于一個單詞，那么我們可以寫為：“([a-zA-Z]+) \1”,這樣也能找到hate hate形式的錯誤。

注意：這里([a-zA-Z]+)表示至少一個英文字母，后面的\1不表示至少一個英文字母，而是表示說與()匹配的結果一致！ “([a-zA-Z]+) \1”不是“([a-zA-Z]+) ([a-zA-Z]+)”的簡寫

比如：目標字符串為likely like，“([a-zA-Z]+) ”會匹配到likely和一個空格，“\1”不會匹配“([a-zA-Z]+)”，因為之前括號的結果不是like，所以這次查找失敗，無結果。

反向引用中的數字的確定

例如“((\d)(\d))\d”來匹配123這個數字。那么“\1”的結果是遇見的第一個括號，就是最外面的，“\1”結果為12。按著順序“\2”結果為1，“\3”結果為2

最后再說下 “()” ， 反向引用 的開始已經說出了括號的另一個作用，那就是保存捕獲的內容，這種類型的括號叫做 捕獲型括號 ，相對應的就有 非捕獲型括號“(?:)”

“(?:)” ：非捕獲型括號。“(?:hate)”會匹配到hate這個字符串，但是如果你企圖使用反向引用“(?:hate) \1”，那么就會出現錯誤。這樣的操作是非法的。

注意：非捕獲型括號不影響捕獲計數 ，獲取“((?:\d)(\d))”中的“(\d)”捕獲的內容為\2，不再是\3

好處：

1.提高效率，很容易理解，不記住捕獲的內容也就不占用內存了

2.結構清晰

常用空白字符

“\s” ：表示所有空白字符。

“\t” ：制表符。

“\n” ：換行符。

“\r” ：回車。

一些其他常用的縮略表示

“\S” ：除“\s”之外的任何字符

“ \ w” ：等同于[a-zA-Z0-9_]

“ \W ” ：除“\w”之外的任何字符

“ \ d” ：等同于[0-9]

“ \ D” ：除“d”之外的任何字符

有些工具不支持，比如EditPlus v3.10 中的查找就不支持\d等。

環視（零寬斷言）

環視分為順序和逆序，肯定和否定，組合一下一共4種。下面就看看環視到底是什么

“(?=)” ：順序肯定環視：（從左至右）查看文本，如果能夠匹配，就返回匹配成功信息。

“(?<=)” ：逆序肯定環視：（從右至左）查看文本，如果能夠匹配，就返回匹配成功信息。

“(?!)” ：順序否定環視：（從左至右）查看文本，如果不能夠匹配，就返回匹配成功信息。

“(?<!)” ：逆序否定環視：（從右至左）查看文本，如果不能夠匹配，就返回匹配成功信息。

下面看幾個簡單的實例，然后就很容易明白上面的火星語了

例：下面有兩句話，加入你只想找到book，不想找到books

there is a book on the desk.
there are some books on the desk.

最簡單的辦法是：“book\b”，這很容易理解，book后面跟著單詞分隔符，book后面如果是s，那么肯定被認為是一個單詞，所以這樣不會匹配到books。如果用環視，應該如何書寫呢

“book(?!\w)”

正則中的book很好理解，依次匹配b、o、o、k，然后呢，\w在上面說過等同于[a-zA-Z0-9]，“(?!\w)”是說：我要找這樣一個位置，這個位置的后面不能是\w。

第一句話中，在匹配了book后，發現緊跟的是一個空格，恩，不是\w中的內容，匹配成功。

注意：環視不會占用字符！環視查找的是字符與字符之間的位置。

環視括號并沒有捕獲字符的功效，所以不能使用反向引用。

上圖畫三角號的位置就是這個環視匹配的位置

如果想匹配books的book怎么辦，很簡單“book(?=s)”

上面演示了肯定順序環視和否定順序環視。下面演示了環視不占用字符。

比較容易理解吧，這個例子沒有任何實際意義，僅做演示用

之后會給出一些有意義的例子

2.正則模式與匹配模式

此部分內容基本來自《精通正則表達式》 v3

1.忽略大小寫模式： （java中使用Pattern.CASE_INSENSITIVE）

2.寬松排列與注釋模式：此模式會忽略字符組外部的所有空白字符 ， 但是在java.util.regex中，字符組之外的所有空白字符并非都被忽略，而是作為一個“無意義字符（do-nothing metacharacter）” 。正則“\12 3”表“3”在“\12”之后，而非表示“\123”（java中使用Pattern.COMMENTS）

ps：“空白字符”的定義取決于所采用的字符編碼的定義，以及此編碼對空白字符的支持程度。 大多數程序只能識別ASCII的空白字符。

3.點號通配模式（單行模式）： （dot-match-all match mode）通常點號是不能匹配換行符的。但是在java中情況特殊：在sun的正則表達式包，點號能夠匹配未使用此模式時點號不能匹配的所有單字符Unicode行終止符。（java中使用Pattern.DOTALL ）

符：Unicode行終止符

字符

描述

LF	U+000A
VT	U+000B
FF	U+000C
CR	U+000D
CR/LF	U+000D U+000A
NEL	U+0085
LS	U+2028
PS	U+2029

ASCII 換行符

ASCII 垂直制表符

ASCII 進紙符

ASCII 回車

ASCII 回車/換行

Unicode 換行

Unicode 行分隔符

Unicode 段分隔符

4.增強的錨點模式（多行文本模式）： （Enhanced line-anchor match mode） 此模式影響“^”和“$”的匹配。 通常情況下“^”不能匹配字符串內部的換行符，而只能匹配目標字符串的起始位置。在此增強模式下，它能夠匹配字符串中內嵌的文本行的開頭位置。“$”也是這樣，此模式下可以匹配字符串內部的換行符。這里可能不是很好理解，之后的實例會介紹，其中還包括 “\A”，“\Z” 和 “\z” 的意義（java中使用Pattern.CASE_INSENSITIVE）

5.文字文本模式：此模式幾乎不能識別任何元字符 。比如此模式下正則“[a-z]+” 匹配的就是字符串“[a-z]+”而并不是連續的小寫英文字母（java中使用Pattern.CASE_INSENSITIVE）

上面的幾種模式如果沒有理解，可以看之后的教程。

將會在基本實例和高級基礎中討論。

轉貼請保留以下鏈接

本人blog地址

http://su1216.iteye.com/

http://blog.csdn.net/su1216/

深入入門正則表達式（java） - 1 - 入門基礎

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義