正則表達(dá)式簡(jiǎn)化模式匹配的代碼探索在文本處理場(chǎng)合下涉及模式匹配中正則表達(dá)式的優(yōu)雅之處。概要文本處理經(jīng)常涉及的根據(jù)一個(gè)pattern的匹配。盡管java的character和assorted的String類提供了low-level的pattern-matching支持,這種支持一般帶來(lái)了復(fù)雜的代碼。為了幫助你書" />

欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

java正則表達(dá)式; regular expression

系統(tǒng) 1994 0

Java 101 <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

正則表達(dá)式簡(jiǎn)化模式匹配的代碼

探索在文本處理場(chǎng)合下涉及模式匹配中正則表達(dá)式的優(yōu)雅之處。

概要

文本處理經(jīng)常涉及的根據(jù)一個(gè) pattern 的匹配。盡管 java character assorted String 類提供了 low-level pattern-matching 支持,這種支持一般帶來(lái)了復(fù)雜的代碼。為了幫助你書寫簡(jiǎn)單的 pattern-matching 代碼, java 提供了 regular expression 。在介紹給你術(shù)語(yǔ)和 java.util.regex 包之后, Jeff Friesen explores 了許多那個(gè)包的 Pattern 類支持的正則表達(dá)式結(jié)構(gòu)。然后他 examines Pattern 的方法和附加的 java.util.regex 類。作為結(jié)束,他提供了一個(gè)正則表達(dá)式的實(shí)踐應(yīng)用。

為察看術(shù)語(yǔ)列表,提示與警告,新的 homework ,上個(gè)月 homework 的回答,這篇文章的相關(guān)材料,請(qǐng)?jiān)L問 study guide . ( 6,000 words; <?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /><date year="2003" day="7" month="2"><b><span lang="EN-US" style="FONT-SIZE: 9pt; COLOR: black; FONT-FAMILY: Verdana; mso-bidi-font-family: SimSun; mso-font-kerning: 0pt">February 7, 2003</span></b></date> )

By Jeff Friesen Translated By humx

<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" /><shapetype id="_x0000_t75" stroked="f" filled="f" path="m@4@5l@4@11@9@11@9@5xe" o:preferrelative="t" o:spt="75" coordsize="21600,21600"><stroke joinstyle="miter"></stroke><formulas><f eqn="if lineDrawn pixelLineWidth 0"></f><f eqn="sum @0 1 0"></f><f eqn="sum 0 0 @1"></f><f eqn="prod @2 1 2"></f><f eqn="prod @3 21600 pixelWidth"></f><f eqn="prod @3 21600 pixelHeight"></f><f eqn="sum @0 0 1"></f><f eqn="prod @6 1 2"></f><f eqn="prod @7 21600 pixelWidth"></f><f eqn="sum @8 21600 0"></f><f eqn="prod @7 21600 pixelHeight"></f><f eqn="sum @10 21600 0"></f></formulas><path o:connecttype="rect" gradientshapeok="t" o:extrusionok="f"></path><lock aspectratio="t" v:ext="edit"></lock></shapetype><shape id="_x0000_i1025" style="WIDTH: 453.75pt; HEIGHT: 1.5pt" alt="" type="#_x0000_t75"><imagedata o: src="file:///C:%5CDOCUME~1%5Chumi%5CLOCALS~1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.png"><font color="#990033"></font></imagedata></shape> 文本處理經(jīng)常的要求依據(jù)特定 pattern 匹配的代碼。它能讓文本檢索, email header 驗(yàn)證,從普通文本的自定義文本的創(chuàng)建(例如,用 "Dear Mr. Smith" 替代 "Dear Customer" ),等等成為可能。 Java 通過 character assorted string 類支持 pattern matching 。由于 low-level 的支持一般帶來(lái)了復(fù)雜的 pattern-matching 代碼, java 同時(shí)提供了 regular expression 來(lái)簡(jiǎn)代碼。

Regular expressions 經(jīng)常讓新手迷惑。然而 , 這篇文章驅(qū)散了大部分混淆。在介紹了 regular expression 術(shù)語(yǔ), java.util.regex 包中的類 , 和一個(gè) regular expression constructs 的示例程序之后 , explore 了許多 Pattern 類支持的 regular expression constructs 。我也 examine 了組成 Pattern java.util.regex 包中其它類的方法。一個(gè) practical 的正則表達(dá)式的應(yīng)用程序結(jié)束了我的討論。

Note

Regular expressions 的漫長(zhǎng)歷史開始于計(jì)算機(jī)科學(xué)理論領(lǐng)域自動(dòng)控制原理和 formal 語(yǔ)言理論。它的歷史延續(xù)到 Unix 和其它的操作系統(tǒng),在那里正則表達(dá)式被經(jīng)常用作在 Unix Unix-like 的工具中:像 awk (一個(gè)由其創(chuàng)作者, Aho, Weinberger, and Kernighan ,命名,能夠進(jìn)行文本分析處理的編程語(yǔ)言) , emacs ( 一個(gè)開發(fā)工具 ) ,和 grep ( 一個(gè)在一個(gè)或多個(gè)文件中匹配正則表達(dá)式,為了全局地正則表達(dá)式打印的工具。

什么是正則表達(dá)式 ?
A regular expression
也被 known as regex or regexp ,是一個(gè)描述了一個(gè)字符串集合的 pattern (template) 。這個(gè) pattern 決定了什么樣的字符串屬于這個(gè)集合,它由文本字符和元字符( metacharacters 有特殊的而不是字符含義的字符)組成。為了識(shí)別 匹配 的檢索文本的過程 字符串滿足一個(gè)正則表達(dá)式 稱作模式匹配( pattern matching )。

Java's java.util.regex 包通過 Pattern Matcher 類和 PatternSyntaxException 異常支持 pattern matching

  • Pattern 對(duì)象,被 known as patterns ,是編譯的正則表達(dá)式。

  • Matcher 對(duì)象,或者 matchers ,實(shí)現(xiàn)了 java.lang.CharSequence 接口并作為文本 source 的字符序列中定位解釋 matchers 的引擎。

  • PatternSyntaxException 對(duì)象描述非法的 regex patterns

Listing 1 介紹這些類:

Listing 1. RegexDemo.java

// RegexDemo.java
import java.util.regex.*;


class RegexDemo {
public static void main (String [] args) {
if (args.length != 2)
System.err.println ("java RegexDemo regex text");
return;
}
Pattern p;
try {
p = Pattern.compile (args [0]);
}
catch (PatternSyntaxException e) {
System.err.println ("Regex syntax error: " + e.getMessage ());
System.err.println ("Error description: " + e.getDescription ());
System.err.println ("Error index: " + e.getIndex ());
System.err.println ("Erroneous pattern: " + e.getPattern ());
return;
}

String s = cvtLineTerminators (args [1]);
Matcher m = p.matcher (s);

System.out.println ("Regex = " + args [0]);
System.out.println ("Text = " + s);
System.out.println ();
while (m.find ()) {
System.out.println ("Found " + m.group ());
System.out.println ("starting at index " + m.start () +
" and ending at index " + m.end ());
System.out.println ();
}
}

// Convert \n and \r character sequences to their single character
// equivalents

static String cvtLineTerminators (String s) {
StringBuffer sb = new StringBuffer (80);

int oldindex = 0, newindex;
while ((newindex = s.indexOf ("\\n", oldindex)) != -1){
sb.append (s.substring (oldindex, newindex));
oldindex = newindex + 2;
sb.append ('\n');
}
sb.append (s.substring (oldindex));

s = sb.toString ();

sb = new StringBuffer (80);

oldindex = 0;
while ((newindex = s.indexOf ("\\r", oldindex)) != -1){
sb.append (s.substring (oldindex, newindex));
oldindex = newindex + 2;
sb.append ('\r');
}
sb.append (s.substring (oldindex));

return sb.toString ();
}
}

RegexDemo's public static void main(String [] args) 方法 validates 兩個(gè)命令行參數(shù):一個(gè)指出正則表達(dá)式,另外一個(gè)指出文本。在創(chuàng)建一個(gè) pattern 之后,這個(gè)方法轉(zhuǎn)換所有的文本參數(shù), new-line and carriage-return line-terminator 字符序列為它們的實(shí)際 meanings 。例如,一個(gè) new-line 字符序列 ( 由反斜杠后跟 n 表示 ) 轉(zhuǎn)換成一個(gè) new-line 字符(用數(shù)字表示為 10 )。在輸出了 regex 和被轉(zhuǎn)換的命令行文本參數(shù)之后, main(String [] args) 方法從 pattern 創(chuàng)建了一個(gè) matcher ,它隨后查找了所有的 matches 。對(duì)于每一個(gè) match ,它所出現(xiàn)的字符和信息的位置被輸出。

為了完成模式匹配, RegexDemo 調(diào)用了 java.util.regex 包中類的不同的方法。不要使你自己現(xiàn)在就理解這些方法;我們將在后邊的文章探討它們。更重要的是,編譯 Listing 1: 你需要 RegexDemo.class 來(lái)探索 Pattern's regex 結(jié)構(gòu)。

探索 Pattern's regex 構(gòu)造

Pattern's SDK 文檔提供了一部分正則表達(dá)式結(jié)構(gòu)的文檔。除非你是一個(gè) avid 正則表達(dá)式使用者,一個(gè)最初的那段文檔的閱讀會(huì)讓你迷惑。什么是 quantifiers greedy 之間的不同是什么 , reluctant, possessive quantifiers? 什么是 character classes boundary matchers back references, embedded flag expressions? 為了回答這些和其它的問題,我們探索了許多 Patter 認(rèn)可的 regex constructs regex pattern 種類。我們從最簡(jiǎn)單的 regex construct 開始: literal strings

Caution

不要認(rèn)為 Pattern Perl5 的正則表達(dá)式結(jié)構(gòu)是一樣的。盡管他們有很多相同點(diǎn),他們也有許多,它們支持的 metacharacters 結(jié)構(gòu)的不同點(diǎn)。 ( 更多信息,察看在你的平臺(tái)上的你的 SDK Pattern 類的文檔。 )

Literal strings

當(dāng)你在字處理軟件的檢索對(duì)話框輸入一個(gè)你指定一個(gè) literal string 的時(shí)候,你就指定了一個(gè) regex expression construct 。執(zhí)行以下的 RegexDemo 命令行來(lái)察看一下這個(gè) regex construct 的動(dòng)作:

java RegexDemo apple applet

上邊的這個(gè)命令行確定了 apple 作為一個(gè)包含了字符 a, p, p, l, and e (依次)的字符 regex construct 這個(gè)命令行同時(shí)也確定了 applet 作為 pattern-matching 的文本。執(zhí)行命令行以后,看到以下輸出:

Regex = apple
Text = applet

Found apple
starting at index 0 and ending at index 5

輸出的 regex text 命令行,預(yù)示著在 applet 中一個(gè) applet 的成功的匹配,并表示了匹配的開始和結(jié)束的索引:分別為 0 5 。開始索引指出了一個(gè) pattern match 出現(xiàn)的第一個(gè)文本的開始位置,結(jié)束索引指明了這個(gè) match 后的第一個(gè) text 的位置。換句話說(shuō),匹配的 text 的范圍包含在開始索引和去掉結(jié)束索引之間(不包含結(jié)束索引)。

Metacharacters

盡管 string regex constructs 是有用的,更強(qiáng)大的 regex contsruct 聯(lián)合了文本字符和 元字符 。例如,在 a.b ,這個(gè)句點(diǎn) metacharacter (.) 代表在 a 個(gè) b 之間出現(xiàn)的任何字符。 為了察看元字符的動(dòng)作, 執(zhí)行以下命令行:

java RegexDemo .ox "The quick brown fox jumps over the lazy ox."

以上命令指出 .ox 作為 regex ,和 The quick brown fox jumps over the lazy ox. 作為文本源 text RegexDemo 檢索 text 來(lái)匹配以任意字符開始以 ox 結(jié)束的 match ,并產(chǎn)生如下輸出:

Regex = .ox
Text = The quick brown fox jumps over the lazy ox.

Found fox
starting at index 16 and ending at index 19

Foundox
starting at index 39 and ending at index 42

這個(gè)輸出展示了兩個(gè) matches:fox ox . metacharacter 在第一個(gè) match 中匹配 f ,在第二個(gè) match 中匹配空格。

假如我們用前述的 metacharacter 替換 .ox 會(huì)怎么樣呢?也就是,我們指定 java RegexDemo . "The quick brown fox jumps over the lazy ox." 會(huì)有什么樣的輸出,因?yàn)? period metacharacter 匹配任何字符, RegexDemo 在命令行輸出每一個(gè)匹配字符,包括結(jié)尾的 period 字符。

Tip

為了指定 . 或者任何的元字符作為在一個(gè) regex construct 作為 literal character 引用 轉(zhuǎn)換 meta 狀態(tài)到 literal status— 用以下兩種方法之一:

  • 在元字符之前放置反斜杠。

  • 將元字符放在 \Q \E 之間(例如: \Q.\E )。

在每種情形下,不要忘記在 string literal (例如: String regex = \\.;

)中出現(xiàn)時(shí)(像 \\. or \\Q.\\E )的雙倍的反斜杠。不要在當(dāng)它在命令行參數(shù)中出現(xiàn)的時(shí)候用雙倍的反斜杠。

Character classes

有時(shí)我們限定產(chǎn)生的 matches 到一個(gè)特定的字符集和。例如,我們可以檢索元音 a, e, i, o, and u ,任何一個(gè)元音字符的出現(xiàn)都以為著一個(gè) match A character 類, 通過在方括號(hào)之間的一個(gè)字符集和指定的 regex construct ,幫我們完成這個(gè)任務(wù)。 Pattern 支持以下的 character classes

  • 簡(jiǎn)單字符 : 支持被依次放置的字符串并僅匹配這些字符。例如: [abc] 匹配字符 a, b, and c 。以下的命令行提供了另外一個(gè)示例:

java RegexDemo [csw] cave

java RegexDemo [csw] cave [csw] c 匹配在 cave 中的 c 。沒有其它的匹配存在。

  • 否定 : ^ metacharacter 元字符開始且僅匹配沒有在 class 中出現(xiàn)的字符。例如: [^abc] 匹配所有除了 a, b, c 以外的字符,以下的命令行提供了另外一個(gè)示例:

java RegexDemo [^csw] cave

java RegexDemo [^csw] cave 匹配在 cave 中遇到的 a, v, e 。沒有其它的匹配存在。

  • 范圍 : 包含在元字符( - )左側(cè)的字符開始,元字符( - )右側(cè)字符結(jié)束的所有字符。僅匹配在范圍內(nèi)的字符。例如: [a-z] 匹配所有的小寫字母。以下的命令行提供了另外一個(gè)示例:

java RegexDemo [a-c] clown

java RegexDemo [a-c] clown 匹配在 clown 中的 c 。沒有其它的匹配存在。

margin: 0mm 0mm 0pt; text-align:

分享到:
評(píng)論
wapysun
  • 瀏覽: 4879226 次
  • 性別: Icon_minigender_1
  • 來(lái)自: 杭州
社區(qū)版塊
最新評(píng)論

java正則表達(dá)式; regular expression


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 欧洲一级毛片 | 久草在线视频免费看 | 激情深爱| 欧美黄区| 99精品视频在线免费观看 | 亚洲最大黄色网址 | 欧美一区在线观看视频 | xnxx 美女19| 一区二区三区中文字幕 | 日韩精品一区二区三区中文字幕 | 久久99综合国产精品亚洲首页 | 国产欧美一区二区三区免费看 | 国产午夜小视频 | 来吧亚洲综合网 | 午夜天堂精品久久久久 | 大伊香蕉在线精品不卡视频 | 久久艹免费视频 | 久久99精品久久久久久臀蜜桃 | 91亚洲国产成人久久精品网站 | 国产久 | 一区在线视频 | 91精选国产91在线观看 | 国产精品美女久久久久久免费 | 农村寡妇偷人高潮A片小说 午夜爱爱爱爱爽爽爽网站免费 | 日本一区二区三区免费观看 | 草草视频免费在线观看 | 久久久精品视频免费观看 | www.国产 | 欧美另类视频在线 | 亚洲精品乱码久久久久久花季 | 女女女女bbbbbb毛片在线 | 91免费版在线观看 | 亚洲欧美中文日韩在线v日本 | 国产大尺度吃奶无遮无挡网 | 久久天天躁夜夜躁狠狠 | 欧美日韩国产精品 | 欧美日韩福利视频 | 久久亚洲一区二区 | 国产精品污污视频 | 日韩欧美在线观看视频 | 久久人 |