欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

Nutch URL過(guò)濾配置規(guī)則

系統(tǒng) 1657 0

nutch網(wǎng)上有不少有它的源碼解析,但是采集這塊還是不太讓人容易理解.今天終于知道怎么,弄的.現(xiàn)在把crawl-urlfilter.txt文件貼出來(lái),讓大家一塊交流,也給自己備忘錄一個(gè)。

?

# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.? See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.? You may obtain a copy of the License at
#
#???? http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.


# The url filter file used by the crawl command.

# Better for intranet crawling.
# Be sure to change MY.DOMAIN.NAME to your domain name.

# Each non-comment, non-blank line contains a regular expression
# prefixed by '+' or '-'.? The first matching pattern in the file
# determines whether a URL is included or ignored.? If no pattern
# matches, the URL is ignored.

# skip file:, ftp:, & mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.

//采集動(dòng)態(tài)網(wǎng)站很重要。必須這樣設(shè)置。不然像a.jsp?a=001 帶有問(wèn)號(hào)的網(wǎng)頁(yè)就沒(méi)辦法采集。
+[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/

# accept hosts in MY.DOMAIN.NAME
###########################7shop24########################################
#+^http://([a-z0-9]*\.)*7shop24.com/
#+^http://www.7shop24.com/indexdtl06.asp\?classid=([0-9]*)&productid=([0-9]*)+$



###############################http://www.redbaby.com.cn/##############################

?

//采集是有順序的,不是隨便寫的。比如:你要采集產(chǎn)品頁(yè),你首先得把首頁(yè)放進(jìn)來(lái),然后產(chǎn)品是放在分類頁(yè)面的,你得把//分類也得包括進(jìn)來(lái),然后再把具體產(chǎn)品規(guī)則的正則寫進(jìn)來(lái),這樣才能完成你所需要的任務(wù)。如:
+^http://www.redbaby.com.cn/$
+^http://www.redbaby.com.cn/([a-zA-Z]*\.)*index.html$
+^http://www.redbaby.com.cn/([a-zA-Z]*)/$
+^http://www.redbaby.com.cn/([a-zA-Z]*)/index\.html+$
+^http://www.redbaby.com.cn/Product/Product_List.aspx\?Site=\d&BranchID=\d&DepartmentID=\d+$?
+^http://www.redbaby.com.cn/Product/ProductInfo\w\d\w([0-9]*\.)*html$
+^http://www.redbaby.com.cn/Product/Product_List.aspx\?Site=\d&BranchID=\d&DepartmentID=\d&SortID=\d+$
+^http://www.redbaby.com.cn/Product/ProductInfo\w\d\w\d\.htm$
# skip everything else
-.

?#例如采集大麥的票務(wù)信息

+^http://www.damai.cn/map.html
+^http://www.damai.cn/allticket\w\d+\.html$
-^http://item.damai.cn/(.*)aspx(.*)$
+^http://item.damai.cn/

?

url匹配可能用到的java正則:

???? 對(duì)應(yīng) ??? \??

_ (下劃線)? 對(duì)應(yīng)?? \w?

.(點(diǎn)號(hào))??? 對(duì)應(yīng)? \.

?

Nutch URL過(guò)濾配置規(guī)則


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 两性视频久久 | 亚洲精品久久久久久一区 | 黄色免费一级播放片 | 日韩激情视频 | 婷婷久久综合九色综合九七 | 小明www永久在线看 国产美女一区二区三区 | 国产精品亚洲精品不卡 | 国产真实精品久久二三区 | 国产精品免费观看 | 国产午夜一区二区在线观看 | 欧美精品在线观看 | 香港三日本三级三级三级 | 国产小视频精品 | 国产九色在线 | 理论片午午伦夜理片在线播放 | 欲色av | 免费看一区二区三区 | AV国産精品毛片一区二区三区 | 亚洲精品久久久久一区二区三 | 欧美成年| 亚洲综合日韩 | 欧美成人精品一区二区男人看 | 成年免费视频网站入口 | 可以看av的网站 | 一本到在线观看视频不卡 | 国产电影一区二区 | 久久中文字幕久久久久91 | 日本韩国一区二区三区 | 一区二区精品在线 | 狠狠干在线 | 久久www免费人成看片高清 | 国产精品久久婷婷六月丁香 | 日韩高清一区二区 | 亚洲h视频 | 成人久久一区二区 | 有码在线 | 日韩精品一区二 | 一级aaaaaa片毛片在线播放 | 成人在线小视频 | 五月婷综合 | 九九九热视频 |