欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

Nutch0.9安裝指南

系統(tǒng) 1876 0



?終于!我把 Nutch0.9 的安裝文檔貼出來了

首先提醒的是,按照這個步驟做還是會遇到各種莫名奇妙的問題,沒關(guān)系,按照步驟查找,一定有地

方出錯了,從出錯的地方重新做吧。 ( 連我自己每次重新安裝的時候還是會遇到各種問題,所以過程

一定要細心啊! )
???

直接上過程:

1 、首先,我的配置: JDK1.6 Tomcat6.0 Nutch0.9

2 、添加 JAVA_HOME CATALINA_HOME 系統(tǒng)變量 ( 這個如果真不會的話自己百度吧 )

3 、安裝 Cygwin

???Nutch 最初是在 Linux 系統(tǒng)下開發(fā)的,所以要在 windows 環(huán)境下部署,必須使用這個軟件來模擬仿真

系統(tǒng)環(huán)境。
????????
下載了 Cygwin 后,雙擊 setup.exe 運行,在“選擇下載資源”的對話框處有幾個選項:從

Internet 安裝、下載不安裝、從本地安裝。一般是第一個選項,如果已經(jīng)安裝包已經(jīng)下載到了本地,

那么選擇第 三個。之后設(shè)置好安裝路徑按默認的設(shè)置安裝即可。 ??

安裝成功運行如圖:

? Nutch0.9安裝指南

?

4 Nutch 是用 Java 語言開發(fā)的,在運行 Nutch 之前,必須告訴 Nutch 系統(tǒng)的 JDK 在哪。所以還需要設(shè)置

一個環(huán)境變量 NUTCH_HOME ,值同 JAVA_HOME 一致。

設(shè)置好了可以通過 Cygwin 測試 Nutch 是否可以運行。

?????1.? 運行 Cygwin

???? 2.? 輸入: cd? /cygdrive/*/nutch-0.9 (nutch 所在的路徑 ) PS Cygwin 不支持 Unicode 字符

集,所以在設(shè)置 Nutch 路徑時,要保證其中沒有中文字符

???? 3.? 測試 Nutch 命令: bin/nutch 。如果 Nutch 安裝正確,則此命令會返回所有的 Nutch 可執(zhí)行命

令結(jié)果


Nutch0.9安裝指南
?

?

這時 Nutch 已經(jīng)可以運行,通過 Cygwin 運行 Nutch 的底層命令,已經(jīng)可以進行抓取、索引、排序、檢索等功能。但是做進一步的開發(fā)還需要進一步的修改。

?


??? 5 、將 Nutch 導(dǎo)入 Eclipse
?????
同導(dǎo)入其他 Eclipse 工程的過程一樣,不過要注意幾點:

????? (1)
Nutch 的配置文件加入到工程的 Librares 中,在 Libraries 選擇 Add Classic Folder 。并在第

四個面 板“ Order and Export ”中,把 conf 置頂
??????(2)
output dir 改為: tmp_build
??????(3)
導(dǎo)入完成

??????(4)
但編譯還是不會通過的,因為 Nutch 包含的 rtf mp3 包和 Nutch 使用的是不同的開源協(xié)議,所以

我們需要單獨下載這兩個包,把他們添加進工程中。下載地址為:
?????? http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/ ?
???????
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

?

?

????? 6 Nutch 的配置文件

????? Nutch 的基本配置文件都在 conf 文件夾下,之前已經(jīng)把它添加到 Class Folder 中了

????? nutch-default.xml :我們會用到最多的配置文件,一定要好好讀讀其中的內(nèi)容

????? crawl-urlfilter.txt Nutch 抓取是的一些策略設(shè)置

????? nutch-site.xml :抓取時提交給被爬行網(wǎng)站的信息

????? ………………

????? 最好自己都讀一下這些配置文件的內(nèi)容并了解它們的作用

?

????? 7 、建立網(wǎng)頁抓取入口

????? 在工程文件夾下新建一個文本文件做為爬蟲抓取網(wǎng)頁的入口: weburl.txt

????? 這里我是在 Tomcat 下部署了一個網(wǎng)站用做測試,各位照樣子填吧

????? http://localhost:8080/computernetwork/index.html

?

?

????? 8 、修改配置文件

????? (1) 打開 conf 下的 nutch-default.xml 文件,這里我們要修改其中的一個屬性: plugin.folders

????? 把它修改為“ .\plugins ”。它的設(shè)置告訴 Nutch 應(yīng)該到哪里去查找插件。

?

????? (2)

????? 修改 crawl-urlfilter.txt

?

# skip image and other suffixes we can't yet parse

-\.

(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|

exe|jpeg|JPEG|bmp|BMP|swf|doc)$

這是 Nutch 抓取網(wǎng)頁時默認忽略的文件類型

?

# accept hosts in MY.DOMAIN.NAME

#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

這是 Nutch 抓取是的限制訪問策略。比如我的是: +^http:// localhost:8080/computernetwork/

那么如果抓取的網(wǎng)頁中含有鏈接到其他站點的 URL Nutch 不會去抓取這些網(wǎng)頁。

?

?

(3)

修改 nutch-site.xml

寫道
<property>
<name>http.agent.name</name>
<value>Local</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty - please set this to a single word uniquely related to your organization. NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
<property>
<name>http.agent.description</name>
<value> Local web</value>
<description>Further description of our bot- this text is used in
the User-Agent header. It appears in parenthesis after the agent name.
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://MyCom.com</value>
<description>A URL to advertise in the User-Agent header. This will appear in parenthesis after the agent name. Custom dictates that this should be a URL of a page explaining the purpose and behavior of this crawler.
</description>
</property>
<property>
<name>http.agent.email</name>
<value> Your mail@*.com</value>
<description>An email address to advertise in the HTTP 'From' request header and User-Agent header. A good practice is to mangle this address (e.g. 'info at example dot com') to avoid spamming.
</description>
</property>

?

?

?

9 、配置 Eclipse 運行參數(shù)

Run as ”— > Run Configuration ” — > Java Application ????


Nutch0.9安裝指南
?
?

Arguments面板中:

Program arguments 中,參數(shù)為:

weburl.txt? -dir? Local depth 5 topN 100 threads 100

?? 指的是爬蟲爬取網(wǎng)頁的地址入口在 weburl.txt 中設(shè)置,爬取的網(wǎng)頁、索引等信息存在本地 Local

夾中,爬蟲爬取的深度為: 5 ,每層只爬取前 100 個網(wǎng)頁,同時開 100 個線程進行爬取。

?

VM arguments 中,設(shè)置參數(shù)為:

??? -Dhadoop.log.dir=logs Dhadoop.log.file=hadoop.log Xmx512m

??? 這設(shè)置的是爬取過程的 Log 日志記錄地址。另外,爬取網(wǎng)頁過多時 Nutch 會出現(xiàn) JavaVM 溢出的錯

誤, 因此經(jīng)常還需在此處設(shè)置 JavaVM 參數(shù),如: -Xmx512m ,即為 JAVA 虛擬機分配內(nèi)存大小為 512M

?

?

10 、運行。

運行之后,在 Nutch 中的 Local 文件夾下會生成 5 個文件夾:

??? crawldb :下載的 URL 及下載日期,用于存放頁面更新的檢查時間。

??? linkdb :存放 URL 的互聯(lián)關(guān)系,是下載完成后分析得到的。

??? segments: 存放抓取的頁面。下面的子目錄數(shù)與獲取頁面層數(shù)有關(guān)。通常是一層一個文件夾。

??? indexs :存放每次下載的獨立索引目錄。

??? index :符合 Lucene 格式的索引目錄,是 indexs 里所有 index 合并后的完整索引。

?

11 、部署到 tomcat

(1) 打開 ANT 面板,打開添加 Buildfiles 對話框,將 Nutch build.xml 添加進來。

?

(2) 重新運行 job default )或者 war 。此處會出現(xiàn)一個 build failed 錯誤,出現(xiàn)在文件中的:

<touch datetime="01/25/1971 2:00 pm">
????? <fileset dir="${conf.dir}" includes="**/*.template"/>

</touch>

??? 原因是因為在 Nutch 工程中沒有 *.template 文件,所以可以把這幾句刪除掉 ( 也不需要去下載這

幾個文件。如果使用了這幾個文件,每次編譯后曾經(jīng)修改過的配置文件會被改回模板中的原始值。 )

?

(3) build 文件夾下的 nutch-0.9.war 復(fù)制到 CATALINA_HOME 下的 webapps 下,重新啟動 Tomcat ,將生

成的 nutch-0.9 文件夾放到 ROOT 文件夾下。

????? 訪問: http://localhost:8080/nutch-0.9

(我是將 nutch 文件夾下的所有文件直接放在了 ROOT 文件夾下,所以直接訪問 http://localhost:8080/

?

?

?

12 、開始搜索

CATALINA_HOME\webapps\ROOT\nutch-0.9\WEB-INF\classes 下,找到 nutch-site.xml

添加屬性:

<property>?

?<name>searcher.dir</name>
??????? <value>E:\nutch-0.9\Local</value>----------
注: nutch 工程下抓取時設(shè)置的文件夾位置

</property>

這個屬性告訴 Tomcat 到哪里去找 Nutch 索引。
?

?

?

------ 想搜索嗎? No !還有東西要改!

?

這時要是直接搜索, Tomcat 會提示你:
org.apache.jasper.JasperException: /search.jsp(151,22) Attribute value? language + "/include/header.html" is quoted with " which must be escaped when used within the value

?

找到 search.jsp 下的 151 行,把引號轉(zhuǎn)義吧。。。。

<jsp:include page="<%= language + \"/include/header.html\"%>"/>

?

?

想搜索嗎?可以試一下

?

結(jié)果是——英文可以了,但是中文會出現(xiàn)亂碼

?

還得改。。。。那就改吧

?

CATALINA_HOME\conf 下找到 server.xml

修改 Connector port="8080" protocol="HTTP/1.1" 屬性中的值,添加兩句:

URIEncoding="UTF-8" useBodyEncodingForURI="true"
?

?

----------------------------------------

Oh My God !終于可以搜了!!!撒花慶祝吧!這里是真的可以了 ?
?

可是只有這些嗎?

No !這只是搭建一個基本的基于Nutch的搜索平臺。實際上基于Nutch還有很多可以做和擴展。

PS :這些都是百度、 Google 出來的各種方法的整理,本人已經(jīng)實踐過多次,絕對可以部署實施,但是過程中可能還是會出現(xiàn)各種問題,大家耐心的修改吧!

由于時間稍久,中間可能存在疏漏,而且對 Nutch 學(xué)習(xí)也并不深入,如發(fā)現(xiàn)錯誤,歡迎大家交流指正!

?

Nutch0.9安裝指南


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久久久精品网 | 99爱在线精品视频免费观看9 | 国产精品毛片无码 | 亚洲AV国产成人精品区三上 | 91茄子国产线观看免费 | 四虎4hu| 一级片在线观看 | 久久精品免费视频观看 | 一区二区高清 | 国产真人做爰视频免费 | 色综合图| 久久免费看少妇高潮A片麻豆 | 热re91久久精品国产99热 | 欧美高潮 | 国产精品三级国语在线看 | 涩涩操| 色秀视频免费网站在线观看 | 网红和老师啪啪对白清晰 | 毛片免费在线观看 | 亚洲国产精品久久久 | 国产一三区A片在线播放 | 午夜精品视频在线 | 一级黄色在线 | 一男一女的一级毛片 | 91欧美精品综合在线观看 | 欧美 日韩 中文 | 991av | 梦中人在线观看免费完整版 | 综合欧美一区二区三区 | 午夜国产精品免费观看 | 国产三及片 | 中文字幕一区二区三区乱码图片 | 97超碰人人草 | 国产爆操| 91精品国产日韩91久久久久久 | 日日骚视频| 日本免费一区二区三区视频 | 99热久久是国产免费66 | 一级特色黄大片 | 精品免费视频 | 欧美精品日韩 |