欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

搜索 hadoop

系統(tǒng) 3824 0


搜索 hadoop
?最近幾年中,web 和企業(yè)已經(jīng)見(jiàn)證了數(shù)據(jù)膨脹。這一現(xiàn)象有很多種原因,例如,便宜的 terabyte 量級(jí)的存儲(chǔ)硬件的商品化,隨著時(shí)間的推移已接近臨界規(guī)模的企業(yè)數(shù)據(jù),以及允許輕松進(jìn)行信息供應(yīng)和交換的標(biāo)準(zhǔn)。

從企業(yè)的角度來(lái)說(shuō),日益增長(zhǎng)的信息已經(jīng)很難存儲(chǔ)在標(biāo)準(zhǔn)關(guān)系型數(shù)據(jù)庫(kù)甚至數(shù)據(jù)倉(cāng)庫(kù)中。這些問(wèn)題提到了一些在實(shí)踐中已存在多年的難題。例如:怎樣查詢(xún)一個(gè) 十億 行的表?怎樣跨越數(shù)據(jù)中心所有服務(wù)器上的所有日志來(lái)運(yùn)行一個(gè)查詢(xún)?更為復(fù)雜的問(wèn)題是,大量需要處理的數(shù)據(jù)是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,這就更難查詢(xún)了。

當(dāng)數(shù)據(jù)以這種數(shù)量存在時(shí),一個(gè)處理局限是要花費(fèi)很多的時(shí)間來(lái)移動(dòng)數(shù)據(jù),Apache Hadoop 的出現(xiàn)解決了這些問(wèn)題,用其獨(dú)一無(wú)二的方法將工作移到數(shù)據(jù),而不是相反的移動(dòng)。Hadoop 是一個(gè)集群技術(shù),由兩個(gè)獨(dú)立但整合在一起的運(yùn)行時(shí)組成:分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),提供數(shù)據(jù)冗余存儲(chǔ);map/reduce,允許并行運(yùn)行用戶(hù)提交的作業(yè),處理存儲(chǔ)在 HDFS 中的數(shù)據(jù)。盡管 Hadoop 并不是對(duì)每個(gè)場(chǎng)景都適合,但是它提供了良好的性能效益。使用 Hadoop 時(shí),社區(qū)發(fā)現(xiàn)它不僅僅可用于數(shù)據(jù)處理,也打開(kāi)了各種有趣的數(shù)據(jù)分析的大門(mén)。

借助 Hadoop,我們可以線(xiàn)性擴(kuò)展運(yùn)行在商品硬件上的集群來(lái)集成更大更豐富的數(shù)據(jù)集。這些數(shù)據(jù)集提供新的透視圖,首先,在之前沒(méi)有整合的異構(gòu)數(shù)據(jù)源上運(yùn)行分 析,然后在同樣的數(shù)據(jù)上有規(guī)模地運(yùn)行分析。這個(gè)結(jié)構(gòu)有點(diǎn)類(lèi)似于范式轉(zhuǎn)換(paradigm shift),正如 Flip Kromer(InfoChimps 創(chuàng)辦人之一)所描述的:“web 從一個(gè)對(duì)每件事都了解一點(diǎn)的場(chǎng)所發(fā)展成為對(duì)一件事了解其全部的場(chǎng)所”。Kromer 繼續(xù)以這個(gè)場(chǎng)景為例,有朝一日,棒球迷想要了解在過(guò)去 100 中每場(chǎng)比賽的細(xì)節(jié)(球員詳情、比賽得分、比賽場(chǎng)地)。如果要在同一時(shí)段為所有氣象站聯(lián)合數(shù)據(jù)集與共享位置值,就可以預(yù)測(cè)一個(gè) 38 歲的投手在 90 度的高溫的情況下、在 Wrigley Field 賽場(chǎng)的表現(xiàn)如何。

Big Data 生態(tài)系統(tǒng)

需要指出的重要一點(diǎn)是:Big Data 空間仍然相對(duì)較新,要利用這些機(jī)會(huì),仍然有一些技術(shù)障礙。正如上面所提到的,數(shù)據(jù)在 Hadoop 中以 “作業(yè)” 形式處理,這些作業(yè)是使用一個(gè)名為 map/reduce 的范式、通過(guò) Java? 編程語(yǔ)言編寫(xiě)的。盡管開(kāi)展了一些工作來(lái)促進(jìn) Hadoop 允許使用其他語(yǔ)言,但正確地理解如何分析業(yè)務(wù)問(wèn)題,并將其分解成可以作為 map/reduce 作業(yè)運(yùn)行的解決方案,仍然不是一個(gè)簡(jiǎn)單的過(guò)程。

要真正利用 Hadoop 周?chē)臋C(jī)會(huì),就需要大量的支持技術(shù)來(lái)將 Hadoop 移出開(kāi)發(fā)人員的視野,使其接近更廣泛的觀(guān)眾。


圖 1. Big Data 生態(tài)系統(tǒng)概述
?

一個(gè)生態(tài)系統(tǒng)的出現(xiàn)提供了圍繞 Hadoop 的工具和支持。每個(gè)組件同其他組件一起提供很多方法(如下所示)來(lái)實(shí)現(xiàn)大多數(shù)用戶(hù)場(chǎng)景。

加載工具

為了使用 Hadoop 來(lái)分析您的數(shù)據(jù),您必須將數(shù)據(jù)放在 HDFS 上。為了做到這一點(diǎn),您需要加載工具。Hadoop 本身也提供將文件從文件系統(tǒng)復(fù)制到 HDFS 的功能,反之也可以。對(duì)于更復(fù)雜的場(chǎng)景,您可以利用像 Sqoop(參見(jiàn) 參考資料 )這類(lèi)工具,這是一個(gè) SQL-to-HDFS 數(shù)據(jù)庫(kù)導(dǎo)入工具。另一種形式的加載工具是網(wǎng)絡(luò)爬蟲(chóng),例如 Apache Nutch,它抓取特定網(wǎng)站并將網(wǎng)頁(yè)存儲(chǔ)在 HDFS 上,這樣,網(wǎng)頁(yè)內(nèi)容對(duì)于任何您想要使用的分析工具都是可用的。

實(shí)時(shí)數(shù)據(jù)是另一個(gè)潛在的信息源。您可以使用 Twitter4J 這類(lèi)技術(shù)來(lái)連接 Twitter Streaming API 并直接將 tweets 以 JSON 格式持久存儲(chǔ)在 HDFS 上。

典型 Big Data 分析用例通常涉及同時(shí)查詢(xún)多個(gè)數(shù)據(jù)集。數(shù)據(jù)集來(lái)自不同的源,通常是企業(yè)(內(nèi)部)已有數(shù)據(jù)和從 web(外部)獲得的數(shù)據(jù)的混合。一個(gè)內(nèi)部信息的例子可能是數(shù)據(jù)中心的日志文件,外部信息可能是一些抓取的網(wǎng)站或從數(shù)據(jù)目錄下載的數(shù)據(jù)集。

數(shù)據(jù)目錄

數(shù)據(jù)目錄實(shí)現(xiàn)了用戶(hù)搜索數(shù)據(jù)集所必須的功能。除非您已經(jīng)嘗試過(guò),否則您不會(huì)意識(shí)到尋找大型數(shù)據(jù)集是多么地困難,特別是適合您正在運(yùn)行的特定分 析場(chǎng)景的數(shù)據(jù)集。通常,用戶(hù)被迫抓取 web 或者挖掘社會(huì)媒體網(wǎng)站來(lái)建立他們自己的大型數(shù)據(jù)集。如果您很容易就能找到并下載您所感興趣的現(xiàn)存結(jié)構(gòu)化數(shù)據(jù)集,將會(huì)節(jié)省許多時(shí)間。InfoChimps 這類(lèi)公司提供一個(gè)目錄,在其中您可以根據(jù)類(lèi)型或通過(guò)檢索找到特定數(shù)據(jù)集。另一個(gè)數(shù)據(jù)目錄的示例是 Amazon Public Data SetsIt。

分析工具

如果您要只使用 Hadoop 來(lái)分析 HDFS 上存儲(chǔ)的數(shù)據(jù),那么通常需要開(kāi)發(fā)人員的技術(shù)來(lái)使用 Java 語(yǔ)言和 Hadoop map/reduce API 編寫(xiě)作業(yè)。對(duì)于那些直接使用 API 的人員,您可以使用 Eclipse 中的 KarmaSphere 這類(lèi)工具來(lái)利用從特定于 Hadoop 的 IDE 獲取的生產(chǎn)力。有一些替代方法支持聯(lián)合使用其他語(yǔ)言與 Hadoop Streaming 和 Hadoop Pipes,但仍然需要開(kāi)發(fā)人員的技術(shù)。這為創(chuàng)建復(fù)雜度較低的定義和運(yùn)行 map/reduce 作業(yè)的方法提供了機(jī)會(huì)。

那些熟悉的 shell 腳本和 UNIX? Pipes 的人可以考慮查看 WuKong,它允許您使用 Ruby 和 shell 腳本構(gòu)建和運(yùn)行作業(yè)。Apache Pig Hive 是兩個(gè)數(shù)據(jù)分析師感興趣的技術(shù),因?yàn)樗鼈兲峁┮粋€(gè)類(lèi)似于 SQL 語(yǔ)句的查詢(xún)界面,在其中用戶(hù)可以使用高級(jí)語(yǔ)言表述如何構(gòu)建和運(yùn)行一個(gè)給定作業(yè)的分析。另一個(gè)更針對(duì)業(yè)務(wù)分析師的方法是 IBM? BigSheets,它提供一個(gè)基于瀏覽器的類(lèi)似電子表格的可視呈現(xiàn),用于定義、運(yùn)行和可視化分析作業(yè)。

所有這些方法都利用擴(kuò)展,通常稱(chēng)為用戶(hù)自定義函數(shù)或宏,獲取用戶(hù)輸入的數(shù)據(jù)并將一個(gè)測(cè)量結(jié)構(gòu)注入其中(語(yǔ)義上的或明確的),使得信息能夠以一 種類(lèi)似于傳統(tǒng)分析方法的方式被處理和查詢(xún)。分析工具和導(dǎo)出工具就像是連體嬰兒,在您進(jìn)行數(shù)據(jù)分析時(shí),后者實(shí)際上本身就可以做一些對(duì)數(shù)據(jù)分析有幫助的事。

導(dǎo)出工具

當(dāng)您詢(xún)問(wèn)一個(gè) Big Data 問(wèn)題(您的分析)時(shí),通常會(huì)得到一個(gè) Big Data 答案(生成的數(shù)據(jù)集)。經(jīng)常會(huì)出現(xiàn)這種情況:答案太大,以至于人類(lèi)無(wú)法閱讀和理解。如果這樣的話(huà),提供可視的結(jié)果將是一個(gè)解決方案。例如,一個(gè)標(biāo)記能夠過(guò) 濾一大部分結(jié)果,使人們立即可以識(shí)別出某些區(qū)域的數(shù)據(jù)值。另一個(gè)方法是將數(shù)據(jù)以特定的格式輸出,例如 SON、CSV、TSV 或 ATOM,使其可以為一個(gè)應(yīng)用程序所使用。有趣的可視化比較常見(jiàn),但是它們通常不能插入現(xiàn)有的 Hadoop 相關(guān)工具。這是一個(gè)新興空間,關(guān)于這方面,在未來(lái)的幾個(gè)月我們將能看到一些創(chuàng)新。

Apache Hadoop

Apache Hadoop 是生態(tài)系統(tǒng)的核心。這是所有數(shù)據(jù)駐留的地方。這個(gè)生態(tài)系統(tǒng)的惟一約束是 Big Data 喜歡處于靜止?fàn)顟B(tài)這個(gè)事實(shí)。這個(gè)約束可能會(huì)給移動(dòng)大量數(shù)據(jù)的計(jì)算操作帶來(lái)嚴(yán)重的延遲,這就是為什么 map/reduce 如此高效的原因,因?yàn)樗鼘⒐ぷ饕葡驍?shù)據(jù)。由于 Hadoop 可以橫向和縱向擴(kuò)展,因此它也是云中的一個(gè)可行選擇,人們可以提供 Hadoop 集群、復(fù)制數(shù)據(jù)、運(yùn)行作業(yè)、檢索輸出,以及在作業(yè)完成時(shí)解散集群。對(duì)于間歇運(yùn)行的作業(yè),這可以極大地節(jié)省購(gòu)買(mǎi)和維護(hù)硬件的成本。

IBM 和 Apache Hadoop

IBM 對(duì) Apache Hadoopis 的前景感到興奮,并洞察到它可能是極其寶貴的。IBM 已經(jīng)致力于 Hadoop 研究,有兩個(gè)技術(shù)預(yù)覽,可以在 Apache Hadoop 之上提供社區(qū)感興趣的附加特性。

Apache Hadoop 的 IBM 發(fā)行版

Apache Hadoop 的 IBM 發(fā)行版 綁定了 IBM Java 技術(shù),并針對(duì) IBM Java 和 IBM 平臺(tái)進(jìn)行測(cè)試。它包含一個(gè)基于 Web 的安裝向?qū)В拱惭b和配置 Hadoop 集群更為容易。這個(gè)向?qū)拱惭b和運(yùn)行 Hadoop 需要花費(fèi)的時(shí)間大大減少,能夠幫助那些在 Hadoop 之上構(gòu)建解決方案和工具,以及直接使用 Hadoop、map/reduce 和 HDFS API 的開(kāi)發(fā)人員。

BigSheets

對(duì)于分析感興趣的非程序設(shè)計(jì)人員,InfoSphere BigInsights 是一個(gè)新的 IBM 產(chǎn)品組合,其中包含一個(gè)稱(chēng)為 BigSheets 的技術(shù)預(yù)覽。BigSheets 提供一個(gè)引人注目的可視化界面來(lái)聚集、分析和探索數(shù)據(jù)。BigSheets 是一個(gè)功能相當(dāng)齊全的工具,它在 Apache Hadoop 之上提供了易配置的加載、分析和導(dǎo)出工具。

結(jié)束語(yǔ)

我們已經(jīng)看到了目前的海量數(shù)據(jù),以及開(kāi)源社區(qū)是如何使用 Apache Hadoop 項(xiàng)目來(lái)處理這些問(wèn)題的。我們還檢查了令人興奮的使用 Big Data 挖掘新洞察的機(jī)遇,以及這個(gè)生態(tài)系統(tǒng)中在 Apache Hadoop 周?chē)杆籴绕鸬囊恍╅_(kāi)放源碼和專(zhuān)有工具。

想要對(duì) Hadoop 有一個(gè)更為詳細(xì)的了解,不要錯(cuò)過(guò) “使用 Linux 和 Hadoop 的分布式計(jì)算”并體驗(yàn) WordCount 示例(相當(dāng)于 map/reduce 的 Hello World),在 Apache Hadoop 項(xiàng)目 Wiki 中有詳細(xì)的描述。

想要循序漸進(jìn)地了解數(shù)據(jù)分析,請(qǐng)?jiān)囉? Apache Pig ,并逐一瀏覽項(xiàng)目 wiki 中的教程。

搜索 hadoop


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 欧美一级精品 | 日本欧美国产 | 草草视频手机在线观看视频 | 三级在线观看视频 | 三级在线国产 | 波多野结衣中文字幕视频 | 一级片免费在线播放 | 久草视频在线观 | 色综合久久88色综合天天 | 韩国美女一区二区 | 一级毛片免费不卡在线 | 成人国产精品免费视频 | 奇米色777欧美一区二区 | 自拍偷拍视频网站 | 日韩在线不卡视频 | 精品免费国产一区二区三区四区介绍 | 免费视频片在线观看大片 | 私色综合网| 日本久久精品视频 | 亚洲色图88 | 日韩精品一区二区三区在线观看 | 成人国产精品一区 | 国产色综合天天综合网 | 成人精品一区二区三区 | 精品久久久久国产免费 | 九九热国产视频 | 精品一卡2卡三卡四卡二卡 欧美不卡一区二区三区在线观看 | 永久免费在线播放 | 欧美另类性视频 | 色婷婷综合久久久久中文一区二区 | 国产一级高清 | 91精品视频免费在线观看 | 久草视频在线首页 | 国产综合一区二区 | 午夜视频免费 | 俄罗斯hdxxx| 自拍偷拍亚洲一区 | 精品美女在线观看视频在线观看 | 日本黄色高清网站 | 成人av一区 | 国产精品久久久久久中文字 |