WEKA( developed at the University of Waikato in New Zealand 新西蘭懷卡托大學) http://www.cs.waikato.ac.nz/~ml/weka/index.html
與此開源項目對應的書為《Data Mining Practical Machine Learning Tools and Techniques Second Edition 》,該書下載地址 http://www.itpub.net/showthread.php?s=&threadid=731436 ,另外本書已有中文版《數據挖掘,實用機器學習技術》。
如果想研究里面算法的具體實現,可以用Eclipse調試。見 http://weka.sourceforge.net/wiki/index.php/Eclipse_3.0.x
Weka 3: Data Mining Software in Java
Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.
Weka 3:開源的數據挖掘軟件(Java)
Weka 是實施數據挖掘任務所需的各種機器學習算法的合集。這些算法既可以直接應用到某數據集上,也可以在你自己設計的Java程序調用它們。Weka 包含了下列工具:數據預處理,分類,回歸,聚類,關聯規則,以及可視化。另外也可以在Weka 的基礎上開發新的機器學習。
Weka主要致力于classifier and filter algorithms。
以下轉載自 http://blog.donews.com/carouter/archive/2005/07/11/462134.aspx
數據挖掘終于可以和煩人的代碼們說再見了! Weka,一個不足兩歲的新生兒,讓數據挖掘輕松易行,無需編程也能輕松搞定。
?? Weka是基于java,用于數據挖掘和知識分析一個平臺。來自世界各地的java愛好者們都可以把自己的算法放在這個平臺上,然后從海量數據中發掘其背后隱藏的種種關系;也許你只是出于對數據的狂熱愛好,但也許你的發現會蘊含著無限的商機。
? 打開Weka,首先出現一個命令行窗口。原以為要在這個命令行下寫java語句呢,不過稍等一秒,Weka GUIChooser的出現了。這是一個很簡單的窗體,提供四個按鈕:SimpleCLI、Explorer、Experimenter、 KnowledgeFlow。SimpleCLI應該是一個使用命令行的界面,有點像SAS的編輯器;Explorer是則是視窗模式下的數據挖掘工 具;Experimenter和KnowledgeFlow的使用有待進一步摸索....
?? 先打開WekaExlporer感受一下它的強大吧。它有六個標簽頁,分別是Preprocess、Classify、Cluster、 Associate、Selectattributes、Visualize。在Preprocess中Open一個數據文件(Weka使用的數據文件 是.arff,其實是一個文本數據集,格式并不復雜,用notepad打開一看就明白了)。當然也可以Open URL或Open DB,不過我沒有check一下支持哪些DB。
打開數據文件后,可以使用Filter進行一下過濾,相當于“預處理的預處理”。Filter提供了許多算法來過濾數據,比如filters/unsupervised/instance/normalize應該是一個標準化的算法。當然,也可以編寫你自己的算法!
這時窗體上已經給出這個數據集的一些基本特征了,比如有多少屬性,各屬性的一些簡單統計量,右下方還給出一些可視化效果比如柱狀圖。通過這些可以初步了解這個數據集了。但這些都是很直觀的可以看出來,好戲在后頭,隱藏的關系即將登場。
?? 接下來的兩個標簽頁是classify(分類)和cluster(聚類),接觸數據挖掘的人對它們一定不會陌生。同樣Weka有許多分類和聚類算法可供選 擇,在這里面稱為clasifier和clusterer。不過Weka提供的classify功能似乎還不夠靈活,只能定長度和定頻率地分類。但這個關 系不大,現在很多數據處理軟件都可以做到這個,比如excel。Cluster功能強大,提供了許多巧妙的聚類算法,選定一個算法,給出你所需要生成的聚 類數目,就可以自動完成。當然如果能不給出聚類數目也能自動聚類的話就更佳了,不過我還沒發現怎么做。
??? Next,終于到偉大的Associate了! 這是一個用于發掘AssociateRules(關聯規則)的模塊。對商學略有涉獵的人一定熟知沃爾瑪發現了啤酒和尿布銷售的關系這一佳話。有了 WekaAssociate,任何一家超市都可以做到這一點了。將前面導入的數據使用Associator進行發掘,就可以發現其中無數隱藏的關系。 Weka-3-4提供了Apriori、PredictiveApriori、Tertius三種關聯規則發掘算法,不過我感覺這已經夠用了。選定一個算 法,進行一些必要的設置,包括支持度上界、下界,每次運算的支持度遞減值,等等。另外一個重要的參數:所需要生成的關聯規則個數。太不可思議了,以前我們 能從海量數據中發現一個關聯規則就已經沾沾自喜,現在Weka居然問你想生成多少關聯規則!
參數設置完成,點Start,就可以去喝茶了。不一會,10條關聯規則已經生成,可以提交給老板了。當然,你還可以分析一下哪些規則比較有用,哪一條有潛在收益,這就需要business sense了。
??? 另外兩個標簽頁還沒怎么看。Selectattributes大概是針對單屬性的分析?Visualize則提供了許多可視化效果,需要拿出去演示時很方便。不過今天使用感覺這個模塊的功能有點問題,沒太搞懂。也有可能是我用錯了。
?? Weka實在是一個偉大的工具。基于java,卻沒有運行其它java程序那種慢吞吞的感覺。前天我還在說Data Mining isexcruciating but interesting,有了Weka,Data Mining也可以輕輕松松了!
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
