志在計算機系統中是一個非常廣泛的概念，任何程序都有可能輸出日志：操作系統內核、各種應用服務器等等。日志的內容、規模和用途也各不相同，很難一概而論。

本文討論的日志處理方法中的日志，僅指Web日志。其實并沒有精確的定義，可能包括但不限于各種前端Web服務器——apache、lighttpd、tomcat等產生的用戶訪問日志，以及各種Web應用程序自己輸出的日志。

在Web日志中，每條日志通常代表著用戶的一次訪問行為，例如下面就是一條典型的apache日志：

211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 899 “http://www.baidu.com/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)”

從上面這條日志中，我們可以得到很多有用的信息，例如訪問者的IP、訪問的時間、訪問的目標網頁、來源的地址以及訪問者所使用的客戶端的UserAgent信息等。如果需要更多的信息，則要用其它手段去獲取：例如想得到用戶屏幕的分辨率，一般需要使用js代碼單獨發送請求；而如果想得到諸如用戶訪問的具體新聞標題等信息，則可能需要Web應用程序在自己的代碼里輸出。

為什么要分析日志

毫無疑問，Web日志中包含了大量人們——主要是產品分析人員會感興趣的信息，最簡單的，我們可以從中獲取網站每類頁面的PV值（PageView，頁面訪問量）、獨立IP數（即去重之后的IP數量）等；稍微復雜一些的，可以計算得出用戶所檢索的關鍵詞排行榜、用戶停留時間最高的頁面等；更復雜的，構建廣告點擊模型、分析用戶行為特征等等。

既然這些數據是如此的有用，那么當然已經有無數現成的工具可以幫助我們來分析它們，例如awstats、Webalizer，都是專門用于統計分析Web服務器日志的免費程序。

另外還有一類產品，它們不分析直接日志，而是通過讓用戶在頁面中嵌入js代碼的方式來直接進行數據統計，或者說我們可以認為它是直接讓日志輸出到了它們的服務器。典型的代表產品——大名鼎鼎的Google Analytics，另外還有國內的cnzz、百度統計等。

很多人可能會說，既然如此，我們為什么還需要自己來分析日志，有必要嗎？當然有。我們的用戶（產品分析人員）需求是無窮盡的，上面說的這幾類工具雖然很好很強大，但顯然沒辦法滿足全部的需求。

無論是本地分析的工具，還是在線的分析服務，它們雖然提很豐富的的統計分析功能，可以做一定程度的配置，但是依然很有限的。要進行稍復雜點的分析，或者要做基于日志的數據挖掘，依然需要自己來完成。

另外絕大多數日志分析工具都是只能用于單機的，數據量稍大就沒轍了。同時那些提供在線分析的服務對于單個站點通常也都有最大流量的限制——這是很容易理解的，他們也需要考慮服務器的負載。

所以，很多時候還是得靠自己。

怎么進行日志分析

這并不是一個簡單的問題。即使我們把“日志”限定為Web日志，依然包含了成千上萬種可能的格式和數據，而是“分析”更是難以定義，也許是簡單的統計值的計算，也許是復雜的數據挖掘算法。

下面并不打算討論這些復雜的問題，而只是籠統的討論如何構建進行日志分析工作的基礎。有了這些基礎會讓基于日志的簡單統計分析變得很簡單，并讓復雜的分析挖掘等變得可行。

少量數據的情況

先考慮最簡單的情況，在數據規模比較小的時候，也許是幾十MB、幾百MB或者幾十GB，總之就是在單機處理尚能忍受的時候。一切都很好辦，現成的各種Unix/Linux工具——awk、grep、sort、join等都是日志分析的利器，如果僅僅是想知道某個頁面的PV，一個wc+grep就能搞定。如果有稍復雜的邏輯，那就使用各種腳本語言，尤其是perl，配合偉大的正則表達式，基本就可以解決所有的問題。

例如，我們想從上面提到的apache日志中得到訪問量最高前100個IP，實現很簡單：

cat logfile | awk ‘{a[$1]++} END {for(b in a) print b”\t”a[b]}’|sort -k2 -r|head -n 100

不過當我們需要頻繁去分析日志的時候，上面的做法在一段時間之后可能就會讓我們頭疼如何進行各種日志文件、用于分析的腳本文件、crontab文件等等的維護，并且可能會存在大量重復的代碼來做數據格式的解析和清洗，這個時候也許就需要更合適的東西，比如——數據庫。

當然，要使用數據庫來進行日志分析還是需要一些代價的，最主要的就是如何將各種異構的日志文件導入的數據庫中——這個過程通常稱為ETL（Extraction-Transformation-Loading）。幸好依然有各種現成的開源、免費的工具來幫助我們做這件事情，并且在日志種類不太多的時候，自己寫幾個簡單的腳本來完成這項工作也并不困難。例如可以將上面的日志去掉不必要的字段，然后導入如下的數據庫中：

現在需要考慮一下用什么數據庫來存儲這些數據。MySQL是一個很經典的開源數據庫，它的傳統引擎（MyISAM或者InnoDB，行存儲）也許并不非常的適合日志數據的存儲，但是在小數據量的時候還是很夠用的。而且，在這方面現在已經有了更好的選擇，例如開源且免費的Infobright、Infinidb，都是專門為數據倉庫應用而進行了優化的數據引擎，采用列存儲，有良好的數據壓縮，處理幾百GB的數據基本上不是問題。

使用數據庫的好處之一就是，偉大的SQL可以幫我們很簡單的完成絕大部分的統計分析工作——PV只需要SELECT+COUNT，計算搜索詞排行只需要SELECT+COUNT+GROUP+ORDER+LIMIT。此外，數據庫本身的結構化存儲模式也讓日志數據的管理變的更簡單，減少運維代價。

同樣還是上面的那個例子，簡單的一個SQL就可以搞定：

SELECT * FROM (SELECT ip, COUNT(*) AS ip_count FROM apache_log GROUP BY ip) a ORDER BY ip_count DESC LIMIT 100

至于性能問題，數據庫的索引和各種優化機制通常會讓我們的統計分析工作變得更快，并且上面提到的Infobright和Infinidb都專門為類似SUM、COUNt之類的聚集應用做了優化。當然也不是絕對的會快，例如在數據庫中進行LIKE操作，通常會比grep一個文件還要慢很多。

更進一步的，使用基于數據庫的存儲，可以很容易的進行OLAP（聯機分析處理）應用，從日志中挖掘價值會變的更加簡單。

怎樣變得更簡單

在超大規模的數據上做任何事情都不是一件容易的事情，包括日志分析，但也并不是說分布式的日志分析就一定要去寫MapReduce代碼，總是可以去做進一步的抽象，在特定的應用下讓事情變得更簡單。

也許有人會很自然的想到如果能用SQL來操作Hadoop上的數據該有多好。事實上，不僅僅只有你一個人會這么想，很多人都這么想，并且他們實現了這個想法，于是就有了Hive。

Hive現在也是Hadoop項目下面的一個子項目，它可以讓我們用SQL的接口來執行MapReduce，甚至提供了JDBC和ODBC的接口。有了這個之后，Hadoop基本上被包裝成一個數據庫。當然實際上Hive的SQL最終還是被翻譯成了MapReduce代碼來執行，因此即使最簡單的SQL可能也要執行好幾十秒。幸好在通常的離線日志分析中，這個時間還是可以接受的。更重要的是，對于上面提到的例子，我們又可以用一樣的SQL來完成分析任務了。

當然Hive并不是完全的兼容SQL語法，而且也不能做到完全的對用戶屏蔽細節。很多時候為了執行性能的優化，依然需要用戶去了解一些MapReduce的基本知識，根據自己的應用模式來設置一些參數，否則我們可能會發現一個查詢執行很慢，或者壓根執行不出來。

另外，很顯然Hive也并不能覆蓋所有的需求，所以它依然保留插入原始MapReduce代碼的接口，以便擴展。

Web日志分析方法概述讓復雜的數據挖掘變得簡單

為什么要分析日志

怎么進行日志分析

少量數據的情況

更多的數據怎么辦

怎樣變得更簡單

更多的問題