數(shù)學(xué)之美 系列十九 - 馬爾可夫鏈的擴(kuò)展 貝葉斯網(wǎng)絡(luò) (Bayesian Networks) 寫道
2007年1月28日 下午 09:53:00
發(fā)表者:Google 研究員,吳軍
我們在前面的系列中多次提到馬爾可夫鏈 (Markov Chain),它描述了一種狀態(tài)序列,其每個狀態(tài)值取決于前面有限個狀態(tài)。這種模型,對很多實(shí)際問題來講是一種很粗略的簡化。在現(xiàn)實(shí)生活中,很多事物相互的關(guān)系并不能用一條鏈來串起來。它們之間的關(guān)系可能是交叉的、錯綜復(fù)雜的。比如在下圖中可以看到,心血管疾病和它的成因之間的關(guān)系是錯綜復(fù)雜的。顯然無法用一個鏈來表示。
?
我們可以把上述的有向圖看成一個網(wǎng)絡(luò),它就是貝葉斯網(wǎng)絡(luò)。其中每個圓圈表示一個狀態(tài)。狀態(tài)之間的連線表示它們的因果關(guān)系。比如從心血管疾病出發(fā)到吸煙的弧線表示心血管疾病可能和吸煙有關(guān)。當(dāng)然,這些關(guān)系可以有一個量化的可信度 (belief),用一個概率描述。我們可以通過這樣一張網(wǎng)絡(luò)估計(jì)出一個人的心血管疾病的可能性。在網(wǎng)絡(luò)中每個節(jié)點(diǎn)概率的計(jì)算,可以用貝葉斯公式來進(jìn)行,貝葉斯網(wǎng)絡(luò)因此而得名。由于網(wǎng)絡(luò)的每個弧有一個可信度,貝葉斯網(wǎng)絡(luò)也被稱作信念網(wǎng)絡(luò) (belief networks)。
和馬爾可夫鏈類似,貝葉斯網(wǎng)絡(luò)中的每個狀態(tài)值取決于前面有限個狀態(tài)。不同的是,貝葉斯網(wǎng)絡(luò)比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結(jié)構(gòu)的約束,因此可以更準(zhǔn)確地描述事件之間的相關(guān)性??梢灾v,馬爾可夫鏈?zhǔn)秦惾~斯網(wǎng)絡(luò)的特例,而貝葉斯網(wǎng)絡(luò)是馬爾可夫鏈的推廣。
使用貝葉斯網(wǎng)絡(luò)必須知道各個狀態(tài)之間相關(guān)的概率。得到這些參數(shù)的過程叫做訓(xùn)練。和訓(xùn)練馬爾可夫模型一樣,訓(xùn)練貝葉斯網(wǎng)絡(luò)要用一些已知的數(shù)據(jù)。比如在訓(xùn)練上面的網(wǎng)絡(luò),需要知道一些心血管疾病和吸煙、家族病史等有關(guān)的情況。相比馬爾可夫鏈,貝葉斯網(wǎng)絡(luò)的訓(xùn)練比較復(fù)雜,從理論上講,它是一個 NP-complete 問題,也就是說,對于現(xiàn)在的計(jì)算機(jī)是不可計(jì)算的。但是,對于某些應(yīng)用,這個訓(xùn)練過程可以簡化,并在計(jì)算上實(shí)現(xiàn)。
值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅圖華盛頓大學(xué)的比爾默 (Jeff Bilmes) 教授完成了一個通用的貝葉斯網(wǎng)絡(luò)的工具包,提供給對貝葉斯網(wǎng)絡(luò)有興趣的研究者。
貝葉斯網(wǎng)絡(luò)在圖像處理、文字處理、支持決策等方面有很多應(yīng)用。在文字處理方面,語義相近的詞之間的關(guān)系可以用一個貝葉斯網(wǎng)絡(luò)來描述。我們利用貝葉斯網(wǎng)絡(luò),可以找出近義詞和相關(guān)的詞,在 Google 搜索和 Google 廣告中都有直接的應(yīng)用。
發(fā)表者:Google 研究員,吳軍
我們在前面的系列中多次提到馬爾可夫鏈 (Markov Chain),它描述了一種狀態(tài)序列,其每個狀態(tài)值取決于前面有限個狀態(tài)。這種模型,對很多實(shí)際問題來講是一種很粗略的簡化。在現(xiàn)實(shí)生活中,很多事物相互的關(guān)系并不能用一條鏈來串起來。它們之間的關(guān)系可能是交叉的、錯綜復(fù)雜的。比如在下圖中可以看到,心血管疾病和它的成因之間的關(guān)系是錯綜復(fù)雜的。顯然無法用一個鏈來表示。

?
我們可以把上述的有向圖看成一個網(wǎng)絡(luò),它就是貝葉斯網(wǎng)絡(luò)。其中每個圓圈表示一個狀態(tài)。狀態(tài)之間的連線表示它們的因果關(guān)系。比如從心血管疾病出發(fā)到吸煙的弧線表示心血管疾病可能和吸煙有關(guān)。當(dāng)然,這些關(guān)系可以有一個量化的可信度 (belief),用一個概率描述。我們可以通過這樣一張網(wǎng)絡(luò)估計(jì)出一個人的心血管疾病的可能性。在網(wǎng)絡(luò)中每個節(jié)點(diǎn)概率的計(jì)算,可以用貝葉斯公式來進(jìn)行,貝葉斯網(wǎng)絡(luò)因此而得名。由于網(wǎng)絡(luò)的每個弧有一個可信度,貝葉斯網(wǎng)絡(luò)也被稱作信念網(wǎng)絡(luò) (belief networks)。
和馬爾可夫鏈類似,貝葉斯網(wǎng)絡(luò)中的每個狀態(tài)值取決于前面有限個狀態(tài)。不同的是,貝葉斯網(wǎng)絡(luò)比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結(jié)構(gòu)的約束,因此可以更準(zhǔn)確地描述事件之間的相關(guān)性??梢灾v,馬爾可夫鏈?zhǔn)秦惾~斯網(wǎng)絡(luò)的特例,而貝葉斯網(wǎng)絡(luò)是馬爾可夫鏈的推廣。
使用貝葉斯網(wǎng)絡(luò)必須知道各個狀態(tài)之間相關(guān)的概率。得到這些參數(shù)的過程叫做訓(xùn)練。和訓(xùn)練馬爾可夫模型一樣,訓(xùn)練貝葉斯網(wǎng)絡(luò)要用一些已知的數(shù)據(jù)。比如在訓(xùn)練上面的網(wǎng)絡(luò),需要知道一些心血管疾病和吸煙、家族病史等有關(guān)的情況。相比馬爾可夫鏈,貝葉斯網(wǎng)絡(luò)的訓(xùn)練比較復(fù)雜,從理論上講,它是一個 NP-complete 問題,也就是說,對于現(xiàn)在的計(jì)算機(jī)是不可計(jì)算的。但是,對于某些應(yīng)用,這個訓(xùn)練過程可以簡化,并在計(jì)算上實(shí)現(xiàn)。
值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅圖華盛頓大學(xué)的比爾默 (Jeff Bilmes) 教授完成了一個通用的貝葉斯網(wǎng)絡(luò)的工具包,提供給對貝葉斯網(wǎng)絡(luò)有興趣的研究者。
貝葉斯網(wǎng)絡(luò)在圖像處理、文字處理、支持決策等方面有很多應(yīng)用。在文字處理方面,語義相近的詞之間的關(guān)系可以用一個貝葉斯網(wǎng)絡(luò)來描述。我們利用貝葉斯網(wǎng)絡(luò),可以找出近義詞和相關(guān)的詞,在 Google 搜索和 Google 廣告中都有直接的應(yīng)用。
?其它重要參考:
在這里我就用一個實(shí)例來簡單說說這個網(wǎng)絡(luò)的具體使用吧。
還有更多的例子,大家可以在JavaBayes的exmaple中看到。
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
