部分轉(zhuǎn)載: http://www.blogjava.net/zhenandaci/archive/2008/05/31/204646.html
作者:Jasper
?????
文本分類(lèi)(text categorization)
問(wèn)題就是將一篇文檔歸入預(yù)先定義的幾個(gè)類(lèi)別中的一個(gè)或幾個(gè),而文本的自動(dòng)分類(lèi)則是使用計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)這樣的分類(lèi)。
通俗點(diǎn)說(shuō),就好比你拿一篇文章,問(wèn)計(jì)算機(jī)這文章要說(shuō)的究竟是體育,經(jīng)濟(jì)還是教育,計(jì)算機(jī)答不上就打它的屁屁(……)。
????? 注意這個(gè)定義當(dāng)中著重強(qiáng)調(diào)的兩個(gè)事實(shí)。
?????
第一,用于分類(lèi)所需要的類(lèi)別體系是預(yù)先確定的。
例如新浪新聞的分類(lèi)體系,Yahoo!網(wǎng)頁(yè)導(dǎo)航的分類(lèi)層次。這種分類(lèi)層次一旦確定,在相當(dāng)長(zhǎng)的時(shí)間內(nèi)都是不可變的,或者即使要變更,也要付出相當(dāng)大的代價(jià)(基本不亞于推倒并重建一個(gè)分類(lèi)系統(tǒng))。
????
? 第二,一篇文檔并沒(méi)有嚴(yán)格規(guī)定只能被分配給一個(gè)類(lèi)別。
這與分類(lèi)這個(gè)問(wèn)題的主觀(guān)性有關(guān),例如找10個(gè)人判斷一篇文章所陳述的主題究竟屬于金融,銀行還是財(cái)政政策領(lǐng)域,10個(gè)人可能會(huì)給出10個(gè)不同的答案。因此一篇文章很可能被分配到多個(gè)類(lèi)別當(dāng)中,只不過(guò)分給某些類(lèi)別讓人信服,而有些讓人感覺(jué)模棱兩可罷了(說(shuō)的專(zhuān)業(yè)點(diǎn),置信度不一樣)。
????? 現(xiàn)在一說(shuō)到文本分類(lèi),大部分人想當(dāng)然的將這個(gè)問(wèn)題簡(jiǎn)化為判斷一篇文章說(shuō)的是什么,這只是文本分類(lèi)的一小部分應(yīng)用,我們可以稱(chēng)之為“依據(jù)主題的分類(lèi)”。實(shí)際上,文本分類(lèi)還可以用于判斷文章的寫(xiě)作風(fēng)格,作者態(tài)度(積極?消極?),甚至判斷作者真?zhèn)危ɡ缈纯础都t樓夢(mèng)》最后二十回到底是不是曹雪芹寫(xiě)的)。
總而言之,凡是與文本有關(guān),與分類(lèi)有關(guān),不管從什么角度出發(fā),依據(jù)的是何特征,都可以叫做文本分類(lèi)。
????? 當(dāng)然,目前真正大量使用文本分類(lèi)技術(shù)的,仍是依據(jù)文章主題的分類(lèi),而據(jù)此構(gòu)建最多的系統(tǒng),當(dāng)屬搜索引擎。內(nèi)里的原因當(dāng)然不言自明,我只是想給大家提個(gè)醒,文本分類(lèi)還不完全等同于網(wǎng)頁(yè)分類(lèi)。
網(wǎng)頁(yè)所包含的信息遠(yuǎn)比含于其中的文字(文本)信息多得多,對(duì)一個(gè)網(wǎng)頁(yè)的分類(lèi),除了考慮文本內(nèi)容的分類(lèi)以外,鏈入鏈出的鏈接信息,頁(yè)面文件本身的元數(shù)據(jù),甚至是包含此網(wǎng)頁(yè)的網(wǎng)站結(jié)構(gòu)和主題,都能給分類(lèi)提供莫大的幫助(比如新浪體育專(zhuān)欄里的網(wǎng)頁(yè)毫無(wú)疑問(wèn)都是關(guān)于體育的),因此說(shuō)文本分類(lèi)實(shí)際上是網(wǎng)頁(yè)分類(lèi)的一個(gè)子集也毫不為過(guò)。
當(dāng)然,純粹的文本分類(lèi)系統(tǒng)與網(wǎng)頁(yè)分類(lèi)也不是一點(diǎn)區(qū)別都沒(méi)有。文本分類(lèi)有個(gè)重要前提:即只能根據(jù)文章的文字內(nèi)容進(jìn)行分類(lèi),而不應(yīng)借助諸如文件的編碼格式,文章作者,發(fā)布日期等信息。而這些信息對(duì)網(wǎng)頁(yè)來(lái)說(shuō)常常是可用的,有時(shí)起到的作用還很巨大!因此純粹的文本分類(lèi)系統(tǒng)要想達(dá)到相當(dāng)?shù)姆诸?lèi)效果,必須在本身的理論基礎(chǔ)和技術(shù)含量上下功夫。
?
????? 下面我們看看F.Sebastiani (2002) 在 ACM Computing Surveys上發(fā)表的一篇論文《Machine Learning in Automated Text Categorization》中,用如下的數(shù)學(xué)模型來(lái)描述分類(lèi)體系下的類(lèi)別集合:
????? 文本分類(lèi)的任務(wù)可以理解為獲得這樣一個(gè)函數(shù)Φ: D×C -> {T , F} ,其中D={d1,d2,...,dx}表示需要進(jìn)行分類(lèi)的文檔,C={c1,c2,...,cy}表示預(yù)定義的分類(lèi)體系下的類(lèi)別集合(或者可以說(shuō)是訓(xùn)練語(yǔ)料中的類(lèi)別集合)。T值表示對(duì)于<dj,ci>來(lái)說(shuō),文檔dj屬于類(lèi)ci。而F值則表示不屬于。也就說(shuō),文本分類(lèi)的終極目的是要找到一個(gè)有效的映射函數(shù),準(zhǔn)確地實(shí)現(xiàn)域 D×C到值T/F的映射,這個(gè)映射函數(shù)實(shí)際上就是 分類(lèi)器 。一個(gè)文本分類(lèi)系統(tǒng)可以簡(jiǎn)略的表示成下圖:
????????????????
?????? 上面是計(jì)算機(jī)的分類(lèi)系統(tǒng)的體系結(jié)構(gòu),沒(méi)有自然語(yǔ)言處理基礎(chǔ)的朋友可能很難看到這個(gè)分體系統(tǒng)。下面我們通俗點(diǎn)談?wù)動(dòng)?jì)算機(jī)分類(lèi)方法。
?
分本分類(lèi)方法
????? 首先想想我們?nèi)祟?lèi)看到一篇文檔之后,是如何能夠確定這篇文本的類(lèi)別呢?
????? 很顯然,我們要通讀全文,然后根據(jù)文中大量的特征詞來(lái)判斷。比如下面這篇文章,標(biāo)藍(lán)的詞語(yǔ)給我們了一種主觀(guān)感覺(jué),再加上標(biāo)藍(lán)詞語(yǔ)在文章中還是比較多的,這就能讓我們斷定它是一篇NBA籃球方面的文章。
?
????? 勒布朗-詹姆斯 、 德維恩-韋德 和 克 里斯-波什 的組合,能在 新賽季 為 邁阿密熱火 帶來(lái)期盼已久的 總冠軍 么?也許在紙面上, 熱火 的新三巨頭是不可 戰(zhàn)勝的,但如果深入研究如今 球隊(duì) 的陣容,不要說(shuō)對(duì)比連續(xù)兩年的 衛(wèi)冕冠軍湖人 ,即便連東部的 凱爾特人 , 熱火 也難有勝算的優(yōu)勢(shì)。《DIME雜志》專(zhuān)家大衛(wèi)-阿 爾瓦雷斯就撰文指出,即便 熱火 在 休賽期 的運(yùn)作足以震撼全世界,但他們足以擊敗 聯(lián)盟 所有對(duì)手了么?答案顯然是:絕不可能。
?
????? 當(dāng)然,這有一個(gè)問(wèn)題,如果我們完全就不知道NBA和籃球,那么再多的特征詞也沒(méi)用。因此,我們?nèi)祟?lèi)判斷出來(lái)的準(zhǔn)確度取決于我們的知識(shí)量和經(jīng)驗(yàn)。也就是我們以前看到過(guò)很多這類(lèi)文章,才能夠保證我們?nèi)朔诸?lèi)的正確性。
?
???? 正是人類(lèi)的這種分類(lèi)方法,使得我們也讓計(jì)算機(jī)的分類(lèi)理論具備了一些類(lèi)似的術(shù)語(yǔ):
???? (1) 特征: 反映文本的內(nèi)容,且具有對(duì)其他類(lèi)別文本的區(qū)分能力。對(duì)于計(jì)算機(jī)而言,很多時(shí)候特征用具有特殊含義的詞來(lái)表示。在自然語(yǔ)言處理領(lǐng)域,獲取文本/類(lèi)別特征的研究,我們叫做 特征提取(feature extraction) 。
???? ( 2) 訓(xùn)練: 不懂NBA的人自然也讀不懂NBA的文章,計(jì)算機(jī)也是如此。因此我們必須為計(jì)算機(jī)建立一個(gè)類(lèi)別的知識(shí)庫(kù)(專(zhuān)業(yè)領(lǐng)域叫 語(yǔ)料庫(kù) 或 知識(shí)詞典 ),讓計(jì)算機(jī)在這個(gè)知識(shí)庫(kù)中學(xué)習(xí),獲取經(jīng)驗(yàn)。這個(gè)過(guò)程也就是專(zhuān)業(yè)領(lǐng)域中講到的 機(jī)器學(xué)習(xí)(Machine Learning) 。在分類(lèi)體系中,這個(gè)過(guò)程有時(shí)是不可或缺的,我們叫做 訓(xùn)練 ,而用于訓(xùn)練的文本我們叫做 訓(xùn)練語(yǔ)料 或 訓(xùn)練集 。
??? (3) 文本表示: 計(jì)算機(jī)很難想人類(lèi)一樣,對(duì)文本具有概念上的感性表示。只能通過(guò)一種確定的形式化表示方法來(lái)表示文本,進(jìn)而能夠簡(jiǎn)單的處理文本內(nèi)容。在自然語(yǔ)言處理領(lǐng)域中,常用的一種文本形式化表示模型叫做 向量空間模型(VSM) 。
?
????? 整個(gè)這樣的一種計(jì)算機(jī)分類(lèi)理論,我們叫做 統(tǒng)計(jì)學(xué)習(xí)方法 (很多人叫 機(jī)器學(xué)習(xí)方法 )。這是目前自然語(yǔ)言處理領(lǐng)域中最可靠,也是最流行的思想。
?
????? 統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工進(jìn)行了準(zhǔn)確分類(lèi)的文檔作為學(xué)習(xí)的材料(稱(chēng)為訓(xùn)練集,注意由人分類(lèi)一批文檔比從這些文檔中總結(jié)出準(zhǔn)確的規(guī)則成本要低得多),計(jì)算機(jī)從這些文檔中挖掘出一些能夠有效分類(lèi)的規(guī)則,這個(gè)過(guò)程被形象的稱(chēng)為訓(xùn)練。而總結(jié)出的規(guī)則集合常常被稱(chēng)為分類(lèi)器。訓(xùn)練完成之后,需要對(duì)計(jì)算機(jī)從來(lái)沒(méi)有見(jiàn)過(guò)的文檔進(jìn)行分類(lèi)時(shí),便使用這些分類(lèi)器來(lái)進(jìn)行。
????? 現(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)方法已經(jīng)成為了文本分類(lèi)領(lǐng)域絕對(duì)的主流。主要的原因在于其中的很多技術(shù)擁有堅(jiān)實(shí)的理論數(shù)學(xué)基礎(chǔ)。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
