欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

【文本分類】文本表示 --- VSM

系統(tǒng) 1613 0

要使得計(jì)算機(jī)能高效的處理真實(shí)文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實(shí)的反映文檔內(nèi)容(主題、領(lǐng)域或結(jié)構(gòu)等),另一方面也要有對不同文檔的區(qū)分能力。

?

目前文本表示通常采用 向量空間模型(vector space model, VSM) 。VSM是20世紀(jì)60年代末期由G. Salton等人提出的,是當(dāng)前自然語言處理中常用的主流模型。

?

下面首先給出VSM設(shè)計(jì)的基本概念:

(1) 文檔(document): 通常是文章中具有一定規(guī)模的字符串。文檔通常我們也叫文本。

(2) 特征項(xiàng) (feature term): 是VSM中最小的不可分的語言單元,可以是字、詞、詞組、短語等。一個(gè)文檔內(nèi)容可以被看成是它含有的特征項(xiàng)的集合。表示為一個(gè)向量:D(t1,t2,...,tn),其中tk是特征項(xiàng)。

(3) 特征項(xiàng)權(quán)重 (term weight): 對于含有n個(gè)特征項(xiàng)的文檔D(t1,t2,..,tn),每一個(gè)特征項(xiàng)tk都依據(jù)一定的原則被賦予了一個(gè)權(quán)重wk,表示該特征相在文檔中的重要程度。這樣一個(gè)文檔D可用它含有的特征項(xiàng)及其特征項(xiàng)所對應(yīng)的權(quán)重所表示: D(t1=w1,t2=w2,...,tn=wn),簡記為D(w1,w2,...,wn),其中wk就是特征項(xiàng)tk的權(quán)重。

?

一個(gè)文檔在上述約定下可以看成是n維空間中的一個(gè)向量,這就是VSM的基本理論基礎(chǔ)。

?

向量空間模型在計(jì)算文檔間相似程度上應(yīng)用廣泛。我們可以通過向量的內(nèi)積運(yùn)算來做到這一點(diǎn):

?

VSM模型為計(jì)算機(jī)處理文本分類打下了夯實(shí)的數(shù)學(xué)基礎(chǔ),但是一篇文本到底用哪些特征項(xiàng)來表示呢?比如在《 【文本分類】 概述 》文章中舉的那篇NBA文本的例子,我們可以用所有標(biāo)藍(lán)的詞語作為特征項(xiàng)來表示文本向量:

?

?????????? D = { 勒布朗-詹姆斯 德維恩-韋德 里斯-波什 新賽季 邁阿密熱火 總冠軍 熱火 球隊(duì) 衛(wèi)冕冠軍,湖人 凱爾特人 休賽期 聯(lián)盟 }

?

?而且這些特征項(xiàng)在文章中的權(quán)重是如何計(jì)算的呢? 關(guān)于這幾個(gè)問題,我們都將在后面的特征提取方法和特征權(quán)重計(jì)算方法中講到。

?

因?yàn)榻y(tǒng)計(jì)學(xué)習(xí)方法的理論基礎(chǔ)(即文檔的內(nèi)容與其中所包含的詞有著必然的聯(lián)系,同一類文檔之間總存在多個(gè)共同的詞,而不同類的文檔所包含的詞之間差異很大。進(jìn)一步的,不光是包含哪些詞很重要,這些詞出現(xiàn)的次數(shù)對分類也很重要)。使得

VSM成了適合文本分類問題的文檔表示模型。在這種模型中,一篇文章被看作特征項(xiàng)集合來看,利用加權(quán)特征項(xiàng)構(gòu)成向量進(jìn)行文本表示,利用詞頻信息對文本特征進(jìn)行加權(quán)。它實(shí)現(xiàn)起來比較簡單,并且分類準(zhǔn)確度也高,能夠滿足一般應(yīng)用的要求。


而實(shí)際上,文本是一種信息載體,其所攜帶的信息由幾部分組成:如組成元素本身的信息(詞的信息)、組成元素之間順序關(guān)系帶來的信息以及上下文信息(更嚴(yán)格的說,還包括閱讀者本身的背景和理解)而VSM這種文檔表示模型,基本上完全忽略了除詞的信息以外所有的部分,這使得它能表達(dá)的信息量存在上限,也直接導(dǎo)致了基于這種模型構(gòu)建的文本分類系統(tǒng)(雖然這是目前絕對主流的做法),幾乎永遠(yuǎn)也不可能達(dá)到人類的分類能力。后面我們也會談到,相比于所謂的分類算法,對特征的選擇,也就是使用哪些特征來代表一篇文檔,往往更能影響分類的效果。


對于擴(kuò)充文檔表示模型所包含的信息量,人們也做過有益的嘗試,例如被稱為LSI(Latent Semantic Index潛在語義索引)的方法,就被實(shí)驗(yàn)證明保留了一定的語義信息(之所以說被實(shí)驗(yàn)證明了,是因?yàn)槿藗冞€無法在形式上嚴(yán)格地證明它確實(shí)保留了語義信息,而且這種語義信息并非以人可以理解的方式被保留下來),此為后話。

實(shí)際上:統(tǒng)計(jì)學(xué)習(xí)方法其實(shí)就是一個(gè)兩階段的解決方案, (1)訓(xùn)練階段,由計(jì)算機(jī)來總結(jié)分類的規(guī)則;(2)分類階段,給計(jì)算機(jī)一些它從來沒見過的文檔,讓它分類

【文本分類】文本表示 --- VSM


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产成人免费高清激情明星 | 国产一区二区不卡 | 久久精品一区二区免费播放 | 99riav在线| 欧美精品人爱a欧美精品 | 亚洲欧美无人区乱码 | 三级在线网站 | 午夜激情视频在线观看 | 巨大乳女人做爰视频在线 | 麻豆一区二区99久久久久 | 亚洲美女黄色 | 国产日本欧美在线观看 | 在线国产一区 | 香蕉国产在线观看免费 | 亚欧免费视频一区二区三区 | 亚洲码在线 | 亚洲欧美一区二区三区 | 日韩电影第一页 | 一区二区三区在线 | 网站 | 免费在线国产视频 | 亚洲一区在线日韩在线深爱 | 亚洲午夜小视频 | 国产精品视频 | 欧美一级在线观看视频 | 丝袜捆绑调教视频免费区 | 精品成人A片久久久久久船舶 | 国产91亚洲精品 | 国产精品视频二区不卡 | 久久人人爽人人爽 | 99热这里只有免费国产精品 | 看黄色一级视频 | 国产97色在线 | 亚洲 | 久草在线视频资源 | 精品一久久 | 亚洲精品乱码久久久久久蜜桃91 | 视频精品一区 | 国产精品第一国产精品 | 国产一区二区三区免费播放 | 久青草久青草高清在线播放 | 欧美操人视频 | 日本三级韩国三级香港三级a级 |