vsm

系統 2019-08-29 23:45:14 1971 0

向量空間模型將文檔映射為一個特征向量V(d)=(t ₁ ,ω ₁ (d)；…；t _n , ω _n (d))，其中t _i (i=1,2, …,n)為一列互不雷同的詞條項，ω _i (d)為t _i 在d中的權值, 一般被定義為t _i 在d中出現頻率tf _i (d)的函數，即。

在信息檢索中常用的詞條權值計算方法為 TF-IDF 函數，其中N為所有文檔的數目，n _i 為含有詞條t _i 的文檔數目。TF-IDF公式有很多變種，下面是一個常用的TF-IDF公式：

根據TF-IDF公式，文檔集中包含某一詞條的文檔越多，說明它區分文檔類別屬性的能力越低，其權值越小；另一方面，某一文檔中某一詞條出現的頻率越高，說明它區分文檔內容屬性的能力越強，其權值越大。

兩文檔之間的相似度可以用其對應的向量之間的夾角余弦來表示，即文檔d _i ，d _j 的相似度可以表示為

進行查詢的過程中，先將查詢條件Q進行向量化，主要依據布爾模型:

當t _i 在查詢條件Q中時，將對應的第i坐標置為1，否則置為0，即

從而文檔d與查詢Q的相似度為

根據文檔之間的相似度，結合機器學習的一些算法如神經網絡算法，K-近鄰算法和貝葉斯分類算法等，可以將文檔集分類劃分為一些小的文檔子集。

在查詢過程中，可以計算出每個文檔與查詢的相似度，進而可以根據相似度的大小，將查詢的結果進行排序。

向量空間模型可以實現文檔的自動分類和對查詢結果的相似度排序，能夠有效提高檢索效率；它的缺點是相似度的計算量大，當有新文檔加入時，則必須重新計算詞的權值。

vsm

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論

向量空間模型將文檔映射為一個特征向量V(d)=(t 1 ,ω 1 (d)；…；t n , ω n (d))，其中t i (i=1,2, …,n)為一列互不雷同的詞條項，ω i (d)為t i 在d中的權值, 一般被定義為t i 在d中出現頻率tf i (d)的函數，即 。

向量空間模型將文檔映射為一個特征向量V(d)=(t ₁ ,ω ₁ (d)；…；t _n , ω _n (d))，其中t _i (i=1,2, …,n)為一列互不雷同的詞條項，ω _i (d)為t _i 在d中的權值, 一般被定義為t _i 在d中出現頻率tf _i (d)的函數，即。