中文分詞和二元分詞綜合對比
為了測試中文分詞和二元分詞的差異,現(xiàn)將初步的測試數(shù)據(jù)做了對比。關(guān)于二元分詞可以參考
車東
先生的相關(guān)文章。
采用中文分詞每 1M 產(chǎn)生 1.55M 的索引文件,膨脹率 1.55 ;每 1M 用時大約 10 秒;采用二元分詞每 1M 產(chǎn)生 2.21M 的索引文件,膨脹率 2.21 ;每 1M 用時大約 7 秒;
從搜索結(jié)果來看,兩者可以大致相同數(shù)量的搜索結(jié)果(顯示結(jié)果根據(jù)相關(guān)度排列順序不同)。
對文本進行中文分詞的目的是要提高文檔檢索的相關(guān)性,由于相關(guān)性的算法(如下圖)涉及到很多因素,所以對二元切分和中文分詞切分顯示結(jié)果到底誰更相關(guān)( 人理解的意義相關(guān) ?),還無法得出結(jié)論。
相關(guān)度算法:
score( q,d ) = |
Σ |
tf (t in d) * idf (t) * getBoost ( t.field in d) * lengthNorm ( t.field in d) |
|
t in q |
|
但有一點可以肯定,采用中文分詞多花的解析中文時間可以帶來豐厚的回報:索引文件和 Term 數(shù)量的大大減少。
可參考本文最后表格的圖片對比。圖中的數(shù)據(jù)是出現(xiàn)頻率第 100 至 120 個 Term 情況,二元分詞產(chǎn)生了大量的沒有意義的 Term 。
|
數(shù)據(jù)源大小( M ) |
索引大小 |
膨脹率 |
Term 個數(shù) |
每兆 Term 個數(shù) |
所用時間(秒) |
秒 /M |
中文 |
14.20 |
22.50 |
1.584 |
76473.00 |
5385.42 |
105 |
7.394 |
二元 |
14.20 |
31.50 |
2.218 |
384488.00 |
27076.62 |
87 |
6.126 |
中文 |
4.73 |
7.54 |
1.594 |
84895.00 |
17948.20 |
50 |
10.570 |
二元 |
4.73 |
11.00 |
2.325 |
238064.00 |
50330.66 |
35 |
7.399 |
|
中文分詞 |
二元分詞 |
索引 源大小 |
14.2M |
14.2M |
索引 源內(nèi)容 |
論壇某天全部發(fā)言 |
論壇某天全部發(fā)言 |
建立索引用時 |
105 秒 |
87 秒 |
索引文件大小 |
22.5M |
31.5M |
生成的 Term 數(shù) |
76473 |
384488 ( 5.02 倍) |
文檔數(shù) |
6802 |
6802 |
搜索:XX |
236 (搜索結(jié)果(條)) |
235 (搜索結(jié)果(條)) |
XX |
361 |
361 |
XX |
769 |
768 |
XX |
50 |
50 |
XX |
41 |
41 |
XX |
3 |
3 |
XX |
0 |
0 |
最常出現(xiàn)的詞: |
Rank = 查詢 Text 出現(xiàn)的次數(shù) |
|
|
<shapetype id="_x0000_t75"><stroke></stroke><formulas><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f></formulas><path></path><lock v:ext="edit" aspectratio="t"><img width="231" hspace="5" height="424" align="baseline" src="http://www.cnblogs.com/images/cnblogs_com/tianchunfeng/15983/o_image001.png" alt=""></lock></shapetype> |
更多文章、技術(shù)交流、商務合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
