TIVersio" />

欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

【Lucene3.0 初窺】索引文件格式(4):dictionar

系統 1634 0

Terms數據 磁盤文件存儲細節

?

從這篇開始,已經涉及到倒排索引表的信息存儲問題了。我們都知道倒排索引表中的Dictionary有許多不同的terms組成,Lucene關于這些terms數據的存儲,就放在磁盤的.tii和.tis文件中。

?

★ .tii? 詞典 索引文件 ?? .tis? 詞典數據文件

?

1、tii 保存了tis中每 隔 IndexInterval個詞的位置信息,這是為了加快對詞典文件tii中詞的查找速度

?

具體結構如下:

?TermInfoIndex (.tii)-->? TIVersion, IndexTermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermIndices

TIVersion --> UInt32?? 版本號

IndexTermCount --> UInt64?? 詞典索引文件中包含的詞數。
IndexInterval --> UInt32? (同tis)
SkipInterval --> UInt32? (同tis)
TermIndices -->? <TermInfo, IndexDelta> IndexTermCount ???? IndexTermCount 個項的數組,每一項包括兩部分,第一部分是詞本身(TermInfo),第二部分是在詞典.tis文件中的偏移量(IndexDelta)。假設IndexInterval為 4,此數組中保存第4個,第8個,第12個詞。

?

TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta>? (同 tis)

IndexDelta --> VLong? 用來確定該 Term TermInfo .tis 文件中的位置, 特別指出,它是該 term 的數據的位置與前一個 term 位置的差值。 (關于差值規則請參見:《 索引文件格式(1):基礎知識

?

2、tis 存放索引表中Dictionary的所有Term的信息。

?

具體結構如下:

TermInfoFile (.tis)--> TIVersion, TermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermInfos

?

TIVersion --> UInt32? 版本號

TermCount --> UInt64? 詞典中包含的總的詞數

IndexInterval --> UInt32? 為了加快對詞的查找速度,也應用類似跳躍表的結構,假設IndexInterval為4,則在詞典索引(tii)文件中保存第4個,第8個,第12個詞,這樣可以加快在詞典文件中查找詞的速度。

SkipInterval --> UInt32?? 倒排表無論是文檔號及詞頻,還是位置信息,都是以跳躍表的結構存在的,SkipInterval是跳躍的步數。

MaxSkipLevels --> UInt32? 跳躍表是多層的,這個值指的是跳躍表的最大層數。

?

TermInfos --> <TermInfo> TermCount ???? TermCount個項的數組,每一項代表一個具體詞的信息。單個TermInfo 的結構如下: TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> 其中:

Term --> <PrefixLength, Suffix, FieldNum> 詞語文本信息

PrefixLength -->VInt??? 前綴規則中的前綴長度

Suffix--> String?? 利用前綴規則存放詞的文本信息(關于前綴規則請參見:《 索引文件格式(1):基礎知識 》)。

FieldNum--> VInt? 詞屬于的域的域號

?

DocFreq--> VInt? 有多少篇文檔包含此詞

FreqDelta ,ProxDelta --> VInt?? 此詞的詞頻和位置信息在frq,prx中的偏移地址

SkipDelta --> VInt ?

?

?

★? 專題用例 :

?

?關于例子的詳細信息參見《 索引文件格式(2):文件 結構總體框架 》最后的說明。

(1) 解釋一下tii文件的數據

? tii文件最重要的一個就是IndexInterval。它表明了tii中記錄了tis中每隔IndexInterval個Term的起始地址。

?

(2) 解釋一下tis文件的數據

我們將name ,path, content域都建立了索引,但name, path域并沒有用Analyzer 進行分詞。因此會出現像:"e:\實驗\content\lucene 1.txt"這樣的Term。

?

? 所有term都以前綴規則來存儲,這一點在上圖中很明顯。

? ??

?

【Lucene3.0 初窺】索引文件格式(4):dictionary數據[.tii/.tis]


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 成人v | 毛片免费观看视频 | 一级做性色a爰片久久毛片 亚洲午夜精品久久久久久app | 国产福利91精品一区二区三区 | 午夜视频免费 成人 | 亚洲欧美一区二区三区在线 | α片毛片 | 久久精品69 | 超碰3| 日本三级不卡 | 91视频会员| 国产睡熟迷奷系列网站 | 人人爱人人做 | 亚洲日本va在线视频观看 | 中文字幕日韩精品在线 | 欧美人成片免费看视频不卡 | 日本一区二区三区视频在线观看 | 人人艹逼 | 五月天婷婷缴情五月免费观看 | www视频在线观看 | 精品视频免费观看 | 久久88香港三级 | 波多野结衣免费观看视频 | 日韩一区中文字幕 | 欧美日韩在线第一页 | 欧美性高清bbbbbbxxxxx | 久久久一区二区三区精品 | 深夜爽爽爽gif福利免费 | 亚洲综合精品一区二区三区中文 | 日本无码V视频一区二区 | 九九精品激情在线视频 | 国产精品视频1区 | av免费在线观看国产 | 91精品国产91久久久久久吃药 | 天天影视插插 | 欧美伊人 | 波多野结衣在线观看视频 | 久久艹免费视频 | 国产高清区 | 国产在线精品一区 | www.499|