TIVersio" />

欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

【Lucene3.0 初窺】索引文件格式(4):dictionar

系統 1634 0

Terms數據 磁盤文件存儲細節

?

從這篇開始,已經涉及到倒排索引表的信息存儲問題了。我們都知道倒排索引表中的Dictionary有許多不同的terms組成,Lucene關于這些terms數據的存儲,就放在磁盤的.tii和.tis文件中。

?

★ .tii? 詞典 索引文件 ?? .tis? 詞典數據文件

?

1、tii 保存了tis中每 隔 IndexInterval個詞的位置信息,這是為了加快對詞典文件tii中詞的查找速度

?

具體結構如下:

?TermInfoIndex (.tii)-->? TIVersion, IndexTermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermIndices

TIVersion --> UInt32?? 版本號

IndexTermCount --> UInt64?? 詞典索引文件中包含的詞數。
IndexInterval --> UInt32? (同tis)
SkipInterval --> UInt32? (同tis)
TermIndices -->? <TermInfo, IndexDelta> IndexTermCount ???? IndexTermCount 個項的數組,每一項包括兩部分,第一部分是詞本身(TermInfo),第二部分是在詞典.tis文件中的偏移量(IndexDelta)。假設IndexInterval為 4,此數組中保存第4個,第8個,第12個詞。

?

TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta>? (同 tis)

IndexDelta --> VLong? 用來確定該 Term TermInfo .tis 文件中的位置, 特別指出,它是該 term 的數據的位置與前一個 term 位置的差值。 (關于差值規則請參見:《 索引文件格式(1):基礎知識

?

2、tis 存放索引表中Dictionary的所有Term的信息。

?

具體結構如下:

TermInfoFile (.tis)--> TIVersion, TermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermInfos

?

TIVersion --> UInt32? 版本號

TermCount --> UInt64? 詞典中包含的總的詞數

IndexInterval --> UInt32? 為了加快對詞的查找速度,也應用類似跳躍表的結構,假設IndexInterval為4,則在詞典索引(tii)文件中保存第4個,第8個,第12個詞,這樣可以加快在詞典文件中查找詞的速度。

SkipInterval --> UInt32?? 倒排表無論是文檔號及詞頻,還是位置信息,都是以跳躍表的結構存在的,SkipInterval是跳躍的步數。

MaxSkipLevels --> UInt32? 跳躍表是多層的,這個值指的是跳躍表的最大層數。

?

TermInfos --> <TermInfo> TermCount ???? TermCount個項的數組,每一項代表一個具體詞的信息。單個TermInfo 的結構如下: TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> 其中:

Term --> <PrefixLength, Suffix, FieldNum> 詞語文本信息

PrefixLength -->VInt??? 前綴規則中的前綴長度

Suffix--> String?? 利用前綴規則存放詞的文本信息(關于前綴規則請參見:《 索引文件格式(1):基礎知識 》)。

FieldNum--> VInt? 詞屬于的域的域號

?

DocFreq--> VInt? 有多少篇文檔包含此詞

FreqDelta ,ProxDelta --> VInt?? 此詞的詞頻和位置信息在frq,prx中的偏移地址

SkipDelta --> VInt ?

?

?

★? 專題用例 :

?

?關于例子的詳細信息參見《 索引文件格式(2):文件 結構總體框架 》最后的說明。

(1) 解釋一下tii文件的數據

? tii文件最重要的一個就是IndexInterval。它表明了tii中記錄了tis中每隔IndexInterval個Term的起始地址。

?

(2) 解釋一下tis文件的數據

我們將name ,path, content域都建立了索引,但name, path域并沒有用Analyzer 進行分詞。因此會出現像:"e:\實驗\content\lucene 1.txt"這樣的Term。

?

? 所有term都以前綴規則來存儲,這一點在上圖中很明顯。

? ??

?

【Lucene3.0 初窺】索引文件格式(4):dictionary數據[.tii/.tis]


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 日本精品人妻无码免费大全 | 亚洲免费在线 | 日本国产欧美 | 亚洲欧洲中文日韩 | 激情五月色婷婷 | 午夜性啪啪A片免费AAA毛片 | 久久久久久久av | 另类五月天| 欧美一区黄 | 午夜视频网址 | 国产深夜福利视频在线 | 国产免费麻豆 | 成人一区专区在线观看 | 大片一级 | 欧美日韩亚洲一区二区三区在线观看 | 久艹在线观看视频 | 成人看片黄a在线看 | 日韩欧美国产精品 | 狠狠操伊人 | 精品午夜寂寞黄网站在线 | 精久久| 欧美另类videosbestsex久久 | 中文字幕在线看 | 午夜国产亚洲精品一区 | 久久久久久一区 | 亚洲欧美视频在线播放 | 精品国产自在2o18 | 精品网站999 | 国产精品91久久久久久 | 这里只有精品视频 | 亚洲国产天堂久久精品网 | 中文字幕亚洲欧美日韩在线不卡 | 色精品 | 五月婷婷狠狠干 | 2021国产视频 | 欧美精品午夜 | 九九九九精品视频在线播放 | 成人二区 | 久久精品视频在线观看 | 天天看天天爽天天摸天天添 | 91在线播放网站 |