這部分內(nèi)容并非個(gè)人收集整理,而是網(wǎng)友辛苦整理,在此表示感謝!
接下來(lái),在此基礎(chǔ)上發(fā)現(xiàn)好的分詞工具再進(jìn)行完善!
?
中文分詞工具:
1) MSRSeg from Microsoft Research
http://research.microsoft.com/~jfgao/
2) Hylanda
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3) HIT
http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106
4) NEUCSP from Northeast University, China
http://www.nlplab.com/download/CIP/neucsp.zip
5) ICTCLAS from Chinese Academy of Science, China
http://www.nlp.org.cn/project/project.php?proj_id=6
6)分詞工具鏈接
http://www.chinesecomputing.com/nlp/segment.html
中文信息處理基礎(chǔ)
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
?
-----------------不同來(lái)源分割--------------------
?
1)計(jì)算所漢語(yǔ)詞法分析系統(tǒng) ICTCLAS
中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢
語(yǔ)詞法分析系統(tǒng) ICTCLAS (Institute of Computing Technology, Chinese Lexical
Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞正確率
高達(dá)97.58%(最近的973專(zhuān)家組評(píng)測(cè)結(jié)果),基于角色標(biāo)注的未登錄詞識(shí)別能取得高于90%
召回率,其中中國(guó)人名的識(shí)別召回率接近98%,分詞和詞性標(biāo)注處理速度為31.5KB/s。
ICTCLAS 和計(jì)算所其他14項(xiàng)免費(fèi)發(fā)布的成果被中外媒體廣泛地報(bào)道,國(guó)內(nèi)很多免費(fèi)的中文
分詞模塊都或多或少的參考過(guò)ICTCLAS的代碼。
下載頁(yè)面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 語(yǔ)言寫(xiě)成的,現(xiàn)在主流的開(kāi)發(fā)工具用起來(lái)不太方便,于是有一些熱
心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語(yǔ)言。
fenci,Java 的 ICTCLAS,下載頁(yè)面:
http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
不過(guò)傳說(shuō)代碼還是很難讀懂的,一群high IQ的人寫(xiě)出來(lái)的,所以除非專(zhuān)門(mén)做分詞的值得去
研究,如果分詞只是一個(gè)步驟的話還是不要碰,而且現(xiàn)在的3.0已經(jīng)變成商業(yè)的了,搞研究的
人可以試用一個(gè)月,商用的還是算了.Free的3.0beta和1.0幾乎沒(méi)區(qū)別,再者狂bug不止,遇
到有些網(wǎng)頁(yè)就分不過(guò)去,測(cè)試了幾個(gè)語(yǔ)料庫(kù)都是比較郁悶,速度在 30kb/s,還是比較慢的.
這個(gè)除非買(mǎi)商業(yè)版的,雖然做的很好,還是提醒以后不要在這個(gè)上面浪費(fèi)時(shí)間了.
(2)海量智能分詞研究版
海量智能計(jì)算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中
心的研究成果,共同提高中文信息處理水平,特此發(fā)布《海量智能分詞研究版》,供專(zhuān)家、
學(xué)者和愛(ài)好者進(jìn)行研究。
下載頁(yè)面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
海量的分詞做的不錯(cuò),不過(guò)研究版的速度也是不堪的,都可以理解.這個(gè)速度就更慢了,而且
只支持window開(kāi)發(fā).
(3)CSW中文智能分詞組件
運(yùn)行環(huán)境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開(kāi)發(fā)語(yǔ)言中調(diào)用。
簡(jiǎn)介: CSW中文智能分詞DLL組件,可將一段文本自動(dòng)的按常規(guī)漢語(yǔ)詞組進(jìn)行拆分,并以指
定方式進(jìn)行分隔,且可對(duì)其拆分后的詞組進(jìn)行語(yǔ)義、詞頻標(biāo)注。其廣范應(yīng)用于各行各業(yè)的
信息資料檢索、分析。
下載頁(yè)面: http://www.vgoogle.net/
這個(gè)如何出現(xiàn)如下錯(cuò)誤"您當(dāng)前使用的CSW中文分詞組件5.0(標(biāo)準(zhǔn)C++版)已超過(guò)有效期,請(qǐng)
訪問(wèn)我們網(wǎng)站 www.vgoogle.net 獲取最新版本或取得使用許可授權(quán)!".把系統(tǒng)時(shí)間調(diào)一下,
調(diào)到2008年4月1號(hào)之前.效果還可以,java下的20kb/s.
(4) C# 寫(xiě)的中文分詞組件--雨痕
據(jù)作者介紹,一個(gè) DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫(xiě),獨(dú)立開(kāi)發(fā)。
下載頁(yè)面: http://www.rainsts.net/article.asp?id=48
這個(gè)現(xiàn)在也已經(jīng)不再發(fā)行了,何況是windows下.net開(kāi)發(fā)的.
(5)ktdictseg也是c#開(kāi)發(fā)的
http://www.hbdev.cn/tech/SrcShow.asp?Src_ID=26
ktdictseg 簡(jiǎn)介: ktdictseg 是由kaitoo搜索開(kāi)發(fā)的一款基于字典的簡(jiǎn)單中英文分詞算法
* 主要功能: 中英文分詞,未登錄詞識(shí)別,多元歧義自動(dòng)識(shí)別,全角字符識(shí)別能力
* 主要性能指標(biāo):
* 分詞準(zhǔn)確度:90%以上(有待專(zhuān)家的權(quán)威評(píng)測(cè))
* 處理速度: 600kbytes/s
(6)chseg
這個(gè)速度大約是0.5m/s.還是相當(dāng)不錯(cuò)的,不過(guò)沒(méi)有詞性標(biāo)注部分
(7)je-anlysis的分詞(java實(shí)現(xiàn)的)
1. 分詞效率: 每秒30萬(wàn)字(測(cè)試環(huán)境迅馳1.6,第一次分詞需要1-2秒加載詞典)
2. 運(yùn)行環(huán)境: Lucene 2.0
3. 免費(fèi)安裝使用傳播,無(wú)限制商業(yè)應(yīng)用,但暫不開(kāi)源,也不提供任何保證
4. 優(yōu)點(diǎn)
全面支持Lucene 2.0
增強(qiáng)了詞典維護(hù)的API
增加了商品編碼的匹配
增加了Mail地址的匹配
實(shí)現(xiàn)了詞尾消歧算法第二層的過(guò)濾
整理優(yōu)化了詞庫(kù)
支持詞典的動(dòng)態(tài)擴(kuò)展
支持中文數(shù)字的匹配(如:二零零六)
數(shù)量詞采用“n”作為數(shù)字通配符
優(yōu)化詞典結(jié)構(gòu)以便修改調(diào)整
支持英文、數(shù)字、中文(簡(jiǎn)體)混合分詞
常用的數(shù)量和人名的匹配
超過(guò)22萬(wàn)詞的詞庫(kù)整理
實(shí)現(xiàn)正向最大匹配算法
支持分詞粒度控制
(8)吳建強(qiáng)的分詞--java實(shí)現(xiàn)
1. ?? 分詞的算法
分詞算法采用的是最大匹配算法,按從左至右正向最大匹配和從右到左反向最大匹配,當(dāng)
兩種分詞結(jié)果不一致時(shí),按最少切分原則,取切分詞數(shù)最少的一種,如果兩種分詞結(jié)果切
分的詞數(shù)一樣,取反向最大匹配作為分詞的結(jié)果,這種分詞的結(jié)果準(zhǔn)確率在99%以上,可
以滿足一般的應(yīng)用和需求。
2. ?? 程序設(shè)計(jì)
建立一個(gè)字典,字典由多個(gè)子字典組成,每個(gè)子字典的單詞字?jǐn)?shù)相同且已經(jīng)排序,以獨(dú)立
文件的形式存儲(chǔ)于磁盤(pán),字典支持新單詞的導(dǎo)入。對(duì)于要一段文字,首先過(guò)濾一次,把源
文件按標(biāo)點(diǎn)、英文字母、數(shù)字、其它符號(hào)分解成一個(gè)List,list中若包含中文的為要分詞
的最小單位,如:你好,你是哪的ABC人,過(guò)濾的結(jié)果為 你好/,/你是哪的/ABC/人,要
切分的部分有 你好 你是哪的 人 三部分,然后按分詞算法對(duì)這三個(gè)部分切分。
3. ?? 使用方法
首先導(dǎo)入詞庫(kù),詞庫(kù)是純文本文件,每個(gè)單詞一行,然后可以開(kāi)始分詞,具體運(yùn)行參見(jiàn)
com.xq.Execute.java。詞庫(kù)用的是“中文詞庫(kù)素材”,大家可以在網(wǎng)上搜到.
4. ?? 測(cè)試
沒(méi)有字典時(shí),導(dǎo)入“中文詞庫(kù)素材3.2\詞庫(kù)\標(biāo)準(zhǔn)詞庫(kù)\去除拼音字母的標(biāo)準(zhǔn)詞庫(kù)213663詞
條.TXT”這個(gè)文件用時(shí)17890毫秒,導(dǎo)入單詞數(shù)212512,z在這個(gè)字典上再導(dǎo)入“中文詞庫(kù)素
材3.2\詞庫(kù)\專(zhuān)業(yè)擴(kuò)充詞庫(kù)\區(qū)縣地名(大詞庫(kù)不包含).txt”用時(shí)500毫秒,導(dǎo)入單詞:
1747,速度還是比較快的。對(duì)一篇兩千字的文章分詞用時(shí)110毫秒,準(zhǔn)確率在99%以上,當(dāng)
詞庫(kù)越完善,準(zhǔn)確率會(huì)更高。總體來(lái)看,導(dǎo)入詞庫(kù)、分詞速度和準(zhǔn)確度對(duì)于一般的應(yīng)用是
可接受的。測(cè)試電腦配置:P43.2,1G內(nèi)存
-----------------不同來(lái)源分割--------------------
張文煥制作的詞庫(kù)工具有:
①拼音加加詞庫(kù)調(diào)頻 Ver1.07:本工具可以根據(jù)導(dǎo)入的拼音加加詞庫(kù)分析指定的文章統(tǒng)計(jì)詞頻,根據(jù)詞頻對(duì)詞條重新排序后導(dǎo)出優(yōu)化的詞庫(kù)。
②大分詞 Ver1.03:
③拼音加加詞庫(kù)注音 Ver1.20b:本程序是一個(gè)用來(lái)給拼音加加詞庫(kù)中的詞條多音字進(jìn)行注音及優(yōu)化、修正的小工具。
④拼音加加詞庫(kù)排序 Ver1.04
⑤拼音加加詞庫(kù)整理 Ver1.00b
⑥拼音加加詞庫(kù)篩選 Ver1.06
⑦拼音加加詞庫(kù)固頂 Ver1.02
⑧拼音加加詞庫(kù)更新 Ver1.05
孫百川制作:
詞組工具
US01制作:
加加詞庫(kù)維護(hù)工具
注:這些工具都可以在張老師的“加加論壇”下載到。( http://bbs.jjol.cn/showthread.php?t=4399 )
?
相關(guān)閱讀:
http://hi.baidu.com/guoliqiang2006/blog/item/5c2b8939184a27cad562254d.html (我對(duì)nutch中文分詞工具的評(píng)價(jià))
http://www.webryan.cn/2009/04/something-about-chinese-seg/ (關(guān)于中文分詞的一些瑣碎資料 | Ryan's Blog (郭亨的博客))
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
