欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

收集一些中文分詞工具

系統(tǒng) 1801 0

這部分內(nèi)容并非個(gè)人收集整理,而是網(wǎng)友辛苦整理,在此表示感謝!

接下來(lái),在此基礎(chǔ)上發(fā)現(xiàn)好的分詞工具再進(jìn)行完善!

?

中文分詞工具:
1) MSRSeg from Microsoft Research
http://research.microsoft.com/~jfgao/
2) Hylanda
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3) HIT
http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106
4) NEUCSP from Northeast University, China
http://www.nlplab.com/download/CIP/neucsp.zip
5) ICTCLAS from Chinese Academy of Science, China
http://www.nlp.org.cn/project/project.php?proj_id=6
6)分詞工具鏈接
http://www.chinesecomputing.com/nlp/segment.html
中文信息處理基礎(chǔ)
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm

?

-----------------不同來(lái)源分割--------------------

?

1)計(jì)算所漢語(yǔ)詞法分析系統(tǒng) ICTCLAS

中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢

語(yǔ)詞法分析系統(tǒng) ICTCLAS (Institute of Computing Technology, Chinese Lexical

Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞正確率

高達(dá)97.58%(最近的973專(zhuān)家組評(píng)測(cè)結(jié)果),基于角色標(biāo)注的未登錄詞識(shí)別能取得高于90%

召回率,其中中國(guó)人名的識(shí)別召回率接近98%,分詞和詞性標(biāo)注處理速度為31.5KB/s。

ICTCLAS 和計(jì)算所其他14項(xiàng)免費(fèi)發(fā)布的成果被中外媒體廣泛地報(bào)道,國(guó)內(nèi)很多免費(fèi)的中文

分詞模塊都或多或少的參考過(guò)ICTCLAS的代碼。

下載頁(yè)面: http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 語(yǔ)言寫(xiě)成的,現(xiàn)在主流的開(kāi)發(fā)工具用起來(lái)不太方便,于是有一些熱

心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語(yǔ)言。

fenci,Java 的 ICTCLAS,下載頁(yè)面:

http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

不過(guò)傳說(shuō)代碼還是很難讀懂的,一群high IQ的人寫(xiě)出來(lái)的,所以除非專(zhuān)門(mén)做分詞的值得去

研究,如果分詞只是一個(gè)步驟的話還是不要碰,而且現(xiàn)在的3.0已經(jīng)變成商業(yè)的了,搞研究的

人可以試用一個(gè)月,商用的還是算了.Free的3.0beta和1.0幾乎沒(méi)區(qū)別,再者狂bug不止,遇

到有些網(wǎng)頁(yè)就分不過(guò)去,測(cè)試了幾個(gè)語(yǔ)料庫(kù)都是比較郁悶,速度在 30kb/s,還是比較慢的.

這個(gè)除非買(mǎi)商業(yè)版的,雖然做的很好,還是提醒以后不要在這個(gè)上面浪費(fèi)時(shí)間了.

(2)海量智能分詞研究版

海量智能計(jì)算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中

心的研究成果,共同提高中文信息處理水平,特此發(fā)布《海量智能分詞研究版》,供專(zhuān)家、

學(xué)者和愛(ài)好者進(jìn)行研究。

下載頁(yè)面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8

海量的分詞做的不錯(cuò),不過(guò)研究版的速度也是不堪的,都可以理解.這個(gè)速度就更慢了,而且

只支持window開(kāi)發(fā).

(3)CSW中文智能分詞組件

運(yùn)行環(huán)境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開(kāi)發(fā)語(yǔ)言中調(diào)用。

簡(jiǎn)介: CSW中文智能分詞DLL組件,可將一段文本自動(dòng)的按常規(guī)漢語(yǔ)詞組進(jìn)行拆分,并以指

定方式進(jìn)行分隔,且可對(duì)其拆分后的詞組進(jìn)行語(yǔ)義、詞頻標(biāo)注。其廣范應(yīng)用于各行各業(yè)的

信息資料檢索、分析。

下載頁(yè)面: http://www.vgoogle.net/

這個(gè)如何出現(xiàn)如下錯(cuò)誤"您當(dāng)前使用的CSW中文分詞組件5.0(標(biāo)準(zhǔn)C++版)已超過(guò)有效期,請(qǐng)

訪問(wèn)我們網(wǎng)站 www.vgoogle.net 獲取最新版本或取得使用許可授權(quán)!".把系統(tǒng)時(shí)間調(diào)一下,

調(diào)到2008年4月1號(hào)之前.效果還可以,java下的20kb/s.

(4) C# 寫(xiě)的中文分詞組件--雨痕

據(jù)作者介紹,一個(gè) DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫(xiě),獨(dú)立開(kāi)發(fā)。

下載頁(yè)面: http://www.rainsts.net/article.asp?id=48

這個(gè)現(xiàn)在也已經(jīng)不再發(fā)行了,何況是windows下.net開(kāi)發(fā)的.

(5)ktdictseg也是c#開(kāi)發(fā)的

http://www.hbdev.cn/tech/SrcShow.asp?Src_ID=26

ktdictseg 簡(jiǎn)介: ktdictseg 是由kaitoo搜索開(kāi)發(fā)的一款基于字典的簡(jiǎn)單中英文分詞算法

* 主要功能: 中英文分詞,未登錄詞識(shí)別,多元歧義自動(dòng)識(shí)別,全角字符識(shí)別能力

* 主要性能指標(biāo):

* 分詞準(zhǔn)確度:90%以上(有待專(zhuān)家的權(quán)威評(píng)測(cè))

* 處理速度: 600kbytes/s

(6)chseg

這個(gè)速度大約是0.5m/s.還是相當(dāng)不錯(cuò)的,不過(guò)沒(méi)有詞性標(biāo)注部分

(7)je-anlysis的分詞(java實(shí)現(xiàn)的)

1. 分詞效率: 每秒30萬(wàn)字(測(cè)試環(huán)境迅馳1.6,第一次分詞需要1-2秒加載詞典)

2. 運(yùn)行環(huán)境: Lucene 2.0

3. 免費(fèi)安裝使用傳播,無(wú)限制商業(yè)應(yīng)用,但暫不開(kāi)源,也不提供任何保證

4. 優(yōu)點(diǎn)

全面支持Lucene 2.0

增強(qiáng)了詞典維護(hù)的API

增加了商品編碼的匹配

增加了Mail地址的匹配

實(shí)現(xiàn)了詞尾消歧算法第二層的過(guò)濾

整理優(yōu)化了詞庫(kù)

支持詞典的動(dòng)態(tài)擴(kuò)展

支持中文數(shù)字的匹配(如:二零零六)

數(shù)量詞采用“n”作為數(shù)字通配符

優(yōu)化詞典結(jié)構(gòu)以便修改調(diào)整

支持英文、數(shù)字、中文(簡(jiǎn)體)混合分詞

常用的數(shù)量和人名的匹配

超過(guò)22萬(wàn)詞的詞庫(kù)整理

實(shí)現(xiàn)正向最大匹配算法

支持分詞粒度控制

(8)吳建強(qiáng)的分詞--java實(shí)現(xiàn)

1. ?? 分詞的算法

分詞算法采用的是最大匹配算法,按從左至右正向最大匹配和從右到左反向最大匹配,當(dāng)

兩種分詞結(jié)果不一致時(shí),按最少切分原則,取切分詞數(shù)最少的一種,如果兩種分詞結(jié)果切

分的詞數(shù)一樣,取反向最大匹配作為分詞的結(jié)果,這種分詞的結(jié)果準(zhǔn)確率在99%以上,可

以滿足一般的應(yīng)用和需求。

2. ?? 程序設(shè)計(jì)

建立一個(gè)字典,字典由多個(gè)子字典組成,每個(gè)子字典的單詞字?jǐn)?shù)相同且已經(jīng)排序,以獨(dú)立

文件的形式存儲(chǔ)于磁盤(pán),字典支持新單詞的導(dǎo)入。對(duì)于要一段文字,首先過(guò)濾一次,把源

文件按標(biāo)點(diǎn)、英文字母、數(shù)字、其它符號(hào)分解成一個(gè)List,list中若包含中文的為要分詞

的最小單位,如:你好,你是哪的ABC人,過(guò)濾的結(jié)果為 你好/,/你是哪的/ABC/人,要

切分的部分有 你好 你是哪的 人 三部分,然后按分詞算法對(duì)這三個(gè)部分切分。

3. ?? 使用方法

首先導(dǎo)入詞庫(kù),詞庫(kù)是純文本文件,每個(gè)單詞一行,然后可以開(kāi)始分詞,具體運(yùn)行參見(jiàn)

com.xq.Execute.java。詞庫(kù)用的是“中文詞庫(kù)素材”,大家可以在網(wǎng)上搜到.

4. ?? 測(cè)試

沒(méi)有字典時(shí),導(dǎo)入“中文詞庫(kù)素材3.2\詞庫(kù)\標(biāo)準(zhǔn)詞庫(kù)\去除拼音字母的標(biāo)準(zhǔn)詞庫(kù)213663詞

條.TXT”這個(gè)文件用時(shí)17890毫秒,導(dǎo)入單詞數(shù)212512,z在這個(gè)字典上再導(dǎo)入“中文詞庫(kù)素

材3.2\詞庫(kù)\專(zhuān)業(yè)擴(kuò)充詞庫(kù)\區(qū)縣地名(大詞庫(kù)不包含).txt”用時(shí)500毫秒,導(dǎo)入單詞:

1747,速度還是比較快的。對(duì)一篇兩千字的文章分詞用時(shí)110毫秒,準(zhǔn)確率在99%以上,當(dāng)

詞庫(kù)越完善,準(zhǔn)確率會(huì)更高。總體來(lái)看,導(dǎo)入詞庫(kù)、分詞速度和準(zhǔn)確度對(duì)于一般的應(yīng)用是

可接受的。測(cè)試電腦配置:P43.2,1G內(nèi)存

-----------------不同來(lái)源分割--------------------

張文煥制作的詞庫(kù)工具有:
①拼音加加詞庫(kù)調(diào)頻 Ver1.07:本工具可以根據(jù)導(dǎo)入的拼音加加詞庫(kù)分析指定的文章統(tǒng)計(jì)詞頻,根據(jù)詞頻對(duì)詞條重新排序后導(dǎo)出優(yōu)化的詞庫(kù)。
②大分詞 Ver1.03:
③拼音加加詞庫(kù)注音 Ver1.20b:本程序是一個(gè)用來(lái)給拼音加加詞庫(kù)中的詞條多音字進(jìn)行注音及優(yōu)化、修正的小工具。
④拼音加加詞庫(kù)排序 Ver1.04
⑤拼音加加詞庫(kù)整理 Ver1.00b
⑥拼音加加詞庫(kù)篩選 Ver1.06
⑦拼音加加詞庫(kù)固頂 Ver1.02
⑧拼音加加詞庫(kù)更新 Ver1.05

孫百川制作:
詞組工具

US01制作:
加加詞庫(kù)維護(hù)工具

注:這些工具都可以在張老師的“加加論壇”下載到。( http://bbs.jjol.cn/showthread.php?t=4399

?

相關(guān)閱讀:

http://hi.baidu.com/guoliqiang2006/blog/item/5c2b8939184a27cad562254d.html (我對(duì)nutch中文分詞工具的評(píng)價(jià))

http://www.webryan.cn/2009/04/something-about-chinese-seg/ (關(guān)于中文分詞的一些瑣碎資料 | Ryan's Blog (郭亨的博客))

收集一些中文分詞工具


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 日韩久久精品 | 久久精品天堂 | 亚洲免费视频网站 | 欧美第八页 | 国产精品亚洲片在线观看不卡 | 青青草国产 | av天天看 | 欧美无乱码久久久免费午夜一区 | 日本黄色大片免费看 | 四虎影视免费观看免费观看 | 色播视频在线观看 | 国产亚洲精品久久久久久久网站 | 日韩国产三级 | 欧美成人性视频播放 | 人人澡人人澡 | 黄色国产视频 | 免费成人在线网站 | 久久这里只有精品免费看青草 | 成人午夜免费在线视频 | 欧美一线免费http | 久久久国产视频 | 一区二区三区免费 | 人人狠狠综合88综合久久 | 久久99国产精品 | 欧美午夜视频一区二区三区 | 999毛片 | 91视频在线观看免费 | 2019国产精品 | 国产在线精品一区二区三区 | 国产换爱交换乱理伦片 | 亚洲精品一区久久久久久 | 成人国产精品视频 | 亚洲成人在线免费视频 | 精品久久久久久久 | 中文字幕一区在线观看视频 | 天天看天天爽天天摸天天添 | 国产免费视频 | 久久免费福利 | 国产中文视频 | 五月天播播网 | 国产精品毛片无码 |