国产欧美日韩二区,欧美自拍区,婷婷亚洲综合小说图片

這部分內(nèi)容并非個人收集整理，而是網(wǎng)友辛苦整理，在此表示感謝！

接下來，在此基礎(chǔ)上發(fā)現(xiàn)好的分詞工具再進行完善！

中文分詞工具：
1) MSRSeg from Microsoft Research
http://research.microsoft.com/~jfgao/
2) Hylanda
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3) HIT
http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106
4) NEUCSP from Northeast University, China
http://www.nlplab.com/download/CIP/neucsp.zip
5) ICTCLAS from Chinese Academy of Science, China
http://www.nlp.org.cn/project/project.php?proj_id=6
6)分詞工具鏈接
http://www.chinesecomputing.com/nlp/segment.html
中文信息處理基礎(chǔ)
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm

-----------------不同來源分割--------------------

1）計算所漢語詞法分析系統(tǒng) ICTCLAS

中國科學(xué)院計算技術(shù)研究所在多年研究基礎(chǔ)上，耗時一年研制出了基于多層隱馬模型的漢

語詞法分析系統(tǒng) ICTCLAS (Institute of Computing Technology, Chinese Lexical

Analysis System)，該系統(tǒng)的功能有：中文分詞；詞性標注；未登錄詞識別。分詞正確率

高達97.58%(最近的973專家組評測結(jié)果)，基于角色標注的未登錄詞識別能取得高于90%

召回率，其中中國人名的識別召回率接近98%，分詞和詞性標注處理速度為31.5KB/s。

ICTCLAS 和計算所其他14項免費發(fā)布的成果被中外媒體廣泛地報道，國內(nèi)很多免費的中文

分詞模塊都或多或少的參考過ICTCLAS的代碼。

下載頁面： http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 語言寫成的，現(xiàn)在主流的開發(fā)工具用起來不太方便，于是有一些熱

心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語言。

fenci，Java 的 ICTCLAS，下載頁面：

http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

不過傳說代碼還是很難讀懂的,一群high IQ的人寫出來的,所以除非專門做分詞的值得去

研究,如果分詞只是一個步驟的話還是不要碰,而且現(xiàn)在的3.0已經(jīng)變成商業(yè)的了,搞研究的

人可以試用一個月,商用的還是算了.Free的3.0beta和1.0幾乎沒區(qū)別,再者狂bug不止,遇

到有些網(wǎng)頁就分不過去,測試了幾個語料庫都是比較郁悶,速度在 30kb/s,還是比較慢的.

這個除非買商業(yè)版的,雖然做的很好,還是提醒以后不要在這個上面浪費時間了.

（2）海量智能分詞研究版

海量智能計算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中

心的研究成果，共同提高中文信息處理水平，特此發(fā)布《海量智能分詞研究版》，供專家、

學(xué)者和愛好者進行研究。

下載頁面： http://www.hylanda.com/cgi-bin/download/download.asp?id=8

海量的分詞做的不錯,不過研究版的速度也是不堪的,都可以理解.這個速度就更慢了,而且

只支持window開發(fā).

（3）CSW中文智能分詞組件

運行環(huán)境：Windows NT、2000、XP 或更高，可以在 ASP，VB 等微軟的開發(fā)語言中調(diào)用。

簡介: CSW中文智能分詞DLL組件，可將一段文本自動的按常規(guī)漢語詞組進行拆分,并以指

定方式進行分隔，且可對其拆分后的詞組進行語義、詞頻標注。其廣范應(yīng)用于各行各業(yè)的

信息資料檢索、分析。

下載頁面： http://www.vgoogle.net/

這個如何出現(xiàn)如下錯誤"您當(dāng)前使用的CSW中文分詞組件5.0(標準C++版)已超過有效期，請

訪問我們網(wǎng)站 www.vgoogle.net 獲取最新版本或取得使用許可授權(quán)！".把系統(tǒng)時間調(diào)一下,

調(diào)到2008年4月1號之前.效果還可以,java下的20kb/s.

（4） C# 寫的中文分詞組件--雨痕

據(jù)作者介紹，一個 DLL 文件，可以做中英文分詞組件。完全C#托管代碼編寫，獨立開發(fā)。

下載頁面： http://www.rainsts.net/article.asp?id=48

這個現(xiàn)在也已經(jīng)不再發(fā)行了,何況是windows下.net開發(fā)的.

(5)ktdictseg也是c#開發(fā)的

http://www.hbdev.cn/tech/SrcShow.asp?Src_ID=26

ktdictseg 簡介: ktdictseg 是由kaitoo搜索開發(fā)的一款基于字典的簡單中英文分詞算法

* 主要功能: 中英文分詞，未登錄詞識別,多元歧義自動識別,全角字符識別能力

* 主要性能指標:

* 分詞準確度:90%以上(有待專家的權(quán)威評測)

* 處理速度: 600kbytes/s

(6)chseg

這個速度大約是0.5m/s.還是相當(dāng)不錯的,不過沒有詞性標注部分

（7）je-anlysis的分詞（java實現(xiàn)的）

1. 分詞效率：每秒30萬字（測試環(huán)境迅馳1.6，第一次分詞需要1－2秒加載詞典）

2. 運行環(huán)境： Lucene 2.0

3. 免費安裝使用傳播，無限制商業(yè)應(yīng)用，但暫不開源，也不提供任何保證

4. 優(yōu)點

全面支持Lucene 2.0

增強了詞典維護的API

增加了商品編碼的匹配

增加了Mail地址的匹配

實現(xiàn)了詞尾消歧算法第二層的過濾

整理優(yōu)化了詞庫

支持詞典的動態(tài)擴展

支持中文數(shù)字的匹配（如：二零零六）

數(shù)量詞采用“n”作為數(shù)字通配符

優(yōu)化詞典結(jié)構(gòu)以便修改調(diào)整

支持英文、數(shù)字、中文（簡體）混合分詞

常用的數(shù)量和人名的匹配

超過22萬詞的詞庫整理

實現(xiàn)正向最大匹配算法

支持分詞粒度控制

（8）吳建強的分詞--java實現(xiàn)

1. ?? 分詞的算法

分詞算法采用的是最大匹配算法，按從左至右正向最大匹配和從右到左反向最大匹配，當(dāng)

兩種分詞結(jié)果不一致時，按最少切分原則，取切分詞數(shù)最少的一種，如果兩種分詞結(jié)果切

分的詞數(shù)一樣，取反向最大匹配作為分詞的結(jié)果，這種分詞的結(jié)果準確率在99%以上，可

以滿足一般的應(yīng)用和需求。

2. ?? 程序設(shè)計

建立一個字典，字典由多個子字典組成，每個子字典的單詞字數(shù)相同且已經(jīng)排序，以獨立

文件的形式存儲于磁盤，字典支持新單詞的導(dǎo)入。對于要一段文字，首先過濾一次，把源

文件按標點、英文字母、數(shù)字、其它符號分解成一個List，list中若包含中文的為要分詞

的最小單位，如：你好，你是哪的ABC人，過濾的結(jié)果為你好/，/你是哪的/ABC/人，要

切分的部分有你好你是哪的人三部分，然后按分詞算法對這三個部分切分。

3. ?? 使用方法

首先導(dǎo)入詞庫，詞庫是純文本文件，每個單詞一行，然后可以開始分詞，具體運行參見

com.xq.Execute.java。詞庫用的是“中文詞庫素材”，大家可以在網(wǎng)上搜到.

4. ?? 測試

沒有字典時，導(dǎo)入“中文詞庫素材3.2\詞庫\標準詞庫\去除拼音字母的標準詞庫213663詞

條.TXT”這個文件用時17890毫秒，導(dǎo)入單詞數(shù)212512，z在這個字典上再導(dǎo)入“中文詞庫素

材3.2\詞庫\專業(yè)擴充詞庫\區(qū)縣地名(大詞庫不包含).txt”用時500毫秒，導(dǎo)入單詞：

1747，速度還是比較快的。對一篇兩千字的文章分詞用時110毫秒，準確率在99%以上，當(dāng)

詞庫越完善，準確率會更高。總體來看，導(dǎo)入詞庫、分詞速度和準確度對于一般的應(yīng)用是

可接受的。測試電腦配置：P43.2，1G內(nèi)存

-----------------不同來源分割--------------------

張文煥制作的詞庫工具有：
①拼音加加詞庫調(diào)頻 Ver1.07：本工具可以根據(jù)導(dǎo)入的拼音加加詞庫分析指定的文章統(tǒng)計詞頻，根據(jù)詞頻對詞條重新排序后導(dǎo)出優(yōu)化的詞庫。
②大分詞 Ver1.03：
③拼音加加詞庫注音 Ver1.20b：本程序是一個用來給拼音加加詞庫中的詞條多音字進行注音及優(yōu)化、修正的小工具。
④拼音加加詞庫排序 Ver1.04
⑤拼音加加詞庫整理 Ver1.00b
⑥拼音加加詞庫篩選 Ver1.06
⑦拼音加加詞庫固頂 Ver1.02
⑧拼音加加詞庫更新 Ver1.05

孫百川制作：
詞組工具

US01制作：
加加詞庫維護工具

注：這些工具都可以在張老師的“加加論壇”下載到。（ http://bbs.jjol.cn/showthread.php?t=4399 ）

相關(guān)閱讀：

http://hi.baidu.com/guoliqiang2006/blog/item/5c2b8939184a27cad562254d.html （我對nutch中文分詞工具的評價）

http://www.webryan.cn/2009/04/something-about-chinese-seg/ （關(guān)于中文分詞的一些瑣碎資料 | Ryan's Blog (郭亨的博客)）

收集一些中文分詞工具

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義