欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

Stanford NLP Chinese(中文)的使用

系統(tǒng) 2228 0

Stanford NLP Chinese(中文)的使用_twenz for higher_百度空間

Stanford NLP Chinese(中文)的使用

Stanford NLP tools提供了處理中文的三個(gè)工具,分別是分詞、Parser;具體參考:

http://nlp.stanford.edu/software/parser-faq.shtml#o

?

1.分詞 Chinese segmenter

下載:http://nlp.stanford.edu/software/

Stanford Chinese Word Segmenter A Java implementation of a CRF-based Chinese Word Segmenter

這個(gè)包比較大,運(yùn)行時(shí)候需要的內(nèi)存也多,因而如果用eclipse運(yùn)行的時(shí)候需要修改虛擬內(nèi)存空間大小:

運(yùn)行-》自變量-》VM自變量-》-Xmx800m (最大內(nèi)存空間800m)

demo代碼(修改過的,未檢驗(yàn)):

??? Properties props = new Properties();
??? props.setProperty("sighanCorporaDict", "data");
??? // props.setProperty("NormalizationTable", "data/norm.simp.utf8");
??? // props.setProperty("normTableEncoding", "UTF-8");
??? // below is needed because CTBSegDocumentIteratorFactory accesses it
??? props.setProperty("serDictionary","data/dict-chris6.ser.gz");
??? //props.setProperty("testFile", args[0]);
??? props.setProperty("inputEncoding", "UTF-8");
??? props.setProperty("sighanPostProcessing", "true");
?? ?
??? CRFClassifier classifier = new CRFClassifier(props);
??? classifier.loadClassifierNoExceptions("data/ctb.gz", props);
??? // flags must be re-set after data is loaded
??? classifier.flags.setProperties(props);
??? //classifier.writeAnswers(classifier.test(args[0]));
??? //classifier.testAndWriteAnswers(args[0]);
?? ?
??? String result = classifier.testString("我是中國人!");
??? System.out.println(result);

?

2. Stanford Parser

可以參考http://nlp.stanford.edu/software/parser-faq.shtml#o

http://blog.csdn.net/leeharry/archive/2008/03/06/2153583.aspx

根據(jù)輸入的訓(xùn)練庫不同,可以處理英文,也可以處理中文。輸入是分詞好的句子,輸出詞性、句子的語法樹(依賴關(guān)系)

英文demo(下載的壓縮文件中有):

??? LexicalizedParser lp = new LexicalizedParser("englishPCFG.ser.gz");
??? lp.setOptionFlags(new String[]{"-maxLength", "80", "-retainTmpSubcategories"});

??? String[] sent = { "This", "is", "an", "easy", "sentence", "." };
??? Tree parse = (Tree) lp.apply(Arrays.asList(sent));
??? parse.pennPrint();
??? System.out.println();

??? TreebankLanguagePack tlp = new PennTreebankLanguagePack();
??? GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();
??? GrammaticalStructure gs = gsf.newGrammaticalStructure(parse);
??? Collection tdl = gs.typedDependenciesCollapsed();
??? System.out.println(tdl);
??? System.out.println();

??? TreePrint tp = new TreePrint("penn,typedDependenciesCollapsed");
??? tp.printTree(parse);

中文有些不同:

? //LexicalizedParser lp = new LexicalizedParser("englishPCFG.ser.gz");
??? LexicalizedParser lp = new LexicalizedParser("xinhuaFactored.ser.gz");
??? //lp.setOptionFlags(new String[]{"-maxLength", "80", "-retainTmpSubcategories"});

??? //??? String[] sent = { "This", "is", "an", "easy", "sentence", "." };
??? String[] sent = { "他", "和", "我", "在",? "學(xué)校", "里", "常", "打", "桌球", "。" };
??? String sentence = "他和我在學(xué)校里常打臺(tái)球。";
??? Tree parse = (Tree) lp.apply(Arrays.asList(sent));
??? //Tree parse = (Tree) lp.apply(sentence);
? ?
??? parse.pennPrint();
?? ?
??? System.out.println();
/*
??? TreebankLanguagePack tlp = new PennTreebankLanguagePack();
??? GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();
??? GrammaticalStructure gs = gsf.newGrammaticalStructure(parse);
??? Collection tdl = gs.typedDependenciesCollapsed();
??? System.out.println(tdl);
??? System.out.println();
*/
??? //only for English
??? //TreePrint tp = new TreePrint("penn,typedDependenciesCollapsed");
??? //chinese
??? TreePrint tp = new TreePrint("wordsAndTags,penn,typedDependenciesCollapsed",new ChineseTreebankLanguagePack());
??? tp.printTree(parse);

然而有些時(shí)候我們不是光只要打印出來的語法依賴關(guān)系,而是希望得到關(guān)于語法樹(圖),則需要采用如下的程序:
?? ??? ?String[] sent = { "他", "和", "我", "在",? "學(xué)校", "里", "常", "打", "桌球", "。" };
?? ??? ?ParserSentence ps = new ParserSentence();
?? ??? ?Tree parse = ps.parserSentence(sent);
?? ??? ?parse.pennPrint();
?? ??? ?TreebankLanguagePack tlp = new ChineseTreebankLanguagePack();
?? ???? GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();
?? ???? GrammaticalStructure gs = gsf.newGrammaticalStructure(parse);
?? ???? Collection tdl = gs.typedDependenciesCollapsed();
?? ???? System.out.println(tdl);
?? ???? System.out.println();
?? ???? for(int i = 0;i < tdl.size();i ++)
?? ???? {
?? ??? ??? ?//TypedDependency(GrammaticalRelation reln, TreeGraphNode gov, TreeGraphNode dep)
?? ??? ??? ?TypedDependency td = (TypedDependency)tdl.toArray()[i];
?? ??? ??? ?System.out.println(td.toString());
?? ???? }

//采用GrammaticalStructure的方法 getGrammaticalRelation ( TreeGraphNode ?gov, TreeGraphNode ?dep)可以獲得兩個(gè)詞的語法依賴關(guān)系

Stanford NLP Chinese(中文)的使用


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 三级成人在线 | 亚洲国产精品久久 | www.99riav.com| 漂流教室在线观看 | 犬夜叉在线观看 | 亚洲一区欧美日韩 | 欧美 亚洲 另类 热图 | 无码人妻精品1国产婷婷 | 99热久久国产综合精品久久国产 | 久久国产精品久久精品国产 | 日本视频a | 亚洲已满18点击进入在线观看 | 欧美一级黄视频 | 色综合国产 | 夜夜未满 18勿进的爽影院 | 久草国产精品 | 一区二区三区四区五区中文字幕 | 波多野结衣高清在线播放 | 成人一级免费视频 | www.一区二区 | 亚洲视频不卡 | 99精品国产在热久久 | 毛片在线免费 | 蜜臀AV国产精品久久久久 | 久久精品视频16 | 天天艹日日干 | 日本人视频jizz页码69 | 久久69精品久久久久久国产越南 | 国产喷水 | 国产日韩欧美中文 | 日韩免费在线 | 超碰av在线 | 欧美激情一区二区亚洲专区 | 国产毛片久久精品 | 午夜小视频网站 | 精品视频一区二区三区在线播放 | 久久精品一本到99热免费 | 亚洲成人在线免费 | 国产乱码精品一区二区三区五月婷 | 久久久免费的精品 | 午夜精品一区二区三区在线视 |