應(yīng)用場景
- 在很多關(guān)鍵詞提取任務(wù)中,使用tfidf等方法提取得到的僅僅是若干零碎詞匯。
-
這樣的零碎詞匯無法真正的表達(dá)文章的原本含義,我們并不想要它。
例如:
>>> text = '朝鮮確認(rèn)金正恩出訪俄羅斯 將與普京舉行會談...'
>>> keywords = ['俄羅斯', '朝鮮', '普京', '金正恩', '俄方']
-
在很多時候,我們往往需要更細(xì)化的短語描述,來作為文本的關(guān)鍵信息展示。這樣的需求在生成詞云、提供摘要閱讀、關(guān)鍵信息檢索等任務(wù)中都非常重要。
例如:
>>> phrases = ['俄羅斯克里姆林宮', '邀請金正恩訪俄', '最高司令官金正恩',
'朝方轉(zhuǎn)交普京', '舉行會談']
功能介紹
為解決以上問題,我基于 jieba 工具,開發(fā)了一個關(guān)鍵短語抽取器,它可以方便地從文本中找出表達(dá)完成意思的關(guān)鍵短語。其鏈接為:
https://github.com/dongrixinyu/phrases_extractor
詳細(xì)使用方法見其中。如果覺得方便好用,請 follow 我一波:https://github.com/dongrixinyu
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
