由于nltk等都沒(méi)有實(shí)現(xiàn)句子級(jí)別的tokenize,或者文本分句。這里使用python正則,快速實(shí)現(xiàn)一個(gè),可以把文本分成若干個(gè)小句子。
代碼如下,如果你想要實(shí)現(xiàn)自己個(gè)性化的分句,例如只考慮“。!”等的分句,可以調(diào)整正則項(xiàng),“|”代表或的意思。
def sent_tokenize(x):
sents_temp = re.split('(:|:|,|,|。|!|\!|\.|?|\?)', x)
sents = []
for i in range(len(sents_temp)//2):
sent = sents_temp[2*i] + sents_temp[2*i+1]
sents.append(sent)
return sents
x:'這個(gè)配置和價(jià)位真的很合適,完全夠用,而且小黑的質(zhì)量非常不錯(cuò)。'
sents:['這個(gè)配置和價(jià)位真的很合適,', '完全夠用,', '而且小黑的質(zhì)量非常不錯(cuò)。']
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
