欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

詳解Python 字符串相似性的幾種度量方法

系統(tǒng) 1702 0

字符串的相似性比較應(yīng)用場(chǎng)合很多,像拼寫(xiě)糾錯(cuò)、文本去重、上下文相似性等。

評(píng)價(jià)字符串相似度最常見(jiàn)的辦法就是:把一個(gè)字符串通過(guò)插入、刪除或替換這樣的編輯操作,變成另外一個(gè)字符串,所需要的最少編輯次數(shù),這種就是編輯距離(edit distance)度量方法,也稱為L(zhǎng)evenshtein距離。海明距離是編輯距離的一種特殊情況,只計(jì)算等長(zhǎng)情況下替換操作的編輯次數(shù),只能應(yīng)用于兩個(gè)等長(zhǎng)字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro?CWinkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

            
# -*- coding: utf-8 -*-
 
import difflib
# import jieba
import Levenshtein
 
str1 = "我的骨骼雪白 也長(zhǎng)不出青稞"
str2 = "雪的日子 我只想到雪中去si"
 
# 1. difflib
seq = difflib.SequenceMatcher(None, str1,str2)
ratio = seq.ratio()
print 'difflib similarity1: ', ratio
 
# difflib 去掉列表中不需要比較的字符
seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)
ratio = seq.ratio()
print 'difflib similarity2: ', ratio
 
# 2. hamming距離,str1和str2長(zhǎng)度必須一致,描述兩個(gè)等長(zhǎng)字串之間對(duì)應(yīng)位置上不同字符的個(gè)數(shù)
# sim = Levenshtein.hamming(str1, str2)
# print 'hamming similarity: ', sim
 
# 3. 編輯距離,描述由一個(gè)字串轉(zhuǎn)化成另一個(gè)字串最少的操作次數(shù),在其中的操作包括 插入、刪除、替換
sim = Levenshtein.distance(str1, str2)
print 'Levenshtein similarity: ', sim
 
# 4.計(jì)算萊文斯坦比
sim = Levenshtein.ratio(str1, str2)
print 'Levenshtein.ratio similarity: ', sim
 
# 5.計(jì)算jaro距離
sim = Levenshtein.jaro(str1, str2 )
print 'Levenshtein.jaro similarity: ', sim
 
# 6. Jaro?CWinkler距離
sim = Levenshtein.jaro_winkler(str1 , str2 )
print 'Levenshtein.jaro_winkler similarity: ', sim

          

輸出:

difflib similarity1:? 0.246575342466
difflib similarity2:? 0.0821917808219
Levenshtein similarity:? 33
Levenshtein.ratio similarity:? 0.27397260274
Levenshtein.jaro similarity:? 0.490208958959
Levenshtein.jaro_winkler similarity:? 0.490208958959

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 亚洲一区二区福利视频 | 国产中文字幕在线播放 | 国产成人精品免费午夜 | 日本毛片高清免费视频 | 99久久网 | 九九久久精品这里久久网 | 色天天天天综合男人的天堂 | 天天躁夜夜躁狠狠躁2024 | 中文字幕日韩精品在线 | 日本私人色多多 | 国产色 | 天天看片网站 | 国产成人综合一区二区三区 | 亚洲视频在线免费看 | 国产欧美视频一区二区三区 | 久久综合一区 | 久草网站| 婷婷亚洲综合五月天小说 | 中文字幕一区二区三区四区 | 国产传媒网址 | 久久久久久久99精品免费观看 | 免费中文字幕日韩欧美 | 色男人的天堂久久综合 | 日本黄色免费观看 | 男人激烈吮乳动态图 | 色影影院 | 久久久91 | 伦理午夜电影免费观看 | 新版天堂资源中文在线 | 伊人情涩网| 欧美性黑人极品 hd 无码一区二区三区曰本A片 | 日本中文字幕一区 | 国产精品久久久久久久久久久久久 | 久久国产精品免费一区二区三区 | 欧美精品1区2区3区 国产午夜精品理论片影院 亚洲精品不卡久久久久久 三级网站免费观看 | 99精品视频在线视频免费观看 | 99热免费精品 | 欧美精品一区二区精品久久 | 5g免费影院永久天天影院在线 | 亚洲宗合 | 全毛片|