欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

詳解Python 字符串相似性的幾種度量方法

系統(tǒng) 1702 0

字符串的相似性比較應(yīng)用場(chǎng)合很多,像拼寫(xiě)糾錯(cuò)、文本去重、上下文相似性等。

評(píng)價(jià)字符串相似度最常見(jiàn)的辦法就是:把一個(gè)字符串通過(guò)插入、刪除或替換這樣的編輯操作,變成另外一個(gè)字符串,所需要的最少編輯次數(shù),這種就是編輯距離(edit distance)度量方法,也稱為L(zhǎng)evenshtein距離。海明距離是編輯距離的一種特殊情況,只計(jì)算等長(zhǎng)情況下替換操作的編輯次數(shù),只能應(yīng)用于兩個(gè)等長(zhǎng)字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro?CWinkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

            
# -*- coding: utf-8 -*-
 
import difflib
# import jieba
import Levenshtein
 
str1 = "我的骨骼雪白 也長(zhǎng)不出青稞"
str2 = "雪的日子 我只想到雪中去si"
 
# 1. difflib
seq = difflib.SequenceMatcher(None, str1,str2)
ratio = seq.ratio()
print 'difflib similarity1: ', ratio
 
# difflib 去掉列表中不需要比較的字符
seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)
ratio = seq.ratio()
print 'difflib similarity2: ', ratio
 
# 2. hamming距離,str1和str2長(zhǎng)度必須一致,描述兩個(gè)等長(zhǎng)字串之間對(duì)應(yīng)位置上不同字符的個(gè)數(shù)
# sim = Levenshtein.hamming(str1, str2)
# print 'hamming similarity: ', sim
 
# 3. 編輯距離,描述由一個(gè)字串轉(zhuǎn)化成另一個(gè)字串最少的操作次數(shù),在其中的操作包括 插入、刪除、替換
sim = Levenshtein.distance(str1, str2)
print 'Levenshtein similarity: ', sim
 
# 4.計(jì)算萊文斯坦比
sim = Levenshtein.ratio(str1, str2)
print 'Levenshtein.ratio similarity: ', sim
 
# 5.計(jì)算jaro距離
sim = Levenshtein.jaro(str1, str2 )
print 'Levenshtein.jaro similarity: ', sim
 
# 6. Jaro?CWinkler距離
sim = Levenshtein.jaro_winkler(str1 , str2 )
print 'Levenshtein.jaro_winkler similarity: ', sim

          

輸出:

difflib similarity1:? 0.246575342466
difflib similarity2:? 0.0821917808219
Levenshtein similarity:? 33
Levenshtein.ratio similarity:? 0.27397260274
Levenshtein.jaro similarity:? 0.490208958959
Levenshtein.jaro_winkler similarity:? 0.490208958959

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 欧美影院推理片免费看 | 日本欧美久久久久免费播放网 | 欧美精品一区二区三区蜜桃视频 | 日本午夜电影网 | 成片在线看一区二区草莓 | 2018天天干夜夜操 | 视频一区二区不卡 | 999精品国产人妻无码系列久久 | 久久久无码精品一区二区三区 | 国产精品亚洲va在线观看 | 一区免费看 | 国产精品99久久 | 黄色片视频观看 | 一级片成人 | 丝袜诱惑一区二区 | 久久久久网站 | 亚洲v日韩v综合v精品v | 91av国产在线 | 新超碰97 | 亚洲成色www久久网站 | 久草中文在线 | 欧洲成人午夜免费大片 | 久久久精品99 | 麻豆短视频app网站 天天澡天天碰天天狠伊人五月 | 亚洲第一视频网站 | 大蕉香蕉久久爱 | 久久久久高清 | 免费午夜影片在线观看影院 | 色综合久久手机在线 | 亚洲 欧美日韩 国产 中文 | 天天色天天色 | 久久我们这里只有精品国产4 | 96自拍视频| 不卡视频一区二区 | 久久伊人色综合 | 成人免费看黄网站yyy456 | 四虎永久免费地址ww 41.6 | 欧美日韩一区二区三区视频播 | 成人免费一区二区三区视频网站 | 就去色成人网 | 久久免费视频在线 |