编辑距离算法 python有没有什么包能判断文本相似度?
浏览量:2677
时间:2021-03-17 04:15:50
作者:admin
python有没有什么包能判断文本相似度?
安装Python Levenshtein模块
PIP安装Python Levenshtein
使用Python Levenshtein模块
导入Levenshtein
算法说明
1)莱文施泰因·哈明(STR1,STR2)
计算汉明距离。STR1和STR2的长度必须相同。它描述两个等长字符串之间对应位置的不同字符数。
2). Levenshtein.距离(STR1,STR2)
计算编辑距离(也称为Levenshtein距离)。它描述了将一个字符串转换为另一个字符串的最小操作数,包括插入、删除和替换。
算法实现了参考动态规划。
3). 列文斯坦比率(STR1,STR2)
计算莱文斯坦比率。计算公式r=(sum-ldist)/sum,其中sum是STR1和STR2字符串长度之和,ldist是类编辑距离
注意:这里的类编辑距离不是2中提到的编辑距离,2中的三个操作都是1。这里,删除和插入仍然是1,但是替换为2
这个设计的目的是:比率(“a”,“C”),和=2,根据2中(2-1)/2=0.5的计算,“a”和“C”之间没有重合,这显然不划算,但是可以通过替换操作2来解决。
4). Levenshtein.jaro公司(S1,S2)
计算Jaro距离,
其中m是S1,S2的匹配长度,当一个位置的字符相同时,或在
t是切换时间的一半
5之内。)列文施坦.jarouWinkler(s1,s2)
要计算Jaro-Winkler距离:
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。