2016 - 2024

感恩一路有你

编辑距离算法 python有没有什么包能判断文本相似度?

浏览量:2677 时间:2021-03-17 04:15:50 作者:admin

python有没有什么包能判断文本相似度?

安装Python Levenshtein模块

PIP安装Python Levenshtein

使用Python Levenshtein模块

导入Levenshtein

算法说明

1)莱文施泰因·哈明(STR1,STR2)

计算汉明距离。STR1和STR2的长度必须相同。它描述两个等长字符串之间对应位置的不同字符数。

2). Levenshtein.距离(STR1,STR2)

计算编辑距离(也称为Levenshtein距离)。它描述了将一个字符串转换为另一个字符串的最小操作数,包括插入、删除和替换。

算法实现了参考动态规划。

3). 列文斯坦比率(STR1,STR2)

计算莱文斯坦比率。计算公式r=(sum-ldist)/sum,其中sum是STR1和STR2字符串长度之和,ldist是类编辑距离

注意:这里的类编辑距离不是2中提到的编辑距离,2中的三个操作都是1。这里,删除和插入仍然是1,但是替换为2

这个设计的目的是:比率(“a”,“C”),和=2,根据2中(2-1)/2=0.5的计算,“a”和“C”之间没有重合,这显然不划算,但是可以通过替换操作2来解决。

4). Levenshtein.jaro公司(S1,S2)

计算Jaro距离,

其中m是S1,S2的匹配长度,当一个位置的字符相同时,或在

t是切换时间的一半

5之内。)列文施坦.jarouWinkler(s1,s2)

要计算Jaro-Winkler距离:

编辑距离算法 编辑距离 simhash算法原理

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。