2016 - 2024

感恩一路有你

计算字符串相似度的方法 python有没有什么包能判断文本相似度?

浏览量:2952 时间:2021-03-12 21:32:41 作者:admin

python有没有什么包能判断文本相似度?

安装Python Levenshtein模块

PIP安装Python Levenshtein

使用Python Levenshtein模块

导入Levenshtein

算法说明

1)莱文施泰因·哈明(STR1,STR2)

计算汉明距离。STR1和STR2的长度必须相同。它描述两个等长字符串之间对应位置的不同字符数。

2). Levenshtein.距离(STR1,STR2)

计算编辑距离(也称为Levenshtein距离)。它描述了将一个字符串转换为另一个字符串的最小操作数,包括插入、删除和替换。

算法实现了参考动态规划。

3). 列文斯坦比率(STR1,STR2)

计算莱文斯坦比率。计算公式r=(sum-ldist)/sum,其中sum是STR1和STR2字符串长度之和,ldist是类编辑距离

注意:这里的类编辑距离不是2中提到的编辑距离,2中的三个操作都是1。这里,删除和插入仍然是1,但是替换为2

这个设计的目的是:比率(“a”,“C”),和=2,根据2中(2-1)/2=0.5的计算,“a”和“C”之间没有重合,这显然不划算,但是可以通过替换操作2来解决。

4). Levenshtein.jaro公司(S1,S2)

计算Jaro距离,

其中m是S1,S2的匹配长度,当一个位置的字符相同时,或在

t是切换时间的一半

5之内。)列文施坦.jarouWinkler(s1,s2)

计算Jaro-Winkler距离:

c语言中两个长度不一样的数组,怎么找相等的字符?

使用StrCmp,无论长度是否为是否相等。

原型:外部int StrCmp(const char*S1,const char*S2)

用法:#include<string。函数:比较字符串S1和S2。

一般形式:StrCmp(字符串1,字符串2)

说明:

当S1<s2时,返回值为<0

当S1=S2时,返回值为=0

当S1>s2时,返回值为>0

即两个字符串从左到右逐个比较(根据ASCII值的大小),直到出现不同的字符或遇到“0”。

计算字符串相似度的方法 字符串的相似度 比较字符串相似度

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。