js中比较文本相似性的四种算法

今天给大家介绍一个js中不同算法的文本相似性检测功能的实现
1、Levenshtein算法(编辑距离)
指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。
示例如下,可在线直接运行,点击代码右上角
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>BFW NEW PAGE</title>
<script id="bfwone" data="dep=jquery.17&err=0" type="text/javascript" src="//repo.bfw.wiki/bfwrepo/js/bfwone.js"></script>
<script type="text/javascript">
LevenshteinDistance = function(a, b) {
if (a.length == 0) return b.length;
if (b.length == 0) return a.length;
var matrix = [];
// increment along the first column of each row
var i;
for (i = 0; i <= b.length; i++) {
matrix[i] = [i];
}
// increment each column in the first row
var j;
for (j = 0; j <= a.length; j++) {
matrix[0][j] = j;
}
// Fill in the rest of the matrix
for (i = 1; i <= b.length; i++) {
for (j = 1; j <= a.length; j++) {
if (b.charAt(i-1) == a.charAt(j-1)) {
matrix[i][j] = matrix[i-1][j-1];
} else {
matrix[i][j] = Math.min(matrix[i-1][j-1] + 1, // substitution
Math.min(matrix[i][j-1] + 1, // insertion
matrix[i-1][j] + 1)); // deletion
}
}
}
return matrix[b.length][a.length];
};
bready(function() {
$("#comparebtn").click(function() {
alert((10-LevenshteinDistance($("#left-words").val(), $("#right-words").val()))/10);
});
});
</script>
</head>
<body>
<div>
<textarea id="left-words"></textarea>
<textarea id="right-words"></textarea>
</div>
<button id="comparebtn">检测</button>
</body>
</html>
2、三角比较算法三角比较法就是讲单词按照3个一组拆分成连续的序列,例如 hello 我们可以拆成hel ell llo三个连续的序列,两个单词hollo,我们拆成hol oll llo,我们发现拆完后最后一组是相似的,那么他们的相似值等于1/字母数5=20%
也就是相似性,ji代码如下
(function () {
TrigramIndex = function (inputPhrases) {
function asTrigrams(phrase, callback) {
var rawData = " ".concat(phrase, " ");
for (var i = rawData.length - 3; i >= 0; i = i - 1)
callback.call(this, rawData.slice(i, i + 3));
};
var instance = {
phrases: [],
trigramIndex: [],
index: function (phrase) {
if (!phrase || phrase === "" || this.p...点击查看剩余70%
网友评论0