js中比较文本相似性的四种算法
今天给大家介绍一个js中不同算法的文本相似性检测功能的实现
1、Levenshtein算法(编辑距离)
指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。
示例如下,可在线直接运行,点击代码右上角
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>BFW NEW PAGE</title> <script id="bfwone" data="dep=jquery.17&err=0" type="text/javascript" src="//repo.bfw.wiki/bfwrepo/js/bfwone.js"></script> <script type="text/javascript"> LevenshteinDistance = function(a, b) { if (a.length == 0) return b.length; if (b.length == 0) return a.length; var matrix = []; // increment along the first column of each row var i; for (i = 0; i <= b.length; i++) { matrix[i] = [i]; } // increment each column in the first row var j; for (j = 0; j <= a.length; j++) { matrix[0][j] = j; } // Fill in the rest of the matrix for (i = 1; i <= b.length; i++) { for (j = 1; j <= a.length; j++) { if (b.charAt(i-1) == a.charAt(j-1)) { matrix[i][j] = matrix[i-1][j-1]; } else { matrix[i][j] = Math.min(matrix[i-1][j-1] + 1, // substitution Math.min(matrix[i][j-1] + 1, // insertion matrix[i-1][j] + 1)); // deletion } } } return matrix[b.length][a.length]; }; bready(function() { $("#comparebtn").click(function() { alert((10-LevenshteinDistance($("#left-words").val(), $("#right-words").val()))/10); }); }); </script> </head> <body> <div> <textarea id="left-words"></textarea> <textarea id="right-words"></textarea> </div> <button id="comparebtn">检测</button> </body> </html>2、三角比较算法
三角比较法就是讲单词按照3个一组拆分成连续的序列,例如 hello 我们可以拆成hel ell llo三个连续的序列,两个单词hollo,我们拆成hol oll llo,我们发现拆完后最后一组是相似的,那么他们的相似值等于1/字母数5=20%
也就是相似性,ji代码如下
(function () { TrigramIndex = function (inputPhrases) { function asTrigrams(phrase, callback) { var rawData = " ".concat(phrase, " "); for (var i = rawData.length - 3; i >= 0; i = i - 1) callback.call(this, rawData.slice(i, i + 3)); }; var instance = { phrases: [], trigramIndex: [], index: function (phrase) { if (!phrase || phrase === "" || this.p...
点击查看剩余70%
网友评论0