js中比较文本相似性的四种算法

js中比较文本相似性的四种算法

js中比较文本相似性的四种算法

今天给大家介绍一个js中不同算法的文本相似性检测功能的实现

1、Levenshtein算法(编辑距离)

指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。

许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。

示例如下,可在线直接运行,点击代码右上角

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>BFW NEW PAGE</title>
    <script id="bfwone" data="dep=jquery.17&err=0" type="text/javascript" src="//repo.bfw.wiki/bfwrepo/js/bfwone.js"></script>
    <script type="text/javascript">
        LevenshteinDistance = function(a, b) {
            if (a.length == 0) return b.length;
            if (b.length == 0) return a.length;

            var matrix = [];

            // increment along the first column of each row
            var i;
            for (i = 0; i <= b.length; i++) {
                matrix[i] = [i];
            }

            // increment each column in the first row
            var j;
            for (j = 0; j <= a.length; j++) {
                matrix[0][j] = j;
            }

            // Fill in the rest of the matrix
            for (i = 1; i <= b.length; i++) {
                for (j = 1; j <= a.length; j++) {
                    if (b.charAt(i-1) == a.charAt(j-1)) {
                        matrix[i][j] = matrix[i-1][j-1];
                    } else {
                        matrix[i][j] = Math.min(matrix[i-1][j-1] + 1, // substitution
                            Math.min(matrix[i][j-1] + 1, // insertion
                                matrix[i-1][j] + 1)); // deletion
                    }
                }
            }

            return matrix[b.length][a.length];
        };
        bready(function() {
            $("#comparebtn").click(function() {
                alert((10-LevenshteinDistance($("#left-words").val(), $("#right-words").val()))/10);
            });
        });
    </script>
</head>
<body>
    <div>
        <textarea id="left-words"></textarea>
        <textarea id="right-words"></textarea>
    </div>
    <button id="comparebtn">检测</button>
</body>
</html>

2、三角比较算法

三角比较法就是讲单词按照3个一组拆分成连续的序列,例如 hello 我们可以拆成hel  ell  llo三个连续的序列,两个单词hollo,我们拆成hol oll llo,我们发现拆完后最后一组是相似的,那么他们的相似值等于1/字母数5=20%

也就是相似性,ji代码如下

(function () {
    TrigramIndex = function (inputPhrases) {
        function asTrigrams(phrase, callback) {
            var rawData = "  ".concat(phrase, "  ");
            for (var i = rawData.length - 3; i >= 0; i = i - 1)
                callback.call(this, rawData.slice(i, i + 3));
        };

        var instance = {
            phrases: [],
            trigramIndex: [],

            index: function (phrase) {
                if (!phrase || phrase === "" || this.p...

点击查看剩余70%

{{collectdata}}

网友评论0