js中比较文本相似性的四种算法-BFW博客

js中比较文本相似性的四种算法

今天给大家介绍一个js中不同算法的文本相似性检测功能的实现

1、Levenshtein算法（编辑距离）

指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。

许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

编辑距离的算法是首先由俄国科学家Levenshtein提出的，故又叫Levenshtein Distance。

示例如下，可在线直接运行，点击代码右上角

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>BFW NEW PAGE</title>
    <script id="bfwone" data="dep=jquery.17&err=0" type="text/javascript" src="//repo.bfw.wiki/bfwrepo/js/bfwone.js"></script>
    <script type="text/javascript">
        LevenshteinDistance = function(a, b) {
            if (a.length == 0) return b.length;
            if (b.length == 0) return a.length;

            var matrix = [];

            // increment along the first column of each row
            var i;
            for (i = 0; i <= b.length; i++) {
                matrix[i] = [i];
            }

            // increment each column in the first row
            var j;
            for (j = 0; j <= a.length; j++) {
                matrix[0][j] = j;
            }

            // Fill in the rest of the matrix
            for (i = 1; i <= b.length; i++) {
                for (j = 1; j <= a.length; j++) {
                    if (b.charAt(i-1) == a.charAt(j-1)) {
                        matrix[i][j] = matrix[i-1][j-1];
                    } else {
                        matrix[i][j] = Math.min(matrix[i-1][j-1] + 1, // substitution
                            Math.min(matrix[i][j-1] + 1, // insertion
                                matrix[i-1][j] + 1)); // deletion
                    }
                }
            }

            return matrix[b.length][a.length];
        };
        bready(function() {
            $("#comparebtn").click(function() {
                alert((10-LevenshteinDistance($("#left-words").val(), $("#right-words").val()))/10);
            });
        });
    </script>
</head>
<body>
    <div>
        <textarea id="left-words"></textarea>
        <textarea id="right-words"></textarea>
    </div>
    <button id="comparebtn">检测</button>
</body>
</html>

2、三角比较算法

三角比较法就是讲单词按照3个一组拆分成连续的序列，例如 hello 我们可以拆成hel ell llo三个连续的序列，两个单词hollo，我们拆成hol oll llo，我们发现拆完后最后一组是相似的，那么他们的相似值等于1/字母数5=20%

也就是相似性，ji代码如下

(function () {
    TrigramIndex = function (inputPhrases) {
        function asTrigrams(phrase, callback) {
            var rawData = "  ".concat(phrase, "  ");
            for (var i = rawData.length - 3; i >= 0; i = i - 1)
                callback.call(this, rawData.slice(i, i + 3));
        };

        var instance = {
            phrases: [],
            trigramIndex: [],

            index: function (phrase) {
                if (!phrase || phrase === "" || this.p...

点击查看剩余70%

打赏博主×

js中比较文本相似性的四种算法

网友评论0

用python通过声音指纹来识别歌曲

Android与ios如何获取webview中的title及description及图片

flutter中如何上传图片？

Clipboard.js 动态复制内容的方法

js中比较文本相似性的四种算法

tailwind.css一款高度可定制化的css框架

js代码混淆压缩的原理解析

BCI脑机接口让大脑接入互联网实现脑联网

andriod与ios 中webview 拦截url实现通讯

一步一步教你使用AMP技术来编写html

{{item.title}}

谁会代替html5

如何用js进行网页屏幕截图

h5多文件上传代码，html与php

html5文件夹（包含子文件夹）上传代码

在线sqlite打开查看

编写一个浏览器打开sqlite文件的html代码

7种浏览器js离线数据库比较

js实现浏览器批量压缩图片原理及代码解析

bfweditor pro专业版发布了

dropfile.js强大的文件上传插件，支持拖放、选择

如何避免调用ai大模型api对话的时候用户让他说出自己的系统提示词？

textarea如何实现标签tag式输入和自由文本结合？

如何用js实现两个textarea的文本内容差异化对比同步滚动？

如何用html写出一个调用大模型api实现ai下象棋的游戏？

ai生成软著软件著作权材料的ai提示词怎么写？

如何给网页富文本编辑器增加ai续写、ai润色优化等功能?

vue如何实现类似百度超级ai画布的ai笔记网页代码？

mongodb如何备份与恢复数据库？

有没有类似豆包pc端ai大模型编程代码块折叠右侧流式输出带预览的前后端代码？

nodejs有没有很快的目录爬虫和通配符文件查找库？