mysql中如何检测文本的相似性的三种方法-BFW博客

mysql中如何检测文本的相似性的三种方法

mysql中如何检测文本的相似性，比如标题或文章的相似性

mysql中如何检测文本的相似性的三种方法

方法有三种

第一种，将文章的标题进行分词，存在一个单独的分词表中，结构如下

分词表（wordstring）
文章id article_id	分词 word
1	博客
1	如何
1	编写
2	博客
2	如何
2	发布

好了，接下来我们通过sql来计算每篇文章标题中相似词的个数

select count(*)
from  wordstring
where artcle_id = 2
and word in 
  (select word 
  from wordstring
  where article_id= 1);

这个过程可以写成一个存储过程

第二种，单独写个存储过程

CREATE FUNCTION `wordsimilarity`( s1 text, s2 text) RETURNS int(11)
    DETERMINISTIC
BEGIN 
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT; 
    DECLARE s1_char CHAR; 
    DECLARE cv0, cv1 text; 
    SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0; 
    IF s1 = s2 THEN 
      RETURN 0; 
    ELSEIF s1_len = 0 THEN 
      RETURN s2_len; 
    ELSEIF s...

点击查看剩余70%

打赏博主×

mysql中如何检测文本的相似性的三种方法

网友评论0

自己写一个支持代理模式自动化操作的ai浏览器bfwbrowser桌面程序代码

如何做一名好领导（来之谷歌的7个技巧）

python+vue编写一个ai生成电影短剧故事片视频代码

Mysql的并发控制原理

php与js实现视频分片二进制blob加密解密播放

python+usearch搭建二进制tcp向量数据库服务及客户端php请求插入或语义搜索教程及代码

phpsocketio使用入门手册

less.js浏览器端实时将less文件转换成css文件

分享几个提升编码效率的CSS新特性

flash不支持后webrtc如何替代rtmp？

{{item.title}}

何为BFWSOA框架

BFWSOA框架特性

BFWSOA框架程序流程图

MVCVPSCW七层架构

BFWSOA框架创建一个小应用

BFWSOA框架路由模式与Apache、Nginx配置

BFWSOA框架表单验证与提交

BFWSOA框架数据库操作

BFWSOA 缓存设置

BFWSOA模型简介

大模型越来越像loop agent了，越来越耗时了

win10上powershell运行wsl报错Wsl/0x80072f7d如何解决？

人工智能技术属于科学范畴吗？

pi与claw及codex有啥不同？

有没有在电脑上运行iphone虚拟机的软件？

如何将电脑扬声器声音同步输出到另外一台手机或电脑上/

为啥图片和视频大模型的提示词支持json和python代码？

Chromium的 Kiosk 模式是干啥的？

豆包如何生成15秒以上的视频？

ai文本大模型最后会升级成做任何动画片吗？