AI进军数据库领域,让数据库AI智能管理伸缩

AI进军数据库领域,让数据库AI智能管理伸缩

AI进军<a href='/tag/db.html'>数据库</a>领域,让<a href='/tag/db.html'>数据库</a>AI智能管理伸缩

大家想想,目前数据库的瓶颈与问题主要在大数据的存储与运算,高并发数据库的请求与处理,分库分布的手动化,人工化。

如何让AI来管理数据库,让数据库能够自己管理自己,减少人工的干预,自我扩展、自我分表分库、主动防御,那该多好。

其实oracle已经实现了,Oracle 对于数据库自治的愿景,通过统计学与机器学习,发觉故障场景下的规则。如下图:

AI进军<a href='/tag/db.html'>数据库</a>领域,让<a href='/tag/db.html'>数据库</a>AI智能管理伸缩

另外微软的sqlserver2016+也集成了ai的模块,通过入库的数据进行直接的训练,将结果返回给用户。

AI进军<a href='/tag/db.html'>数据库</a>领域,让<a href='/tag/db.html'>数据库</a>AI智能管理伸缩

以上是巨头对现有的数据库产品进行AI赋能,那么还有个数据库完全为AI而生。

Milvus 是一款分布式特征向量检索引擎,旨在帮助用户实现十亿级特征向量的近似检索和分析,它能充分挖掘图像、视频,声音、文本等非结构数据所蕴含的价值,目前已经在 Github 开源。

AI 通过深度学习得出的向量数据与结构化数据的差异到底是什么呢?

首先是数据类型差异,结构化数据包括数字、字符串日期等等,我们都比较熟悉,而向量数据是一个高维数组。

其次是数据操作的差异,结构化数据以数字为例,既可以计算,如 a+b;也可以比较 a

最后从数据索引形式上也有差异:

结构化数据

AI进军<a href='/tag/db.html'>数据库</a>领域,让<a href='/tag/db.html'>数据库</a>AI智能管理伸缩

非结构化数据

AI进军<a href='/tag/db.html'>数据库</a>领域,让<a href='/tag/db.html'>数据库</a>AI智能管理伸缩

假如我们要查询 WHERE COL1=5 ,就直接可以参照图中索引路径,再去访问实际的数据页。而在非结构化数据中,寻找和向量A最近似的向量,就需要和每一个向量进行计算然后做相似度的排序,从而找到最相似的那个向量。在实际实际生活中,以智慧城市为例,监控拍摄到的车辆图片规模可能是上亿张,那么每次都和这上亿张进行比对就很麻烦。在这里,顾钧表示Milvus的索引方式是先聚类,这样求相似度就不是全量的计算,而是在一个子空间中进行相似度计算。

Milvus 向量相似度搜索引擎架构

AI进军<a href='/tag/db.html'>数据库</a>领域,让<a href='/tag/db.html'>数据库</a>AI智能管理伸缩

因为相似度计算太过密集,所以 Milvus 借助 GPU 的算力加速了整个过程,具体来讲,海量的向量进行分类的时候就要进行大量的计算,GPU 在这其中就可以大幅度提升分类的速度,然后在查询的时候 GPU 也会大大加速过程。




{{collectdata}}

网友评论0