大家想想,目前数据库的瓶颈与问题主要在大数据的存储与运算,高并发数据库的请求与处理,分库分布的手动化,人工化。
如何让AI来管理数据库,让数据库能够自己管理自己,减少人工的干预,自我扩展、自我分表分库、主动防御,那该多好。
其实oracle已经实现了,Oracle 对于数据库自治的愿景,通过统计学与机器学习,发觉故障场景下的规则。如下图:
另外微软的sqlserver2016+也集成了ai的模块,通过入库的数据进行直接的训练,将结果返回给用户。
以上是巨头对现有的数据库产品进行AI赋能,那么还有个数据库完全为AI而生。
Milvus 是一款分布式特征向量检索引擎,旨在帮助用户实现十亿级特征向量的近似检索和分析,它能充分挖掘图像、视频,声音、文本等非结构数据所蕴含的价值,目前已经在 Github 开源。
AI 通过深度学习得出的向量数据与结构化数据的差异到底是什么呢?
首先是数据类型差异,结构化数据包括数字、字符串日期等等,我们都比较熟悉,而向量数据是一个高维数组。
其次是数据操作的差异,结构化数据以数字为例,既可以计算,如 a+b;也可以比较 a
最后从数据索引形式上也有差异:
结构化数据
非结构化数据
假如我们要查询 WHERE COL1=5 ,就直接可以参照图中索引路径,再去访问实际的数据页。而在非结构化数据中,寻找和向量A最近似的向量,就需要和每一个向量进行计算然后做相似度的排序,从而找到最相似的那个向量。在实际实际生活中,以智慧城市为例,监控拍摄到的车辆图片规模可能是上亿张,那么每次都和这上亿张进行比对就很麻烦。在这里,顾钧表示Milvus的索引方式是先聚类,这样求相似度就不是全量的计算,而是在一个子空间中进行相似度计算。
Milvus 向量相似度搜索引擎架构
因为相似度计算太过密集,所以 Milvus 借助 GPU 的算力加速了整个过程,具体来讲,海量的向量进行分类的时候就要进行大量的计算,GPU 在这其中就可以大幅度提升分类的速度,然后在查询的时候 GPU 也会大大加速过程。
网友评论0