什么是向量数据库VectorDatabase？

#中台数据工程教程 #机器学习教程 #AI人工智能指南 #矢量数据库

2023-07-07 banq

随着基础模型的兴起，VectorDatabase(矢量数据库/向量数据库)的受欢迎程度直线上升。事实上，向量数据库在大型语言模型的上下文之外也很有用。

当涉及到机器学习时，我们经常与向量嵌入打交道。向量数据库的创建是为了在处理它们时有特别好的表现：

当我们谈论检索时，我们指的是检索与查询最相似的向量集，其形式是嵌入在同一潜伏空间的向量。这种检索程序被称为近似近邻（ANN）搜索。

这里的查询可以是一个对象的形式，比如我们想找到类似的图像。或者它可以是一个问题，我们想为它检索相关的上下文，然后通过LLM将其转化为答案。

让我们来看看如何与向量数据库互动：

写或更新数据：

读取数据
7. 一个针对向量数据库执行的查询通常由两部分组成：

8. 你针对元数据索引执行元数据查询。它可以在ANN搜索程序之前或之后进行。

9. 你将数据嵌入到Latent空间中，所用的模型与将数据写入Vector DB的模型相同。

10. 应用ANN搜索程序，检索出一组向量嵌入。用于ANN搜索的流行的相似性措施包括：余弦相似度，欧几里得距离，点积。

一些流行的向量数据库： Pinecone, Weviate, Milvus, Vespa.