SuperDuperDB:一个将 AI 与主流数据库集成的开源框架


SuperDuperDB 是一个开源框架,用于将 AI 直接与现有数据库集成,包括流式推理、可扩展模型训练和矢量搜索。
SuperDuperDB 不是数据库。它将您最喜爱的数据库转变为人工智能开发和部署环境;db = superduper(db)。

GitHub 连续 3 天成为全球热门。

SuperDuperDB 无需复杂的 MLOps 流程和专门的矢量数据库,也无需迁移和复制数据,而是直接在现有数据基础架构之上,从数据源处集成人工智能。这大大简化了人工智能应用的构建和管理:

  • 生成式人工智能和 LLM-Chat
  • 矢量搜索
  • 标准机器学习用例(分类、细分、推荐等)
  • 涉及超专业模型的高度定制人工智能用例

使用 Jupyter 尝试所有这些!
SuperDuperDB is open-source: Please leave a star to support the project!

主要特征:

  • 将 AI 与现有数据基础设施集成:将任何 AI 模型和 API 与您的数据库集成在单个可扩展部署中,无需额外的预处理步骤、ETL 或样板代码。
  • 流式推理:让您的模型在新数据到达时立即自动计算输出,使您的部署始终保持最新状态。
  • 可扩展模型训练:只需查询训练数据即可在大型、多样化的数据集上训练 AI 模型。通过内置计算优化确保最佳性能。
  • 模型链接:通过连接模型和 API 以相互依赖和顺序的方式协同工作,轻松设置复杂的工作流程。
  • 简单但可扩展的界面:添加并利用 Python 生态系统中的任何函数、程序、脚本或算法来增强您的工作流程和应用程序。深入到任何实现层,包括模型的内部运作,同时使用简单的 Python 命令操作 SuperDuperDB。
  • 困难的数据类型:直接处理数据库中的图像、视频、音频以及任何可以用bytesPython 编码的类型。
  • 功能存储:将您的数据库变成一个集中存储库,用于存储和管理任意数据类型的人工智能模型的输入和输出,使它们以结构化格式和已知环境可用。
  • 矢量搜索:无需复制数据并将其迁移到其他专门的矢量数据库 - 将您现有的经过实战考验的数据库转变为成熟的多模式矢量搜索数据库,包括轻松生成数据的矢量嵌入和矢量索引首选模型和 API。

为何选择 SuperDuperDB?

  • 数据保留在数据库中,人工智能输出与下游应用程序可用的输入一起存储。数据访问和安全性通过数据库访问管理进行外部控制。否则:数据复制和迁移到不同的环境和专门的矢量数据库,增加了数据管理开销。
  • 用于构建、交付和管理 AI 应用程序的单一环境,促进可扩展性和最佳计算效率。否则:复杂、分散的基础设施,具有多个管道,带来高昂的采用和维护成本,并增加安全风险。
  • 由于简单且声明式的 API,需要简单的 Python 命令,因此学习曲线极短。否则:面临不同环境和工具下的数百行代码和设置。

直接与您的数据存储集成、训练和管理任何 AI 模型(无论是开源模型、商业模型还是自行开发的模型),以使用单个 Python 命令自动计算输出:

安装和部署模型:

m = db.add(
    <sklearn_model>|<torch_module>|<transformers_pipeline>|<arbitrary_callable>,
    preprocess=<your_preprocess_callable>,
    postprocess=<your_postprocess_callable>,
    encoder=<your_datatype>
)

预测:

m.predict(X='<input_column>', db=db, select=<mongodb_query>, listen=False|True, create_vector_index=False|True)

训练模型:

m.fit(X='<input_column_or_key>', y='<target_column_or_key>', db=db, select=<mongodb_query>|<ibis_query>)


预集成的 AI API:OpenAI 、Cohere和Anthrop