一个“开箱即用”的解决方案,专注于大规模推理部署。
字节跳动发布了他们的完整AI堆栈:AIBrix,这是一个开源计划,旨在提供基本的构建块来构建可扩展的GenAI推理基础设施。AIBrix提供针对部署、管理和扩展LLM而优化的云原生解决方案
核心亮点:
- 高密度 LoRA 管理:支持轻量级模型适配,这对于需要快速调整模型的场景很实用。
- 成本效益高的异构服务:能在不同硬件上高效运行,降低部署成本。
- 针对 LLM 的自动扩展:能根据负载动态调整资源,适合企业级需求。
- GPU 流式加载器:优化了模型加载效率,减少延迟。
初始版本包含以下主要功能:
- 高密度 LoRA 管理:简化对轻量级、低秩模型适配的支持。
- LLM 网关和路由:有效管理和引导跨多个模型和副本的流量。
- LLM App-Tailored Autoscaler:根据实时需求动态扩展推理资源。
- 统一 AI 运行时:一个多功能的侧车,可实现指标标准化、模型下载和管理。
- 分布式推理:可扩展的架构,可处理跨多个节点的大量工作负载。
- 分布式 KV 缓存:支持大容量、跨引擎 KV 重用。
- 经济高效的异构服务:支持混合 GPU 推理,以通过 SLO 保证降低成本。
- GPU 硬件故障检测:主动检测 GPU 硬件问题。
AIBrix核心特定是它的可扩展性和已在 ByteDance内部多个生产用例中验证的可靠性。
网友表示期待尝试它的分布式推理功能,也有人提到它与现有云原生解决方案(如 KServe)的区别在于与 vLLM 的原生集成。
从技术逻辑上看,AIBrix 的能力与豆包的需求高度匹配。豆包的成功离不开高效的推理支持,而 AIBrix 开源的时机(2025年2月)和豆包的快速迭代(比如最近更新的 Doubao-1.5 Pro)可能暗示了两者之间的协同发展。