大模型Grok-1.5发布


Grok-1.5 最新模型能够进行长上下文理解和高级推理。具有改进的推理能力和 128,000 个令牌的上下文长度。

能力与推理
Grok-1.5 最显着的改进之一是其在编码和数学相关任务中的性能。在我们的测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中的竞赛问题。此外,它在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%。

长上下文理解
Grok-1.5 中的一个新功能是能够在其上下文窗口内处理多达 128K 个令牌的长上下文。这使得 Grok 的内存容量增加到之前上下文长度的 16 倍,从而能够利用更长文档中的信息。

此外,该模型可以处理更长、更复杂的提示,同时在上下文窗口扩展时仍然保持其指令跟踪能力。在NIAH评估中,Grok-1.5展示了强大的检索能力,可以在长度高达128K token的上下文中嵌入文本,实现完美的检索结果。

Grok-1.5 基础设施
在大规模 GPU 集群上运行的尖端大型语言模型 (LLM) 研究需要强大而灵活的基础设施。 Grok-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。该培训堆栈使我们的团队能够以最小的努力构建想法原型并大规模培训新架构。