Meta开源Llama 3发布


Meta发布迄今为止最有能力的开源大模型:Llama 3 

要点:

  • 此次发布 Llama(Meta Llama 3)的前两个型号,可供广泛使用。此版本具有经过预训练和指令微调的语言模型,具有 8B 和 70B 参数,可以支持广泛的用例。
  • Llama-3 8b 在基准测试中击败 Llama-2 70b !
  • Llama-3  70B击败Claude Sonnet!
  • Llama-3 400B 将可能轻松击败 GPT-4 和 Opus。目前 400b 的基准测试显示分数低于 Opus,但它仍在训练中!
  • 推理、代码生成和指令跟踪等功能的极大改进,使 Llama 3 更加易于操控。
  • 截至目前,却只有 8K 上下文长度:稍后将发布具有更长上下文窗口的版本

与ChatGPT比较:
与付费 ChatGPT Plus 中的 GPT-4 相比:

           Llama 3 8B Llama 3 70B GPT-4
 MMLU      68.4       82.0        86.5
 GPQA      34.2       39.5        49.1
 MATH      30.0       50.4        72.2
 HumanEval 62.2       81.7        87.6
 DROP      58.4       79.7        85.4

  • 该模型很可能在某些领域比 GPT-4 更先进,除非 GPT-5快点推出。
  • 大多数人使用的免费版 ChatGPT 是基于 GPT-3.5 的,这比 GPT-4 差很多。
  • Llama 3 70B 轻松击败GPT-3.5,甚至 8B 也很接近。
  • 拥有如此优秀的模型,您可以在本地运行并进行修改,

其他点:

  • 8b 参数版本和 70b 参数版本。
  • 仅解码器结构。
  • 仅在模型上实现文本输入到文本输出(目前)。
  • 计划稍后发布多模态版本的 llama 3
  • 计划稍后推出更大的上下文窗口。
  • 总体上听起来,他们是在进行迭代发布。
  • 对 15 万亿个token进行预训练。
  • 在 2 个 24k GPU 集群上训练。
  • 新增更高效的标记符号生成器和 128k 标记符号词汇表。
  • 内部仍在训练超过 400b 参数的版本。
  • 创建了一个内部评估,但从未交给建模团队,以避免过度拟合。

总之
我们现在有一个大致相当于GPT4的开源模型,Llama 3 400B。

让我们期待 Open Ai 发布 GPT5 以及 Google 发布 Gemini 2 或 Gemini 1.5 Ultra 需要多长时间。
这些模型会变得超级强大