开源大模型与ChatGPT比较

ChatGPT 于 2022 年底发布后,为整个人工智能领域(无论是研究领域还是商业领域)带来了翻天覆地的变化。通过对大型语言模型(LLM)进行指令调整,并根据人类反馈进行监督微调和强化学习,结果表明模型可以回答人类问题并遵循广泛任务的指令。

继这一成功之后,人们对LLM的兴趣日益浓厚,新的LLM在学术界和工业界频繁涌现,其中包括许多专注于LLM的初创企业。虽然闭源LLM(例如 OpenAI 的 GPT、Anthropic 的 Claude)通常优于开源LLM,但后者的进展很快,声称在某些任务上达到了同等水平甚至更好。这不仅对研究而且对商业都具有至关重要的影响。在这项工作中,在 ChatGPT 一周年之际,我们对这一成功进行了详尽的概述,调查了开源LLM声称与 ChatGPT 相当或更好的所有任务。

开源LLM与ChatGPT:
1.通用能力:

  • Llama-2-chat-70B 变体在.通用会话任务中表现出更强的能力,性能超过了 GPT-3.5-turbo;
  • UltraLlama 在其提出的基准中与 GPT-3.5-turbo 的性能相当。

2. 代理能力(使用工具、自我调试、遵循自然语言反馈、探索环境):

  • 在探索环境或根据自然语言反馈完成编码任务时,Lemur-70B-chat 的性能超过了 GPT-3.5-turbo。
  • AgentLlama-70B 在未见代理任务上的性能与 GPT-3.5-turbo 相当。
  • 在编写 API 调用时,Gorilla 的性能优于 GPT-4。

3.逻辑推理能力:

  • 微调模型(如 WizardCoder、WizardMath)和对更高质量数据模型(如 Lemur-70B-chat、Phi-1、Phi-1.5)的预训练显示出比 GPT-3.5-turbo 更强的性能。

4.长语境能力建模:

  • 在 ZeroSCROLLS 上,Llama-2-long-chat-70B 的性能优于 GPT-3.5-turbo-16k。

5.特定于应用的能力:

  • --以查询为重点的总结(在训练数据上进行微调效果更好)
  • --开放式 QA(InstructRetro 比 GPT3 有改进)
  • --医疗(MentalLlama-chat-13 和 Radiology-Llama-2 优于 ChatGPT)
  • --生成结构化回复(Struc-Bench 优于 ChatGPT)
  • --生成评论(Shepherd 几乎与 ChatGPT 不相上下)

6.值得信赖的人工智能:
- 幻觉:

  • 在微调期间 - 在微调期间提高数据质量;
  • 在推理期间 - 特定解码策略、外部知识增强(知识链、LLM-AUGMENTER、知识求解器、CRITIC、Prametric Knowlege Guiding)和多代理对话
  • GPT-3.5-turbo 和 GPT-4 模型在安全评估方面仍然名列前茅。
这主要归功于人工反馈强化学习(RLHF)。来自人工智能反馈的强化学习 (RLAIF) 可以帮助降低 RLHF 的成本。