继这一成功之后,人们对LLM的兴趣日益浓厚,新的LLM在学术界和工业界频繁涌现,其中包括许多专注于LLM的初创企业。虽然闭源LLM(例如 OpenAI 的 GPT、Anthropic 的 Claude)通常优于开源LLM,但后者的进展很快,声称在某些任务上达到了同等水平甚至更好。这不仅对研究而且对商业都具有至关重要的影响。在这项工作中,在 ChatGPT 一周年之际,我们对这一成功进行了详尽的概述,调查了开源LLM声称与 ChatGPT 相当或更好的所有任务。
开源LLM与ChatGPT:
1.通用能力:
- Llama-2-chat-70B 变体在.通用会话任务中表现出更强的能力,性能超过了 GPT-3.5-turbo;
- UltraLlama 在其提出的基准中与 GPT-3.5-turbo 的性能相当。
2. 代理能力(使用工具、自我调试、遵循自然语言反馈、探索环境):
- 在探索环境或根据自然语言反馈完成编码任务时,Lemur-70B-chat 的性能超过了 GPT-3.5-turbo。
- AgentLlama-70B 在未见代理任务上的性能与 GPT-3.5-turbo 相当。
- 在编写 API 调用时,Gorilla 的性能优于 GPT-4。
3.逻辑推理能力:
- 微调模型(如 WizardCoder、WizardMath)和对更高质量数据模型(如 Lemur-70B-chat、Phi-1、Phi-1.5)的预训练显示出比 GPT-3.5-turbo 更强的性能。
4.长语境能力建模:
- 在 ZeroSCROLLS 上,Llama-2-long-chat-70B 的性能优于 GPT-3.5-turbo-16k。
5.特定于应用的能力:
- --以查询为重点的总结(在训练数据上进行微调效果更好)
- --开放式 QA(InstructRetro 比 GPT3 有改进)
- --医疗(MentalLlama-chat-13 和 Radiology-Llama-2 优于 ChatGPT)
- --生成结构化回复(Struc-Bench 优于 ChatGPT)
- --生成评论(Shepherd 几乎与 ChatGPT 不相上下)
6.值得信赖的人工智能:
- 幻觉:
- 在微调期间 - 在微调期间提高数据质量;
- 在推理期间 - 特定解码策略、外部知识增强(知识链、LLM-AUGMENTER、知识求解器、CRITIC、Prametric Knowlege Guiding)和多代理对话
- GPT-3.5-turbo 和 GPT-4 模型在安全评估方面仍然名列前茅。