开源大模型与ChatGPT比较

2023-12-01 banq

ChatGPT 于 2022 年底发布后，为整个人工智能领域（无论是研究领域还是商业领域）带来了翻天覆地的变化。通过对大型语言模型（LLM）进行指令调整，并根据人类反馈进行监督微调和强化学习，结果表明模型可以回答人类问题并遵循广泛任务的指令。

继这一成功之后，人们对LLM的兴趣日益浓厚，新的LLM在学术界和工业界频繁涌现，其中包括许多专注于LLM的初创企业。虽然闭源LLM（例如 OpenAI 的 GPT、Anthropic 的 Claude）通常优于开源LLM，但后者的进展很快，声称在某些任务上达到了同等水平甚至更好。这不仅对研究而且对商业都具有至关重要的影响。在这项工作中，在 ChatGPT 一周年之际，我们对这一成功进行了详尽的概述，调查了开源LLM声称与 ChatGPT 相当或更好的所有任务。

开源LLM与ChatGPT：
1.通用能力：

Llama-2-chat-70B 变体在.通用会话任务中表现出更强的能力，性能超过了 GPT-3.5-turbo；
UltraLlama 在其提出的基准中与 GPT-3.5-turbo 的性能相当。

2. 代理能力（使用工具、自我调试、遵循自然语言反馈、探索环境）：

在探索环境或根据自然语言反馈完成编码任务时，Lemur-70B-chat 的性能超过了 GPT-3.5-turbo。
AgentLlama-70B 在未见代理任务上的性能与 GPT-3.5-turbo 相当。
在编写 API 调用时，Gorilla 的性能优于 GPT-4。

3.逻辑推理能力：

微调模型（如 WizardCoder、WizardMath）和对更高质量数据模型（如 Lemur-70B-chat、Phi-1、Phi-1.5）的预训练显示出比 GPT-3.5-turbo 更强的性能。

4.长语境能力建模：

在 ZeroSCROLLS 上，Llama-2-long-chat-70B 的性能优于 GPT-3.5-turbo-16k。

5.特定于应用的能力：

--以查询为重点的总结（在训练数据上进行微调效果更好）
--开放式 QA（InstructRetro 比 GPT3 有改进）
--医疗（MentalLlama-chat-13 和 Radiology-Llama-2 优于 ChatGPT）
--生成结构化回复（Struc-Bench 优于 ChatGPT）
--生成评论（Shepherd 几乎与 ChatGPT 不相上下）

6.值得信赖的人工智能：
- 幻觉：

在微调期间 - 在微调期间提高数据质量；
在推理期间 - 特定解码策略、外部知识增强（知识链、LLM-AUGMENTER、知识求解器、CRITIC、Prametric Knowlege Guiding）和多代理对话
GPT-3.5-turbo 和 GPT-4 模型在安全评估方面仍然名列前茅。

这主要归功于人工反馈强化学习（RLHF）。来自人工智能反馈的强化学习 (RLAIF) 可以帮助降低 RLHF 的成本。

开源大模型与ChatGPT比较

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道