超越ChatGPT：Toolformer可以自学使用各种工具

Toolformer是一种自学以自我监督的方式使用各种工具的语言模型。这显着提高了零样本性能，并使其能够胜过更大的大型语言模型。

语言模型 (LM) 表现出非凡的能力，可以仅通过几个示例或文本指令来解决新任务，尤其是在规模上。

矛盾的是，它们还在基本功能上苦苦挣扎，例如算术或事实查找，而在这些功能中，更简单、更小的模型更胜一筹。

在本文中，我们展示了 LM 可以通过简单的 API 自学使用外部工具并实现两全其美。

我们介绍了 Toolformer，这是一个经过训练的模型，可以决定调用哪些 API、何时调用它们、传递哪些参数，以及如何最好地将结果纳入未来的代币预测。

这是以自我监督的方式完成的，只需要对每个 API 进行少量演示。我们整合了一系列工具，包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。

GPT3问题
gpt-3可以使用的最基本的“工具”是一个字符级的标记器API，因此模型可以在需要时访问原始的Unicode字符串数据。

Jiayuan：我们都知道现在 ChatGPT / GPT-3 存在的一个很大的问题就是生成的结果受限于训练的数据集（ChatGPT 截止于 2021 年），对于一些实时性的内容是无法生成的。另外就是无法进行很好的数值计算，简单的加减乘除也会算错。

Bing Chat 一部分解决了这些问题，其实底层的原理也比较简单，先利用 Bing 进行关键词搜索，然后再把结果通过 embedding 的方式注入到 prompt 中去调用底层的大模型。当然 OpenAI 和微软应该在上层工做了很多工程化的工作，所以 Bing Chat 的生成速度和准确性上都表现得非常好。

但是这种能力是非常有限的，比如你想要通过 Bing Chat 来搜索夏威夷的某个旅店价格，这个是可以做到的。但是如果想让它帮你预定最实惠的那个酒店就不行了，因为它只能够生成内容，不能执行逻辑。
但是如果 LLM 能够知道「怎么预定酒店」这个操作的话，那么就可以完成上面的步骤了。其实方法简单来说就是把很多预定酒店的操作过程喂给他来训练，然后它就能「学」会了。

简单做一层抽象，这个可以扩展到任何外部的 API 调用。

一些可能的场景：

- 让 LLM 在训练的过程中自己通过调用外部数据源的形式来优化训练；
- 生成结果的同时进行额外的操作，比如和 Office 365 中的文档进行交互；
- 让机器人自己学会工具的使用；
- 数值计算、更强大的逻辑能力等。

如果说 GPT-3 / ChatGPT / Bing Chat 等 LLM 只是「智能大脑」的话，Toolformer 模型就是给这些大脑加上了「手」，可以开始使用工具了。

未来不难看到一个集成了 ChatGPT（or 类似的）& Toolformer 的 AI 通过自训练学会了操作电脑，然后自己把自己的代码重写了一遍，完成了自举。

详细点击标题