Llama3可能是产生幻觉最多的小模型

一个小模型优点是:非常善于 "说话",而且非常友好,但它确实喜欢胡编乱造:如果你问到一个它没有太多数据的话题,它就会非常肯定地编造出完整的故事。

  • 种小模型的价值有限,无法回答任何非常识性的基本问题。
  • 就能连贯地讲述任何晦涩难懂的内容而言,它甚至比 Llama1 33B 型号还要弱。
  • Airoboros 33B 的能力要强得多,它不会编造离奇的话题细节,产生幻觉的频率较低,而且在产生幻觉时也更可信。

除了一些不需要太多知识的任务外,为什么人们会把 Llama3 8B 和 Mixtral 7x8 放在同一个级别上?

网友:
1、 从逻辑上讲,任何小模型的知识都会较少

2、我也注意到 LLaMA 3 的知识非常贫乏。当它发布时,我向它询问一些相当知名的人物的信息,它经常答错。

3、关于 llama3 有很多炒作,这是理所当然的,但它也有缺陷。当指令模型想要审查输出或者没有正确的信息时,它会产生幻觉。

4、无论你使用什么型号,任何小于 30b 的东西都会产生大量的垃圾。

5、语言模型智能的全部秘密几乎在于它们维持状态的能力;也就是说,他们可以有意识地记住或立即跟踪的变量数量。这种能力在 30b 以下是完全不存在的,直到 120b 才变得真正令人兴奋。根据传言,GPT4 是 8 节点 120b MoE,实际上很合适。

6、在我的例子中,即使是带有 Huggingface api 的 70b 非量化模型也会产生命令行参数的幻觉。不幸的是,该模型在推理方面似乎更好,但在提供事实方面却较差。