Gemma2 2B IT 是最令人印象深刻的小模型

这款小巧的机型表现得像一台 Creative 7B,写故事比 Llama3.1 8B IT 好得多。它比 Phi-3 Mini 小。

网友讨论:
1、这是第一个低于 4b 参数的模型,我实际上会用它来完成一些不太复杂的任务,比如总结电子邮件链或文章。我之前使用小模型的经验都很差,所以我只玩了几分钟,就删掉了。

如果为 Phi3 提供完整的工作环境,那么它还算不错,但还不够智能,有时会产生垃圾。

Gemma2:2b 的大小和质量确实令人印象深刻。不过,我不会说它比 llama3 或 3.1 更好。

2、在我的中低端 Android 手机上使用它,我非常满意,印象非常深刻。到目前为止,我只用它进行过写作/角色扮演和随机提问,但考虑到它的大小,它非常可靠。

一个巨大的好处是,至少在我的手机上,它相对来说非常快。在相同的情况下(相同的令牌角色卡,相同的第一条消息和第一个用户回复,总计约 600 个令牌,事先清除聊天记录和缓存),这是它开始生成文本之前的时间:

  • 4_K_S Phi-3:128秒
  • 4_K_M Gemma 2 :56 秒
而且令牌生成本身也快得多;我没有官方数据,但目测我会说它的速度也是原来的两倍多。

对于随机提问(例如,关于某些奥运会设备和服装的用途和好处的问题),它的知识性并不强,但它仍然给出了我尝试过的所有型号中最好的答案

对于写作,它是唯一能够正确处理我的“选择你自己的冒险”卡的小型模型;它总是按照每次提示的要求提供选项 A- B- C- D-,并且实际上遵循我选择的字母。

对于角色扮演来说,它也非常好。我有一张有两个不同角色的卡,它实际上可以很好地处理这种情况。从我迄今为止尝试的情况来看,Gemma 2 也从未用几张非常不同的卡写成我的角色:根据我的经验,这是任何小于 Llama 3 的模型类型的常见问题(Phi-3 是碰运气的,而其他模型,甚至包括 Mistral 7b,大多是碰运气的)。

它绝对不是完美的:例如,空间感知似乎相当差。我绝对不是说它打败了 Llama-3 8b,尤其是像 Stheno 3.2 这样更好的以写作为重点的微调。更不用说我从未尝试过的更大的模型,比如那些 70b 的模型。我怀疑它不会给任何习惯使用更大模型进行角色扮演的人留下深刻印象。

但是对于可以在我的中端手机上以非常可接受的速度运行的东西来说?它非常好。输出比其他较小的型号好得多,Phi-3 是唯一真正的竞争对手。

3、gemma 2b 太疯狂了
能说多种语言,对话时相当连贯,像人类一样回答问题,擅长简单的数学和推理,例如:

  • 逐步解释25-4*2+3=?
  • 如果我今天吃了 3 个苹果,昨天吃了一个苹果,那么我今天有多少个苹果?
  • Alfons 比 Bert 快。Bert 比 Claudia 快。Claudia 比 Alfons 快吗?
  • 1971 年 12 月 12 日和 2024 年 4 月 18 日之间有多少天?(非常接近正确答案 - 如果模型更接近完美答案,那么推理和数学就更好)

4、我刚开始玩 Llama 3.1,然后看到 Gemma2 2B 发布了。我对 Llama 3.1 的唯一期望就是能够加载它来回答个别简单问题。有了 Gemma2 2B,这似乎很现实。加载非常流畅。

5、这是一个很有说服力的模型,但我似乎无法让它写出有用的摘要。它要么写得太含糊,大概是为了避免剧透,导致摘要毫无用处,要么将故事分解成技术要点,破坏任何叙事结构。从好的方面来看,它似乎不像其他小模型那样产生幻觉,我怀疑它们专注于技术文档,它似乎在那里会很有用。

它擅长解决逻辑谜题。我通常遇到的难题都没有让它们措手不及。

6、Gemma 2B IT 是一款出色的小型模型,在写作方面得分很高,但在我的用例中并不优于 Phi-3 Mini 4k。我最感兴趣的用例是推理、编码和实体提取。我期待一款 Gemma 2 2B 大小的模型能够同时完成这两项任务。在此之前,它只是“优于 GPT 3.5 Turbo”,具体取决于您的具体用例。

安装: