Claude 3并未能超过GPT-4 Turbo

Chatbot Arena刚刚再次更新:
Claude-3 点燃了社区的巨大兴趣,使 Arena 在短短三天内获得超过 20,000 票的空前流量!

Claude-3 的非凡表现令我们惊叹不已。Opus 作为首个可与 GPT-4-Turbo 相媲美的机型创造了历史,而 Sonnet 则以其速度和性能脱颖而出,与 GPT-4 相得益彰。

新的排名结果如下:

网友:
1、它确实击败了 GPT-4,但无法击败 GPT-4-Turbo。

2、这意味着随着时间的推移,GPT-4 实际上已经变得越来越好。GTP-4 Turbo 的质量比原始版本更好。GPT4 Turbo 是王者,因为它似乎能够回答任何不真正有害的问题。

3、Opus 对于许多任务来说仍然更好,我正在使用 opus 来编写非常复杂的副本,而 gpt4 远远无法处理这些指令。我的提示有 12 条规则,我的作品轻松地完成了它。

4、我发现Opus 在编码方面非常强大:200k 上下文至关重要。您可以为其提供整个现有文件。

5、根本原因是上下文窗口。GPT-4 甚至无法对冗长的代码库进行推理。唯一重要的是编码能力。

6、令人印象深刻的是,Claude 3 Sonnet 击败了两个 Mistral 版本、每个开源模型,并且与旧的 GPT-4 相当。

7、Claude Sonnet 的性能优于旧的 GPT-4,并且完全免费使用。

8、基准测试没有测试:

  • * Claude 3 Opus 在回答时采取的更细致的方法
  • * 上下文窗口如何更好(更大)
  • * Claude 3 Opus 如何更好地回忆信息
  • * Claude 3 Opus 在回忆信息时的适应性。

考虑到 Claude 3 Opus 只需几个例子就可以学习罕见的语言,而 GPT-4 则不能,所以这些基准测试中缺少一些东西。

9、一帖子的作者说 Claude 3 仅通过几个例子就学会了一种罕见的语言,最终道歉了。后来他意识到语言已经存在于模型训练数据中。人们低估了这些模型接受训练的信息量。

10、这个排名是如何运作的?

  • 人们给两个匿名模型相同的提示,然后投票给给他们最好答案的模型。
  • 他们使用 Elo 评级系统,就像国际象棋一样,根据每次“战斗”来比较他们的表现。

11、根据我的经验,到目前为止 Opus 似乎比 gpt4 更好(涡轮增压,使用过 Grimoire GPT)。

我最近启动了一个项目,最初是用 chatgpt4 编写一个 python 程序,将各种图像滤镜应用到图像上,以产生类似 CRT 的效果。最终我设法让它在 python 上正常运行。后来我想把它移植到 c++,看看是否能提高性能,但每次我想让 chatgpt4 实现一个特定的小函数(一个滤镜,因为有很多滤镜)时,它都会因为某种原因而出错,有时会出现编译错误,但有时当它工作时,基本上会缺少函数的某些部分,在指出这些部分后,它就会修复它,但又会产生另一个问题。

最近我用 claude 3 Opus 做了同样的尝试,它做得更好,所以我继续把整个程序移植过来,它几乎完成了所有的工作(我省略了一些东西,也许以后会做的),而且没有任何编译问题,非常好。

到目前为止,Opus 似乎擅长完成更复杂的任务,我不确定竞技场测试的聊天机器人是否能很好地完成这些任务,因为用户往往只是输入更通用的提示,而不是使用人工智能从一个代码库移植到另一个代码库,或者用它来写一本书,甚至开始创建一个复杂(有点新奇)的程序,而不是 "用 html 或 python 给我做一个蛇形游戏"。