Claude 3并未能超过GPT-4 Turbo

Chatbot Arena刚刚再次更新：
Claude-3 点燃了社区的巨大兴趣，使 Arena 在短短三天内获得超过 20,000 票的空前流量！

Claude-3 的非凡表现令我们惊叹不已。Opus 作为首个可与 GPT-4-Turbo 相媲美的机型创造了历史，而 Sonnet 则以其速度和性能脱颖而出，与 GPT-4 相得益彰。

新的排名结果如下：

网友：
1、它确实击败了 GPT-4，但无法击败 GPT-4-Turbo。

2、这意味着随着时间的推移，GPT-4 实际上已经变得越来越好。GTP-4 Turbo 的质量比原始版本更好。GPT4 Turbo 是王者，因为它似乎能够回答任何不真正有害的问题。

3、Opus 对于许多任务来说仍然更好，我正在使用 opus 来编写非常复杂的副本，而 gpt4 远远无法处理这些指令。我的提示有 12 条规则，我的作品轻松地完成了它。

4、我发现Opus 在编码方面非常强大：200k 上下文至关重要。您可以为其提供整个现有文件。

5、根本原因是上下文窗口。GPT-4 甚至无法对冗长的代码库进行推理。唯一重要的是编码能力。

6、令人印象深刻的是，Claude 3 Sonnet 击败了两个 Mistral 版本、每个开源模型，并且与旧的 GPT-4 相当。

7、Claude Sonnet 的性能优于旧的 GPT-4，并且完全免费使用。

8、基准测试没有测试：

* Claude 3 Opus 在回答时采取的更细致的方法
* 上下文窗口如何更好（更大）
* Claude 3 Opus 如何更好地回忆信息
* Claude 3 Opus 在回忆信息时的适应性。

考虑到 Claude 3 Opus 只需几个例子就可以学习罕见的语言，而 GPT-4 则不能，所以这些基准测试中缺少一些东西。

9、一帖子的作者说 Claude 3 仅通过几个例子就学会了一种罕见的语言，最终道歉了。后来他意识到语言已经存在于模型训练数据中。人们低估了这些模型接受训练的信息量。

10、这个排名是如何运作的？

人们给两个匿名模型相同的提示，然后投票给给他们最好答案的模型。
他们使用 Elo 评级系统，就像国际象棋一样，根据每次“战斗”来比较他们的表现。

11、根据我的经验，到目前为止 Opus 似乎比 gpt4 更好（涡轮增压，使用过 Grimoire GPT）。

我最近启动了一个项目，最初是用 chatgpt4 编写一个 python 程序，将各种图像滤镜应用到图像上，以产生类似 CRT 的效果。最终我设法让它在 python 上正常运行。后来我想把它移植到 c++，看看是否能提高性能，但每次我想让 chatgpt4 实现一个特定的小函数（一个滤镜，因为有很多滤镜）时，它都会因为某种原因而出错，有时会出现编译错误，但有时当它工作时，基本上会缺少函数的某些部分，在指出这些部分后，它就会修复它，但又会产生另一个问题。

最近我用 claude 3 Opus 做了同样的尝试，它做得更好，所以我继续把整个程序移植过来，它几乎完成了所有的工作（我省略了一些东西，也许以后会做的），而且没有任何编译问题，非常好。

到目前为止，Opus 似乎擅长完成更复杂的任务，我不确定竞技场测试的聊天机器人是否能很好地完成这些任务，因为用户往往只是输入更通用的提示，而不是使用人工智能从一个代码库移植到另一个代码库，或者用它来写一本书，甚至开始创建一个复杂（有点新奇）的程序，而不是 "用 html 或 python 给我做一个蛇形游戏"。

Claude 3并未能超过GPT-4 Turbo

新研究：大脑语言有形式和功能两种，前者更像大模型

谷歌AI在数学奥林匹克竞赛中获得银牌

历史上第一次：聪明AI能愚弄人类

Llama 3.1发布：开源AI是未来吗？

马斯克xAI团队名单遭质疑