第一位AI软件工程师诞生


Devin是认知实验室cognition-labs推出的号称第一个人工智能软件工程师。

Devin具有SWE-Bench 编码基准的最新水平,已经成功通过了领先人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。

Devin 是一个自主代理,可以通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

SWE-Bench 基准要求人工智能解决在真实开源项目中发现的 GitHub 问题,在对该基准进行评估时,Devin 在无人协助的情况下正确解决了 13.86% 的问题,远远超过了之前最先进模型 1.96% 的无人协助和 4.80% 的协助性能。

请在下面的主题中查看 Devin 的功能:

  • 可以学习如何使用不熟悉的技术:阅读博文后,Devin 在 Modal 上运行 ControlNet,为 Sara 制作带有隐藏信息的图像。
  • 可以为成熟的生产资源库做出贡献:Devin 可以自主查找和修复代码库中的错误:Devin 帮助安德鲁维护和调试他的开源竞技编程书籍。
  • Devin 可以为成熟的生产软件源做出贡献。:Devin 解决了 sympy Python 代数系统中对数计算的 bug。Devin 设置了代码环境,重现了错误,并自行编码和测试了修复程序。
  • 可以训练和微调自己的人工智能模型:‍Devin 仅通过 GitHub 上一个研究资源库的链接,就能对一个大型语言模型进行微调。
  • 在 Upwork 上给 Devin 提供真实的工作,它也能完成!在这里,Devin 编写并调试代码,以运行计算机视觉模型。Devin 对生成的数据进行采样,并在最后编制一份报告。

Devin是一位不知疲倦、技术精湛的队友,同样准备好与您一起构建或独立完成任务供您检查。

有了 Devin,工程师可以专注于更有趣的问题,工程团队可以努力实现更雄心勃勃的目标。

协作能力
凭借我们在长期推理和规划方面的进步,Devin 可以规划和执行需要做出数千个决策的复杂工程任务。Devin 可以回忆每一步的相关背景上下文,随着时间的推移不断学习,并修正错误。

我们还为 Devin 配备了常用的开发者工具,包括沙盒计算环境中的 shell、代码编辑器和浏览器--人类完成工作所需的一切工具。

最后,我们赋予了 Devin 与用户积极协作的能力。Devin 会实时报告进度,接受反馈,并根据需要与您一起完成设计选择。

公司背景
认知实验室cognition-labs.com.是一家专注于推理的应用人工智能实验室。

我们正在打造人工智能队友,其能力远远超出当今现有的人工智能工具。通过解决推理问题,我们可以在广泛的学科领域开启新的可能性--代码只是一个开始。我们希望帮助世界各地的人们将想法变为现实。

我们拥有充足的资金,包括由创始人基金(Founders Fund)主导的 2100 万美元 A 轮融资。我们非常感谢行业领导者的支持,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 和其他许多人。

网友讨论
1、它与 GPT4/Claude 3 相比?
Devin 可以解决约 14% 的任务,GPT-4 可以解决约 2% 的任务,而 Claude 2 可以解决约 5% 的任务。所以比 GPT4 好大约 7 倍,比 Claude 2 好 3 倍。我很好奇它与 Claude 3 相比如何!

2、我花了 5 年时间才获得了计算机科学学位,这至少可以说是对我的打击。

3、具有讽刺意味的是在他们的帖子末尾发布职位链接

4、未来我们还需要构建应用程序吗?难道所有的软件最终都会通过人工智能来统一吗?我觉得制作应用程序将成为一个毫无意义的中间人。

5、感觉人工智能真的很擅长调试,因为它可以处理事物的信息量和速度。

6、Claude 3/Phind/GPT-4 会比这个 AI 实际上做得更好,并获得更好的结果(如果连接到这种系统),可能很昂贵,但已经比人类更便宜和更快。