OpenAI深度研究分分钟完成博士论文引争论
这是来自是推特个人经历,感叹人工智能(AI)的快速发展,特别是OpenAI刚刚推出的“深度研究”(Deep Research),作者是泰勒·科文(Tyler Cowen)。
他说这款工具能在几分钟内写出高质量的、相当于博士水平的研究论文,还提到它的效率和准确性,因为它内置了“o3模型”。
帖子说AI技术进步得特别快,快得让人惊讶。
泰勒·科文说他用“深度研究”写了很多十页的论文,质量很高,相当于一个厉害的博士研究员写的。
- 效率超高:这个工具只要五六分钟就能完成任务,而人类研究员可能要花几周时间。
- 准确无误:因为用了“o3模型”,这个工具几乎不会出错。
- 啥都能写:这个工具好像什么话题都能写,非常全能。
这个帖子很火,到2025年2月4日已经有38.37万次浏览。这说明大家对Deep Research高级AI工具在研究和教育中的作用和影响特别感兴趣。
网友1:
这个AI工具确实有时候会出错。我在研究法律的时候用过它,有时候它会“瞎编”一些东西,让人误以为某些法律条款是真的。它确实很好用,但我觉得它在法律研究里大概有10%到15%的内容是“瞎编”的,至少在法律领域是这样。
网友2:
AI“幻觉”问题确实存在,但有趣的是,这种“幻觉”有时候反而能带来创造力。比如,创造力和研究的价值就在于找到解决问题的新方法,或者通过数据来讲故事。所以,如果他们太努力去减少“幻觉”,可能会让这个系统想出新点子的能力变弱。
不过我觉得,这也是“深度研究”现在特别有意思的原因之一——它能做到一些我们根本想不到的事情。
网友3:
作为一名研究人员,我现在的答案是不行。虽然我工作中写代码的部分变得更容易了,但知道怎么处理数据、怎么检查分析结果对不对、要找出哪些错误、首先要查什么等等,这些并没有变得简单。
最近的例子:我在做神经科学的研究,正在写一篇关于做梦的文章。我想知道我们在不同的睡眠阶段做梦的频率。我知道大概的数字,但没有去仔细查文献找一个合适的范围或者最新的、最好的估计值(用可靠的方法),而是去问了深度研究。这看起来是个完美的选择。可惜,结果并不好。它选了一个“常识”的答案,因为这是文献里最常见的答案。但我知道这个答案不对。实际上,它没找到任何一篇和它总结的内容矛盾的文章。
从某种角度来说,它已经过时70年了 :p
写代码也有类似的情况。我见过有人用 ChatGPT 几个小时就做出了漂亮的图表和结果(甚至直接把数据输进去),但这些结果都是错的。他们分辨不出来,因为他们以前没处理过这种数据。他们不知道怎么看分析结果是不是“健康”的。
但以后呢?什么时候它能读完 Sci-Hub 里所有的 PDF?什么时候你可以问它你的数据看起来好不好?哦,那肯定没问题。不过,我对短期(5年内)还是持怀疑态度,因为我不指望它会“好奇”。也就是说,我不指望它会质疑你或者它自己,去思考它做的东西是不是真的正确。比如,过去50年的研究是不是真的有效?标准的分析方法是不是真的适合这种情况?