《自然》:本世纪最具影响力的论文有哪些?


《自然》杂志发布21世纪最高引用率论文排行榜:AI霸榜,诺奖研究竟非顶流?

论文引用率的核心作用是:作为一种量化工具,来衡量一篇学术论文、一位学者、一本期刊或一个机构在学术领域内的影响力和贡献。

如果你以为21世纪最伟大的科学突破——比如mRNA疫苗、CRISPR基因编辑、希格斯玻色子发现或引力波探测——会占据论文引用榜的顶端,那可就错了。最新分析显示,这些轰动世界的成果竟然全都无缘榜首。

《自然》新闻团队近期做了一项深度分析,统计了2000年以来全球被引用次数最多的25篇论文。结果令人意外:登顶的并非改变人类认知的重大发现,而是人工智能方法论、科研质量改进方案、系统评价工具、癌症统计数据以及研究软件。唯一例外是2004年那篇关于石墨烯实验的开创性论文——它确实在2010年为作者赢得了诺贝尔物理学奖,但也仅位列榜单中游。

▍ 方法论才是“引用之王”?

论文引用次数一直是衡量学术影响力的指标之一。但高引论文往往不是那些登上头条的突破性发现,而是科学家日常依赖的研究工具和方法。密歇根大学社会学家Misha Teplitskiy点破真相:“科学家们总说重视理论突破和实证发现,但实际上方法论论文才是被引用最多的。”

《自然》团队综合了五个权威数据库的引用数据(采用中位数排名法),覆盖了数千万篇21世纪发表的论文,最终得出了一份颇具说服力的排名。

▍ 榜首之争:微软AI论文登顶

排名第一的是一篇2016年由微软研究人员发表的关于“深度残差学习”(ResNet)的论文。这项技术解决了信号在深层神经网络中传播时逐渐消散的难题,将网络层数提升到150层,比当时普遍使用的网络深了5倍之多。

这篇论文最初在2015年底以预印本形式发布,随后微软团队凭借此项技术在图像识别竞赛中一举夺魁。ResNet架构后来成为AlphaGo(围棋AI)、AlphaFold(蛋白质结构预测)乃至ChatGPT等重要突破的技术基石。论文作者之一、现任职于麻省理工学院的何恺明直言:“在ResNet之前,深度学习其实并不‘深’。”

不过,引用次数因数据库而异。在Google Scholar中,该论文以25.4万次引用位列第二;在Web of Science中,它以10万次引用排名第三。但综合五个数据库的 median排名,它仍然稳居榜首。

▍ 榜单全景:AI统治,方法称霸

纵观前十名,AI相关论文占据显著位置:

1. 微软ResNet(2016) - 深度学习架构突破
2. 实时定量PCR数据分析方法(2001) - 分子生物学经典技术
3. 心理学中的主题分析方法(2006) - 质性研究方法指南
4. 《精神疾病诊断与统计手册》DSM-5(2013) - 精神病学诊断标准
5. SHELX晶体学分析程序综述(2007) - 化学软件工具
6. 随机森林算法(2001) - 机器学习经典方法
7. 《注意力机制就是全部》(2017) - Transformer架构开山之作 也是ChatGPT等大语言模型的技术基石。
8. ImageNet图像分类研究(2017) - 深度学习计算机视觉应用
9-10. GLOBOCAN全球癌症统计数据(2018, 2020) - 癌症流行病学参考

▍ 为什么AI论文如此受青睐?

多伦多大学计算机科学家、图灵奖得主Geoff Hinton指出,AI论文天然具有引用优势:覆盖领域广泛,研究进展迅猛,论文数量庞大。他2012年合著的AlexNet论文(排名第8)被誉为深度学习革命的起点,而2017年的Transformer论文(排名第7)更是催生了ChatGPT等大语言模型。

开源特性也助推了AI方法的引用热潮。排名第六的“随机森林”论文作者之一、犹他州立大学的Adele Cutler表示:“这个方法受欢迎是因为它开源、免费、易用,而且几乎不需要调整就能取得很好效果。”

▍ “意外走红”的方法论论文

有些高引论文的走红完全出乎作者意料。

排名第二的论文竟源于一次审稿挫折。制药科学家Thomas Schmittgen在25年前投稿时,引用了某技术手册中的公式,却被审稿人驳回:“不能引用用户手册!”于是他与公式创作者合作发表了这篇可引用的论文,如今已被引用超过16万次。

更令人惊讶的是排名第三的论文——一篇关于“主题分析”的心理学方法论文。作者Virginia Braun和Victoria Clarke原本专注于性别与性行为研究,平时论文引用寥寥。她们为帮助学生理解这种质性研究方法而写的指南,如今却成为本世纪第三高引论文。“它有了自己的生命,”Clarke感叹道,“完全改变了我们的生活。”

▍ 软件工具:科研的隐形支柱

榜单上有不少论文实际上是软件工具的“说明书”。

英国化学家George Sheldrick(今年2月刚去世)开发的SHELX晶体学分析程序(排名第5)就是他利用业余时间编写的工具,如今已被引用7-9万次。排名第15的scikit-learn论文(Python机器学习库)和lme4论文(R语言统计包)也都是开源软件的典型代表。

最具讽刺意味的是R语言本身——这个被引用超过30万次的统计软件,却因为没有正式论文而未能上榜。开发者只建议用户引用软件仓库网站,而非某篇特定论文,导致各大数据库无法统一统计其引用次数。马克斯·普朗克研究所的科学计量学家Robin Haunschild对此点评道:“第一课:如果你开发了有影响力的程序,一定要写篇论文来介绍它!”

▍ 系统评价的崛起:PRISMA标准

21世纪科研文献爆炸式增长,催生了系统评价和meta分析方法的繁荣。2009年发布的PRISMA标准(排名第11)为这类研究提供了27项报告规范,迅速成为领域内必备参考。

该论文的合著者、渥太华医院研究所的David Moher表示,他们当时发现很多系统评价“报告质量低下”,缺乏关键细节。PRISMA标准的确提高了报告质量,不过Moher也承认,有些作者会“玩弄系统”——引用了检查表却未真正遵循其建议。

▍ 癌症统计:全球研究的基准线

GLOBOCAN全球癌症统计数据(排名第9、10)是榜单上最“实用”的论文。这两篇论文提供了185个国家36种癌症的发病率和死亡率估计值,成为全球癌症研究者、政策制定者和倡导者的基础参考资料。

国际癌症研究机构的Freddie Bray作为主要作者表示:“当人们需要某种癌症的发病率或死亡率数据时,就会引用我们的工作。”

同样入选的还有一篇关于“癌症特征”的综述(排名第19),该文试图将癌症的复杂性提炼为几个共同特征。合著者Douglas Hanahan说:“有学生告诉我,‘我是因为这篇综述才选择癌症研究的’。我感觉自己像个摇滚明星!”

▍ 引用文化的局限与启示

引用次数固然是衡量影响力的指标,但也有明显局限。较早发表的论文有更多时间积累引用,某些热门领域也天然更容易产生高引论文。《自然》还邀请了文献计量学家尝试控制这些变量,但结果变化不大——只有近期关于COVID-19 pandemic的一些高引论文新晋入榜。

科学计量学家Paul Wouters指出,预印本日益流行也给引用统计带来挑战。大多数商业数据库不追踪预印本,或不将其与最终正式论文的引用合并统计。“随着引用预印本变得越来越普遍,数据库可能需要采用新的规范来聚合这些引用。”

尽管存在这些局限,这份榜单仍然揭示了21世纪科学研究的真实生态:最常被铭记的并非最闪亮的突破瞬间,而是那些支撑日常科学工作的工具、方法和资源。正如Teplitskiy所言:“科学大厦的建成,既靠天才的灵光一闪,也靠无数普通研究者日复一日的方法改进与工具打磨。”

或许这就是科学工作的本质——颠覆性的发现令人惊叹,但使这些发现成为可能的基础工具与方法,才是真正推动科学进步的无名英雄。


PS:想知道完整榜单?《自然》论文的补充信息中包含了完整的前100名名单,其中包括了更多令人惊讶的高引论文——从统计学方法到生物信息学工具,揭示了各学科领域的研究热点与方法论演进。