癌细胞表达符号竟异于正常细胞:癌症遗传病全新靶点被发现


研究发现人体细胞会制造数千种未被数据库记录的微型蛋白质,部分与癌症、遗传病和免疫反应直接相关。科学界通过分析数千万次实验,确认了这些微型分子的存在,并建立了新分类标准,为药物研发开拓全新空间。
  • 《自然》杂志  06 May 2026/Expanding the human proteome with microproteins and peptideins


你的细胞在偷偷造私货

你身体里每个细胞都在干一件特别逗的事。它们像一群不听话的工厂工人,除了照着官方手册生产正经蛋白质之外,还自己瞎鼓捣出了几千种从来没人记录过的微型蛋白质。这事儿藏了很久。直到最近《自然》杂志发了一篇研究,科学家才抓了个现行。他们分析了九万五千多次蛋白质组学实验,发现了七千多条非标准DNA序列里有接近四分之一真的在生产能干活的东西。这些微型蛋白质有些正在推动癌细胞疯长,有些在搞乱遗传病患者的身体,还有些触发了免疫系统的过度反应。



医学数据库漏掉了太多东西

医院和药厂手里都有一本官方手册。这本手册叫蛋白质数据库,像 GENCODE 和 UniProt 这种。里面记录的都是符合规矩的蛋白质,每条至少有个像样的身世背景,进化上能找到亲戚。问题是你的细胞根本不遵守这个规矩。

细胞会把 DNA 上的各种片段都试着翻译一下。大部分翻译出来的东西太短了,只有八个到一百个氨基酸那么长。官方手册嫌它们太小,觉得可能就是垃圾,就没收录进去。结果这些微型蛋白质一直存在,一直在人体各种组织里跑来跑去干活,但所有药物研发机构看的那本手册上根本没它们的名字。

这就好比你在一个城市里修路,手里拿的地图只标了高速公路。那些小巷子、便道、死胡同全都没画上去。但你每天送货、送外卖、抄近路,其实全靠这些小路。现在科学家发现这些小路不但存在,而且很多是交通要道。



新分类给它们发了身份证

研究团队干了一件很实在的事。他们给这群黑户取了个新名字,叫肽证蛋白。这个词的意思是,有确凿证据证明这些微型蛋白质真实存在,能在不同细胞和组织里检测到,只是还没完全摸清楚它们的功能。这不是随便起的名字,背后有一套严格的标准。

一个叫 TransCODE 的联合组织专门制定了注释规则,把这些肽证蛋白正式录入官方数据库。以后任何人做基因组分析,查疾病相关突变,或者筛选药物靶点,都能看到这些条目了。这个动作的意义非常大。之前它们隐身是因为不在清单上,现在清单更新了,所有研究者都能正大光明地研究它们。

这个过程像什么呢。就好比你租房子住了一年,水电煤气都正常用着,但身份证系统里没你这个人。警察查不到你,银行不认你,医院挂号也不行。突然有一天户籍警说,哦这人确实存在,我给你上户口。然后你就能办银行卡、找工作、交社保了。肽证蛋白就是刚拿到户口的那群人。



遗传病的破案线索可能藏在这里

很多遗传病让人特别头疼。医生给病人做基因测序,把已知能编码蛋白质的那些基因全查了一遍,发现没毛病。但病人确实有病,症状也很典型。这叫遗传率缺失问题。就是说,理论上应该能找到基因突变来解释这个病,但实际上就是找不着。

现在有了新线索。病人 DNA 上那些被认为是垃圾的区域里,可能正好有一个突变。这个突变刚好破坏了一个微型蛋白质的生产线。微型蛋白质不工作了,细胞里的某个关键流程就卡住了。之前没人想到去查这些区域,因为官方手册说那些不是蛋白质编码基因。现在手册改了,研究者可以回头重新分析那些找不到病因的病例。

举个例子。假设有个孩子得了一种罕见的神经发育病,所有已知的致病基因都是正常的。但你翻到某个非编码区域,发现有一段 DNA 序列有点奇怪。这段序列其实能编码一个五十个氨基酸长的微型蛋白质,而这个微型蛋白质恰好参与神经元的连接过程。突变把它弄坏了,疾病就出现了。这不是科幻,这是接下来很多实验室马上要干的事。



癌细胞的身份证能当靶子用

癌细胞有个很欠揍的特点。它们会疯狂生产各种乱七八糟的东西,包括很多微型蛋白质。正常的细胞虽然也生产微型蛋白质,但癌细胞产的种类和数量都不一样。更关键的是,癌细胞会把加工过的微型蛋白质片段摆到自己表面上,通过一种叫 HLA 的分子展示出来。

免疫系统里的 T 细胞平时就靠看这个展示牌来识别敌人。正常细胞展示正常的东西,T 细胞就不管。癌细胞展示了一堆奇怪的东西,T 细胞如果认得出来就会动手。问题是癌细胞展示的那些微型蛋白质片段,医学上之前根本不认它们是蛋白质,所以没人教 T 细胞去识别它们。

这项研究干了件漂亮事。

他们分析了免疫系统展示出来的那些肽段,从癌症样本里检测到了来自一千七百八十五种微型蛋白质的片段。这些叫隐性抗原。意思是它们本来是隐身的,因为没人觉得那段 DNA 能编码蛋白质。但癌细胞不仅翻译了它们,还大大方方摆出来给人看。

这就给免疫治疗开了新路子。

你可以设计一种 CAR-T 细胞,专门识别癌细胞特有的微型蛋白质。或者做一种癌症疫苗,教病人的免疫系统去攻击携带这些微型蛋白质的细胞。更妙的是,这些微型蛋白质在正常成年人的组织里几乎没有,只在癌细胞里出现。所以靶向它们的疗法不太会误伤正常细胞,副作用可能比现在很多药都小。

现在的很多靶向药打的是那些在癌细胞里过量表达的正常蛋白质。正常细胞也会表达这些蛋白质,只是少一点。所以药物打过去,正常细胞也会被波及,这就是副作用的来源。微型蛋白质这个新方向,是真正的癌细胞专属标签。



药物研发的地图一下子大了好多

药厂们几十年盯着大约一万九千五百个经典蛋白质编码基因猛攻。这就是所谓的可成药蛋白质组,也就是所有能作为药物靶点的分子的集合。听起来挺多,但很多靶点已经被研究烂了,新靶点越来越难找。

现在这项研究告诉你,可能还有几千个新靶点等着你去挖。这些微型蛋白质里,有些可能是酶,有些可能是受体,还有些是信号分子。它们控制着细胞衰老、新陈代谢、线粒体功能这些关键通路。之前因为没人知道它们存在,所以从来没人去筛选过针对它们的药物。

研究团队用 CRISPR 技术做了一个实打实的验证。他们找到了一种来自 OLMALINC 这条 DNA 序列的肽证蛋白,然后用基因编辑把它敲掉。结果发现细胞活不下去了。这不是随机噪音,这是一个功能性的分子。少了它细胞就要死,说明它在基础生存通路里扮演了重要角色。

他们还做了进化分析。测量了这些序列在进化上的保守程度,发现很多序列在哺乳动物进化过程中被完整保存下来了。如果是随机产生的垃圾序列,不会出现这种模式。只有真正有用的蛋白质才会在几千万年的进化里被自然选择留住。

这个结论很重要。它不是说你发现了成百上千个新靶点,而是说这些靶点里有相当一部分是真有用的。不是那种表达量低得可怜、功能模棱两可的凑数分子。是真干活的那种。



早发现早干预有了新工具

微型蛋白质还有一个特别实用的应用场景,就是做生物标志物。癌细胞在早期阶段,影像学上什么都看不见的时候,可能已经开始生产异常的微型蛋白质了。你抽点血,测一下这些微型蛋白质的表达谱,说不定就能提前几个月甚至几年发现肿瘤。

而且你可以在癌细胞还没完全恶变的时候就动手。那些表达异常微型蛋白质的癌前细胞,可以成为治疗目标。这在很多实体瘤的早期干预里特别有价值。现在很多癌症发现的时候已经是中晚期了,因为早期没有明显症状,也没有足够灵敏的检测手段。微型蛋白质标志物如果能开发出来,可能会改变这个局面。

在衰老研究领域,那些调节线粒体功能、蛋白质质量控制、细胞衰老的微型蛋白质,都是从来没被探索过的干预点。大部分衰老研究都盯着那几个经典通路,比如 mTOR、AMPK、sirtuins 这些。不是说不该盯它们,而是说可能还有其他重要的调控机制被完全忽略了。这些新机制可能更精准,或者只在特定组织里起作用,副作用更小。



数据库里多一栏就能改变整个研究方向

这件事最核心的道理其实特别简单。一个序列在数据库里被标注成什么,决定了它会不会被研究。如果它没有被标成蛋白质编码序列,那么:

做基因组分析的人不会看它。病人有突变的时候,这个突变不会被标记成致病性的。做表达谱分析的人不会测它的表达量。病人队列研究里根本不会收集它的数据。做药物筛选的人不会把它放到筛选板上。新药分子根本不会有机会跟它结合。

这就是为什么这个联合组织做的事情那么基础又那么重要。他们不是在发现新东西,他们是在给已经存在的东西一个正式身份。一旦这个身份确认了,全世界的实验室都可以合法合规地研究它。GENCODE 和 PeptideAtlas 这两个主流数据库收录了这些肽证蛋白之后,研究者就可以直接查询某种疾病里微型蛋白质的表达是否发生了改变。药厂可以直接从数据库里拉出几千个新靶点开始做高通量筛选。做免疫治疗的人可以直接搜索癌细胞特异的肽证蛋白,挑出来做疫苗候选分子。

这个研究动用了海量数据。他们分析了三十五亿次常规样本里的质谱测量结果,外加两亿四千万次免疫展示样本里的测量结果。这么大的数据规模才能达到足够灵敏的检测效果,才能有把握地说这些微型蛋白质不是背景噪音。最终结果是,在常规样本里确认了一百八十三个高置信度的微型蛋白质,在免疫展示样本里检测到了一千七百八十五个。他们还做了人工验证,挨个确认数据质量。

研究团队自己也很老实。他们说这个数字是偏保守的。实际的微型蛋白质数量很可能比这个多,主要是受限于目前的检测技术和具体采样了哪些组织。不同的组织、不同的细胞状态,表达的微型蛋白质种类差别很大。如果只测了血液和几个主要器官,那肯定还有很多没抓到。



下一步要解决谁重要谁不重要的问题

现在的情况是,我们知道这些东西存在了,知道它们中的一部分确实在干活,知道它们跟癌症、遗传病、免疫反应都有关系。但接下来的工作量非常大。

优先级最高的事情是搞清楚哪些肽证蛋白真的在执行关键功能,哪些只是在打酱油。有些微型蛋白质可能只是细胞胡乱翻译出来的副产品,没什么实际作用。有些则可能是核心调控分子,少了它细胞就乱套。这两种要区分开。

然后要看哪些是组织特异性的。如果一个微型蛋白质只在心脏里表达,那它就跟心脏病的机制相关。如果一个只在脑子里表达,那它就跟神经疾病相关。如果一个只在癌细胞里表达,那它就是绝佳的免疫治疗靶点。

最后要看哪些在疾病状态下表达发生了显著变化。不是所有出现变化的分子都值得做药,但表达变化是最直接的线索。一个微型蛋白质在病人组里比对照组高十倍,那它就有很大概率是个有用的标志物或者靶点。

现在这个时间点,我们正处在注释阶段。蛋白质组学技术揭示了几千个被历史定义漏掉的翻译产物。联合组织建立了把它们纳入参考数据库的标准流程。下一个十年是功能验证的十年,是证明哪些微型蛋白质真正影响人类健康的十年。这不是一个已经结束的故事,这是一个刚刚开始的故事。你的细胞早就知道这些秘密了,只是科学界刚拿到解码本。