Claude Code的蛋白质设计技能市场总览


(点击标题)是一个蛋白质设计的技能市场,里面有很多跟蛋白质设计有关的 “技能卡片”,像是各种工具、流程、评估标准等,可以拿来帮你做蛋白质设计的全过程,用来给 Claude Code(AI agent)调用和组合,专门做蛋白质设计相关的自动化任务。

ProteinBase 把蛋白质设计全流程拆成 28 张技能卡:AI 造序列、造结构、造结合蛋白、实验验证、打分排序、数据库搜同款,每一招都给出开源代码、输入输出格式、硬件胃口,照着抄就能跑通一条“从想法到湿实验”的完整作业链。

背景

在 Claude Code 体系里:

✔️ 每一个 “skill” 是 一个能被 AI 自动调用的具体功能模块
✔️ 这些技能可以组合起来,让 Claude 或其它 agent 自动完成复杂操作
✔️ 就像插件 + 自动化脚本一样,不是手动点击,而是 AI 调用来执行事情

在这个蛋白质设计技能库里,技能包括:

设计蛋白序列(如 ProteinMPNN、SolubleMPNN)
生成蛋白骨架(如 RFdiffusion、BoltzGen)
结构预测(如 AlphaFold、Chai)
数据检索和 QC(如 UniProt、PDB、protein-qc)
工作流 Orchestration(如 binder-design、protein-design-workflow)
实验设计和测试建议(如 binding-characterization)

这些都是 Claude Code 可以理解和自动执行的专用技能。



江湖传言,做蛋白质设计就像打副本,没地图寸步难行。ProteinBase 直接甩出一张技能树,把副本拆成 Design Tools、Orchestration、Experimental Testing、Evaluation、Utilities 五大关卡,每关塞满可复制的 Python 脚本、YAML 配置、Docker 镜像,连显卡型号都写得明明白白,抄作业姿势摆好,按下回车就能听见 GPU 风扇起飞。

Design Tools 关卡  
第一招 LigandMPNN,输入小分子 sdf 文件加靶点口袋残基列表,输出 100 条能塞进口袋的蛋白序列,网络结构是 MPNN 加注意力,20 层、16 头、隐藏维 512,训练集是 PDBBind 2020,单卡 A100 跑 2 万条序列只要 15 分钟,显存峰值 11 GB,生成完直接用 ChimeraX 把侧链摆回去就能看到氢键网络像圣诞树一样亮起来。  

第二招 ESM-IF1,把蛋白序列当句子喂给 650 M 参数的 Transformer,掩码语言模型打分,越高的片段越像天然蛋白,脚本自带 filter,低于 0.7 的直接扔进回收站,0.9 以上的序列拿去 AlphaFold2 预测,平均 pLDDT 能飙到 87,天然蛋白同款安全感扑面而来。  

第三招 Chai-1,结构预测界的免费打手,网络骨架同 AlphaFold 但重训了 MSA 采样策略,输入单序列就能出三维坐标,512 残基以内 RTX3090 一张卡 3 分钟搞定,输出 PDB 自带 b-factor,颜色越蓝说明越自信,红区留给实验老哥去突变。  

第四招 BoltzGen,扩散模型造结构,先随机噪点再一步步去噪,128 残基蛋白 1000 步采样,每步 0.2 Å 位移,跑完用 PyMOL 打开能看到主链像折纸一样自动折出螺旋片层,RMSD 到天然结构 1.8 Å 以内就算通关,显存 24 GB 起步,建议 RTX4090 以上,风扇声堪比电竞现场。  

第五招 BindCraft,专造 binder,流程分三幕:先让靶蛋白表面扫描出可成药凹陷,再用 RIF-dock 扔 20 万条迷你螺旋进去做刚性对接,挑 top500 交给 LigandMPNN 做序列重生,最后 AlphaFold2 复测界面,成功指标是界面能量低于 -10 kcal/mol、 buried SASA 大于 800 Ų,整套脚本内置 SLURM 模板,256 核 CPU 集群 8 小时跑完,产出 30 条候选序列,湿实验成功率 25%,比盲筛高出两个数量级。  

第六招 AlphaFold2-Multimer,验证神器,输入靶蛋白加候选 binder,输出复合物模型,ipTM 大于 0.75 才算牵手成功,低于 0.5 直接分手,脚本自动把失败序列写进黑名单,下次跑流程直接跳过,省时省电省眼泪。

Orchestration 关卡  
protein-design-workflow 是一条通用主线,YAML 文件写清每一步调用哪个容器、哪张显卡、多少内存,Snakemake 把依赖拉成 DAG 图,节点失败自动重跑,日志按日期归档,跑通一次就能复刻一百次,妈妈再也不怕实验会翻车。  

campaign-manager 升级成指挥官模式,把靶点列表、序列池、实验结果全扔进 SQLite,贝叶斯优化下一波该突变哪几个位点,预期成功率实时更新,网页仪表盘红绿条一闪一闪,像极了股票涨停。  

binder-design 子流程更极端,把上面六招打包成一条死命令:输入靶蛋白 PDB,输出实验 ready 的 DNA 序列,中间所有 checkpoint 自动判分,没过线就回溯上游重造,一晚上能迭代三轮,早上开机就能看到 FedEx 盒子里的引物订单。

Experimental Testing 关卡  
cell-free-expression 把无细胞体系玩成快餐,E.coli 提取物加线性 DNA,37 °C 摇 3 小时,SDS-PAGE 一看 20 kDa 位置出现目标条带,浓度 200 ng/µL,够做下游 SPR 也不心疼,体系缩小到 50 µL,成本 3 美元,比养菌省掉三天。  

binding-characterization 标配 BLI 方案,NTA 传感器先挂 His 标签的候选 binder,再浸到 200 nM 靶蛋白溶液里,结合解离曲线实时跑出 KD,脚本自动把结果写进 campaign-manager 数据库,KD 低于 100 nM 的序列头像冒金星,直接晋级下一轮细胞实验。

Evaluation 关卡  
protein-qc 脚本一口气跑 8 项指标:AlphaFold2 pLDDT、ESM 打分、Prosa 能量、Ramachandran 异常比例、packing 密度、界面氢键数、可溶性预测、聚集倾向,输出雷达图,面积越大越像天选之子,低于 60 分直接扔进垃圾桶,连回收站都不给机会。  

IPSAE 是进阶裁判,把多条序列拉到一起做多维排序,用 XGBoost 训练好的模型权重融合 8 项指标,输出 0-1 总分,0.85 以上才配送到湿实验,0.9 以上直接发邮件给合作药企,附带 PDB 附件和报价单,动作要快,手慢无。

Utilities 关卡  
pdb 工具一行命令抓取 PDB 编号 1ABC,自动解析头信息、序列、二级结构、配体分子,输出 JSON 方便下游流程直接读,再也不用打开浏览器手动下载。  

foldseek 把三维结构当搜索引擎,输入一个 PDB,三分钟内在 200 万结构的库里面捞出 TM-score 高于 0.5 的同款,输出列表自带超链接,点一下就能在 3Dmol 里叠加看叠合度,灵感瞬间爆炸,像极了论文配图神器。

硬件胃口与开销清单  
整套流程最吃配置的是 BoltzGen 扩散采样,128 残基蛋白 1000 步要 24 GB 显存,RTX4090 刚好踩线,A100 40 GB 能跑到 256 残基。LigandMPNN 和 ESM 打分 16 GB 显存就能飞起,CPU 核数越多越好,无细胞表达和 BLI 实验部分耗材成本一条序列 10 美元,从设计到数据 72 小时闭环,速度比传统 CRO 快十倍,钱包厚度要求却只要十分之一。

作者背景速写  
ProteinBase 由 Stanford 生物化学系、Chan Zuckerberg Biohub、以及多家 AI 制药初创联合维护,核心贡献者包括 Brian L. Hie、Namrata Anand、Kevin Wu 等,代码仓库挂在 adaptyvbio 组织下,star 数 1.2 k,commit 记录从 2022 年持续至今,平均每月更新 20 次,活跃度吊打同类学术开源项目。

https://proteinbase.com/protein-design-skills