贺福初院士等:首个10亿级、AI就绪的蛋白质组学数据门户

张开发
2026/4/20 11:31:01 15 分钟阅读

分享文章

贺福初院士等:首个10亿级、AI就绪的蛋白质组学数据门户
摘要人工智能AI正在重塑蛋白质组学分析流程在肽段鉴定灵敏度与定量性能上均实现显著提升。然而受限于大规模、高质量、标注统一的数据集匮乏深度学习模型在蛋白质组学领域的潜力尚未被充分挖掘。本文构建个10亿级、AI就绪的质谱MS数据门户π-MSNet。该门户采用统一的鉴定与质控流程整合了来自10种仪器类型、55个物种的36,356次液相色谱-串联质谱LC-MS/MS数据包含超 16.6亿张MS/MS谱图、5.01亿条肽谱匹配PSM结果与900万个前体离子。依托社区协作数据通过国际化、交互式、动态更新的网络平台共享。π-MSNet内置MSNetLoader Python接口可无缝、可扩展地调取数据原生支持PyTorch与TensorFlow框架为谱图预测、保留时间预测、肽段从头测序大核心任务提供了适配AI的模型训练与基准测试框架。基于π-MSNet重训主流模型后模型性能较原始版本持续提升优化模型已集成至π-MSNet智能代理支持交互式、免部署使用。结合样本-数据关系格式SDRF元数据、开源云端分析流程与社区驱动的动态数据提交机制π-MSNet成为支撑蛋白质组学AI可复现基准测试、稳健模型训练与创新加速的活体基础资源。changchengncpsb.org.cnxielinhaincpsb.org.cnyperezebi.ac.ukhefuchucashq.ac.cn#蛋白质组学 #质谱数据 #人工智能就绪 #活体数据门户 #深度学习 #肽谱匹配 #液相色谱串联质谱结果π-MSNet蛋白质组学下游任务的基础资源图1π-MSNet作为蛋白质组学下游任务的基础资源(a) π-MSNet可适配蛋白质组学中各类下游任务所有任务均集成至π-MSNet智能代理。(b) π-MSNet处理流程quantms重分析以SDRF元数据文件、原始质谱数据和FASTA格式蛋白质序列数据库为输入除timsTOF数据集外所有质谱数据采用多搜索引擎结合Percolator工具分析以消除引擎特异性偏差随后按1%肽谱匹配PSM错误发现率FDR过滤timsTOF数据集采用Sage工具分析针对翻译后修饰PTM数据集在PSM过滤后额外施加 0.01的修饰定位错误率FLR阈值。π-MSNet数据概览图2π-MSNet概览(a) 不同物种的肽谱匹配PSM数量真核生物绿色病毒红色古菌蓝色原核生物橙色。(b) 19种修饰类型对应的PSM数量。(c) 按仪器上市时间顺时针排序的10种仪器类型的PSM分布。(d) 4种酶解方式的PSM分布。MS²谱图强度预测的缩放定律与模型基准测试图3 MS²谱图强度预测的缩放定律与模型基准测试训练所用(a)数据集规模、(b)模型规模增大时模型性能平稳提升在无其他因素限制时模型经验性能与各变量呈幂律关系。(c) 3种已发表模型与经π-MSNet重训的AlphaPeptDeep在不同测试集上的整体MS²预测准确率PCC90即皮尔逊相关系数0.9的占比横轴为数据集名称。(d) 不同模型对未见前体的MS²预测准确率。基于置信度的保留时间RT预测评估图4 基于置信度的保留时间RT预测评估(a) 不同软件工具中平均置信度0.5的肽段维恩图。(b) 平均置信度阈值与肽段数量的关系。(c-f) 4种置信度计算方法下置信度与肽段数量的对应关系。基于π-MSNet的肽段从头测序性能提升图5 利用π-MSNet提升肽段从头测序性能(a) 多物种数据集上π-HelixNovo-MSNet与π-HelixNovo-raw的肽段鉴定精度对比。(b) π-MSNet与「9物种」数据集剔除饭豆数据的核心特征对比。(c) π-MSNet中的肽段长度分布。数据https://msnet.ncpsb.org.cnhttps://portal.quantms.org代码将π-MSNet数据集加载至PyTorch和TensorFlow、以及重训练模型https://github.com/PHOENIXcenter/pi-MSnet详细总结思维导图核心数据指标参考π-MSNet: A billion-scale, AI-ready living proteomics data portaldoi: https://doi.org/10.64898/2026.04.13.718149260415π-MSNet.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

更多文章