贺福初院士等：首个10亿级、AI就绪的蛋白质组学数据门户

张开发

• 2026/4/20 11:31:01 • 15 分钟阅读

分享文章

摘要人工智能AI正在重塑蛋白质组学分析流程在肽段鉴定灵敏度与定量性能上均实现显著提升。然而受限于大规模、高质量、标注统一的数据集匮乏深度学习模型在蛋白质组学领域的潜力尚未被充分挖掘。本文构建个10亿级、AI就绪的质谱MS数据门户π-MSNet。该门户采用统一的鉴定与质控流程整合了来自10种仪器类型、55个物种的36,356次液相色谱-串联质谱LC-MS/MS数据包含超 16.6亿张MS/MS谱图、5.01亿条肽谱匹配PSM结果与900万个前体离子。依托社区协作数据通过国际化、交互式、动态更新的网络平台共享。π-MSNet内置MSNetLoader Python接口可无缝、可扩展地调取数据原生支持PyTorch与TensorFlow框架为谱图预测、保留时间预测、肽段从头测序大核心任务提供了适配AI的模型训练与基准测试框架。基于π-MSNet重训主流模型后模型性能较原始版本持续提升优化模型已集成至π-MSNet智能代理支持交互式、免部署使用。结合样本-数据关系格式SDRF元数据、开源云端分析流程与社区驱动的动态数据提交机制π-MSNet成为支撑蛋白质组学AI可复现基准测试、稳健模型训练与创新加速的活体基础资源。changchengncpsb.org.cnxielinhaincpsb.org.cnyperezebi.ac.ukhefuchucashq.ac.cn#蛋白质组学 #质谱数据 #人工智能就绪 #活体数据门户 #深度学习 #肽谱匹配 #液相色谱串联质谱结果π-MSNet蛋白质组学下游任务的基础资源图1π-MSNet作为蛋白质组学下游任务的基础资源(a) π-MSNet可适配蛋白质组学中各类下游任务所有任务均集成至π-MSNet智能代理。(b) π-MSNet处理流程quantms重分析以SDRF元数据文件、原始质谱数据和FASTA格式蛋白质序列数据库为输入除timsTOF数据集外所有质谱数据采用多搜索引擎结合Percolator工具分析以消除引擎特异性偏差随后按1%肽谱匹配PSM错误发现率FDR过滤timsTOF数据集采用Sage工具分析针对翻译后修饰PTM数据集在PSM过滤后额外施加 0.01的修饰定位错误率FLR阈值。π-MSNet数据概览图2π-MSNet概览(a) 不同物种的肽谱匹配PSM数量真核生物绿色病毒红色古菌蓝色原核生物橙色。(b) 19种修饰类型对应的PSM数量。(c) 按仪器上市时间顺时针排序的10种仪器类型的PSM分布。(d) 4种酶解方式的PSM分布。MS²谱图强度预测的缩放定律与模型基准测试图3 MS²谱图强度预测的缩放定律与模型基准测试训练所用(a)数据集规模、(b)模型规模增大时模型性能平稳提升在无其他因素限制时模型经验性能与各变量呈幂律关系。(c) 3种已发表模型与经π-MSNet重训的AlphaPeptDeep在不同测试集上的整体MS²预测准确率PCC90即皮尔逊相关系数0.9的占比横轴为数据集名称。(d) 不同模型对未见前体的MS²预测准确率。基于置信度的保留时间RT预测评估图4 基于置信度的保留时间RT预测评估(a) 不同软件工具中平均置信度0.5的肽段维恩图。(b) 平均置信度阈值与肽段数量的关系。(c-f) 4种置信度计算方法下置信度与肽段数量的对应关系。基于π-MSNet的肽段从头测序性能提升图5 利用π-MSNet提升肽段从头测序性能(a) 多物种数据集上π-HelixNovo-MSNet与π-HelixNovo-raw的肽段鉴定精度对比。(b) π-MSNet与「9物种」数据集剔除饭豆数据的核心特征对比。(c) π-MSNet中的肽段长度分布。数据https://msnet.ncpsb.org.cnhttps://portal.quantms.org代码将π-MSNet数据集加载至PyTorch和TensorFlow、以及重训练模型https://github.com/PHOENIXcenter/pi-MSnet详细总结思维导图核心数据指标参考π-MSNet: A billion-scale, AI-ready living proteomics data portaldoi: https://doi.org/10.64898/2026.04.13.718149260415π-MSNet.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

贺福初院士等：首个10亿级、AI就绪的蛋白质组学数据门户

最新文章

Ubuntu 18.04下Petalinux 2021.2 SDK编译遇坑记：手把手教你解决Qt组件和assimp报错

【DeepSeek】引导加载程序与系统组件的安全级别分析

别再乱删注册表了！用InstallCleanup.exe彻底卸载VS2019的保姆级教程

别再只用XGBoost了！用PyTorch-Forecasting的TFT模型搞定企业销量预测（附完整代码）

贝叶斯算法研究

嵌入式LVGL实战：手把手教你用Spinner控件打造智能设备‘呼吸感’状态提示

推荐文章

5步掌握G-Helper：华硕笔记本轻量级性能控制终极实战指南

如何用Python-miio轻松控制小米智能设备：2025终极教程

还在为电路板文件查看烦恼？OpenBoardView让你轻松掌握.brd文件分析

从ESP8266到STM32：手把手教你为不同MCU移植LwIP 2.1.2协议栈（附源码分析）

软件供应商管理化的合作伙伴关系维护

手把手教你用STM32CubeMX配置MAX30102心率血氧模块（附完整代码与接线图）

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

Phi-4-mini-reasoning模型前端交互设计：基于Web的智能问答界面开发

在Mac上畅玩Xbox 360手柄的终极解决方案：360Controller驱动指南

终极OpenDevOps API手册：从配置到实战的完整指南

终极Blinker信号处理指南：零基础玩转硬件事件响应

思源宋体CN终极指南：7款免费开源中文字体完全使用教程

音频数据标注：从混沌到秩序的科学工具

OpenLyrics歌词显示引擎：基于模块化架构的foobar2000插件深度技术解析

3分钟搞定暗黑破坏神2存档修改：d2s-editor终极使用指南

Bootcamp性能优化技巧：10个提升社交网络响应速度的方法

ModTheSpire实战指南：Slay The Spire模组加载器深度解析

Hunyuan-OCR-WEBUI功能体验：字段抽取、拍照翻译全功能测试

别再只ping 127.0.0.1了！聊聊localhost、hosts文件与本地服务的那些事儿