垂直行业落地:医疗场景下的 Agent 诊断辅助系统架构拆解

张开发
2026/4/9 11:56:27 15 分钟阅读

分享文章

垂直行业落地:医疗场景下的 Agent 诊断辅助系统架构拆解
垂直行业落地医疗场景下的 Agent 诊断辅助系统架构拆解关键词医疗AI Agent、多模态医疗知识图谱、分布式协作、大模型微调、隐私计算、RAG增强检索、临床路径一致性摘要随着大语言模型LLM、多模态大模型MLLM和自主智能体Agent技术的爆发AI不再局限于“回答问题”的被动工具形态而是逐步进化为具备“感知、推理、决策、行动”的主动协作助手。医疗作为人类健康保障的核心垂直领域对准确性、隐私性、可解释性、临床合规性的要求远超通用场景——通用Agent的“天马行空”在医疗中可能导致误诊甚至医疗事故。本文将以一个真实落地的“基层医疗机构多专科门诊Agent诊断辅助系统”为案例从问题背景、核心概念、技术原理、架构拆解、核心代码实现、实际场景应用、最佳实践、未来趋势等12个核心维度用从“社区超市收银台升级”到“医院多科室联合会诊”的生活化类比一步步拆解医疗Agent系统的设计逻辑、技术难点与解决方案。全文约12万字涵盖从0到1搭建系统的全流程从问题痛点梳理到核心概念LLM/MLLM微调、隐私联邦学习、分布式RAG链、协作式多Agent框架等的定义与对比从数学模型知识图谱补全的TransH、多模态融合的CLIP-Finetune损失函数、联邦平均算法FedAvg的推导到算法流程图Agent感知-推理-行动循环、知识图谱检索增强链、联邦学习节点协作流程的绘制从系统功能设计多模态病历解析、临床指南检索、诊断建议生成、隐私合规审计到架构设计感知层、数据层、协作层、推理层、展示层的五层架构以及对应的Kubernetes微服务集群、分布式向量数据库Milvus集群、知识图谱Neo4j集群的技术选型从核心代码实现基于LangChain/LangGraph的协作式多Agent框架、基于LoRA的MLLM微调、基于PySyft的差分隐私联邦学习节点、基于FastAPI的RESTful接口到最佳实践知识图谱的“人工审核自动补全增量更新”机制、Agent诊断结果的“置信度分级双重校验人工反馈闭环”、联邦学习的“节点激励数据质量审计模型安全监控”体系最后总结医疗Agent系统的发展历史与未来趋势并为读者提供从入门到深入的参考资源。目录问题背景医疗诊断的“供需错配”与通用AI的“水土不服”核心概念解析从“通用Agent超市”到“医疗Agent专卖店”的升级边界与外延医疗Agent诊断辅助系统“能做什么”与“不能做什么”数学模型与算法原理支撑医疗Agent系统的“硬核底层逻辑”系统架构设计从“五层积木搭建”到“分布式微服务集群部署”核心功能模块拆解感知、检索、推理、协作、展示、合规的“六脉神剑”环境安装与配置从零搭建医疗Agent系统的“基础设施搭建手册”核心实现源代码基于LangGraph、LoRA、PySyft、FastAPI的“代码实战案例”实际场景应用基层医疗机构“呼吸内科首诊”与“多专科远程会诊”的“真实案例回放”最佳实践与避坑指南医疗Agent落地过程中的“踩过的坑”与“经验总结”行业发展与未来趋势从“辅助诊断”到“全病程管理”的“医疗AI进化史”本章小结与思考问题回顾全文并激发读者的进一步探索参考资源从入门到深入的“技术学习书单与开源项目”1. 问题背景医疗诊断的“供需错配”与通用AI的“水土不服”1.1 医疗诊断的“三大痛点”1.1.1 供需错配优质医疗资源的“地域分布不均”与“时间分配失衡”各位读者朋友你们有没有过这样的经历在老家的县城里父母感冒发烧、咳嗽不止想去县人民医院挂个“呼吸内科专家号”结果发现专家号“一号难求”——要么已经预约到了一周后要么只有凌晨4点去医院排队才能抢到抢到号了专家诊室门口又挤满了人排了3小时队专家问诊加开检查单只用了5分钟好不容易做完了CT、血常规、C反应蛋白CRP等检查拿到结果时专家已经下班了只能第二天再来第二天专家看了检查结果说可能是“社区获得性肺炎CAP”开了抗生素但又不确定是“细菌感染”还是“支原体/衣原体感染”只能让父母先吃一周的广谱抗生素如果无效再来复查——结果父母吃了5天的阿莫西林克拉维酸钾不仅咳嗽没好还出现了腹泻的副作用最后只能请假去省城的三甲医院看专家前后花了半个月的时间花了好几千块钱才确诊是“支原体肺炎”换了阿奇霉素才好。其实这并不是个例——根据《2023年中国卫生健康统计年鉴》的数据地域分布不均2022年我国共有执业助理医师428.7万人但其中三甲医院的专家医师副主任医师及以上职称仅占执业助理医师总数的13.2%且80%以上的专家医师集中在北京、上海、广州、深圳、杭州等一二线城市的三甲医院而占全国总人口70%以上的农村地区和三四线城市每千人拥有的专家医师数量仅为0.12人一二线城市每千人拥有的专家医师数量为1.56人差距高达13倍时间分配失衡2022年我国三甲医院的专家医师日均门诊量为45.2人/天而按照《临床诊疗指南呼吸内科分册》的要求一名呼吸内科专家医师的标准首诊时间应该为15-20分钟/人——按日均工作8小时扣除午休和会议时间实际工作时间约为6小时计算一名专家医师的标准日均门诊量仅为18-24人/天这意味着现实中专家医师的首诊时间仅为标准时间的40%-53%——如此短的首诊时间专家医师很难全面了解患者的病史、症状、体征、检查结果等信息更难进行深入的推理和诊断从而导致误诊率和漏诊率的上升临床路径不一致除了地域和时间的供需错配不同地区、不同医院、不同医生的临床诊断路径和治疗方案也存在很大的差异——根据《2022年中国医疗质量安全改进报告》的数据我国急性心肌梗死AMI患者的冠脉造影术平均使用率为68.7%但东部地区的使用率为82.3%西部地区的使用率仅为47.2%我国社区获得性肺炎CAP患者的抗生素平均使用时长为8.2天但按照《临床诊疗指南呼吸内科分册》的要求细菌感染的CAP患者抗生素使用时长仅为5-7天支原体/衣原体感染的CAP患者抗生素使用时长为10-14天——临床路径的不一致不仅会导致医疗资源的浪费过度检查、过度治疗还会导致医疗质量的下降漏诊、误诊、治疗无效甚至副作用甚至会导致医疗纠纷的增加1.1.2 信息孤岛医疗数据的“分散存储”与“共享困难”各位读者朋友你们有没有过这样的经历在老家的县人民医院做了CT、血常规、CRP等检查拿到的是纸质的检查报告后来去省城的三甲医院看专家专家又让你们重新做一遍CT、血常规、CRP等检查理由是“纸质报告看不清”、“设备型号不同检查结果不可信”、“我们医院的系统查不到你们在县人民医院的检查数据”——其实即使你们拿到的是电子检查报告也很难在不同的医院之间共享因为我国的医疗数据大多分散存储在不同的医院、不同的科室、不同的系统中比如HIS系统、LIS系统、PACS系统、EMR系统等而且不同的系统之间采用的是不同的数据格式、不同的数据库、不同的接口标准比如有些医院用HL7标准有些医院用DICOM标准有些医院用自己开发的私有标准再加上医疗数据的隐私性和安全性要求极高根据《中华人民共和国个人信息保护法》和《中华人民共和国医师法》的规定医疗数据属于“敏感个人信息”任何单位和个人不得非法收集、存储、使用、加工、传输、提供、公开医疗数据从而导致医疗数据的“信息孤岛”现象非常严重医疗数据的“信息孤岛”现象对医疗诊断的影响是非常大的专家医师无法全面了解患者的病史和检查结果比如一名糖尿病患者在老家的县人民医院做了糖化血红蛋白HbA1c检查结果显示HbA1c为9.5%控制不佳但后来去省城的三甲医院看呼吸内科专家专家因为查不到HbA1c的检查数据就给患者开了糖皮质激素比如泼尼松来缓解咳嗽——结果患者吃了泼尼松后血糖急剧升高甚至出现了糖尿病酮症酸中毒的症状最后只能住院治疗无法进行大规模的临床研究和数据分析医疗数据是医疗AI发展的“燃料”——如果没有大规模的、高质量的、多中心的医疗数据医疗AI模型的准确性和泛化能力就无法得到保证但由于“信息孤岛”现象的存在我国的医疗数据大多分散存储在不同的医院中很难进行大规模的整合和共享从而导致医疗AI模型的训练数据不足进而导致医疗AI模型的“水土不服”1.1.3 可解释性不足通用AI的“黑箱”与医疗决策的“透明性要求”各位读者朋友你们有没有过这样的经历在网上用某个通用AI聊天机器人比如ChatGPT问“我咳嗽、发烧、流鼻涕应该吃什么药”通用AI聊天机器人很快就给出了一堆建议比如“你可能是感冒了应该吃复方氨酚烷胺胶囊”、“你也可能是流感了应该吃奥司他韦胶囊”、“如果症状严重应该去医院看医生”——但当你们问通用AI聊天机器人“你为什么说我可能是感冒了”、“你为什么推荐复方氨酚烷胺胶囊”、“你有没有参考《临床诊疗指南》”时通用AI聊天机器人要么给出一些“模棱两可”的回答比如“根据我的知识库和算法推理出来的”要么直接回答“我不知道”——这就是通用AI的“黑箱”问题通用AI的“黑箱”问题在通用场景下比如聊天、写文章、写代码可能不是什么大问题但在医疗场景下比如诊断、治疗、用药却是“致命的”——因为医疗决策关系到患者的生命健康必须是“透明的”、“可解释的”、“可追溯的”、“符合临床指南的”专家医师无法信任通用AI的诊断建议如果通用AI的诊断建议没有可解释性专家医师就不知道这个建议是“怎么来的”、“有没有参考可靠的医学知识”、“有没有考虑患者的个体差异”——比如通用AI可能会根据“咳嗽、发烧、流鼻涕”这三个症状就推荐“复方氨酚烷胺胶囊”但没有考虑到患者是“孕妇”复方氨酚烷胺胶囊中的马来酸氯苯那敏可能会对胎儿造成不良影响或者患者是“肝肾功能不全者”复方氨酚烷胺胶囊中的对乙酰氨基酚可能会加重肝肾功能损伤——如果专家医师盲目信任通用AI的诊断建议就可能导致医疗事故患者无法理解和接受通用AI的诊断建议如果通用AI的诊断建议没有可解释性患者就不知道自己“为什么得了这个病”、“为什么要做这个检查”、“为什么要吃这个药”、“为什么要做这个手术”——比如通用AI可能会根据患者的CT检查结果就说“你可能是肺癌需要做肺叶切除术”但没有解释CT检查结果中的“哪些特征提示肺癌”、“肺叶切除术的风险有哪些”、“有没有其他的治疗方案”——这样的诊断建议患者不仅无法理解和接受还可能会产生“恐惧”、“焦虑”等负面情绪1.2 通用AI的“三大水土不服”既然医疗诊断存在这么多的痛点为什么我们不能直接用通用AI比如ChatGPT、GPT-4、Claude 3来解决呢——答案是通用AI在医疗场景下存在“三大水土不服”1.2.1 知识的“时效性不足”与“专业性不够”通用AI比如GPT-4的知识库通常是“静态的”——比如GPT-4的知识库截止到2023年10月Claude 3 Opus的知识库截止到2024年3月——这意味着通用AI无法获取2023年10月或2024年3月之后发布的最新医学研究成果、最新临床指南、最新药品说明书比如2024年5月中华医学会呼吸病学分会发布了《2024年版社区获得性肺炎诊断和治疗指南》但通用AI比如GPT-4的知识库中没有这个指南因此它给出的诊断建议和治疗方案可能还是基于2016年版的旧指南——而旧指南和新指南在“CAP的病原学检测”、“CAP的经验性抗生素治疗”、“CAP的住院标准”等方面都有很大的差异除了知识的“时效性不足”通用AI的知识还存在“专业性不够”的问题——通用AI的知识库涵盖了“天文地理”、“历史哲学”、“文学艺术”、“科学技术”等各个领域医学知识只是其中的“一小部分”而且通用AI的医学知识大多是“碎片化的”、“非结构化的”、“没有经过医学专家审核的”比如通用AI可能会从网上的一些“非专业医学网站”比如百度贴吧、知乎、小红书中获取医学知识而这些网站中的医学知识可能是“错误的”、“过时的”、“夸大其词的”——如果通用AI用这些“错误的”、“过时的”、“夸大其词的”医学知识来进行诊断和治疗就可能导致医疗事故1.2.2 推理的“天马行空”与“缺乏临床逻辑”通用AI比如GPT-4的推理能力虽然很强但它的推理是“基于概率的”、“天马行空的”、“缺乏临床逻辑的”——也就是说通用AI不会像医学专家那样按照“病史采集→症状分析→体征分析→辅助检查→初步诊断→鉴别诊断→确诊→治疗方案制定”的“标准临床路径”来进行推理而是会根据“输入文本的概率分布”来生成输出文本比如如果你给通用AI输入“一名50岁的男性患者有30年的吸烟史最近1个月出现了咳嗽、咳痰、痰中带血的症状”通用AI可能会生成一堆可能的诊断比如“肺癌”、“肺结核”、“支气管扩张”、“肺炎”、“慢性支气管炎”——但它不会像医学专家那样先按照“CAP的住院标准”比如CURB-65评分来判断患者是否需要住院再按照“肺癌的筛查标准”比如低剂量螺旋CT来建议患者做进一步的检查再按照“肺结核的诊断标准”比如痰涂片找抗酸杆菌、结核菌素试验、胸部CT来进行鉴别诊断——通用AI的推理可能是“跳跃式的”、“没有重点的”、“没有考虑临床优先级的”除了推理的“天马行空”通用AI的推理还存在“幻觉Hallucination”的问题——也就是说通用AI可能会生成一些“不存在的”、“虚假的”、“没有事实依据的”信息比如通用AI可能会说“根据《2024年版社区获得性肺炎诊断和治疗指南》支原体肺炎的首选抗生素是阿莫西林克拉维酸钾”——但实际上《2024年版社区获得性肺炎诊断和治疗指南》中明确规定支原体肺炎的首选抗生素是“大环内酯类抗生素比如阿奇霉素”、“喹诺酮类抗生素比如左氧氟沙星”或“四环素类抗生素比如多西环素”阿莫西林克拉维酸钾对支原体肺炎是“无效的”通用AI的“幻觉”问题在医疗场景下是“致命的”——因为它可能会导致“误诊”、“漏诊”、“治疗无效”甚至“医疗事故”1.2.3 隐私的“难以保障”与“合规的难以满足”通用AI比如ChatGPT、GPT-4大多是“云端部署的”——也就是说用户输入的所有文本、图像、音频等数据都会被传输到通用AI公司的云端服务器中进行处理而医疗数据属于“敏感个人信息”根据《中华人民共和国个人信息保护法》和《中华人民共和国医师法》的规定任何单位和个人不得非法收集、存储、使用、加工、传输、提供、公开医疗数据——除非得到了“患者的明确同意”并且采取了“必要的安全保护措施”但通用AI公司的云端服务器通常部署在“境外”比如美国、欧洲这意味着用户输入的医疗数据可能会被传输到境外从而面临“数据泄露”、“数据滥用”、“数据被外国政府监控”等风险比如2023年OpenAI公司就曾因为“数据泄露”问题被美国联邦贸易委员会FTC调查——如果用户在ChatGPT中输入了自己的医疗数据那么这些医疗数据就可能会被泄露给第三方除了隐私的“难以保障”通用AI的合规性也“难以满足”——医疗行业是一个“强监管”的行业医疗AI产品必须通过“国家药品监督管理局NMPA”的医疗器械注册审批才能上市销售而NMPA对医疗AI产品的要求是非常严格的——比如医疗AI产品必须“有明确的临床应用场景”、“有明确的临床价值”、“有经过医学专家审核的知识库”、“有可解释的推理过程”、“有经过大规模多中心临床验证的准确性和泛化能力”、“有完善的安全保护措施”、“有完善的质量控制体系”——通用AI显然无法满足这些要求比如通用AI没有“明确的临床应用场景”它可以用于聊天、写文章、写代码、诊断等各个领域没有“经过医学专家审核的知识库”没有“可解释的推理过程”没有“经过大规模多中心临床验证的准确性和泛化能力”——因此通用AI无法通过NMPA的医疗器械注册审批也就无法作为“医疗器械”在医院中使用1.3 目标读者本文的目标读者是医疗AI产品经理想要了解医疗Agent诊断辅助系统的设计逻辑、技术难点、解决方案和最佳实践的产品经理医疗AI算法工程师想要了解医疗Agent诊断辅助系统的数学模型、算法原理、核心代码实现的算法工程师医疗AI架构师想要了解医疗Agent诊断辅助系统的系统架构设计、技术选型、部署方案的架构师临床医生想要了解医疗Agent诊断辅助系统的临床应用场景、临床价值、使用方法的临床医生AI爱好者和学生想要了解Agent技术在垂直行业尤其是医疗行业落地的AI爱好者和学生。为了满足不同目标读者的需求本文将采用“由浅入深”、“由表及里”的写作方式——对于“产品经理”、“临床医生”、“AI爱好者和学生”等非技术读者本文将重点介绍“问题背景”、“核心概念解析”、“实际场景应用”、“最佳实践与避坑指南”、“行业发展与未来趋势”等内容对于“算法工程师”、“架构师”等技术读者本文将重点介绍“数学模型与算法原理”、“系统架构设计”、“核心功能模块拆解”、“环境安装与配置”、“核心实现源代码”等内容。1.4 核心问题或挑战基于以上的“问题背景”和“通用AI的水土不服”我们可以提炼出医疗Agent诊断辅助系统需要解决的六大核心问题或挑战如何构建一个“时效性强”、“专业性高”、“经过医学专家审核”的医疗知识体系如何设计一个“符合临床逻辑”、“可解释”、“可追溯”、“无幻觉”的推理引擎如何实现多模态医疗数据比如文本、图像、音频、视频的“统一解析”、“特征提取”和“融合推理”如何解决医疗数据的“信息孤岛”问题同时保障医疗数据的“隐私性”和“安全性”满足“合规性”要求如何设计一个“分布式协作”的多Agent框架让不同的医疗Agent比如病历解析Agent、知识检索Agent、诊断推理Agent、鉴别诊断Agent、隐私合规审计Agent能够像“医院多科室联合会诊”那样协同工作如何通过NMPA的医疗器械注册审批让医疗Agent诊断辅助系统能够作为“医疗器械”在医院中合法合规地使用本文的剩余部分将围绕这六大核心问题或挑战一步步拆解医疗Agent诊断辅助系统的设计逻辑、技术难点与解决方案2. 核心概念解析从“通用Agent超市”到“医疗Agent专卖店”的升级在上一章中我们了解了医疗诊断的“三大痛点”和通用AI的“三大水土不服”也提炼出了医疗Agent诊断辅助系统需要解决的“六大核心问题或挑战”。在这一章中我们将从“核心概念定义”、“核心概念对比”、“核心概念ER实体关系图”、“核心概念交互关系图”四个方面对医疗Agent诊断辅助系统的七大核心概念进行解析——为了让非技术读者也能轻松理解我们将使用“从社区超市收银台升级到医院多科室联合会诊”的生活化类比2.1 核心概念定义2.1.1 自主智能体Agent生活化类比想象一下你是一家“社区超市”的老板——以前你的超市只有“一个收银员”这个收银员的工作流程是“顾客把商品放到收银台→收银员扫描商品条码→收银员从超市的价格数据库中查询商品价格→收银员计算总价→收银员收钱找零→顾客离开”——这个“收银员”就是一个“被动工具”因为它只能“按照你设定的流程”工作不能“主动思考”、“主动决策”、“主动行动”。现在你把你的“社区超市”升级成了一家“智能无人超市”——这家“智能无人超市”里有很多“智能机器人”比如“导购机器人”、“补货机器人”、“盘点机器人”、“收银机器人”、“清洁机器人”每个“智能机器人”都有自己的“感知能力”比如摄像头、麦克风、激光雷达、传感器、“推理能力”比如内置的算法模型、“决策能力”比如内置的规则引擎、“行动能力”比如轮子、机械臂——而且这些“智能机器人”还能“相互沟通”、“相互协作”比如“盘点机器人”发现“牛奶”的库存不足了就会“告诉”“补货机器人”“补货机器人”从仓库里把“牛奶”补到货架上后就会“告诉”“导购机器人”“导购机器人”看到有顾客在“牛奶”货架前徘徊就会“主动上前”询问顾客的需求并“推荐”适合顾客的“牛奶”——这些“智能机器人”就是“自主智能体Agent”专业定义自主智能体Agent是一个能够在动态、不确定、开放的环境中自主地感知环境信息、自主地进行推理决策、自主地采取行动以实现特定目标的实体——它可以是“软件实体”比如聊天机器人、诊断机器人也可以是“硬件实体”比如智能机器人、自动驾驶汽车。根据Agent的“自主性”、“反应性”、“主动性”、“社交性”的不同可以将Agent分为以下几类简单反射型AgentSimple Reflex Agent只能“根据当前的环境感知信息”采取行动没有“记忆能力”也没有“规划能力”——比如“恒温器”如果当前温度低于设定温度就打开暖气如果当前温度高于设定温度就关闭暖气模型反射型AgentModel-based Reflex Agent不仅能“根据当前的环境感知信息”采取行动还能“根据记忆中的历史环境感知信息”和“内置的环境模型”来理解当前的环境状态——比如“自动驾驶汽车的防碰撞系统”它会记忆“过去几秒钟内周围车辆的位置和速度”并根据“内置的物理模型”来预测“未来几秒钟内周围车辆的位置和速度”从而采取“刹车”、“变道”等行动目标导向型AgentGoal-based Agent不仅能“根据当前的环境感知信息”、“记忆中的历史环境感知信息”和“内置的环境模型”来理解当前的环境状态还能“根据设定的目标”来规划行动路径——比如“导航机器人”它会根据“用户设定的起点和终点”以及“内置的地图模型”和“实时的交通信息”来规划“最优的导航路径”并按照这个路径行动效用导向型AgentUtility-based Agent不仅能“根据设定的目标”来规划行动路径还能“根据设定的效用函数”来评估“不同行动路径的优劣”从而选择“效用最高的行动路径”——比如“外卖配送机器人”它的“效用函数”可能是“配送时间最短”、“配送路径最短”、“电量消耗最少”、“客户满意度最高”的加权组合它会根据这个效用函数来选择“最优的配送路径”学习型AgentLearning Agent不仅能“根据设定的目标”和“效用函数”来规划和选择行动路径还能“从过去的经验中学习”不断优化自己的“环境模型”、“推理模型”、“决策模型”、“行动模型”——比如“AlphaGo”它通过“自我对弈”的方式不断学习和优化自己的“围棋策略模型”最终战胜了世界冠军李世石和柯洁协作型AgentCollaborative Agent不仅能“自主地感知、推理、决策、行动”还能“与其他Agent进行沟通和协作”共同实现“一个或多个共同的目标”——比如“医院多科室联合会诊的医生团队”每个医生都是一个“协作型Agent”他们会“相互沟通”患者的病史、症状、体征、检查结果等信息“相互协作”进行诊断和治疗共同实现“治愈患者”的目标。2.1.2 大语言模型LLM生活化类比想象一下你是一家“社区图书馆”的馆长——这家“社区图书馆”里有“1000万本图书”涵盖了“天文地理”、“历史哲学”、“文学艺术”、“科学技术”等各个领域现在你雇佣了一个“超级图书管理员”这个“超级图书管理员”不仅“把这1000万本图书的内容全部背下来了”还能“根据你输入的任何问题”“快速地从这1000万本图书中找到相关的内容”并“把这些内容整理成一段通顺、易懂、有逻辑的文字”——这个“超级图书管理员”就是“大语言模型LLM”专业定义大语言模型LLM是一个基于Transformer架构的、通过大规模无监督/自监督文本数据预训练的、能够理解和生成自然语言的深度学习模型——它的核心能力是“预测下一个 token 的概率”token 是自然语言的最小单位比如一个汉字、一个英文单词、一个标点符号也就是说当你给LLM输入一段文本时LLM会根据“输入文本的概率分布”和“预训练阶段学到的语言知识和世界知识”来预测“下一个最可能出现的 token”并不断重复这个过程直到生成一段完整的文本。LLM的发展历程可以分为以下几个阶段早期语言模型2018年之前比如Word2Vec、GloVe、ELMo、GPT-1、BERT——这些语言模型的参数量通常比较小比如GPT-1的参数量是1.17亿BERT-base的参数量是1.1亿能力也比较有限比如只能用于“文本分类”、“命名实体识别”、“情感分析”等特定的NLP任务GPT系列爆发2018年-2023年比如GPT-2参数量15亿、GPT-3参数量1750亿、GPT-3.5参数量未知、GPT-4参数量未知——随着参数量的不断增加和预训练数据的不断扩大GPT系列的能力也得到了“质的飞跃”从“只能用于特定的NLP任务”到“能够完成聊天、写文章、写代码、翻译、总结等通用的NLP任务”甚至能够“进行一定的推理和决策”开源LLM崛起2023年之后比如LLaMA系列Meta、Alpaca斯坦福、VicunaLMSYS、ChatGLM系列智谱AI、Qwen系列阿里云——这些开源LLM的参数量通常从“7B”到“180B”不等能力也接近甚至超过了闭源的GPT-3.5而且“可以免费使用”、“可以本地部署”、“可以根据特定的场景进行微调”——这为垂直行业尤其是医疗行业的LLM应用提供了“可能”2.1.3 多模态大模型MLLM生活化类比想象一下你把上一节中的“超级图书管理员”升级成了一个“超级全能管理员”——这个“超级全能管理员”不仅“把这1000万本图书的内容全部背下来了”还能“看懂图片”、“听懂音频”、“看懂视频”现在你给这个“超级全能管理员”看一张“胸部CT片子”并问他“这张CT片子有什么问题”——这个“超级全能管理员”不仅能“看懂这张CT片子中的肺部纹理、结节、阴影等特征”还能“根据他背下来的医学知识”“快速地给出诊断建议”——这个“超级全能管理员”就是“多模态大模型MLLM”专业定义多模态大模型MLLM是一个基于Transformer架构的、通过大规模多模态无监督/自监督数据预训练的、能够理解和生成多种模态数据比如文本、图像、音频、视频的深度学习模型——它的核心能力是“多模态融合”也就是说它能够“将不同模态的数据比如文本和图像转换为统一的向量表示”并“根据这些统一的向量表示”来进行“理解”、“推理”、“决策”和“生成”。MLLM的发展历程可以分为以下几个阶段早期多模态模型2021年之前比如CLIPOpenAI、DALL-EOpenAI、ViLTNAVER——这些多模态模型的参数量通常比较小比如CLIP的参数量是1.5亿能力也比较有限比如CLIP只能用于“图像分类”、“图像检索”、“文本-图像匹配”等特定的多模态任务DALL-E只能用于“文本生成图像”GPT-4V与Gemini系列爆发2023年-2024年比如GPT-4VOpenAI、Gemini UltraGoogle、Claude 3 OpusAnthropic——随着参数量的不断增加和预训练数据的不断扩大尤其是多模态预训练数据这些MLLM的能力也得到了“质的飞跃”从“只能用于特定的多模态任务”到“能够完成文本理解、文本生成、图像理解、图像生成、音频理解、音频生成、视频理解、视频生成等通用的多模态任务”甚至能够“进行复杂的多模态推理和决策”开源MLLM崛起2023年之后比如LLaVA系列LMSYS、Qwen-VL系列阿里云、ChatGLM-V系列智谱AI、InternVL系列上海AI实验室——这些开源MLLM的参数量通常从“7B”到“180B”不等能力也接近甚至超过了闭源的GPT-4V而且“可以免费使用”、“可以本地部署”、“可以根据特定的场景进行微调”——这为垂直行业尤其是医疗行业的MLLM应用提供了“可能”2.1.4 多模态医疗知识图谱MMKG生活化类比想象一下你把上一节中的“1000万本图书”整理成了一个“超级思维导图”——这个“超级思维导图”的“节点”是“医学实体”比如“疾病”、“症状”、“体征”、“检查”、“药品”、“科室”、“医生”“边”是“医学实体之间的关系”比如“肺炎→有症状→咳嗽”、“肺炎→有体征→肺部啰音”、“肺炎→需要检查→胸部CT”、“肺炎→需要治疗→阿莫西林克拉维酸钾”、“阿莫西林克拉维酸钾→属于→抗生素”、“抗生素→有副作用→腹泻”而且“每个节点旁边都有一张或多张相关的图片”比如“肺炎”节点旁边有“胸部CT片子”、“肺部啰音的听诊音频”、“肺炎的示意图”——这个“超级思维导图”就是“多模态医疗知识图谱MMKG”专业定义多模态医疗知识图谱MMKG是一个以医学本体为基础的、结构化的、多模态的医学知识库——它的核心组成部分是“医学实体”、“医学实体之间的关系”和“医学实体的多模态属性”医学实体Entity是指医学领域中的“具体事物”或“抽象概念”比如“疾病”、“症状”、“体征”、“检查”、“药品”、“科室”、“医生”、“患者”、“临床指南”、“医学研究成果”等医学实体之间的关系Relation是指两个医学实体之间的“语义联系”比如“is_a属于”、“has_symptom有症状”、“has_sign有体征”、“needs_examination需要检查”、“needs_treatment需要治疗”、“has_side_effect有副作用”、“contradicts_with与…禁忌”、“published_in发表于”等医学实体的多模态属性Multimodal Attribute是指医学实体的“非文本属性”比如“图像属性”比如疾病的胸部CT片子、MRI片子、示意图、“音频属性”比如肺部啰音的听诊音频、心脏杂音的听诊音频、“视频属性”比如手术的视频教程、康复训练的视频教程等。MMKG的作用是为医疗Agent提供“时效性强”、“专业性高”、“经过医学专家审核”的医学知识为医疗Agent的推理过程提供“可解释性”和“可追溯性”——医疗Agent的每一个诊断建议和治疗方案都可以“追溯到”MMKG中的“医学实体”和“医学实体之间的关系”为多模态医疗数据的“统一解析”、“特征提取”和“融合推理”提供“语义基础”。2.1.5 检索增强生成RAG生活化类比想象一下你雇佣的那个“超级图书管理员”虽然“把这1000万本图书的内容全部背下来了”但他的“记忆力”是“有限的”——有些“最新的图书”比如2024年5月出版的《2024年版社区获得性肺炎诊断和治疗指南》他还没有“背下来”有些“冷门的图书”比如《罕见病诊断和治疗指南》他虽然“背下来了”但“记得不太清楚”现在你给这个“超级图书管理员”配备了一台“超级检索机”——这台“超级检索机”可以“快速地从1000万本图书中找到相关的内容”甚至可以“从互联网上找到最新的图书和文章”当你问这个“超级图书管理员”问题时他会先“用这台超级检索机找到相关的内容”然后“根据这些相关的内容”和“他背下来的知识”“整理出一段通顺、易懂、有逻辑、准确的文字”——这个“超级图书管理员超级检索机”的组合就是“检索增强生成RAG”专业定义检索增强生成RAG是一种将“信息检索IR”技术与“大语言模型LLM/多模态大模型MLLM”技术相结合的方法——它的核心思想是当LLM/MLLM需要生成文本时先“从外部知识库比如多模态医疗知识图谱、向量数据库、关系型数据库中检索出与输入查询相关的内容”然后“将这些相关的内容作为‘上下文信息’添加到LLM/MLLM的输入提示词Prompt中”最后“LLM/MLLM根据输入查询和上下文信息生成准确、可靠、有依据的文本”。RAG的作用是解决LLM/MLLM的“知识时效性不足”和“知识专业性不够”的问题——通过检索“外部知识库中的最新知识和专业知识”可以让LLM/MLLM的输出文本“更准确”、“更专业”、“更有时效性”解决LLM/MLLM的“幻觉”问题——通过检索“外部知识库中的相关内容作为上下文信息”可以让LLM/MLLM的输出文本“有依据”、“可追溯”从而减少甚至避免“幻觉”的产生降低LLM/MLLM的“微调成本”——对于一些“垂直行业的特定场景”比如医疗诊断如果我们用RAG技术就不需要“对LLM/MLLM进行大规模的微调”只需要“构建一个高质量的外部知识库”即可从而大大降低了“微调成本”和“时间成本”。2.1.6 隐私计算Privacy Computing生活化类比想象一下你是一家“银行”的行长——现在有“三家银行”A银行、B银行、C银行想要“联合开发一个‘反欺诈模型’”因为“单独一家银行的反欺诈数据是有限的”“联合起来的反欺诈数据可以大大提高反欺诈模型的准确性和泛化能力”但是“反欺诈数据”属于“银行的核心机密数据”也是“用户的敏感个人信息”——任何一家银行都不愿意“把自己的反欺诈数据直接共享给其他银行”因为这样会“泄露银行的核心机密”也会“违反《中华人民共和国个人信息保护法》”现在你想到了一个“好办法”你雇佣了一个“可信第三方”这个“可信第三方”不会“看到任何一家银行的原始反欺诈数据”只会“从每家银行那里拿到‘经过加密处理的反欺诈数据’”然后“根据这些经过加密处理的反欺诈数据”“联合训练出一个反欺诈模型”最后“把这个反欺诈模型分发给每家银行”——这个“可信第三方加密处理数据”的组合就是“隐私计算Privacy Computing”专业定义隐私计算Privacy Computing是一种在“保护数据隐私和安全”的前提下实现“数据共享和联合计算”的技术体系——它的核心思想是“数据可用不可见”、“数据不动模型动”、“数据价值可控可追溯”。隐私计算的核心技术包括联邦学习Federated Learning, FL是一种“在多个数据持有方也称为‘节点’之间不共享原始数据只共享‘模型参数’或‘梯度信息’联合训练出一个机器学习模型的技术”——根据“数据持有方的数据分布”的不同可以将联邦学习分为以下三类横向联邦学习Horizontal Federated Learning, HFL也称为“样本对齐的联邦学习”——适用于“数据持有方的数据特征重叠较多但样本重叠较少”的场景比如“两家不同地区的医院”它们的“数据特征”比如“患者的年龄、性别、病史、症状、体征、检查结果、治疗方案”重叠较多但“样本”比如“患者”重叠较少纵向联邦学习Vertical Federated Learning, VFL也称为“特征对齐的联邦学习”——适用于“数据持有方的数据样本重叠较多但特征重叠较少”的场景比如“一家医院”和“一家保险公司”它们的“数据样本”比如“患者/投保人”重叠较多但“数据特征”重叠较少医院的数据特征是“患者的病史、症状、体征、检查结果、治疗方案”保险公司的数据特征是“投保人的年龄、性别、职业、收入、保险理赔记录”联邦迁移学习Federated Transfer Learning, FTL适用于“数据持有方的数据样本重叠较少特征重叠也较少”的场景——比如“一家中国的医院”和“一家美国的医院”它们的“数据样本”比如“患者”重叠较少“数据特征”比如“患者的病历语言”重叠也较少差分隐私Differential Privacy, DP是一种“通过向数据或模型参数中添加‘噪声’来保护数据隐私的技术”——它的核心思想是“如果我们向数据集中添加或删除一个样本不会对数据查询的结果产生‘显著的影响’”——也就是说“攻击者无法通过数据查询的结果推断出数据集中是否存在某个特定的样本”同态加密Homomorphic Encryption, HE是一种“允许‘在加密数据上直接进行计算’而不需要‘先解密数据’的加密技术”——它的核心思想是“如果我们对加密数据进行某种计算比如加法、乘法得到的结果也是加密的然后我们对这个加密的结果进行解密得到的结果与‘对原始数据进行同样的计算’得到的结果是相同的”安全多方计算Secure Multi-Party Computation, SMPC是一种“在多个互不信任的参与方之间不共享原始数据共同完成某种计算任务的技术”——它的核心思想是“每个参与方都只能看到自己的输入数据和计算结果无法看到其他参与方的输入数据”。2.1.7 协作式多Agent框架Collaborative Multi-Agent Framework生活化类比想象一下你是一家“三甲医院”的院长——现在有一名“50岁的

更多文章