CVPR‘26 | 从任务统一到模态协同:电商通用多模态表征MOON 2.0

张开发
2026/4/10 2:39:48 15 分钟阅读

分享文章

CVPR‘26 | 从任务统一到模态协同:电商通用多模态表征MOON 2.0
小记自 2023 年以来电商多模态表征模型 MOON 历经 3 年多的持续建设与迭代升级已在阿里妈妈搜索直通车全面落地并在多个核心场景中取得显著效果。以精排 CTR 预估模型为例累计全量 5 期带来大盘 CTR 20% 的显著提升。最新的 MOON 2.0 中团队首次提出动态模态平衡机制解决了多任务联训中长期存在的跷跷板效应实现了从任务统一到模态协同的关键跨越。该工作已被 CVPR26 接收。1. 背景在电商搜索场景中用户的一次搜索往往同时触及商品的多个模态维度。以搜索小香风外套为例系统不仅需要从商品主图中识别 编织纹理 与 版型设计 等关键元素还需从商品文本中解析羊毛、短款、春季新款等关键属性更需要综合判断图像与文本所描述的是否为同一件商品。这一过程的背后折射出不同模态在信息表达上的天然互补性图像直观呈现形态、颜色与设计元素文本则更擅长承载品牌、材质、功能及适用场景等结构化语义任何单一模态都仅能覆盖商品信息的部分维度难以独立支撑精准的商品理解与匹配。然而真正加剧这一挑战的是商品信息天然具有的多对一复杂结构如下图所示一件商品往往同时关联多张图主图、SKU 图与创意图等以及由标题、详情描述等构成的长文本各模态在信息密度与语义覆盖范围上存在显著差异甚至存在冗余乃至冲突。如何在统一的语义空间中有效对齐并融合这些多源异构信号使模型不仅能够判断商品“是否相似”更能深入理解语义是否一致、细节差异究竟在哪里正是电商多模态表征学习面临的核心挑战。从技术演进来看多模态表征方法经历了从浅层融合到视觉语言模型VLM再到多模态大语言模型MLLM的持续跃迁早期方法通过独立编码器将图像与文本分别映射至共享空间实现粗粒度的图文对齐VLM 时代引入大规模图文预训练推动表征从浅层特征拼接迈向更深层的跨模态交互MLLM 则进一步将视觉感知纳入语言推理框架使表征的能力边界从简单的匹配判断拓展至深层的内容理解、关系推理乃至更复杂的认知任务。顺应这一演进趋势MOON 系列也在持续迭代不断探索更强的统一建模能力、更精细的语义理解水平与更广泛的任务泛化能力。2. 思考经过多轮迭代我们对多模态表征的定位有了更深刻的认识。多模态表征作为电商场景的底层基础能力其核心挑战已不再局限于提升单一商品的建模精度而是延伸至如何构建一套统一的表征体系以支撑丰富而复杂的下游任务生态。这一判断源自两方面的实践体会全链路视角多模态表征需贯穿 Query 理解、召回、相关性判定、排序等搜索全链路环节各环节共享一致的语义表示是实现信息无损传递的前提任何环节之间的表征割裂都将引发语义偏移的逐级放大最终制约端到端效果的上限任务覆盖维度一个理想的电商多模态表征模型应能同时支撑图搜、文搜、商品搜、商品分类、属性预测等多类核心任务具备跨输入形式、跨任务目标、跨语义粒度的协同建模能力从而以一套统一的表征底座实现多任务能力复用提升整体研发迭代效率。然而在传统方案中这一目标尚未达成。不同任务往往依赖各自独立的表征体系进行建模检索侧重跨模态对齐分类聚焦类别判定属性预测强调细粒度识别彼此割裂、语义知识难以共享。这种任务烟囱式的建模方式不仅破坏了商品语义的整体性还带来了高昂的重复建设与维护成本。基于此团队认为更具系统性的技术路径是构建面向电商全场景的通用多模态表征框架在统一的建模范式下整合不同任务目标、不同输入模态以及不同层级的商品语义知识实现表征能力的共享、迁移与协同优化。围绕这一目标亟待解决的关键问题包括异构任务统一建模如何在统一框架下同时支撑图搜、文搜、商品搜、分类、属性预测等多类异构任务实现检索匹配能力与语义判别能力的协同建构动态模态平衡如何灵活适配图像、文本及其组合等不同模态输入并根据任务需求动态调节模态间的融合策略与权重平衡多粒度语义表征如何在统一语义空间中同时建模商品的整体粗粒度语义与局部属性级细粒度语义兼顾全局相似性度量与细粒度特征判别。基于上述思考我们正式启动了 MOON 系列的研究探索。作为首个阶段性成果MOON 1.0 聚焦于异构任务统一建模这一核心问题首次提出了基于生成式 MLLM 的电商多模态表征框架。如下图所示MOON 1.0 通过对图搜、文搜、商品搜等多源异构任务数据进行联合训练构建跨任务共享的统一语义空间在此基础上引入专家混合引导机制针对不同模态输入及商品类别、属性等关键语义维度进行差异化建模在统一框架内实现多任务语义的协同表达与联合优化从而推动多模态表征从任务专用的独立建模范式迈向统一底座的协同建模范式。MOON 1.0 初步验证了统一表征底座在电商全场景落地的可行性与有效性为后续持续演进奠定了坚实基础。其核心研究成果已被 WSDM26 正式收录基于该表征在 CTR 预估模型中的落地实践也已形成技术报告公开发布WSDM26MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding (https://arxiv.org/abs/2508.11999)技术报告MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising (https://arxiv.org/abs/2511.11305)然而MOON 1.0 的实践也暴露出一个关键瓶颈——跷跷板效应如下图所示在不同任务数据配比下图搜与文搜的能力始终难以协同增长一方的提升必然伴随另一方的退化。这一现象表明简单的数据混训实现的只是形式上的统一而非真正稳定的联合优化。深入分析后发现问题的根源并不在于多任务本身是否联合而在于多模态能否在统一框架下实现稳定的动态平衡。不同任务的数据配比会隐式改变各模态在训练过程中的主导地位当某一模态占据主导时模型表征将逐渐偏向该模态的语义分布换言之图搜与文搜并未形成真正的协同优化而是在共享参数空间中竞争有限的表示容量。这一发现将研究重心自然引向了前文所提出的第二个核心问题动态模态平衡。围绕这一核心问题团队进一步提出了 MOON 2.0。相较于 MOON 1.0 对异构任务统一建模的初步探索MOON 2.0 将研究重心从任务整合推进至模态协同聚焦于动态模态平衡这一关键瓶颈。具体而言MOON 2.0 通过模态自适应的专家混合建模机制、双重语义对齐机制与图文协同增强三项关键技术设计首次在电商场景下实现了面向动态模态平衡的多模态表征学习有效缓解了模态主导偏移与跷跷板效应为通用电商多模态表征基座的构建提供了新的技术范式。CVPR26MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding (https://arxiv.org/abs/2511.12449)3. MOON 2.03.1 方法MOON 2.0 Pipeline 如图所示从架构、训练、数据三个层面系统性地解决动态模态平衡问题分别对应Modality-driven MoE、Dual-level Alignment、Image-text Co-augmentation三个关键模块。具体如下Modality-driven MoE通过模态自适应的专家混合建模机制模型能够在训练过程中自适应地调节不同模态的贡献权重从而不再依赖静态数据配比被动适应模态差异而是主动实现模态间的动态平衡有效避免某一模态长期占优所导致的表征偏移。如图(a)所示将 Mixture-of-ExpertsMoE机制嵌入表征模型的 LLM FFN 层为不同模态信号的差异化处理提供结构性基础。如图(b)所示不同于传统 MoE 主要依赖 token 级激活信号进行路由MOON 2.0 进一步引入可学习的双重对齐偏好矩阵Dual-alignment Matrix用于显式刻画每个专家对不同对齐目标如文本-多模态对齐、图像-多模态对齐的内在偏好与适配能力并配合稀疏正则化约束推动不同专家在特定模态对齐目标上形成清晰的专业化分工。Dual-level Alignment通过双重语义对齐机制构建了从商品间匹配到商品内一致性的层次化对齐范式在统一框架下联合优化商品间Inter-product与商品内Intra-product两类对比目标前者聚焦于跨模态检索匹配确保不同模态查询与目标商品在语义空间中的精准关联后者则约束同一商品不同模态表征之间的语义一致性确保图像、文本等多源信号对同一商品的语义刻画趋于稳定统一。两者协同作用不仅提升了跨模态检索的匹配精度也显著增强了统一表征对商品语义的稳定刻画能力。Inter-product Alignment基于三元组Query, Positive, Negative进行跨商品对比学习商品间的检索与匹配关系。Intra-product Alignment显式约束同一商品内部图像表征与文本表征的语义一致性强化“多对一”场景下的图文细粒度对齐。Image-text Co-augmentation在图文协同增强方面利用 MLLM 的生成能力对训练数据进行增强通过生成更丰富的图像描述与文本改写有效提升多模态表征学习的数据多样性与语义覆盖度。同时考虑到生成式增强不可避免地引入噪声MOON 2.0 进一步设计了自适应样本过滤策略Dynamic Sample Filtering训练初期对高置信度样本赋予更高权重以建立稳定可靠的监督信号基础随着训练推进逐步将优化重心向困难样本倾斜实现从高质量监督优先到困难样本精炼的渐进式过渡在充分利用增强数据的同时有效抑制噪声干扰。图像增强采用两阶段图像编辑策略首先提取商品主体再基于上下文语义引导生成背景多样化、视角多变的增强图像在丰富视觉多样性的同时严格保留商品核心属性文本增强利用 MLLM 联合商品详情页信息与图像视觉线索提取关键实体并生成语义更完整、场景覆盖更广的增强标题弥补原始标题信息稀疏或表述单一的不足。3.2 实验结果为系统性评估多模态表征在电商场景下的综合能力我们构建了 MBE 2.0 基准数据集如下图所示涵盖 640 万真实电商样本同时支持检索图搜、文搜、商品搜、分类与属性预测三大类任务是目前电商领域最为全面的多模态表征评测基准之一。为全面验证 MOON 2.0 的方法有效性我们在 MBE 2.0、M5Product 及 Fashion200K 三个数据集上进行了零样本Zero-shot评测。如雷达图所示MOON 2.0 在三个数据集上均取得 SOTA 表现表明其表征不仅在检索场景中表现优异在分类与属性预测任务中同样展现出强大的泛化能力。如表1所示在 MBE 2.0 基准上MOON 2.0 不仅全面超越了 GME、MM-Embed 等通用多模态表征也优于 CASLIE-S 、MOON 1.0 等电商领域专用表征。以检索任务为例MOON 2.0 在、、三个任务上的 R10 分别达到 63.09%、91.08%、94.21%相比 MOON 1.0 均取得了十余个百分点的显著提升。更为关键的是这一提升并非局限于单一任务而是在所有检索任务上同步实现有力验证了动态模态平衡机制对跷跷板效应的有效缓解。在商品分类与属性预测任务中MOON 2.0 的准确率与 F1 分数同样取得 SOTA 表现进一步表明统一表征所构建的语义能力具备良好的任务迁移性能够从检索场景稳定泛化至更广泛的下游任务。表 1. MOON2.0 在 MBE2.0 基准上的性能表现在跨数据集评测中MOON 2.0 在 M5Product和 Fashion200K两个公开基准上均取得了领先表现表 2、表 3验证了其在不同商品品类与数据分布下的良好泛化性。表 2. 跨数据集M5Product泛化性能对比表 3. 跨数据集Fashion200K泛化性能对比为验证各核心模块的贡献我们进行了详尽的消融实验结果如下表所示移除Modality-driven MoE各项检索指标出现大幅下降其中图搜商品 R10 从 91.08% 降至 74.59%商品搜商品从 94.21% 降至 78.45%分类与属性预测准确率也分别下降 5.53% 和 8.67%。这表明模态驱动的专家路由机制是实现动态模态平衡的关键基础移除Dual-level Alignment所有指标出现显著下降尤其是跨模态检索图搜文 R10 从 64.91% 骤降至 23.35%分类与属性预测准确率也分别下降近 11% 和 17%。这一结果充分说明双粒度语义约束是构建稳定跨模态语义空间的核心支撑移除Image-text Co-augmentation检索性能出现中等幅度下降商品搜商品从 94.21% 降至 80.62%图搜商品从 91.08% 降至 78.17%分类与属性准确率也有所下降。这验证了基于 MLLM 的数据增强对于提升训练数据多样性与语义覆盖度的重要作用移除Dynamic Sample Filtering各项指标出现小幅下降文搜商品从 63.09% 降至 60.63%图搜商品从 91.08% 降至 83.40%表明自适应训练策略能够有效抑制增强数据中引入的噪声干扰。3.3 可视化分析为直观展示 MOON 2.0 的多模态理解能力我们从图文对齐质量和检索效果两个维度进行了可视化分析。热力图 从泛化词汇到核心属性。如下图所示传统混合训练模型倾向于将注意力分散在high quality、women等泛化词汇上而 MOON 2.0 能够精准聚焦于knitted cardigan、polo-neck、Teddybear等核心商品属性这正是动态模态平衡带来的细粒度图文对齐能力提升。检索结果 为进一步评估 MOON 2.0 在多样化电商场景下的检索效能与泛化能力我们基于平台全量搜索数据库随机抽取了 500 万样本构建大规模检索集对三类检索任务的实际召回结果进行了可视化展示。结果表明MOON 2.0 的表征对同款与相似款具备良好的区分能力能够在大规模候选集中精准定位同款商品同时对相似款保持有意义的语义排序验证了其表征空间的判别性与结构性。图搜检索结果文搜检索结果商品搜检索结果4. 总结展望MOON 系列围绕电商多模态表征的核心挑战持续演进完成了从任务统一到模态协同的关键跨越为构建下一代通用电商多模态表征基座奠定了坚实的技术基础。MOON 1.0 聚焦异构任务的统一建模首次提出基于生成式 MLLM 的电商多模态表征框架通过多任务联合学习将图搜、文搜、商品搜及分类等异构任务纳入统一表征空间验证了一个模型服务所有任务的技术可行性。WSDM26MOON 2.0 聚焦动态模态平衡这一核心问题通过 Modality-driven MoE、Dual-level Alignment 与 Image-text Co-augmentation 三项关键设计的协同有效解决了多任务联训中长期存在的跷跷板效应在自建基准 MBE 2.0 及 M5Product、Fashion200K 等公开数据集上均达到全面 SOTA。CVPR26展望未来MOON 系列将沿两条核心路径持续演进最终迈向具备深层语义理解与自主推理能力的下一代电商多模态表征基座多粒度语义表征构建从全局语义到细粒度属性的层次化表征体系实现跨粒度的精准刻画与灵活解耦为不同下游任务提供按需取用的语义支撑感知-推理-生成一体化以大模型为引擎推动表征范式从感知匹配向感知-推理-生成的深度融合跃迁不止于知其然的语义关联更追求知其所以然的归因推理与可解释决策开启从商品理解到推理的新范式。 关于我们阿里妈妈搜索直通车多模态团队负责多模态技术的研发和应用专注于多模态大模型、智能创意、图搜、多模态多场景建模等方向。近年在CVPR、KDD、SIGIR、WSDM等学术会议上发表多篇论文同时真诚欢迎具备CV、NLP和推荐系统相关背景的同学加入 简历投递邮箱wanxian.gwxtaobao.comEND也许你还想看面向Skills编程用领域知识工程驱动 Code AgentWSDM’26阿里妈妈直通车提出搜推广系统通用用户大模型LUMAAAI’26 OralAgent基于用户长期行为的个性化偏好理解的评估和优化WWW26 | 克服多重延迟阿里妈妈展示推广提出级联延迟反馈建模新框架关注「阿里妈妈技术」了解更多~喜欢要“分享”好看要“点赞”哦ღ~

更多文章