【MLLM】Qwen-Omni系列全模态模型架构和训练

张开发
2026/4/16 1:57:04 15 分钟阅读

分享文章

【MLLM】Qwen-Omni系列全模态模型架构和训练
noteQwen3-Omni系列模型模型输入可以是文本、图片、语音、视频输出可以是流式的文本/语音Thinker思考者基于混合专家MoE架构负责文本语义的理解与生成是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时核心的文本与图像能力不受干扰真正实现“全模态不降智”。Talker表达者同样基于 MoE 架构专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征确保语音输出与文本意图高度一致避免了传统端到端模型在语音生成过程中对语义理解的损耗。Qwen3-omni模型训练预训练编码器对齐阶段S1即先训练adapter再训练编码器、通用阶段 (S2)即全参训练、长上下文阶段 (S3)即逐渐增加长视频、长音频数据的比例训练。Thinker的后训练轻量级SFT、强弱模型蒸馏即离策略蒸馏Off-policy Distillation在线策略蒸馏On-policy Distillation、GSPO强化学习训练基于规则的奖励、基于模型评估的奖励Talker的后训练多模态到语音的映射、持续预训练 (CPT)、直接偏好优化 (DPO)、说话人微调即学习特定音色在Qwen3-Omni-30B-A3B的基础上微调得到了 Qwen3-Omni-30B-A3B-Captioner。该模型能为任意音频输入生成详细、低幻觉的字幕Qwen3-omni的后续工作通义团队将沿多个技术方向持续推进模型升级包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设并强化基于智能体的工作流与函数调用支持。Qwen3-Omni模型代码源码解读Qwen3-Omni全模态模型源码解读使用打开千问 https://chat.qwen.ai/支持语音通话和视频通话Qwen 2.5 Omni 的实时交互能力视频聊天支持实时视频交互。多模态理解可以同时处理视频画面和声音。即时响应支持流式输出反应快速自然文章目录note一、Qwen3.5-Omni系列模型二、Qwen3-Omni系列模型1、模型架构1概述2音频转换器 (Audio Transformer, AuT)3多模态输入4语音生成5为流式和并发所做的设计2、模型训练1预训练2后训练1Thinker模块2Talker3字幕生成器 (Captioner)3、模型评估1X→文本 评估2X→语音 评估3跨模态无损性能评估4、相关实践1模型微调训练2模型推理三、Qwen2.5-Omni系列模型1、Qwen2.5-Omni-7B模型2、Qwen2.5-Omni-3B模型3、模型架构4、模型效果Reference一、Qwen3.5-Omni系列模型Qwen3.5-Omni 延续采用Thinker-Talker 架构ThinkerThinker通过Vision Encoder和AuT接受视觉和音频信号输入音视频信号通过interleave交织搭配TMRoPE编码位置信息。Thinker负责处理全模态信号并输出文本TalkerTalker 负责接收来自Thinker的多模态输入以及文本输出进行contextual 语音生成语音表征通过Qwen3-Omni提出的RVQ编码来替代繁重的DiT运算。由于chunk-wise的流式输入设计和流式Talker设计整个模型可以进行realtime interaction。不同于上一代Qwen3-Omni的双轨Talker输入Talker在输入的组织方式上采用了ARIA (自适应速率交错对齐Adaptive Rate Interleave Alignment) 来动态对齐文本与语音单元然后进行交错排布来避免由于文本与语音 Token 编码效率差异导致的语音不稳定性如漏读、误读或数字发音模糊等问题。在视觉理解方面相关benchmark的效果和qwen3-omni的功能层面的区别二、Qwen3-Omni系列模型1、模型架构一个真正的性能无损的多模态系统应具备两大特性1能力对等在各个单模态任务上其性能与专门的单模态模型相当。2协同增益能促进新颖的、单模态模型不具备的跨模态推理和交互能力。五大关键升级Thinker和Talker均升级为混合专家MoE架构。用自研的、在2000万小时有监督音频上训练的AuT音频编码器取代了Whisper提供了更强的通用音频表示。语音生成端采用多codebookmulti-codebook表示增强了对多样化声音和声学现象的建模能力。Talker从单轨解码转向多轨编解码器codec建模并用轻量级的卷积网络ConvNet取代了计算密集的扩散模型DiT。输入输出音频码率降至12.5Hz实现了单帧即时语音合成。阿里此次开源了三种 Qwen3-Omni 模型变体均基于 30B 参数采用 Apache 2.0 许可Qwen3-Omni-30B-A3B-Instruct优化指令跟随适合交互式任务。Qwen3-Omni-30B-A3B-Thinking增强复杂推理适合逻辑分析。Qwen3-Omni-30B-A3B-Captioner低幻觉音频字幕生成适合媒体应用。组成模块Thinker思考者基于混合专家MoE架构负责文本语义的理解与生成是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时核心的文本与图像能力不受干扰真正实现“全模态不降智”。Talker表达者同样基于 MoE 架构专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征确保语音输出与文本意图高度一致避免了传统端到端模型在语音生成过程中对语义理解的损耗。1概述模型架构音频编码模型的音频编码器采用基于 2000 万小时数据训练的 AuT 模型为音视频理解提供了强大的通用表征基础。推理加速为实现毫秒级实时交互Talker 采用了创新的多codebook自回归方案在每一步解码中MTPMulti-Token Prediction模块会预测当前音频帧的残差codebook。随后Code2Wav 模块将这些codebook即时合成为波形实现逐帧流式音频生成。Qwen3-Omni 通过 Vision Encoder 和 AuT 音频编码器将图文音视频输入编码为隐藏状态由 MoE Thinker 负责文本生成与语义理解再由 MoE Talker 结合 MTP 模块实现超低延迟的流式语音生成。推理效果得益于这一协同设计Qwen3-Omni 纯模型端到端的音频对话延迟可低至 211ms视频对话延迟可低至 507ms交互体验如真人对话般自然流畅。2音频转换器 (Audio Transformer, AuT)AuT是一个基于Attention的编码器-解码器模型它在2000万小时的有监督音频数据上从零开始训练。其训练数据包含80%的中英文ASR自动语音识别伪标签数据、10%的其他语言ASR数据和10%的音频理解数据。AuT采用了动态大小的注意力窗口以平衡实时预填充缓存的效率和离线音频任务的性能。在Qwen3-Omni中作者们使用了约6亿参数的AuT编码器作为音频编码器。3多模态输入多模态输入处理文本使用Qwen的分词器。音频重采样至16kHz转换为128通道的mel谱图再由AuT编码器处理。图像/视频采用Qwen3-VL的视觉编码器该编码器从SigLIP2-So400m初始化约5.4亿参数。注意时间对齐的多模态旋转位置嵌入 (TM-RoPE)受Qwen2.5-Omni启发作者们采用了TM-RoPE它将传统RoPE分解为时间、高度、宽度三个维度。4语音生成Qwen3-Omni的Talker模块直接在RVQ残差矢量量化token上操作。它采用一种层级预测方案主干网络接收当前帧的聚合codebook特征并用一个线性头预测第0个codebook然后一个多令牌预测MTP 模块生成所有剩余的残差codebook。这一策略使模型能够学习声学细节的完整表示增强了声音的表现力。因此波形重建被简化为一个轻量级的因果ConvNetCode2Wav这在降低推理延迟和计算成本的同时实现了比复杂的DiT-based声码器更高的音频保真度。5为流式和并发所做的设计分块预填充 (Chunked Prefilling) 和 MoE 架构保留了Qwen2.5-Omni中的分块预填充机制音频和视觉编码器能沿时间维度输出块。Thinker和Talker异步预填充显著减少了首个token的响应时间TTFT。同时MoE架构通过减少长序列处理中的KV Cache I/O消耗有效提升了服务吞吐量和并发能力。流式多码本编解码器生成为最小化首包延迟作者们提出了一个仅依赖左侧上下文的多码本生成机制。一旦Talker生成第一个tokenMTP模块就会预测当前帧的剩余token然后这些token被一个流式的、仅关注左侧上下文的解码器解码成波形。这与Qwen2.5-Omni需要等待足够上下文才能合成的机制形成鲜明对比极大地降低了首包延迟。轻量级MTP模块和ConvNetMTP模块是一个超轻量级的定步自回归Transformer而基于ConvNet的解码器也能高效地进行批处理推理。两者都具有低计算开销和高吞吐量的特点。表1: Qwen3-Omni-30B-A3B的架构设计和端到端首包延迟表2: Qwen3-Omni在不同并发下的理论首包延迟如上表所示在单并发的冷启动设置下Qwen3-Omni的端到端首包延迟理论上可低至234毫秒音频/ 547毫秒视频。得益于MoE架构和轻量化设计即使在多并发场景下其延迟和实时率RTF也保持在可接受的范围内确保了流畅的流式音频响应体验。2、模型训练1预训练Qwen3-Omni在一个包含多种语言和模态图文、视频文、音文、音视频、音视频文、纯文本的多样化数据集上进行预训练。其预训练分为三个阶段编码器对齐阶段S1在初始预训练阶段Qwen3-Omni的LLM组件使用Qwen3的参数进行初始化视觉编码器采用自 Qwen3-VL音频编码器使用 AuT 初始化。两个编码器在固定的 LLM 上分别进行训练最初都专注于训练各自的适配器adapters然后再训练编码器本身。我们摒弃了 Bai et al. (2025) 和 Xu et al. (2025) 中使用的在LLM冻结时联合训练编码器和适配器的阶段因为这种方法可能导致编码器去补偿冻结 LLM 的局限性从而导致感知能力下降。通用阶段 (S2)解冻所有参数在一个约2万亿token的大规模多模态数据集上进行训练以增强模型的综合理解和交互能力。长上下文阶段 (S3)将最大token长度从8192增加到32768并增加长音频和长视频在训练数据中的比例显著提升了模型对长序列数据的理解能力。2后训练1Thinker模块Thinker的后训练同样分为三阶段轻量级SFT通过有针对性的指令微调弥合预训练表示与下游任务之间的差距。强弱模型蒸馏离策略蒸馏Off-policy Distillation首先进行离策略蒸馏让学生模型学习教师模型如Qwen3-32B或Qwen3-235B的响应以获得基础推理能力在线策略蒸馏On-policy Distillation然后进行在策略蒸馏让学生模型自己生成响应再通过最小化与教师模型logits的KL散度进行微调。GSPO利用GSPOGroup Sequence Policy Optimization全面增强模型在文本、图像、视频和音频等所有模态上的能力和稳定性。反馈信号来自两种奖励基于规则的奖励用于数学、代码等可验证的多模态任务。基于模型的奖励对于缺乏客观评价指标的任务采用“LLM即评委”的协议使用Qwen3和Qwen2.5-VL作为自动评估器。2TalkerTalker的后训练分为四阶段以实现与文本同步的语音响应生成。所有训练数据均采用ChatML格式以确保与思考者Thinker的一致性。多模态到语音的映射利用数亿条带多模态上下文的语音数据进行训练建立从多模态表示到语音的映射。持续预训练 (CPT)用高质量数据进行CPT以减轻第一阶段噪声数据带来的幻觉并提升长上下文处理能力。直接偏好优化 (DPO)构建多语言语音样本的偏好对使用DPO优化模型以提高多语言语音生成的稳定性和泛化能力。说话人微调在基础模型上进行特定说话人的微调以实现特定音色的采纳并提升语音的自然度、表现力和可控性。3字幕生成器 (Captioner)为了弥补当前多模态研究中对音频字幕生成的忽视作者们在Qwen3-Omni-30B-A3B的基础上微调得到了 Qwen3-Omni-30B-A3B-Captioner。该模型能为任意音频输入生成详细、低幻觉的字幕为多模态感知研究提供了重要的基础工具。3、模型评估音视频能力强劲在 36 项音视频基准测试中32 项取得开源模型最佳效果22项达到 SOTA 水平。性能表现超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。文本能力稳定在 MMLU-Redux、AIME25 等文本评测中Qwen3-Omni-30B-A3B 得分分别为 85.9 和 64.0与参数量更大的单模态模型 Qwen3-235B-A22B89.2, 24.7表现接近。图像能力扎实在 MMMU 和 CountBench 图像理解评测中得分 69.1 和 90.0与专用视觉模型 Qwen2.5-VL-72B 表现相当。1X→文本 评估文本→文本在通用任务、推理、代码、对齐、智能体和多语言等六大类任务上进行评估。如表4和表5所示Qwen3-Omni-30B-A3B-Instruct在GPQA、AIME25等多个基准上超越了更大规模的开源模型和强大的闭源模型GPT-4o。其Thinking版本也表现出与Gemini-2.5-Flash-Thinking相当的性能。[表4: Qwen3-Omni-Instruct与其他非推理基线的文本→文本性能][表5: Qwen3-Omni-Thinking与其他推理基线的文本→文本性能]音频→文本在ASR、S2TT、语音聊天、音频推理和音乐理解等任务上进行评估。如表6、7、8所示Qwen3-OmnOmni在这些任务上取得了惊人的成绩在多个基准上刷新了SOTA记录超越了包括Gemini-2.5-Pro、GPT-4o-Audio在内的众多专业或通用模型。这充分展示了其在通用音频理解和推理方面的强大能力。[表6: 音频→文本任务的转录性能对比][表7: 音频→文本任务的语音交互和音频推理性能对比][表8: 音频→文本任务的音乐理解性能对比]视觉→文本在通用视觉问答、数学/STEM、文档理解、计数和视频理解等任务上进行评估。如表9和表10所示Qwen3-Omni-Instruct表现出与更大规模的Qwen2.5-VL-72B相当的性能并在数学/STEM相关任务上优于GPT-4o等模型。其Thinking版本在多个基准上也取得了显著进步。[表9: Qwen3-Omni-Instruct与其他非推理基线的视觉→文本性能]音视频→文本在WorldSense、DailyOmni和VideoHolmes等基准上进行评估。如表11和表12所示Qwen3-Omni在这些需要整合音视频信息的任务上取得了SOTA性能展示了其在基础多模态整合和复杂推理方面的巨大潜力。[表11: Qwen3-Omni-Instruct的音视频→文本性能]2X→语音 评估作者们在零样本语音生成、多语言语音生成和跨语言语音生成三个方面评估了Qwen3-Omni的语音生成能力。零样本语音生成如表13所示Qwen3-Omni表现出极具竞争力的性能在经过RL优化后其生成稳定性和内容一致性达到了最佳水平。[表13: Seed-TTS测试集上的零样本语音生成]多语言语音生成如表14所示Qwen3-Omni在中文、英文、法文等语言上显著超越了MiniMax和ElevenLabs并在其他语言上表现相当。[表14: MiniMax多语言测试集上的多语言语音生成]跨语言语音生成如表15所示Qwen3-Omni在任意语言到英语/韩语的音色克隆上优于CosyVoice3展示了其在不同语言环境下的强大适应性。[表15: CosyVoice3跨语言测试集上的跨语言语音生成]3跨模态无损性能评估为了严格验证“性能无损”这一核心论点作者们设计了一个受控对比实验。他们训练了三个参数量匹配的模型纯文本模型、纯视觉模型和多模态的Omni模型。Omni模型在与单模态模型完全相同的文本和视觉语料上训练唯一的区别是额外加入了音频和音视频数据。[表16: Qwen系列30B-A3B模型的同尺寸同期性能对比]如上表所示实验结果有力地证明了1、在预训练早期就整合多模态数据可以在不牺牲语言能力的情况下将语言模型与视觉或音频共同训练。2、文本模态的加入显著提升了视觉和音频的性能。3、音频数据的加入也能提升模型在MMMU和OCR相关任务上的视觉性能。这表明联合多模态训练不仅能实现性能对等甚至还能在不同模态间产生相互促进的增益效应。4、相关实践1模型微调训练ms-swift main分支已支持Qwen/Qwen3-Omni-30B-A3B-Instruct系列Qwen/Qwen3-VL-235B-A22B-Instruct系列模型的Transformers Megatron后端的训练。Qwen3-Omni:最佳实践https://github.com/modelscope/ms-swift/pull/5900训练脚本https://github.com/modelscope/ms-swift/blob/main/examples/megatron/multimodal/omni/moe.shQwen3-VL:最佳实践https://github.com/modelscope/ms-swift/pull/5805训练脚本https://github.com/modelscope/ms-swift/tree/main/examples/models/qwen3_vl2模型推理进行模型推理importsoundfileassffromtransformersimportQwen3OmniMoeForConditionalGeneration,Qwen3OmniMoeProcessorfromqwen_omni_utilsimportprocess_mm_info MODEL_PATHQwen/Qwen3-Omni-30B-A3B-Instruct# MODEL_PATH Qwen/Qwen3-Omni-30B-A3B-Thinking# MODEL_PATH /root/paddlejob/workspace/env_run/model/Qwen_moe/Qwen3-Omni-30B-A3B-InstructmodelQwen3OmniMoeForConditionalGeneration.from_pretrained(MODEL_PATH,dtypeauto,device_mapauto,attn_implementationflash_attention_2,)processorQwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)conversation[{role:user,content:[{type:image,image:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-Omni/demo/cars.jpg},{type:audio,audio:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-Omni/demo/cough.wav},{type:text,text:What can you see and hear? Answer in one short sentence.}],},]# Set whether to use audio in videoUSE_AUDIO_IN_VIDEOTrue# Preparation for inferencetextprocessor.apply_chat_template(conversation,add_generation_promptTrue,tokenizeFalse)audios,images,videosprocess_mm_info(conversation,use_audio_in_videoUSE_AUDIO_IN_VIDEO)inputsprocessor(texttext,audioaudios,imagesimages,videosvideos,return_tensorspt,paddingTrue,use_audio_in_videoUSE_AUDIO_IN_VIDEO)inputsinputs.to(model.device).to(model.dtype)# Inference: Generation of the output text and audiotext_ids,audiomodel.generate(**inputs,speakerEthan,thinker_return_dict_in_generateTrue,use_audio_in_videoUSE_AUDIO_IN_VIDEO)textprocessor.batch_decode(text_ids.sequences[:,inputs[input_ids].shape[1]:],skip_special_tokensTrue,clean_up_tokenization_spacesFalse)print(text)ifaudioisnotNone:sf.write(output.wav,audio.reshape(-1).detach().cpu().numpy(),samplerate24000,)三、Qwen2.5-Omni系列模型Qwen2.5-Omni-7B/3B全模态模型全模态LLMQwen2.5-Omni-7B/3B全模态模型输入可以是文本、图片、语音、视频输出可以是流式的文本/语音提出了一种名为 TMRoPE时间对齐多模态 RoPE的新颖位置嵌入用于同步视频输入和音频的时间戳实时语音和视频聊天专为完全实时交互而设计的架构支持分块输入和即时输出和单模态模型作对比更强Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio并达到了与 Qwen2.5-VL-7B 相当的性能Qwen 2.5 Omni 的实时交互能力语音对话像打电话一样自然流畅视频聊天支持实时视频交互多模态理解可以同时处理视频画面和声音即时响应支持流式输出反应快速自然1、Qwen2.5-Omni-7B模型是全模态LLM输入可以是文本、图片、语音、视频输出可以是流式的文本/语音提出Thinker-Talker模型架构提出了一种名为 TMRoPE时间对齐多模态 RoPE的新颖位置嵌入用于同步视频输入和音频的时间戳实时语音和视频聊天专为完全实时交互而设计的架构支持分块输入和即时输出和单模态模型作对比更强Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio并达到了与 Qwen2.5-VL-7B 相当的性能Qwen2.5-Omni-7B是一个端到端的多模态模型可以接收文本、图像、音频和视频的输入以文本或语音作为输出参数模型结构见图2-3。HF link:https://huggingface.co/Qwen/Qwen2.5-Omni-7BPaperhttps://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdfQwen2.5-Omni提出了Thinker-Talker架构同时提出了TMRoPE时间对齐多模态 RoPE的新型位置编码用于同步视频输入的时戳与音频支持全实时交互支持分块输入和即时输出。Qwen2.5-Omni文本部分初始化采用Qwen2.5模型Vision编码器初始化采用Qwen2.5-VL部分Audio编码器初始化使用Whisper-large-v3。Qwen2.5-Omni效果很强在音频能力上优于同等规模的Qwen2-Audio在视觉能力上与Qwen2.5-VL-7B相当。注意如果需要音频输出系统提示词必须为“You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.”2、Qwen2.5-Omni-3B模型HF link: https://huggingface.co/Qwen/Qwen2.5-Omni-3BPaper: https://huggingface.co/papers/2503.202153、模型架构一、架构设计:​​​​Thinker-Talker架构:​​ Thinker负责处理和理解来自文本、音频和视频模态的输入生成高层次的表示和相应的文本。Talker则负责接收Thinker的高层次表示并以流式方式生成语音令牌。TMRoPE:​​ 提出了一种新的位置嵌入方法TMRoPE显式地结合时间信息以同步音频和视频。通过对原始旋转嵌入进行分解分别处理时间、高度和宽度信息。流式处理:​​ 采用块状流处理方法支持多模态信息的实时处理。音频和视频编码器分别采用块状注意力和闪存注意力机制以提高处理效率。​​二、生成过程:​文本生成:​​ 由Thinker直接生成文本采用自回归采样方法基于词汇表上的概率分布生成文本。语音生成:​​ Talker接收Thinker的高层次表示和文本令牌的嵌入自回归地生成音频令牌。引入滑动窗口块注意力机制限制当前令牌的上下文访问范围增强流式输出的质量。​​三、训练过程:​​预训练:​​ 分为三个阶段第一阶段锁定LLM参数训练视觉和音频编码器第二阶段解冻所有参数进行更广泛的多模态数据训练第三阶段使用长序列数据进行训练增强模型对复杂长序列数据的理解能力。后训练:​​ 包括指令跟随数据训练、DPO优化和多说话人指令微调提升语音生成的稳定性和自然性。4、模型效果Reference[1] https://github.com/QwenLM/Qwen2.5-Omni[2] 性能无损全能合一Qwen3-Omni技术报告深度解读[3] https://github.com/Dao-AILab/flash-attention[4] ImportError: /lib/x86_64-linux-gnu/libc.so.6: version GLIBC_2.32‘ not found[5] https://stackoverflow.com/questions/71940179/error-lib-x86-64-linux-gnu-libc-so-6-version-glibc-2-34-not-found[6] https://github.com/modular/modular/issues/3684#issuecomment-2480409734[7] https://github.com/Dao-AILab/flash-attention/releases[8] https://modelscope.cn/models/Qwen/Qwen3-Omni-30B-A3B-Instruct[9] Qwen3-Omni-30B-A3B-Captionerhttps://github.com/QwenLM/Qwen3-Omni/blob/main/cookbooks/omni_captioner.ipynb[10] moe训练脚本https://github.com/modelscope/ms-swift/blob/main/examples/megatron/moe/qwen3_moe.sh[11] Qwen TeamQwen3-Omni TechnicalReport.https://arxiv.org/pdf/2509.17765[12] 通义千问https://modelscope.cn/models/Qwen/Qwen3-Omni-30B-A3B-Instruct[13] Qwenhttps://qwen.ai/blog?idfdfbaf2907a36b7659a470c77fb135e381302028fromresearch.research-list

更多文章