阿里巴巴Qwen团队打造的"全感官"AI助手，究竟有多强？

当前位置：首页>江津>阿里巴巴Qwen团队打造的"全感官"AI助手，究竟有多强？

游客发表

阿里巴巴Qwen团队打造的"全感官"AI助手，究竟有多强？

发帖时间：2026-04-28 04:13:34

[{$vo.typename}]来源：军法从事网

这项由阿里巴巴Qwen团队开发的研究成果发表于2026年4月，论文编号为arXiv:2604.15804v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

人类感知世界的方式从来都不是单一的。当你和朋友聊天时，你同时在听他说话、看他的表情、理解文字信息，然后开口回应——这种"多通道"的信息处理能力，对人类而言再自然不过。然而对AI来说，这一直是一道难以跨越的门槛。大多数AI系统要么只能看图，要么只能听声音，要么只能读文字，真正能同时驾驭所有这些的系统凤毛麟角。

Qwen3.5-Omni，正是阿里巴巴为填补这道鸿沟而打造的"全感官"AI模型。它不仅能同时理解文字、图片、音频和视频，还能实时用语音回应你——换句话说，它可以真正和你"说话"，而不只是打字回复。这个模型分为两个版本：能力更强的Plus版本和速度更快的Flash版本，两者都支持长达256k个词元（token）的超长上下文理解，相当于可以一口气读完一本厚厚的书。

在数据规模上，这个模型的训练量令人咋舌：超过1亿小时的音视频内容，外加海量的图文配对数据。靠着这些"营养"，Qwen3.5-Omni-Plus在215个音频和音视频理解、推理与交互的子任务和基准测试中达到了当前最优水平，在多项关键音频任务上甚至超过了谷歌的Gemini-3.1 Pro，在综合音视频理解方面也与之并驾齐驱。

要理解这个模型的意义，可以把它类比成一位"全能翻译官"。以前的AI就像只懂某一种语言的翻译，你说中文他能翻英文，但你同时播放一段视频、用英文提问，让他一边看一边听一边回答，他就手忙脚乱了。Qwen3.5-Omni则像是一位天赋异禀的翻译官，耳朵、眼睛、大脑同时开动，还能用流利的语言当场回答你——这种能力，在AI领域被称为"全模态"（Omni-modal）能力。

一、"思考者"与"说话者"：一个AI里住着两个角色

要真正理解Qwen3.5-Omni的工作方式，需要先了解它的核心设计思路。研究团队给这个模型设计了一套"双角色"架构，称为"Thinker-Talker"结构，直译过来就是"思考者-说话者"架构。

"思考者"（Thinker）负责的是大脑层面的工作：它接收所有输入——文字、图片、音频、视频——然后进行理解、分析和推理，最终生成文字形式的回答。"说话者"（Talker）则是嘴巴的角色：它接收"思考者"输出的文字和内部高层次信息，把这些内容转化为流畅自然的语音输出。两者分工明确，但又紧密协作。

这种设计的好处在哪里？举个例子，当你问AI"视频里那个人说的是什么？"时，"思考者"负责理解视频画面、听懂视频里的声音、综合分析，给出文字答案；"说话者"则立刻把这个文字答案转化为语音，让你听到回复，而不需要你盯着屏幕等文字出现。整个过程快速流畅，就像和真人对话一样。

这套架构并非全新发明——它最初在上一代模型Qwen2.5-Omni中提出，之后在Qwen3-Omni中进一步演进。Qwen3.5-Omni在此基础上进行了五项关键升级。第一，"思考者"和"说话者"都采用了一种叫做"混合注意力混合专家（Hybrid Attention MoE）"的架构，这让模型在处理超长内容时效率大幅提升。第二，上下文长度从之前的版本扩展到了256k词元，支持超过10小时的音频理解，以及每秒1帧的720P画质视频长达400秒。第三，语音生成采用了多码本编解码器表示，能在单帧内立即合成语音。第四，引入了一种全新技术ARIA来解决流式语音生成的稳定性问题。第五，多语言支持大幅扩展，语音识别覆盖113种语言和方言，语音生成支持36种语言。

二、听懂世界的"耳朵"：音频变换器AuT

在深入了解这个模型如何处理声音之前，先考虑这样一个场景：你用手机录了一段视频，里面既有环境噪音、又有人说话声、背景音乐也隐约可闻。要让AI正确理解这段视频里"发生了什么"，它首先得有一双足够灵敏的"耳朵"。

Qwen3.5-Omni的"耳朵"叫做音频变换器，简称AuT。这个组件从头开始训练——意思是研究团队没有借用现成的音频处理工具，而是从零打造了一套专门的音频理解系统。训练这双"耳朵"用掉了4000万小时的音频-文字配对数据，这些数据由阿里巴巴自研的Qwen3-ASR系统生成。

AuT的工作原理可以用一个日常场景来理解：它就像一位速记员，把连续的声音波形先转换成一种叫做"滤波器组特征"的中间表示（可以理解为声音的"频谱图"），然后通过4个卷积模块将信息压缩成更紧凑的格式，再交给自注意力层进行深度分析，最终以每秒6.25个词元的速率输出音频特征。每个输出词元大约对应原始音频中约160毫秒的内容。

与上一代相比，Qwen3.5-Omni的AuT在多语言数据上的训练比例大幅提升，覆盖了超过20种语言，中文、英文和多语言数据的比例约为3.5比3.5比3。此外，训练时还采用了动态注意力窗口大小机制，确保模型在实时语音流和离线音频理解两种场景下都能表现均衡。

三、"理解大脑"如何同时消化多种信息

现在来谈谈"思考者"（Thinker）这个核心组件。它的任务是把来自不同渠道的信息统一起来，形成完整的理解。

文字输入方面，Qwen3.5-Omni使用了Qwen3.5的分词器，采用字节级别的字节对编码方式，词汇表大小从之前的15万个词元扩展到了25万个，对大多数语言的编解码效率提升了10%到60%。通俗地说，这就像升级了一本更厚的词典，让模型能用更少的"单词"表达同样的意思，处理速度更快。

图像和视频的处理则采用了来自Qwen3.5的视觉编码器，这个编码器在图文混合数据上训练，能同时处理静态图片和动态视频。为了在保留尽量多视频信息的同时与音频流保持同步，模型会以动态帧率对视频进行采样。

在时间感知方面，模型采用了一种叫做TM-RoPE的位置编码技术来实现音视频同步感知，但相比上一代做了重要改进。上一代直接用绝对时间戳作为位置ID，导致长视频中位置索引过于稀疏，影响模型对长时间范围内信息关联的理解，且需要大量均匀分布的不同帧率训练数据。新版本的解决方案更优雅：在每个视频或音频片段前面直接插入以秒为单位的文字时间戳，让模型像读文字一样自然地学习时间信息。音频序列中还会在随机间隔处插入时间戳，进一步增强跨模态的时间对齐能力。

在多模态同时出现时，系统会给音频每160毫秒分配一个时间ID，视频则以帧为单位、根据实际时间戳动态调整时间ID，确保每个时间ID统一对应160毫秒的内容。不同模态之间的位置编号保持连续，每种模态的编号从上一种模态最大位置ID加1开始，防止位置冲突。这种设计让模型可以灵活支持任意时长的流式输入。

四、让语音"说得自然"：ARIA技术与多码本语音合成

如果说"思考者"是大脑，"说话者"（Talker）就是嘴巴。嘴巴说话的难题在于：如何让输出的语音既快速、又自然、又稳定？

Qwen3.5-Omni的"说话者"直接操作一种叫做RVQ（残差向量量化）词元的语音表示格式，由专门的音频分词器产生。为了建模语音的细节层次，它采用了多词元预测（MTP）模块，配合因果卷积网络进行波形重建，实现高保真度的语音合成。在多轮对话中，"说话者"能接收"思考者"提供的丰富上下文信息——包括历史文字词元、多模态表示和当前轮次的流式文字——动态调整韵律、音量和情感表达，让语音听起来更像是在自然对话中产生的，而非机械朗读。

然而，流式语音生成存在一个棘手问题：文字分词器和语音分词器的"编码效率"不一样。打个比方，同样是"说一句话"，文字分词器可能只需要10个词元，而语音分词器可能需要50个词元；但如果是另一种语言或另一种说法，这个比例可能完全不同。如果固定按照某个比例交替生成文字词元和语音词元，就容易出现跳字、发音错误、数字念错等问题，就像一台乐器按固定节拍演奏，但曲谱的节奏忽快忽慢，必然会乱掉。

ARIA（自适应速率交织对齐，Adaptive Rate Interleave Alignment）正是为解决这个问题而生。它的核心思路是：不再预先固定文字词元和语音词元的交替比例，而是施加一个自适应的速率约束——在已生成序列的任何前缀中，累计的语音-文字词元比例不能超过对应条目级别的全局比例。这个约束简单而有效：它让文字和语音的生成始终保持弹性同步，自然适应不同语言的编码效率差异，同时支持任意的文字前缀后接连贯的语音词元续写。ARIA还把原来"说话者"的双通道生成模式（文字和语音分别走两条轨道）统一成了单通道交织生成，减少了通道间的同步开销，使流式交互更流畅、更高效。

"说话者"还有另一项重要设计：专属系统提示词。研究团队为"说话者"引入了一个专门描述目标声音特征的系统提示，既可以是文字描述，也可以包含语音片段，这使得零样本声音克隆（用户提供一段自己的声音样本，模型就能模仿这个声线说话）和可控语音生成（控制音量、语速、情感等）成为可能，比传统的说话人嵌入向量能携带更丰富的声学控制信息。

五、流式交互与并发：让对话快到感觉不出延迟

对于一个语音对话AI来说，响应速度至关重要。假如你说完一句话，AI停顿了两三秒才回答，对话感觉就完全破碎了。为此，Qwen3.5-Omni在架构和算法层面做了大量优化。

模型整体骨干采用了混合MoE（混合专家）架构，其中包含门控Delta网络（GDN）模块，这个模块在处理长音视频序列时能显著降低KV缓存的输入输出开销，提升生成吞吐量，支持更高的并发服务能力。此外，音频和视觉编码器都支持沿时间维度输出数据块，配合分块预填充机制，大幅降低了"思考者"和"说话者"的首词元时间（即从收到输入到输出第一个词元的延迟）。

从实测数据来看，在单并发场景下，Qwen3.5-Omni-Plus的端到端首包延迟（从输入到第一个可播放音频包）在音频输入时为435毫秒，视频输入时为651毫秒；更轻量的Flash版本则分别低至235毫秒和426毫秒。随着并发数增加到4路或8路，延迟虽有所增加，但整体保持在可接受的范围内，解码效率基本稳定。生成实时因子（Generation RTF，即每生成1秒语音所需的处理时间）始终低于0.35，说明系统有充足的余量支撑流畅的流式语音输出。

六、三阶段预训练：从零到"博学多才"

要让一个模型真正"博学多才"，训练数据的组织方式和训练策略同样至关重要。Qwen3.5-Omni的预训练分为三个阶段，就像一个孩子的成长历程：先学基础，再拓宽视野，最后挑战"马拉松阅读"。

第一阶段是编码器对齐阶段。此时，模型的语言大脑部分用Qwen3.5的参数初始化，视觉编码器来自Qwen3.5，音频编码器用AuT初始化。这个阶段先锁定语言大脑，专注训练视觉和音频编码器，让它们先学会把各自领域的信息转化为语言大脑能理解的形式，就像先教两位新翻译员学会把外语翻译成普通话，再让他们和大脑对接。

第二阶段是通用阶段。解冻所有参数，用约4万亿词元的大规模多模态数据集训练，其中文字约占0.92万亿词元，音频约1.99万亿词元，图像约0.95万亿词元，视频约0.14万亿词元，音视频结合约0.29万亿词元。序列长度为32768词元。这个阶段让模型真正学会融合多种信息、理解跨模态内容。

第三阶段是长上下文阶段。将最大序列长度从32768词元扩展到262144词元，并提高训练数据中长音频和长视频的比例。实验结果显示，这些调整让模型在理解长序列数据方面有了显著提升，就像一个原本只能背几页书的学生，经过专项训练后能一口气读完一整本书并准确复述内容。

七、三阶段后训练：从"会做"到"做得好"

预训练让模型获得了广博的知识，后训练则让它学会在实际使用中表现出色。"思考者"的后训练分三个阶段进行。

第一阶段是专家蒸馏。研究团队先独立训练了一批领域专家模型，涵盖文字相关任务（如智能代理、编程、基础推理）以及视觉和音频专项任务，这些专家模型都基于预训练的Qwen3.5基础检查点微调而来。随后，用这些专家模型生成领域专属数据，将各领域的专项能力"蒸馏"进统一模型——就像把多位专家的经验总结成一份手册，让全科医生也能掌握各科要点。

第二阶段是在策略蒸馏。经过第一阶段后，模型在基于文字输入的任务上表现不错，但基于音频输入的任务响应质量与文字输入相比仍有差距。原因很直观：音频理解比文字理解难，信息损耗更多。解决思路是：对每个音频-文字配对问题，先用文字条件生成一个高质量答案，再把这个答案作为音频条件下的蒸馏目标，让模型逐步把"用文字思考"的能力迁移到"用音频思考"的场景中。

第三阶段是交互对齐强化学习。前两个阶段解决了能力问题，但在实际多轮对话中，研究团队发现模型存在无意间切换语言、角色不一致、在长对话中指令遵循能力下降等问题。为此，他们引入了交互对齐强化学习，构建多轮交互轨迹，并围绕用户体验目标设计奖励信号，让模型专门学习在长期对话中保持稳定、一致、听话的行为。

"说话者"的后训练则分四个阶段：通用阶段（在超过2000万小时的多语言语音数据上训练，引入指令遵循等多样化任务）、长上下文阶段（通过数据质量分层和精选子集的持续预训练，提升语音自然度和质量，上下文长度扩展到6.4万词元）、强化学习阶段（通过直接偏好优化即DPO构建多语言偏好对，并结合规则奖励和GSPO方法进一步提升能力和训练稳定性），以及说话人微调阶段（在基础模型上进行轻量级说话人微调，让模型能准确捕捉目标说话人特征，提升语音的自然度、表达力和可控性）。

八、多模态理解能力实测：成绩单逐项解读

经过如此大规模的训练，Qwen3.5-Omni在实际测试中表现如何？研究团队对Flash和Plus两个版本进行了全面评测，覆盖文字、音频、视觉和音视频四大维度。

在文字理解方面，Qwen3.5-Omni-Plus的表现与同规模的纯文字模型Qwen3.5-Plus-NoThinking基本持平。在通用知识测试MMLU-Pro上，Plus版本得分85.9，文字版本为86.8；在指令遵循测试IFEval上，两者均达到89.7。在推理任务HMMT Nov 25上，Plus版本得分84.4，接近文字版本的86.2。这说明加入多模态能力并没有拖累模型的文字处理水平——两者兼顾到了这个程度，在技术上并不容易。

在音频理解方面，Qwen3.5-Omni-Plus在音频综合理解测试MMAU上得分82.2，超过Gemini-3.1 Pro的81.1；在多模态音频推理测试MMSU上得分82.8，同样高于Gemini-3.1 Pro的81.3；在音乐结构测试RUL-MuchoMusic上得分72.4，大幅领先Gemini-3.1 Pro的59.6；在歌曲形态识别测试SongFormBench上也全面领先。在端到端语音对话测试VoiceBench上，Plus版本得分93.1，显著高于Gemini-3.1 Pro的88.9。在多语言语音识别方面，Qwen3.5-Omni-Plus在FLEURS测试集上的平均词错误率（WER）为6.6%，低于Gemini-3.1 Pro的7.3%和GPT-4o Transcribe的10.4%；在中文、粤语、台湾普通话等测试上，Qwen3.5-Omni-Plus分别达到3.46%、1.95%、2.27%的词错误率，远低于竞品。

在视觉理解方面，Qwen3.5-Omni-Plus同样表现出色。在数学推理测试MathVista上得分86.1，接近文字版本的86.9；在通用视觉问答RealWorldQA上得分84.1，超过文字版本的79.1；在视频理解测试Video-MME上得分81.9，高于文字版本的81.0；在长视频理解测试MLVU上得分86.8，同样超越文字版本的85.1。在医疗视觉问答测试SLAKE上，Plus版本得分84.7，高于文字版本的82.8。

在音视频联合理解方面，Qwen3.5-Omni-Plus在DailyOmni测试上得分84.6，超过Gemini-3.1 Pro的82.7；在Qualcomm IVD真实音视频交互场景评测上得分68.5，高于Gemini-3.1 Pro的66.2；在音视频字幕测试OmniCloze上得分64.8，优于Gemini-3.1 Pro的57.2。在工具使用测试OmniGAIA上，Plus版本达到57.2%，而Flash版本为33.9%，这也体现了两个版本在复杂推理任务上的能力差异。

九、语音生成能力：从零样本克隆到跨语言迁移

语音生成是Qwen3.5-Omni的另一个重要能力维度，研究团队从四个角度进行了评测。

在零样本语音生成方面，研究团队在SEED-TTS基准上进行了测试，用词错误率（WER）衡量生成语音的内容准确性。Qwen3.5-Omni-Plus在中文测试集上的WER为0.99%，在英文测试集上为1.26%，英文部分达到了所有测试模型中的最优成绩。相比之下，上一代的Qwen2.5-Omni-7B为1.42%和2.33%，Qwen3-Omni-30B-A3B为1.07%和1.39%，CosyVoice 3为0.71%和1.45%，MiniMax-Speech为0.83%和1.65%。

在多语言语音生成方面，Qwen3.5-Omni支持29种语言的语音输出（另有7种中国方言）。与MiniMax-Speech和ElevenLabs两个商业系统相比，Qwen3.5-Omni-Plus在评测的29种语言中，有22种语言的词错误率最低，在大多数情况下以明显优势领先。在说话人相似度方面，Qwen3.5-Omni也在大多数语言上取得最高的余弦相似度分数，在中文上达到0.800、英文0.833、芬兰语0.859、波兰语0.839，全面超越竞品。

在跨语言语音克隆方面，模型需要在保持说话人音色的同时，用不同的目标语言生成语音。在12个测试语言对方向中，Qwen3.5-Omni-Plus在10个方向上达到最优。以中文到韩语的方向为例，其混合错误率（英文用词错误率，其他语言用字符错误率）为4.03%，相比CosyVoice3的14.4%降低了约72%。在常用的中文到英文方向上，Qwen3.5-Omni-Plus的错误率为2.18%，同样优于竞品。

在自定义声音语音生成方面，研究团队在29种语言上与ElevenLabs、Gemini-2.5 Pro、GPT-Audio和MiniMax四个商业系统进行了对比。尽管Qwen3.5-Omni仅在单语言数据上进行了说话人微调，它仍然展示出强大的跨语言泛化能力，能把目标说话人的音色特征迁移到全部29种评测语言中。在10种语言上取得最低词错误率，在日语（3.306%）、韩语（1.309%）等挑战性语言上表现尤为突出。

十、三大新能力：字幕生成、实时交互与多模态编程

除了上述基础能力的全面提升，Qwen3.5-Omni还解锁了三项此前不存在于同类模型中的新能力。

第一项是可控音视频字幕生成。模型能够生成可控的、详细的、结构化的字幕，以及剧本级别的精细描述，包括自动场景分割、时间戳标注，以及对画面中角色及其与音频关系的详细描述。这种能力对影视字幕自动生成、内容审核、无障碍服务等场景有重要价值。

第二项是全方位实时交互。这包括通过原生轮换意图识别实现的语义级别的打断（模型能理解你是真的要打断它，还是只是发出了一个没有实质含义的声音），以及端到端的语音控制（直接用声音控制音量、语速和情感），还有通过用户提供样本实现的声音克隆。

第三项是原生多模态智能体行为，其中最引人注目的是一种研究团队称为"音视频氛围编程"（Audio-Visual Vibe Coding）的新兴能力。这是一种在全模态模型中自然涌现出来的能力：模型可以直接根据音视频指令生成可执行的代码，用来响应实时查询，无需外部编排。换句话说，你可以对着摄像头说"帮我写一个处理这个视频的脚本"，模型不仅能理解你的视频内容，还能直接生成对应的代码——这种能力并非研究团队预先设计的，而是在大规模训练后自然出现的，因此被称为"涌现能力"。此外，模型还支持自主调用WebSearch和复杂FunctionCall。

说到底，Qwen3.5-Omni代表的是AI从"工具"向"伙伴"演进的一次重要尝试。以往的AI要么只会看、要么只会听、要么只会说，而这个模型试图把所有这些能力整合成一个真正完整的"感官系统"。在实测数据上，它在大量音频和音视频基准上超过了谷歌Gemini-3.1 Pro，同时维持了与同规模纯文字模型相当的文字处理水平，没有因为多了眼睛和耳朵而变得"脑子不好使"。

当然，没有哪项技术是完美的。这个模型在某些具体任务上仍与最强的专项模型存在差距，比如在xx2en翻译的整体平均分上，Qwen3.5-Omni-Plus为37.0，略低于Gemini-3.1 Pro的37.4。在某些语言的语音识别上，如北印度语，Gemini-3.1 Pro的4.5%低于Qwen3.5-Omni-Plus的9.7%，说明在特定语言上仍有提升空间。

更有意思的问题或许在于：当AI真正拥有完整的感官系统之后，它能做什么？"音视频氛围编程"这个涌现能力给了我们一个有趣的提示——随着能力的积累，模型会以我们意料之外的方式展现新本领。这也意味着，我们现在看到的，可能只是这类全感官AI能做到的事情的冰山一角。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2604.15804v1查阅完整论文。

Q&A

Q1：Qwen3.5-Omni支持哪些语言的语音识别和语音生成？

A：Qwen3.5-Omni在语音识别方面支持113种语言和方言，包括74种语言和39种中国方言；语音生成方面支持36种语言，包含29种语言和7种中国方言，如四川话、北京话、粤语、闽南语等。

Q2：ARIA技术解决了什么问题？

A：ARIA（自适应速率交织对齐）解决的是流式语音生成中文字词元和语音词元编码效率不匹配的问题。不同语言或不同表达方式下，生成同一内容所需的文字词元数和语音词元数比例差异很大，固定比例交替生成会导致跳字、发音错误等问题。ARIA通过自适应速率约束动态对齐两者，显著提升了语音生成的稳定性和自然度。

Q3：Qwen3.5-Omni-Plus和Qwen3.5-Omni-Flash有什么区别？

A：两者都是Qwen3.5-Omni的正式版本，Plus版本能力更强，在各项基准测试中表现更好，首包延迟约435毫秒（音频输入）；Flash版本更轻量快速，首包延迟约235毫秒（音频输入），在资源受限或对速度要求更高的场景中更适用。

{loop type="link" row=1 }{$vo.title}