全模态大模型
多模态大模型专题见站内:多模态大模型案例
阿里
【2025-3-27】Qwen2.5-Omni
【2025-3-27】阿里巴巴发布 Qwen2.5-Omni,全球首个端到端全模态大模型,为多模态信息流实时交互提供了新技术框架。
Qwen2.5-Omni 整合了文本、图像、音频和视频的跨模态理解能力,实现流式文本与自然语音的双向同步生成。
Qwen2.5-Omni 在保持全能的同时,并没有牺牲在各个垂直领域的能力
资料:
- 体验 Qwen Chat 新功能
- Qwen2.5-Omni技术报告
- 代码 Code: Qwen2.5-Omni
- 中文介绍: Qwen2.5-Omni
- 视频介绍: Video
特点
特点
- Omni 和 架构:Thinker-Talker 架构,端到端的多模态模型,感知不同的模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。提出了一种名为
TMRoPE
(Time-aligned Multimodal RoPE) 的新型位置嵌入,以将视频输入的时间戳与音频同步。 - 实时语音和视频聊天 :专为完全实时交互而设计的架构,支持分块输入和即时输出。
- 自然而稳健的语音生成 :超越许多现有的流媒体和非流媒体替代方案,在语音生成方面表现出卓越的稳健性和自然性。
- 跨模态的强劲性能 :与类似大小的单模态模型进行基准测试时,在所有模态中都表现出卓越的性能。
- Qwen2.5-Omni 在音频功能上优于同等尺寸的 Qwen2-Audio,并实现了与 Qwen2.5-VL-7B 相当的性能。
- 出色的端到端语音教学: Qwen2.5-Omni 在端到端语音教学跟踪方面的性能可与文本输入的有效性相媲美,MMLU 和 GSM8K 等基准测试证明了这一点。
原理
关键技术:
- 1)采用分块处理策略解耦长序列多模态数据,由多模态编码器负责感知、语言模型承担序列建模,通过共享注意力机制强化模态融合;
- 2)提出时间对齐的位置编码方法TMRoPE,通过音视频交错排列实现时间戳同步;
- 3)首创
Thinker-Talker
架构,分离文本生成(Thinker语言模型)与语音合成(基于隐藏表征的双轨自回归Talker模型),避免模态间干扰; - 4)引入滑动窗口DiT解码器降低音频流初始延迟。
效果分析:
- Omni-Bench 等多模态基准上达到SOTA,语音指令跟随能力与纯文本输入(MMLU/GSM8K)表现相当,流式语音生成在鲁棒性和自然度上超越主流流式/非流式方案。
「Thinker-Talker」(思考者-说话者) 架构。这个设计非常巧妙,让模型能 同时思考和说话:
Thinker
(思考者): 扮演大脑的角色。它负责处理来自文本、音频、视频等多种模态的输入,通过专门的音视频编码器提取信息,再利用一个 Transformer 解码器进行理解和处理,最终生成高层语义表示和相应的文本内容Talker
(说话者): 担当嘴巴的功能。它以流式(streaming)方式接收 Thinker 生成的高层表示和文本,并采用一种双轨自回归 Transformer 解码器架构,流畅地合成并输出离散的语音单元(tokens)。
关键点: Talker 并非独立工作,直接获取 Thinker 产生的高维表示,并且 共享 Thinker 全部历史上下文信息。这使得 Thinker 和 Talker 构成了一个紧密协作的单一整体模型,可以进行端到端的训练和推理。这种设计是实现低延迟、高流畅度语音交互的核心
Qwen2.5-Omni-7B
Qwen2.5-Omni-7B 模型是 Omni(全能)模型。
- 一个模型能同时理解 文本、音频、图像、视频 多种输入,并且能输出 文本和音频
Qwen2.5-Omni-3B
全模态 Qwen2.5-Omni-7B 模型推出后,开发者反馈更小尺寸的Qwen2.5-Omni,以便更方便地适配
2025年4月30日,开源 Qwen2.5-Omni-3B 版本,较之前 7B 相比,代码运行时的推理时间减少,响应开发者轻量级GPU适配需求的新模型。
- 🔹 与Qwen2.5-Omni-7B相比,3B版本在长上下文序列处理(约25k tokens)中显存消耗减少超50% 🚀,并可在普通24GB的消费级GPU上支持长达30秒的音视频交互 。
- 🔹 3B版本模型保留7B模型90%以上的多模态理解能力 ,语音输出自然度与稳定性与7B版本性能一致 💪🏻。
新的Omni模型已在魔搭社区和HuggingFace上开源
效果
Qwen2.5-Omni全面评估:
- 跨模态能力 SOTA: 在需要整合多种模态信息的任务上(如 OmniBench 基准测试),Qwen2.5-Omni 达到了当前最佳水平(State-of-the-Art)
- 单模态能力不俗: 与同等规模的单模态模型(如 Qwen2.5-VL-7B、Qwen2-Audio)以及一些强大的闭源模型(如 Gemini-1.5-pro)相比,Qwen2.5-Omni 在各项单模态任务上也展现出强大的竞争力。具体包括:
-
- 语音识别:Common Voice
-
- 语音翻译:CoVoST2
-
- 音频理解:MMAU
-
- 图像推理:MMMU, MMStar
-
- 视频理解:MVBench
-
- 语音生成: Seed-tts-eval 及主观自然度评估
-
实践
消费级显卡也能运行 Qwen2.5-Omni 本地部署
- conda 创建虚拟环境,并激活
- 安装第三方库:transformers、accelerate、qwen-omni-utils-decord、modelscope
- 使用 modelscope 下载 qwen-2.5-omni 代码
- 创建 python 脚本,写脚本
问题
Qwen-2.5-Omni-7B 问题——目前还没有更普适的量化版本
- 当前量化版本只有
GPTQ
,没有gguf
/mlx
. 导致大部分使用ollama
,llama.cpp
,mlx
的用户根本没办法用。 - 而原版 7B 大小达到了20GB+,使用小显存显卡的用户完全没办法单卡部署。
而 GPTQ
量化理论上能用在 vLLM
/SGLang
上。
但是这俩框架目前也不支持, 为纯本文模型准备的。
【2025-6-11】蚂蚁 Ming-Omni
【2025-6-11】蚂蚁百灵团队 2.8B 参数就能媲美GPT-4o
开源 Ming-Omni:支持统一感知与生成的多模态模型,在端到端语音理解和指令执行方面表现优异,超越了 Qwen2.5-Omni
和 Kimi-Audio
- 论文 Ming-Omni: A Unified Multimodal Model for Perception and Generation
- 【2025-5-21】Code: Ming
Hugging Face 宝藏项目——Ming-Omni。
Ming-Omni 实现了真正的多模态统一:同时输入文字、图片、音频和视频,不仅能理解,还能生成高质量的语音和图像。
最震撼的是,只用2.8B的活跃参数就达到了GPT-4o级别的效果。
Ming-Omni
是蚂蚁与 inclusionAI 共同开发的首个开源多模态模型,旨在与 GPT-4o 竞争。
- 该模型支持多种输入形式,包括文本、语音、图片和视频,同时也可以生成文本、语音和图片输出。
- 这一创新的开源项目为开发者提供了灵活的应用选择,具有广泛的潜力和应用场景。
Ming-lite-omni
是统一的多模态模型,是 Ming-omni 的轻量版,源自 Ling-lite,拥有 28 亿激活参数。
- 该模型能够处理图像、文本、音频和视频,同时在语音和图像生成方面表现出强大的能力。
- Ming-lite-omni 采用专用编码器从不同模态中提取 token,随后由 Ling 处理,Ling 是一种配备了新提出的模态专用路由器的 MoE 架构。
- 该设计使单一模型能够在统一框架内高效处理和融合多模态输入,从而支持多样化任务,无需单独模型、任务特定微调或结构重设计。
Ming-lite-omni 超越了传统多模态模型,支持音频和图像生成。这通过集成先进的音频解码器实现自然语音生成,以及 Ming-Lite-Uni 实现高质量图像生成,使模型能够进行上下文感知聊天、文本转语音转换和多功能图像编辑。
技术突破:MoE架构设计。
- 传统模型要么参数量巨大,要么能力单一
- Ming-Omni 通过模态专用路由器,让每个任务都能调用最合适的专家网络。这意味着更高的效率,更低的成本。
无论是上下文对话、文本转语音,还是图像编辑,流畅度和准确性都超出预期。
关键是完全开源,代码和权重全部公开,这对整个AI社区是巨大的贡献。
意义
- 对于开发者来说,这是真正部署到生产环境的方案。
- 对于普通用户,这意味着不用再为AI能力付费就能获得顶级体验。
【2025-6-16】中科院 Stream-Omni
【2025-6-16】中科院发布 Stream-Omni 全模态实时交互
- 集成了语言、视觉和语音三种模态
- 论文 Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
- 解读
技术亮点
- 采用了视觉-语音双路径对齐策略
这是什么概念呢?
- 业界现有的解决方案,要么在视觉和语言之间勉强拼凑,要么在语音和文本之间生硬转换
- 但Stream-Omni通过序列维度拼接和CTC层维度映射,实现了视觉、语音和文本的无缝融合,让机器真正做到了“看懂”“听懂”和“理解”。
通过对各模态间的关系进行更有针对性的建模,Stream-Omni实现了更加高效和灵活的文本-视觉-语音模态对齐。
仅依赖包含2.3万小时语音的多模态数据,Stream-Omni即可具备文本交互、语音交互、基于视觉的语音交互等各种模态上的交互能力。
与此同时,依赖于创新的语音建模方式,Stream-Omni能在语音交互过程中像GPT-4o一样同步输出中间文本转录结果,为用户提供全方位的多模态交互体验。
Stream-Omni 针对视觉模态的语义互补特性,采用序列维度拼接,让图像和文本的语义融合得更加紧密;
而对于语音模态,创新性地引入了CTC层维度映射,直接将语音特征映射到文本特征空间。
这种双路径对齐机制不仅大幅降低了模态融合的数据需求,还让模型在处理多模态信息时更加高效。这就好比给机器安装了一双“眼睛”和“耳朵”,让它能够同时“看”和“听”,并实时做出反应。
框架
Stream-Omni以大语言模型作为主干,逐步将视觉和语音与文本对齐,高效地构建了一个支持文本、视觉和语音的多模态大模型。在视觉-文本对齐方面,Stream-Omni采用视觉编码器和投影模块提取视觉表示,并将其与文本表示进行拼接。在语音-文本对齐方面,Stream-Omni在 LLM 主干的底部和顶部分别引入若干语音层,用于将语音映射到文本以及基于文本生成语音。
视觉模态
基于视觉模态与文本模态之间具有语义互补性,Stream-Omni 采用LLaVA架构中的序列维度拼接的方式进行视觉-文本对齐。
语音模态
- (1)语音离散化:Stream-Omni采用CosyVoice Tokenizer对语音输入进行离散化,编码为若干离散的语音单元。
- (2)语音到文本映射:为了充分利用LLM的能力,Stream-Omni在LLM的底部引入语音层,用于学习语音与文本之间的映射关系,从而将 LLM 中的文本能力迁移到语音模态中。Stream-Omni利用在ASR任务上的CTC损失直接监督底部语音层语音表示,将其与文本模态对齐。
- (3)文本生成:LLM基于输入的视觉表示和语音表示,生成文本回复。
- (4)文本到语音生成:Stream-Omni通过顶部语音层来完成文本到语音生成。为了在生成文本的同时生成语音单元,Stream-Omni在顶部语音层中引入了alignment-based fusion模块。Alignment-based fusion沿用了StreamSpeech等实时生成研究中的同步生成策略,利用CTC对齐来指导同步生成过程。
任意模态组合下的多模态交互
Stream-Omni 通过灵活组合视觉编码器、底部语音层、LLM、顶部语音层来实现任意模态组合下的交互。同时,由于层级维度语音文本映射,Stream-Omni能够在语音到语音生成过程中提供中间的文本结果。
性能炸裂
Stream-Omni
- MSCOCO图像描述生成任务中,达到了128.5的CIDEr分数,吊打一众传统模型。
- 而在语音交互场景中,它的词错误率(WER)较基线降低了18.7%。
- 实时交互能力——能够在语音输入的过程中同步输出自动语音识别(ASR)转录文本和响应内容,真正实现了多模态信息的并行处理。好比在和它聊天的时候,不仅能立刻理解你说的话,还能同时“看”到周围的场景,并给出最合适的回答。
应用场景
- 车载交互领域,可以作为智能驾驶的“超级大脑”,不仅能听懂你的语音指令,还能实时分析车辆周围的视觉场景,提供最精准的导航和辅助驾驶建议