鹤啸九天 自律更自由,平凡不平庸 Less is More

全模态大模型专题

2025-08-08
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南, 或划到本页末尾, 或直接点击跳转, 查看全站导航图
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


全模态大模型

多模态大模型专题见站内:多模态大模型案例

背景

现有技术

  • 传统语音理解大模型的人机交互场景里,一般用 ASR(Automatic Speech Recognition,自动语音识别)把语音转文本,随后交给大语言模型处理,最终借助 TTS(Text-to-Speech,语音合成)转语音反馈给用户。
  • 而视频理解模型是基于图片、视频进行大模型理解,并以文字形式输出反馈。

这两种模型均属于相互独立的单链路模型。

案例

Google Gemini 1.5 Pro

【2024-3-11】 Google Gemini 团队开发多模态混合专家模型Gemini 1.5 Pro,标志着人工智能领域的一次重大进步。

注意

MoE 架构下多模态理解能力,不含音频生成

该模型能够回忆和推理数百万个令牌(tokens)的上下文中的细粒度信息,包括多个长文档、数小时的视频和音频内容。它在跨模态的长上下文检索任务中实现了接近完美的召回率,在长文档问答、长视频问答和长上下文自动语音识别(ASR)等方面提高了现有的最佳性能,达到或超越了 Gemini 1.0 Ultra 在广泛基准测试中的领先性能。

技术细节

  • 稀疏激活: 通过学习路由功能,MoE模型只激活(即使用)对于给定输入最相关的一部分参数,从而在大规模模型中保持高效计算。
  • 参数规模: Gemini 1.5 Pro 的总参数数量极大,达到了多亿至数十亿的规模,但由于其稀疏激活特性,每次前向传播过程中只有一小部分参数被激活,这使得模型即便在参数规模巨大的情况下仍保持高效运行。
  • 多模态输入处理: 该模型能够处理来自不同模态(文本、图像、视频和音频)的输入数据,并能够在这些不同类型的数据之间建立联系,进行综合理解和推理。

能力:

  • 长上下文处理能力: Gemini 1.5 Pro 能够处理高达至少1000万个令牌的极长上下文,这是现有大型语言模型所不具备的。这使得模型可以处理整个文档集合、多小时的视频和近五天长的音频。
  • 跨模态理解: 该模型不仅能处理文本,还能理解和处理视频与音频信息,实现跨模态的信息融合和推理。
  • 近乎完美的信息检索: 在各种模态上,Gemini 1.5 Pro 都能实现超过99%的信息检索召回率,即使是在包含1000万令牌的海量信息中也能准确找到所需数据。
  • 学习新语言的能力: 给定语法手册,Gemini 1.5 Pro 能够学习翻译拥有不到200名说话者的罕见语言,表现出与通过同样材料学习的人类相似的翻译能力。
  • 优化的模型架构: Gemini 1.5 Pro 采用稀疏混合专家(MoE)的 Transformer 基础模型,实现了在大幅降低训练计算资源需求的同时,保持或超越前代模型的性能。
  • 自适应学习和推理: 模型能够基于输入数据的特性动态调整其内部路由和激活的“专家”网络,从而针对不同的任务和数据类型自适应地优化其性能。Gemini 1.5 Pro 在保持高性能的同时,显著降低了资源消耗

阿里云

【2025-8-29】阿里云(小云)实时交互形态

  • AI电话通话:电话呼出、电话呼入
    • 电话呼出: 填入自己的号码, 默认选择智能打断、多种音色可选
    • 电话呼入: 拨打号码 02566040232 即可
  • 智能体通话:消息对话、语音通话、视觉理解通话、数字人通话、视频通话

体验

【2025-3-27】阿里 Qwen2.5-Omni

【2025-3-27】阿里巴巴发布 Qwen2.5-Omni,全球首个端到端全模态大模型,为多模态信息流实时交互提供了新技术框架。

Qwen2.5-Omni 整合了文本、图像、音频和视频的跨模态理解能力,实现流式文本与自然语音的双向同步生成。

Qwen2.5-Omni 在保持全能的同时,并没有牺牲在各个垂直领域的能力

资料:

Qwen2.5-Omni 和 VL 区别

  • 🔸Qwen2.5-Omni:能听懂、看懂、读懂你,还能实时语音回应你的全能选手
  • 🔸Qwen2.5-VL:专注于图像解析、内容识别、视觉逻辑推导的视觉语言专家

特点

特点

  • Omni 和 架构:Thinker-Talker 架构,端到端的多模态模型,感知不同的模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。提出了一种名为 TMRoPE (Time-aligned Multimodal RoPE) 的新型位置嵌入,以将视频输入的时间戳与音频同步。
  • 实时语音和视频聊天 :专为完全实时交互而设计的架构,支持分块输入和即时输出。
  • 自然而稳健的语音生成 :超越许多现有的流媒体和非流媒体替代方案,在语音生成方面表现出卓越的稳健性和自然性。
  • 跨模态的强劲性能 :与类似大小的单模态模型进行基准测试时,在所有模态中都表现出卓越的性能。
    • Qwen2.5-Omni 在音频功能上优于同等尺寸的 Qwen2-Audio,并实现了与 Qwen2.5-VL-7B 相当的性能。
  • 出色的端到端语音教学: Qwen2.5-Omni 在端到端语音教学跟踪方面的性能可与文本输入的有效性相媲美,MMLU 和 GSM8K 等基准测试证明了这一点。

Qwen2.5-Omni-7B 特点:原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出。

  • 一个模型就能通过“看”、“听”、“阅读”等多种方式来综合思考。

原理

Qwen2.5-Omni 采用 Thinker-Talker 双核架构。

  • Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;
  • Talker 模块则类似发声器官(嘴),以流式方式接收 Thinker 实时输出的语义表征文本,流畅合成离散语音单元

模型架构

  • Thinker 基于 Transformer 解码器架构,融合音频/图像编码器进行特征提取;
  • Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

关键技术:

  • 1)采用分块处理策略解耦长序列多模态数据,由多模态编码器负责感知、语言模型承担序列建模,通过共享注意力机制强化模态融合;
  • 2)提出时间对齐的位置编码方法TMRoPE,通过音视频交错排列实现时间戳同步;
  • 3)首创Thinker-Talker架构,分离文本生成(Thinker语言模型)与语音合成(基于隐藏表征的双轨自回归Talker模型),避免模态间干扰;
  • 4)引入滑动窗口DiT解码器降低音频流初始延迟。

效果分析:

  • Omni-Bench 等多模态基准上达到SOTA,语音指令跟随能力与纯文本输入(MMLU/GSM8K)表现相当,流式语音生成在鲁棒性和自然度上超越主流流式/非流式方案。

评测

  • 多模态任务 OmniBench,Qwen2.5-Omni 达到了SOTA的表现。(超过 Gemini 1.5-Pro)
  • 单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括:语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

「Thinker-Talker」(思考者-说话者) 架构。这个设计非常巧妙,让模型能 同时思考和说话:

  1. Thinker (思考者): 扮演大脑的角色。它负责处理来自文本、音频、视频等多种模态的输入,通过专门的音视频编码器提取信息,再利用一个 Transformer 解码器进行理解和处理,最终生成高层语义表示和相应的文本内容
  2. Talker (说话者): 担当嘴巴功能。它以流式(streaming)方式接收 Thinker 生成的高层表示和文本,并采用一种双轨自回归 Transformer 解码器架构,流畅地合成并输出离散的语音单元(tokens)。

关键点: Talker 并非独立工作,直接获取 Thinker 产生的高维表示,并且 共享 Thinker 全部历史上下文信息。这使得 Thinker 和 Talker 构成了一个紧密协作的单一整体模型,可以进行端到端的训练和推理。这种设计是实现低延迟、高流畅度语音交互的核心

模型

Qwen2.5-Omni-7B

Qwen2.5-Omni-7B 模型是 Omni(全能)模型。

  • 一个模型能同时理解 文本、音频、图像、视频 多种输入,并且能输出 文本和音频
Qwen2.5-Omni-3B

全模态 Qwen2.5-Omni-7B 模型推出后,开发者反馈更小尺寸的Qwen2.5-Omni,以便更方便地适配

2025年4月30日,开源 Qwen2.5-Omni-3B 版本,较之前 7B 相比,代码运行时的推理时间减少,响应开发者轻量级GPU适配需求的新模型。

  • 🔹 与Qwen2.5-Omni-7B相比,3B版本在长上下文序列处理(约25k tokens)中显存消耗减少超50% 🚀,并可在普通24GB的消费级GPU上支持长达30秒的音视频交互 。
  • 🔹 3B版本模型保留7B模型90%以上的多模态理解能力 ,语音输出自然度与稳定性与7B版本性能一致 💪🏻。

新的Omni模型已在魔搭社区和HuggingFace上开源

效果

Qwen2.5-Omni全面评估:

  • 跨模态能力 SOTA: 在需要整合多种模态信息的任务上(如 OmniBench 基准测试),Qwen2.5-Omni 达到了当前最佳水平(State-of-the-Art)
  • 单模态能力不俗: 与同等规模的单模态模型(如 Qwen2.5-VL-7B、Qwen2-Audio)以及一些强大的闭源模型(如 Gemini-1.5-pro)相比,Qwen2.5-Omni 在各项单模态任务上也展现出强大的竞争力。具体包括:
      • 语音识别:Common Voice
      • 语音翻译:CoVoST2
      • 音频理解:MMAU
      • 图像推理:MMMU, MMStar
      • 视频理解:MVBench
      • 语音生成: Seed-tts-eval 及主观自然度评估

评测

  • 多模态任务 OmniBench,Qwen2.5-Omni 达到了SOTA的表现。(超过 Gemini 1.5-Pro)
  • 单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括:语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

实践

消费级显卡也能运行 Qwen2.5-Omni 本地部署

  • conda 创建虚拟环境,并激活
  • 安装第三方库:transformers、accelerate、qwen-omni-utils-decord、modelscope
  • 使用 modelscope 下载 qwen-2.5-omni 代码
  • 创建 python 脚本,写脚本

问题

Qwen-2.5-Omni-7B 问题——目前还没有更普适的量化版本

  • 当前量化版本只有 GPTQ,没有 gguf/mlx. 导致大部分使用 ollama, llama.cpp, mlx 的用户根本没办法用。
  • 而原版 7B 大小达到了20GB+,使用小显存显卡的用户完全没办法单卡部署。

GPTQ 量化理论上能用在 vLLM/SGLang 上。

但是这俩框架目前也不支持, 为纯本文模型准备的。

【2025-6-11】蚂蚁 Ming-Omni

【2025-6-11】蚂蚁百灵团队 2.8B 参数就能媲美GPT-4o

开源 Ming-Omni:支持统一感知与生成的多模态模型,在端到端语音理解和指令执行方面表现优异,超越了 Qwen2.5-OmniKimi-Audio

Hugging Face 宝藏项目——Ming-Omni

Ming-Omni 实现了真正的多模态统一:同时输入文字、图片、音频和视频,不仅能理解,还能生成高质量的语音和图像。

最震撼的是,只用2.8B的活跃参数就达到了GPT-4o级别的效果。

Ming-Omni 是蚂蚁与 inclusionAI 共同开发的首个开源多模态模型,旨在与 GPT-4o 竞争。

  • 该模型支持多种输入形式,包括文本、语音、图片和视频,同时也可以生成文本、语音和图片输出。
  • 这一创新的开源项目为开发者提供了灵活的应用选择,具有广泛的潜力和应用场景。

Ming-lite-omni 是统一的多模态模型,是 Ming-omni 的轻量版,源自 Ling-lite,拥有 28 亿激活参数。

  • 该模型能够处理图像、文本、音频和视频,同时在语音和图像生成方面表现出强大的能力。
  • Ming-lite-omni 采用专用编码器从不同模态中提取 token,随后由 Ling 处理,Ling 是一种配备了新提出的模态专用路由器的 MoE 架构。
  • 该设计使单一模型能够在统一框架内高效处理和融合多模态输入,从而支持多样化任务,无需单独模型、任务特定微调或结构重设计。

Ming-lite-omni 超越了传统多模态模型,支持音频和图像生成。这通过集成先进的音频解码器实现自然语音生成,以及 Ming-Lite-Uni 实现高质量图像生成,使模型能够进行上下文感知聊天、文本转语音转换和多功能图像编辑。

技术突破:MoE架构设计。

  • 传统模型要么参数量巨大,要么能力单一
  • Ming-Omni 通过模态专用路由器,让每个任务都能调用最合适的专家网络。这意味着更高的效率,更低的成本。

无论是上下文对话、文本转语音,还是图像编辑,流畅度和准确性都超出预期。

关键是完全开源,代码和权重全部公开,这对整个AI社区是巨大的贡献。

意义

  • 对于开发者来说,这是真正部署到生产环境的方案。
  • 对于普通用户,这意味着不用再为AI能力付费就能获得顶级体验。

【2025-6-16】中科院 Stream-Omni

【2025-6-16】中科院发布 Stream-Omni 全模态实时交互

技术亮点

  • 采用了视觉-语音双路径对齐策略

这是什么概念呢?

  • 业界现有的解决方案,要么在视觉和语言之间勉强拼凑,要么在语音和文本之间生硬转换
  • 但Stream-Omni通过序列维度拼接和CTC层维度映射,实现了视觉、语音和文本的无缝融合,让机器真正做到了“看懂”“听懂”和“理解”。

通过对各模态间的关系进行更有针对性的建模,Stream-Omni实现了更加高效和灵活的文本-视觉-语音模态对齐。

仅依赖包含2.3万小时语音的多模态数据,Stream-Omni即可具备文本交互、语音交互、基于视觉的语音交互等各种模态上的交互能力。

与此同时,依赖于创新的语音建模方式,Stream-Omni能在语音交互过程中像GPT-4o一样同步输出中间文本转录结果,为用户提供全方位的多模态交互体验。

Stream-Omni 针对视觉模态的语义互补特性,采用序列维度拼接,让图像和文本的语义融合得更加紧密;

而对于语音模态,创新性地引入了CTC层维度映射,直接将语音特征映射到文本特征空间。

这种双路径对齐机制不仅大幅降低了模态融合的数据需求,还让模型在处理多模态信息时更加高效。这就好比给机器安装了一双“眼睛”和“耳朵”,让它能够同时“看”和“听”,并实时做出反应。

框架

Stream-Omni以大语言模型作为主干,逐步将视觉和语音与文本对齐,高效地构建了一个支持文本、视觉和语音的多模态大模型。在视觉-文本对齐方面,Stream-Omni采用视觉编码器和投影模块提取视觉表示,并将其与文本表示进行拼接。在语音-文本对齐方面,Stream-Omni在 LLM 主干的底部和顶部分别引入若干语音层,用于将语音映射到文本以及基于文本生成语音。

视觉模态

基于视觉模态与文本模态之间具有语义互补性,Stream-Omni 采用LLaVA架构中的序列维度拼接的方式进行视觉-文本对齐。

语音模态

  • (1)语音离散化:Stream-Omni采用CosyVoice Tokenizer对语音输入进行离散化,编码为若干离散的语音单元。
  • (2)语音到文本映射:为了充分利用LLM的能力,Stream-Omni在LLM的底部引入语音层,用于学习语音与文本之间的映射关系,从而将 LLM 中的文本能力迁移到语音模态中。Stream-Omni利用在ASR任务上的CTC损失直接监督底部语音层语音表示,将其与文本模态对齐。
  • (3)文本生成:LLM基于输入的视觉表示和语音表示,生成文本回复。
  • (4)文本到语音生成:Stream-Omni通过顶部语音层来完成文本到语音生成。为了在生成文本的同时生成语音单元,Stream-Omni在顶部语音层中引入了alignment-based fusion模块。Alignment-based fusion沿用了StreamSpeech等实时生成研究中的同步生成策略,利用CTC对齐来指导同步生成过程。

任意模态组合下的多模态交互

Stream-Omni 通过灵活组合视觉编码器、底部语音层、LLM、顶部语音层来实现任意模态组合下的交互。同时,由于层级维度语音文本映射,Stream-Omni能够在语音到语音生成过程中提供中间的文本结果。

性能炸裂

Stream-Omni

  • MSCOCO图像描述生成任务中,达到了128.5的CIDEr分数,吊打一众传统模型。
  • 而在语音交互场景中,它的词错误率(WER)较基线降低了18.7%。
  • 实时交互能力——能够在语音输入的过程中同步输出自动语音识别(ASR)转录文本和响应内容,真正实现了多模态信息的并行处理。好比在和它聊天的时候,不仅能立刻理解你说的话,还能同时“看”到周围的场景,并给出最合适的回答。

应用场景

  • 车载交互领域,可以作为智能驾驶的“超级大脑”,不仅能听懂你的语音指令,还能实时分析车辆周围的视觉场景,提供最精准的导航和辅助驾驶建议

字节 VeOmni 框架

大模型从单一语言向文本 + 图像 + 视频的多模态进化时,训练流程却陷入了 “碎片化困境”:

  • 当业务要同时迭代 DiT、LLM 与 VLM时,很难在一套代码里顺畅切换;
  • 而当模型形态一旦变化,底层并行组合和显存调度往往需要大量手工改写,耗时耗力;
  • DIT 模型蒸馏需要大量的资源消耗,但是缺少高效的训练 infra 支持来提升效率……

【2025-8-4】字节跳动 Seed 团队开源全模态 PyTorch 原生训练框架—— VeOmni 。

VeOmni 采用以模型为中心的分布式训练方案,将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。

这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。

此前,用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于 Infra 工程团队的经验积累。

而使用 VeOmni 只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩 90% 以上。

VeOmni 介绍

VeOmni 是什么?一套框架搞定所有多模态训练

字节 Seed 团队与火山机器学习平台、IaaS 异构计算团队联合研发的统一多模态模型训练框架,核心定位是三个统一:“统一多模态、统一并行策略、统一算力底座”。

  • 通过统一的 API 将 LoRA 轻量微调、FSDP、Ulysses 和 Expert Parallel 等多种混合并行策略以及自动并行搜索能力内置于框架内部。无论是百亿级语言模型、跨模态视觉语言模型,还是 480P/720P、长序列的文本到视频(T2V)或图像到视频(I2V)生成模型,开发者都能够基于统一的训练流程快速启动训练。
  • 框架支持在千卡级 GPU 集群上自动完成权重张量的切分、通信拓扑的优化、动态显存回收和异步 checkpoint。在开源的 Wan 2.1 等模型上实测显示,相较于同类开源方案,VeOmni 能够将训练吞吐提高超过 40%,同时显著降低显存使用与跨节点通信带宽压力。
  • 借助 VeOmni,字节跳动成功实现了“支持最快落地的新模型形态、最大化超大规模算力利用率、最小化业务改动成本”三大目标,有效弥补了开源社区训练框架在扩展性和抽象层面上的不足,为包括 LLM 和 VLM 在内的多模态生成场景提供了一条统一且高效的训练路径。

效果

实验结果

基于 VeOmni 框架,一个 300 亿参数的全模态 MoE 模型(支持文本、语音、图片、视频的理解和生成), 在 128 张卡上训练吞吐量可超过 2800 tokens/sec/GPU,并能轻松扩展至 160K 超长上下文序列。

目前,VeOmni 的相关论文和代码仓库均已对外公开,GitHub Star 数超过 500。

结束


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Similar Posts

Related Posts

标题:大模型自动评估

摘要:大模型如何自动评估?LLM-as-a-judge 和 Agent-as-a-judge 是什么?

标题:大模型多轮会话

摘要:大模型如何实现任务型多轮会话?

站内可视化导航

文章可视化导读:鼠标划过图形块时,如果出现蓝色光环, 点击即可跳转到对应主题

Comments

--disqus--

    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天