鹤啸九天 自律更自由,平凡不平庸 Less is More

端到端语音交互 Voice Interaction of End2End

2024-11-08
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南, 或划到本页末尾, 或直接点击跳转, 查看全站导航图
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


端到端语音交互

端到端实时语音交互 LLM + TTS

总结

端到端的音频模型:

tts

实时语音聊天上,还可实现低延迟、理解情绪并表达情绪的自然语音交互,而不仅仅是机械的问答

Higgs Audio V2

【2025-7-23】李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

最新研发 Higgs Audio V2 模型,不仅能处理文本,还能同时理解并生成语音。

还具备一些较为罕见的能力,比如

  • 生成多种语言的自然多说话人对话
  • 旁白过程中的自动韵律调整
  • 使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

整个过程堪称“大力出奇迹”,直接将1000万小时的语音数据整合到LLM的文本训练,让它能听也能说。

EmergentTTS-Eval基准上,相较于其他模型,性能可以说是遥遥领先,尤其是在“情绪”和“问题”类别中,相比GPT-4o-mini-tts高出了75.7%和55.7%的胜率。

语音克隆

【2024-11-23】两个端到端的语音模型Fish-Speech和GLM-4-Voice

  • Fish-Speech 零样本克隆效果达到要求。所以计划数字人的TTS就用它的克隆语音流式播放。
  • GLM-4-Voice 生成语音,间隔时间有点长,目前还无法满足我的数字人实时聊天。

Fish-Speech

Fish-Speech 只需3分钟,即可创建属于你的AI数字声音克隆。

  • 支持40+种语言,99.9%的还原度。
  • 🎯 超高还原度: 采用最新深度学习技术,声音还原度达99.9%,无法与真人声音区分。
  • ⚡️ 实时生成: 毫秒级响应,支持实时语音克隆,适用于直播、游戏等场景。
  • 🌍 多语言支持: 支持40+种语言,包括中文、英语、日语等,一次训练多语言使用。

Anyvoice

【2025-3-23】Anyvoice 声音克隆

超真实AI声音生成器

  • 生成与人类无法区分的AI声音。
  • 超真实的文本转语音(TTS)。
  • 领先的AI声音生成器,配备即时声音克隆技术。
  • 免费无限下载。

AI 声音克隆

  • 全球首创:仅需 3 秒!

AnyVoice 支持两种方式进行声音克隆:实时录制音频或者上传音频。

体验突破性的人工智能技术,只需 3 秒音频即可创建超逼真的声音克隆 - 世界上最快、最自然的声音。不再需要冗长的录音!

目前支持以下语言:English/Chinese/Japanese/Korean

实时语音对话

语音 Agent 设计

【2025-6-19】

主动式语音Agent的设计思考

主动式Agent(Proactive Agent),主要是体现出主动性,能够主动做出决策,根据自主思考的结果驱动目标完成。在语音对话场景下,这种主动性尤为重要,因为用户期望获得即时、自然的交互体验。

语音Agent必须是一个主动式Agent

几个方面:

不被动等待用户输入 传统的语音助手往往在等待用户唤醒或输入后才响应,而主动式Agent会根据场景、上下文或任务进度主动发起对话。例如在检测到用户长时间未说话时,主动询问用户是否需要帮助。

对用户情绪和语速的敏感应答 主动Agent能够实时分析用户的语速、语调和情绪状态。当检测到用户情绪激动或语速过快时,Agent会主动安抚用户,例如说”别急,您慢慢说”,体现出对用户状态的关心和适应。

检测用户是否还在聆听 如果用户长时间没有回应,主动Agent不会一直沉默,而是主动发起确认:”您好,请问您还在吗?”这样可以避免对话中断,提高交互的流畅性。

识别对话对象是否为机器人 主动Agent具备一定的识别能力,能够判断当前对话对象是否为另一个机器人(如小爱同学),从而调整对话策略,避免陷入无意义的机器人互聊。

综上,主动式语音Agent不仅仅是被动响应用户请求,更重要的是能够根据环境、用户状态和对话内容,主动发起、引导和调整对话,提升交互体验和任务完成效率。

主动式语音Agent的设计中,借鉴《思考快与慢》中的”双系统”理论,将Agent的决策与响应机制分为系统1和系统2。

这种设计特别适合语音对话场景,因为系统1能够提供快速响应,而系统2则负责深度处理。

系统1:快速反应系统(轻量级实现)

系统1是主动式Agent的核心,它通过简单的规则和状态机实现快速响应,无需复杂的工程化实现:

情绪与超时检测 系统1实时分析用户的语音情绪、语速、停顿等信号,快速判断用户是否困惑、焦虑或等待时间过长。例如,检测到长时间无输入时,系统1会主动发起”您好,请问您还在吗?”等确认,或在用户语速过快时安抚用户。

EOU(End of Utterance)判断 能够快速判断用户是否说完,及时给出反馈,避免冷场或误判。

关键行为决策 对于挂机、转接人工等关键行为,系统1可根据规则或短时上下文迅速做出决策,保障对话流畅。

短时记忆机制 系统1维护有限的短时记忆,记录最近的对话状态、用户意图等,避免每次都将全部历史传递给LLM,降低token消耗,提升效率。

无需LLM驱动 系统1以规则、轻量模型或有限状态机为主,不依赖大模型,响应速度快、成本低。 系统2:深度推理系统 系统2在系统1争取到的时间内,负责复杂的推理、规划和生成高质量的回复:

复杂意图理解与任务规划 当用户需求复杂或需要多轮推理时,系统2调用LLM等大模型进行深度理解和生成。

上下文整合与长期记忆 系统2可访问更丰富的上下文和长期记忆,生成更具针对性和个性化的回复。

与系统1协作 系统1在前台快速应答,系统2在后台深度处理,处理结果再由系统1自然地反馈给用户,实现无缝衔接。

双系统协作的优势 提升用户体验:系统1保证对话的流畅和自然,避免冷场和误解;系统2提升Agent的智能和个性化水平。 降低成本:将大部分高频、简单的响应交给系统1处理,减少LLM调用频率,显著降低算力和token消耗。 更真实的主动性:系统1的快速反应和短时记忆让Agent表现得更像真人,能够主动引导和调整对话节奏。

流程图

评测

【2024-12-24】 实时语音交互中文基准12月测评结果出炉,4大维度15项能力8款应用,讯飞星火领跑,国内产品延时、打断和场景应用表现出色

中文原生实时语音交互测评基准(SuperCLUE-Voice)旨在深入评估新一代实时语音交互产品在中文语音交互中的整体表现。

  • 该基准不仅全面考察产品在打断说话风格等语音交互核心能力上的表现,还重点评估其在记忆能力联网能力等通用能力上的综合水平。
  • 同时,测评还特别关注产品在实时翻译、教育辅导等五大实际应用场景中的表现,旨在为语音交互技术的多场景落地提供全面的评判标准。

评测结论

  • 1:国内头部产品在实时中文语音综合能力表现上有一定领先性。
    • 实时语音产品总体表现差异较大,分层现象明显。国内头部产品在实时中文语音能力上表现领先,讯飞星火综合表现最强,位居第一,海外产品ChatGPT-4o紧随其后,国内的豆包与海螺AI也表现不俗,展现了各自的优势。
  • 2:语音交互能力上,ChatGPT-4o在说话风格方面有较大的领先性,打断能力语音自然度方面国内产品表现较好。
    • 语音交互方面,ChatGPT-4o在说话风格上保持领先,国内产品在打断能力和语音自然度上占优势,尤其是讯飞星火的语音自然度达到90分以上。
  • 3:通用能力方面,国内实时语音产品占有一定的领先优势。
    • 国内实时语音产品在通用能力上具有领先优势,文小言在安全和记忆能力方面表现突出,Kimi在推理任务中表现较好,但国内产品在联网能力上普遍较弱,亟待改善。
  • 4:在中文场景应用方面,国内实时语音产品依然保持较好的表现。
    • 国内语音产品在中文场景应用中仍具优势,通义在场景应用上领先,得分突破70分,其他国内产品得分均超过60分,整体表现较9月有所提升。

排名表格见原文

Ichigo

本地实时语音交互

Ichigo 是一个开放的、持续的研究实验,旨在扩展文本基础的大语言模型,使其具备原生的”听觉”能力。

一个开放数据、开放权重、在设备上运行的 Siri

全双工 LSLM

【2024-8-5】全双工对话:大模型能边说边听了

传统的AI对话模型都是”你一句我一句”的轮流模式。但LSLM不一样,它可以同时说话和听话。AI一边”嘴巴”不停,一边”耳朵”也没闲着

两个关键技术:

  • 基于token的解码器TTS:负责生成语音
  • 流式自监督学习编码器:实时处理音频输入

为了让”说”和”听”这两个通道更好地协同工作,探索了三种融合策略:

  • 早期融合
  • 中期融合
  • 晚期融合

最终,中期融合脱颖而出,在语音生成和实时交互之间取得了最佳平衡。

  • “中期融合就像人类大脑处理信息的方式,既不会太早下结论,也不会反应太慢。这可能是未来对话AI的发展方向。”

两种实验场景:

  • 基于命令的全双工模式
  • 基于语音的全双工模式

结果显示,LSLM不仅能抗噪音,还能对各种指令保持敏感。

Full Duplex Modeling (FDM)

虽然LSLM看起来很厉害,但距离真正的”自然对话”还有一段距离。

不过,这项研究确实为交互式语音对话系统的发展开辟了新路径,让AI在实际应用中更接地气。

Lepton LLM API

【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互

AI语音助手传统路子:

  • 把问题往LLM(大语言模型)里一丢,等回话,再让TTS(文本转语音)上阵 —— 这一连串动作,听起来挺顺,实则很卡
  • 跟AI聊天还得等它反应,就像给朋友发微信,结果他秒回了个“正在输入……”,急不急人?
    • 传统方法每个步骤都得排队,结果就是“首次音频时间”(TTFA) 拖长,对话流畅度直接打折。
  • 分块和缓冲 是工程师们的噩梦。
    • 为了快那么一点点,系统得把长句子切成小块,到时候再像玩拼图一样拼起来。但这拼图可不是随便拼的,时间差一丁点,不是这边话音未落那边又响起来了,就是句子讲到一半突然卡壳,尴尬得能抠出三室一厅。
  • 错误处理也是个大坑。文本和语音本来天生一对,结果被硬生生拆散了。万一哪边出了岔子,找起原因来就像大海捞针,用户体验?先放一边凉快吧。
  • 馊主意: 把长句子拆成小段,一个个往TTS里送,想着这样能快点。
    • 结果 协调起来比登天还难,同步稍有不慎,音频乱套停顿尴尬。

说好的流畅对话呢?最后还是让人直呼“带不动”。

手机上 Siri、小爱同学,问它问题需要花费几秒钟去检索

包括GPT4,切换到语音输出模式,还是有不小的延迟。这样一来就显得有些卡顿,等待AI回复的过程像是过了几千年,让人恨不得把脑袋伸进手机里让AI快点。

贾扬清创办的Lepton AI刚刚宣布,Lepton LLM API 已经支持实时语音交互了!

技术原理

Lepton AI 直接把 LLMTTS 合二为一。

  • 传统系统里,文本和音频排队等处理;
  • 这里文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。

除了减少延迟外,Lepton AI 还引入用于简化和优化内容处理的高级机制,能根据对话内容动态调整音频片段。这样,对话不仅连贯,还超级自然,停顿、中断?不存在的!用户体验直接拉满!

这技术还超级百搭,跟那些开源的LLM模型都私下里串通好了。

  • 比如Llama3.1系列,无论是8B、70B还是405B,都能跟Lepton AI的语音模式无缝对接。
  • 开发者们可以随心所欲地挑选心仪的模型,再搭配上 Lepton AI 语音黑科技,创造出既个性又高效的应用,享受“私人订制”服务。

效果

向AI提问题后,AI立即进行回答,几乎是秒回,而且还有不同音色任君选择。

根据测试,他们已经能做到让AI在在300ms内开始回答问题。

贾扬清 Twitter 演示视频

Mini-Omni

【2024-9-3】开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话

Mini-Omni, 更强大的实时语音对话AI模型开源

【2024-8-30】清华 gpt-omni 团队开发,语音助手界的一匹黑马,不仅能实现实时语音对话,还能同时生成文本音频

Mini-Omni有哪些特性呢?

  • 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
  • 同时生成文本音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
  • 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。

Mini-Omni:语言模型在流式处理中的听、说、思考能力

Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。

功能特点

  • 实时语音对话功能,无需额外的ASR或TTS模型。
  • 边思考边对话,支持同时生成文本和音频。
  • 支持流式音频输出。
  • 提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。

模型结构

安装

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt

使用

# 启动服务器
conda activate omni
cd mini-omni

# 本地测试运行预设的音频样本和问题
python inference.py

# 启动服务
python3 server.py --ip '0.0.0.0' --port 60808
# 运行 Streamlit 演示
# 注意:本地运行 Streamlit 并安装 PyAudio。
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
# 运行 Gradio 演示
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

Hertz-dev

【2024-11-5】Hertz-dev: 首个开源的超低延迟的实时交互语音对话模型

Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒,实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍

模型能够以类似人类的方式互动的先决条件,而不是感觉像延迟、断断续续的电话通话。

作者目前正在训练更大、更先进的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。

Hertz-dev 是实时语音交互的一次探索,也是世界上最容易让研究人员进行微调和构建的对话音频模型。

ten-agent

【2024-10-21】ten-agent: 又一款王炸级的开源端到端语音模型

首个集成 OpenAI Realtime API和RTC能力的实时多模态AI agent:TEN-Agent,具备

  • 天气查询、网络搜索、视觉识别、RAG能力
  • 适合智能客服、实时语音助手, 这种实时交互的场景, 能同时看、听、说,处理各种信息,具备超低延迟的音视频交互能力,agent状态实时管理,多模态处理能力

资源

  • 代码地址:TEN-Agent
  • 体验地址:theten, 在线体验,选模态、点击 connect 按钮开启

  • 带有 OpenAI Realtime API 和 RTC 的 TEN 代理
    • 将超低延迟的 OpenAI Realtime API 与 RTC 的 AI 噪音抑制相结合,可确保流畅、高质量的交互。除此之外,天气和新闻工具的无缝集成使 TEN Agent 更加通用。

功能

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 是集成 OpenAI Realtime API 和 RTC 的世界级多模式 AI 代理。
  • 高性能实时多模式交互:为复杂视听AI应用提供高性能、低延迟的解决方案。
  • 多语言和多平台支持:支持C++、Go、Python等扩展开发。可在Windows、Mac、Linux和移动设备上运行。
  • 边缘云集成:灵活结合边缘和云部署的扩展,平衡隐私、成本和性能。
  • 超越模型限制的灵活性:通过简单的拖放编程轻松构建复杂的AI应用程序,集成视听工具,数据库,RAG等。
  • 实时代理状态管理:实时管理和调整代理行为以实现动态响应。

质谱

【2024-12-3】GLM-4-Voice

【2024-12-3】智谱开源语音克隆 GLM-4-Voice

支持中文和英文对话,能够根据用户指令调整语音的情感、语调、语速和方言,还使用了一种低比特率(175bps)的单码本语音分词器,融入自动语音识别(ASR)模型中,利用向量量化约束作为编码器的一部分,以此产生12.5Hz的帧率。

GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。

GLM-4-Voice 由三个部分组成:

  • GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。
  • GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。
  • GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。

预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,将 Speech2Speech 任务解耦合为“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成语音-文本交错数据以适配这两种任务形式。GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。

对齐方面,为了支持高质量的语音对话,设计流式思考架构:根据用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令要求做出相应的声音变化,在最大程度保留语言模型智商的情况下仍然具有端到端建模的能力,同时具备低延迟性,最低只需要输出 20 个 token 便可以合成语音。

【2025-1-18】GLM-Realtime 实时视频

【2025-1-18】 GLM-Realtime 是一款音视频通话模型,能够提供实时的视频通话功能,通话记忆时长长达2分钟,具有跨文本、音频和视频进行实时推理的能力。

GLM-Realtime是智谱推出的低延迟端到端多模态模型,具备:视频理解、语音交互、内容记忆、清唱功能和 Function Call 功能。

它适用于多种实时交互场景,通过 Function Call 功能可以拓展到更广泛的商业应用。开发者可以免费调用该模型,体验其强大的实时交互能力。

功能特性

  • 低延迟视频理解与语音交互:实现了低延迟的视频理解与语音交互,特别适合实时应用场景,如视频通话和智能硬件交互。
  • 2分钟内容记忆能力:在视频通话中,能够记忆长达2分钟的内容,提供更连贯的交互体验。
  • 清唱功能:创新性地实现了清唱功能,让大模型具备在对话中的歌唱能力,增加了互动的趣味性。
  • Function Call 功能:支持 Function Call 功能,能够灵活调用外部知识和工具,拓展到更广泛的商业场景。
  • 端到端模型:GLM-Realtime 是一个端到端的多模态模型,能够同时处理视频和语音输入,提供更全面的交互体验。
  • 高性能与低延迟:优化了模型的性能,确保在实时应用中保持低延迟,提供流畅的交互体验。

GLM-Realtime API已经上线智谱开放平台bigmodel.cn,现阶段可以免费调用。

【2024-7-4】Moshi

【2024-7-4】法国AI实验室发布原生多模态Moshi,现场惊艳演示

8人团队4个月打造

  • 模型训练流程和模型架构简单且可扩展性极强,Kyutai这样的8人以上小团队在4个月内就构建了它。合成数据在这里发挥了巨大作用
  • 专注于本地设备:Moshi很快就会无处不在。

Kyutai 还开发了一个较小的 Moshi版本,可以在 MacBook 或消费级 GPU 上运行。

开源GPT-4o

【2025-1-20】豆包

上一代流水线语音对话系统(ASR 转成文本, LLM 生成对话文本,最后 TTS),存在多个缺陷,阻碍了真人级别语音对话交互的实现。

  • 对用户情绪及语音中各种副语言信息理解有局限
  • 模型生成语音情绪存在上限
  • 无法遵循语音控制指令
  • 无法实现超低延迟等。

介绍

【2025-1-20】豆包实时语音大模型上线即开放

豆包实时语音大模型于正式推出,豆包 APP 全量开放,将豆包 APP 升级至 7.2.0 版本即可体验。

豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话。

  • 相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。

面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。

  • 预训练(Pretrain)阶段,对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息,通过 Scaling ,最大程度实现语音与文本能力深度融合和能力涌现。
  • 后训练阶段,使用高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并在“智商”与“情商”之间寻求平衡。

预训练模型具备了丰富多样输入输出的可能性,涵盖 S2S(语音到语音)、S2T(语音到文本)、T2S(文本到语音)、T2T(文本到文本)等多种模式。

该模型的推出具备里程碑式意义,不仅贴合中国用户实际需求,且发布即上线,有能力直接服务亿万用户,而非停留于演示 Demo 层面。

功能

产品功能

  • 灵魂歌手
  • 百变大咖
  • 悄悄说话
  • 戏精本精
  • 受气小包
  • 英语陪练

效果

根据外部用户真实反馈,该模型整体满意度较 GPT-4o 有明显优势 ,特别是语音语气自然度情绪饱满度远高于后者。

测试者来自 10 个城市,其中 9 名男性,女性 18 名,年龄分布为 21-33 岁。

  • 11.11% 的测试者从未体验过豆包 APP
  • 70.37% 为轻度用户,每周使用 1-2 天,其余粘度较高。

围绕拟人度有用性情商通话稳定性对话流畅度等多个维度进行考评。

整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。

实测

  • 中文语境和场景(可进行英语对话,暂不支持多语种)
  • 语气更自然
  • 情绪更饱满:
    • 有感情朗读
    • 角色模拟: 模拟宋丹丹小品、小孩儿
  • 速度可控:快、慢
  • 唱歌
  • 方言支持:上海话、四川话、东北话、广东话等
  • 男女声切换——不支持

【2025-2-2】SpeechGPT 2.0

【2025-2-2】SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的拟人化端到端实时语音交互模型,基于百万小时级中文语音数据训练,支持情感控制低延迟响应。

该模型基于百万小时级的中文语音数据进行训练,采用端到端架构,实现了语音与文本模态的高度融合。

具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。

此外,SpeechGPT 2.0 能够精准控制语速、情感、风格和音色,实现智能切换,并具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。

主要功能

具备拟人口语化表达、多情感控制、实时打断交互和多种语音才艺。

  • 情感与风格控制:支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,角色扮演能力突出。
  • 实时打断交互:百毫秒级响应速度支持自然对话中的即时打断与续接。
  • 文本能力集成:在语音表现力基础上,保留文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能。
  • 多任务兼容性:可处理长文档解析、多轮对话等场景,兼容短文本任务的性能未因长上下文能力而降低。

技术原理

采用超低比特率流式语音 Codec 和语义-声学联合建模,实现高效的语音文本混合建模。

  • 超低比特率流式语音 Codec:自研的超低比特率流式语音 Codec,能够处理 24khz 的语音输入,将语音压缩至每秒 75 个 token,支持流式输入输出,实现 200ms 以内延迟的实时交互。
  • 语义-声学联合建模:通过语义-声学联合建模,直接处理语音输入并生成语音或文本输出,无需传统级联式 ASR(语音识别)和 TTS(语音合成)模块。
  • Codec Patchify:通过 Codec Patchify 技术聚合相邻时间步的语音 token 为统一向量,有效减小语音和文本序列之间的模态差异,缓解跨模态建模中的冲突问题。
  • 多阶段训练流程:包括模态适应预训练、跨模态指令微调和链式模态微调,兼顾文本能力与语音能力,避免模型在学习语音能力时降低智商。
  • 语音文本对齐预训练:通过充分的语音文本对齐预训练,模型可以“涌现”出语音风格的泛化性,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。

使用

git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
# 下载模型权重
# 需要安装 git-lfs
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
# 准备环境
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
# 启动网页 demo
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

【2025-5-8】Voila

【2025-5-5】Maitrix 开源语音大模型 Voila登场: 全双工对话+百万音色克隆,AI语音助手全面爆炸

高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自然的交互体验。

Voila 集成了语音和语言建模能力,支持数百万种预构建和自定义声音,用户可以通过文本指令或音频样本轻松定制说话者的特征和声音。

包含两个主要模型:

  • Voila-e2e 用于端到端语音对话
  • Voila-autonomous 用于自主互动。

一个模型即可支持多种音频任务,降低了开发和部署成本。

主要功能

  • 实时语音交互:Voila能实现低延迟的语音对话,用户可以直接用语音与模型交流,模型会实时处理语音输入生成语音回复,和真人对话一样流畅自然。
  • 多轮对话能力:支持多轮语音对话,模型能根据上下文理解用户的意图,做出连贯的回应。
  • 预构建声音库:Voila拥有数百万种预构建的声音,涵盖不同性别、年龄、语调等特征的声音类型。用户可以根据自己的喜好选择声音,比如可以选择温柔的女声、低沉的男声或者活泼的卡通声音来与模型交流。
  • 自定义声音:用户还可以通过文本指令和音频样本来定制声音。例如,用户可以上传一段自己熟悉的声音样本,并通过指令让模型模仿这种声音进行对话,使交互更加个性化。
  • 语音翻译:经过少量适配后,Voila可以用于多语言语音翻译。用户可以用一种语言说话,模型将其翻译成另一种语言并用语音输出,方便不同语言背景的人进行交流。

技术原理

  • 高保真、低延迟、实时流式音频处理:Voila实现了高保真、低延迟的实时流式音频处理,能以195毫秒的超低延迟进行全双工对话,超越了人类的平均反应时间。
  • 高效集成语音和语言建模能力:Voila将语音和语言建模能力高效集成,结合了大型语言模型(LLMs)的推理能力与强大的声学建模。使模型在理解语音内容和生成语音回复时更加准确和自然,提升了交互的整体质量。
  • 层次化的多尺度Transformer架构:Voila采用了层次化的多尺度Transformer架构,将大型语言模型的推理能力与声学建模相结合。能实现自然、角色感知的语音生成,用户可以通过简单的文本指令来定义说话者的身份、语调及其他特征。
  • 统一模型设计:Voila被设计为一个统一的模型,适用于多种语音应用,包括自动语音识别(ASR)、文本到语音(TTS),以及经过少量适配的多语言语音翻译。这种统一模型设计降低了开发和部署成本,提高了模型的通用性和灵活性。
  • 强大的语音定制能力:Voila支持超过一百万种预构建的声音,能从短至10秒的音频样本中高效定制新的声音。

阿里

Qwen2.5-Omni

详见站内专题: 通义千问专题

结束


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Related Posts

下一篇 LLM 发展方向

标题:Transformer 改进方案

摘要:Transformer、Attention 有什么问题?如何改进?是唯一选择吗?

标题:LLM 发展方向

摘要:大模型会往哪个方向发展?

站内可视化导航

文章可视化导读:鼠标划过图形块时,如果出现蓝色光环, 点击即可跳转到对应主题

Comments

--disqus--

    Content
    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天