端到端语音交互
端到端实时语音交互 LLM + TTS
总结
端到端的音频模型:
- 1、hertz-dev
- 2、mini-omni2
- 3、GLM-4-Voice
- 4、moshi
- 5、Spiritlm
传统AI语音助手
【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互
AI语音助手传统路子:
- 把问题往LLM(大语言模型)里一丢,等回话,再让TTS(文本转语音)上阵 —— 这一连串动作,听起来挺顺,实则很卡。
- 跟AI聊天还得等它反应,就像给朋友发微信,结果他秒回了个“正在输入……”,急不急人?
- 传统方法每个步骤都得排队,结果就是“首次音频时间”(TTFA) 拖长,对话流畅度直接打折。
- 分块和缓冲 是工程师们的噩梦。
- 为了快那么一点点,系统得把长句子切成小块,到时候再像玩拼图一样拼起来。但这拼图可不是随便拼的,时间差一丁点,不是这边话音未落那边又响起来了,就是句子讲到一半突然卡壳,尴尬得能抠出三室一厅。
- 错误处理也是个大坑。文本和语音本来天生一对,结果被硬生生拆散了。万一哪边出了岔子,找起原因来就像大海捞针,用户体验?先放一边凉快吧。
- 馊主意: 把长句子拆成小段,一个个往TTS里送,想着这样能快点。
- 结果 协调起来比登天还难,同步稍有不慎,音频乱套、停顿尴尬。
说好的流畅对话呢?最后还是让人直呼“带不动”。
手机上 Siri、小爱同学,问它问题需要花费几秒钟去检索
包括GPT4,切换到语音输出模式,还是有不小的延迟。这样一来就显得有些卡顿,等待AI回复的过程像是过了几千年,让人恨不得把脑袋伸进手机里让AI快点。
贾扬清创办的Lepton AI刚刚宣布,Lepton LLM API 已经支持实时语音交互了!
语音克隆
【2024-11-23】两个端到端的语音模型Fish-Speech和GLM-4-Voice
- Fish-Speech 零样本克隆效果达到要求。所以计划数字人的TTS就用它的克隆语音流式播放。
- GLM-4-Voice 生成语音,间隔时间有点长,目前还无法满足我的数字人实时聊天。
Fish-Speech
Fish-Speech 只需3分钟,即可创建属于你的AI数字声音克隆。
- 支持40+种语言,99.9%的还原度。
- 🎯 超高还原度: 采用最新深度学习技术,声音还原度达99.9%,无法与真人声音区分。
- ⚡️ 实时生成: 毫秒级响应,支持实时语音克隆,适用于直播、游戏等场景。
- 🌍 多语言支持: 支持40+种语言,包括中文、英语、日语等,一次训练多语言使用。
实时语音对话
评测
【2024-12-24】 实时语音交互中文基准12月测评结果出炉,4大维度15项能力8款应用,讯飞星火领跑,国内产品延时、打断和场景应用表现出色
中文原生实时语音交互测评基准(SuperCLUE-Voice)旨在深入评估新一代实时语音交互产品在中文语音交互中的整体表现。
- 该基准不仅全面考察产品在打断、说话风格等语音交互核心能力上的表现,还重点评估其在记忆能力、联网能力等通用能力上的综合水平。
- 同时,测评还特别关注产品在实时翻译、教育辅导等五大实际应用场景中的表现,旨在为语音交互技术的多场景落地提供全面的评判标准。
评测结论
- 1:国内头部产品在实时中文语音综合能力表现上有一定领先性。
- 实时语音产品总体表现差异较大,分层现象明显。国内头部产品在实时中文语音能力上表现领先,
讯飞星火
综合表现最强,位居第一,海外产品ChatGPT-4o紧随其后,国内的豆包与海螺AI也表现不俗,展现了各自的优势。
- 实时语音产品总体表现差异较大,分层现象明显。国内头部产品在实时中文语音能力上表现领先,
- 2:语音交互能力上,ChatGPT-4o在说话风格方面有较大的领先性,打断能力和语音自然度方面国内产品表现较好。
- 语音交互方面,ChatGPT-4o在说话风格上保持领先,国内产品在打断能力和语音自然度上占优势,尤其是讯飞星火的语音自然度达到90分以上。
- 3:通用能力方面,国内实时语音产品占有一定的领先优势。
- 国内实时语音产品在通用能力上具有领先优势,文小言在安全和记忆能力方面表现突出,Kimi在推理任务中表现较好,但国内产品在联网能力上普遍较弱,亟待改善。
- 4:在中文场景应用方面,国内实时语音产品依然保持较好的表现。
- 国内语音产品在中文场景应用中仍具优势,通义在场景应用上领先,得分突破70分,其他国内产品得分均超过60分,整体表现较9月有所提升。
排名表格见原文
Ichigo
本地实时语音交互
Ichigo 是一个开放的、持续的研究实验,旨在扩展文本基础的大语言模型,使其具备原生的”听觉”能力。
一个开放数据、开放权重、在设备上运行的 Siri
全双工 LSLM
【2024-8-5】全双工对话:大模型能边说边听了
- 上海交大开发出新模型
LSLM
(Listening-while-Speaking Language Model),实现了真正的”全双工对话“。listening-while-speaking language model - 论文 Language Model Can Listen While Speaking
- Demo
传统的AI对话模型都是”你一句我一句”的轮流模式。但LSLM不一样,它可以同时说话和听话。AI一边”嘴巴”不停,一边”耳朵”也没闲着
两个关键技术:
- 基于token的解码器TTS:负责生成语音
- 流式自监督学习编码器:实时处理音频输入
为了让”说”和”听”这两个通道更好地协同工作,探索了三种融合策略:
- 早期融合
- 中期融合
- 晚期融合
最终,中期融合脱颖而出,在语音生成和实时交互之间取得了最佳平衡。
- “中期融合就像人类大脑处理信息的方式,既不会太早下结论,也不会反应太慢。这可能是未来对话AI的发展方向。”
两种实验场景:
- 基于命令的全双工模式
- 基于语音的全双工模式
结果显示,LSLM不仅能抗噪音,还能对各种指令保持敏感。
Full Duplex Modeling (FDM)
虽然LSLM看起来很厉害,但距离真正的”自然对话”还有一段距离。
不过,这项研究确实为交互式语音对话系统的发展开辟了新路径,让AI在实际应用中更接地气。
Lepton LLM API
【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互
- 官方 API
技术原理
Lepton AI 直接把 LLM
和 TTS
合二为一。
- 传统系统里,文本和音频排队等处理;
- 这里文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。
除了减少延迟外,Lepton AI 还引入用于简化和优化内容处理的高级机制,能根据对话内容动态调整音频片段。这样,对话不仅连贯,还超级自然,停顿、中断?不存在的!用户体验直接拉满!
这技术还超级百搭,跟那些开源的LLM模型都私下里串通好了。
- 比如Llama3.1系列,无论是8B、70B还是405B,都能跟Lepton AI的语音模式无缝对接。
- 开发者们可以随心所欲地挑选心仪的模型,再搭配上 Lepton AI 语音黑科技,创造出既个性又高效的应用,享受“私人订制”服务。
效果
向AI提问题后,AI立即进行回答,几乎是秒回,而且还有不同音色任君选择。
根据测试,他们已经能做到让AI在在300ms内开始回答问题。
贾扬清 Twitter 演示视频
Mini-Omni
【2024-9-3】开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话
Mini-Omni, 更强大的实时语音对话AI模型开源
【2024-8-30】清华 gpt-omni 团队开发,语音助手界的一匹黑马,不仅能实现实时语音对话,还能同时生成文本和音频
- 模型下载:mini-omni
- 论文地址:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
- 代码仓库:mini-omni
Mini-Omni有哪些特性呢?
- 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
- 同时生成文本和音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
- 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。
Mini-Omni:语言模型在流式处理中的听、说、思考能力
Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。
- Qwen2 作为 LLM 主干。
- litGPT 用于训练和推理。
- whisper 用于音频编码。
- snac 用于音频解码。
- CosyVoice 用于生成合成语音。
- OpenOrca 和 MOSS 用于对齐。
功能特点
- 实时语音对话功能,无需额外的ASR或TTS模型。
- 边思考边对话,支持同时生成文本和音频。
- 支持流式音频输出。
- 提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。
模型结构
安装
conda create -n omni python=3.10
conda activate omni
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt
使用
# 启动服务器
conda activate omni
cd mini-omni
# 本地测试运行预设的音频样本和问题
python inference.py
# 启动服务
python3 server.py --ip '0.0.0.0' --port 60808
# 运行 Streamlit 演示
# 注意:本地运行 Streamlit 并安装 PyAudio。
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
# 运行 Gradio 演示
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
Hertz-dev
【2024-11-5】Hertz-dev: 首个开源的超低延迟的实时交互语音对话模型
Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒,实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍
模型能够以类似人类的方式互动的先决条件,而不是感觉像延迟、断断续续的电话通话。
作者目前正在训练更大、更先进的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。
Hertz-dev 是实时语音交互的一次探索,也是世界上最容易让研究人员进行微调和构建的对话音频模型。
ten-agent
【2024-10-21】ten-agent: 又一款王炸级的开源端到端语音模型
首个集成 OpenAI Realtime API和RTC能力的实时多模态AI agent:TEN-Agent,具备
- 天气查询、网络搜索、视觉识别、RAG能力
- 适合智能客服、实时语音助手, 这种实时交互的场景, 能同时看、听、说,处理各种信息,具备超低延迟的音视频交互能力,agent状态实时管理,多模态处理能力
资源
- 代码地址:TEN-Agent
-
体验地址:theten, 在线体验,选模态、点击 connect 按钮开启
- 带有 OpenAI Realtime API 和 RTC 的 TEN 代理
- 将超低延迟的 OpenAI Realtime API 与 RTC 的 AI 噪音抑制相结合,可确保流畅、高质量的交互。除此之外,天气和新闻工具的无缝集成使 TEN Agent 更加通用。
功能
- OpenAI Realtime API 和 RTC 集成:TEN Agent 是集成 OpenAI Realtime API 和 RTC 的世界级多模式 AI 代理。
- 高性能实时多模式交互:为复杂视听AI应用提供高性能、低延迟的解决方案。
- 多语言和多平台支持:支持C++、Go、Python等扩展开发。可在Windows、Mac、Linux和移动设备上运行。
- 边缘云集成:灵活结合边缘和云部署的扩展,平衡隐私、成本和性能。
- 超越模型限制的灵活性:通过简单的拖放编程轻松构建复杂的AI应用程序,集成视听工具,数据库,RAG等。
- 实时代理状态管理:实时管理和调整代理行为以实现动态响应。
GLM-4-Voice
【2024-12-3】智谱开源语音克隆 GLM-4-Voice
- 清华论文: GLM-4-Voice: 通向智能及类似人类的端到端语音会话机器人
- 标题:GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
- 代码:GLM-4-Voice
支持中文和英文对话,能够根据用户指令调整语音的情感、语调、语速和方言,还使用了一种低比特率(175bps)的单码本语音分词器,融入自动语音识别(ASR)模型中,利用向量量化约束作为编码器的一部分,以此产生12.5Hz的帧率。
GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。
GLM-4-Voice 由三个部分组成:
GLM-4-Voice-Tokenizer
: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。GLM-4-Voice-Decoder
: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。GLM-4-Voice-9B
: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。
预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,将 Speech2Speech 任务解耦合为“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成语音-文本交错数据以适配这两种任务形式。GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。
对齐方面,为了支持高质量的语音对话,设计流式思考架构:根据用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令要求做出相应的声音变化,在最大程度保留语言模型智商的情况下仍然具有端到端建模的能力,同时具备低延迟性,最低只需要输出 20 个 token 便可以合成语音。