端到端语音交互
端到端实时语音交互 LLM + TTS
总结
端到端的音频模型:
- 1、hertz-dev
- 2、mini-omni2
- 3、GLM-4-Voice
- 4、moshi
- 5、Spiritlm
传统AI语音助手
【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互
AI语音助手传统路子:
- 把问题往LLM(大语言模型)里一丢,等回话,再让TTS(文本转语音)上阵 —— 这一连串动作,听起来挺顺,实则很卡。
- 跟AI聊天还得等它反应,就像给朋友发微信,结果他秒回了个“正在输入……”,急不急人?
- 传统方法每个步骤都得排队,结果就是“首次音频时间”(TTFA) 拖长,对话流畅度直接打折。
- 分块和缓冲 是工程师们的噩梦。
- 为了快那么一点点,系统得把长句子切成小块,到时候再像玩拼图一样拼起来。但这拼图可不是随便拼的,时间差一丁点,不是这边话音未落那边又响起来了,就是句子讲到一半突然卡壳,尴尬得能抠出三室一厅。
- 错误处理也是个大坑。文本和语音本来天生一对,结果被硬生生拆散了。万一哪边出了岔子,找起原因来就像大海捞针,用户体验?先放一边凉快吧。
- 馊主意: 把长句子拆成小段,一个个往TTS里送,想着这样能快点。
- 结果 协调起来比登天还难,同步稍有不慎,音频乱套、停顿尴尬。
说好的流畅对话呢?最后还是让人直呼“带不动”。
手机上 Siri、小爱同学,问它问题需要花费几秒钟去检索
包括GPT4,切换到语音输出模式,还是有不小的延迟。这样一来就显得有些卡顿,等待AI回复的过程像是过了几千年,让人恨不得把脑袋伸进手机里让AI快点。
贾扬清创办的Lepton AI刚刚宣布,Lepton LLM API 已经支持实时语音交互了!
语音克隆
【2024-11-23】两个端到端的语音模型Fish-Speech和GLM-4-Voice
- Fish-Speech 零样本克隆效果达到要求。所以计划数字人的TTS就用它的克隆语音流式播放。
- GLM-4-Voice 生成语音,间隔时间有点长,目前还无法满足我的数字人实时聊天。
Fish-Speech
Fish-Speech 只需3分钟,即可创建属于你的AI数字声音克隆。
- 支持40+种语言,99.9%的还原度。
- 🎯 超高还原度: 采用最新深度学习技术,声音还原度达99.9%,无法与真人声音区分。
- ⚡️ 实时生成: 毫秒级响应,支持实时语音克隆,适用于直播、游戏等场景。
- 🌍 多语言支持: 支持40+种语言,包括中文、英语、日语等,一次训练多语言使用。
语音对话
Ichigo
本地实时语音交互
Ichigo 是一个开放的、持续的研究实验,旨在扩展文本基础的大语言模型,使其具备原生的”听觉”能力。
一个开放数据、开放权重、在设备上运行的 Siri
全双工 LSLM
【2024-8-5】全双工对话:大模型能边说边听了
- 上海交大开发出新模型
LSLM
(Listening-while-Speaking Language Model),实现了真正的”全双工对话“。listening-while-speaking language model - 论文 Language Model Can Listen While Speaking
- Demo
传统的AI对话模型都是”你一句我一句”的轮流模式。但LSLM不一样,它可以同时说话和听话。AI一边”嘴巴”不停,一边”耳朵”也没闲着
两个关键技术:
- 基于token的解码器TTS:负责生成语音
- 流式自监督学习编码器:实时处理音频输入
为了让”说”和”听”这两个通道更好地协同工作,探索了三种融合策略:
- 早期融合
- 中期融合
- 晚期融合
最终,中期融合脱颖而出,在语音生成和实时交互之间取得了最佳平衡。
- “中期融合就像人类大脑处理信息的方式,既不会太早下结论,也不会反应太慢。这可能是未来对话AI的发展方向。”
两种实验场景:
- 基于命令的全双工模式
- 基于语音的全双工模式
结果显示,LSLM不仅能抗噪音,还能对各种指令保持敏感。
Full Duplex Modeling (FDM)
虽然LSLM看起来很厉害,但距离真正的”自然对话”还有一段距离。
不过,这项研究确实为交互式语音对话系统的发展开辟了新路径,让AI在实际应用中更接地气。
Lepton LLM API
【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互
- 官方 API
技术原理
Lepton AI 直接把 LLM
和 TTS
合二为一。
- 传统系统里,文本和音频排队等处理;
- 这里文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。
除了减少延迟外,Lepton AI 还引入用于简化和优化内容处理的高级机制,能根据对话内容动态调整音频片段。这样,对话不仅连贯,还超级自然,停顿、中断?不存在的!用户体验直接拉满!
这技术还超级百搭,跟那些开源的LLM模型都私下里串通好了。
- 比如Llama3.1系列,无论是8B、70B还是405B,都能跟Lepton AI的语音模式无缝对接。
- 开发者们可以随心所欲地挑选心仪的模型,再搭配上 Lepton AI 语音黑科技,创造出既个性又高效的应用,享受“私人订制”服务。
效果
向AI提问题后,AI立即进行回答,几乎是秒回,而且还有不同音色任君选择。
根据测试,他们已经能做到让AI在在300ms内开始回答问题。
贾扬清 Twitter 演示视频
Mini-Omni
【2024-9-3】开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话
Mini-Omni, 更强大的实时语音对话AI模型开源
【2024-8-30】清华 gpt-omni 团队开发,语音助手界的一匹黑马,不仅能实现实时语音对话,还能同时生成文本和音频
- 模型下载:mini-omni
- 论文地址:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
- 代码仓库:mini-omni
Mini-Omni有哪些特性呢?
- 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
- 同时生成文本和音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
- 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。
Mini-Omni:语言模型在流式处理中的听、说、思考能力
Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。
- Qwen2 作为 LLM 主干。
- litGPT 用于训练和推理。
- whisper 用于音频编码。
- snac 用于音频解码。
- CosyVoice 用于生成合成语音。
- OpenOrca 和 MOSS 用于对齐。
功能特点
- ? 实时语音对话功能,无需额外的ASR或TTS模型。
- ? 边思考边对话,支持同时生成文本和音频。
- ? 支持流式音频输出。
- ? 提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。
模型结构
安装
conda create -n omni python=3.10
conda activate omni
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt
使用
# 启动服务器
conda activate omni
cd mini-omni
# 本地测试运行预设的音频样本和问题
python inference.py
# 启动服务
python3 server.py --ip '0.0.0.0' --port 60808
# 运行 Streamlit 演示
# 注意:本地运行 Streamlit 并安装 PyAudio。
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
# 运行 Gradio 演示
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
Hertz-dev
【2024-11-5】Hertz-dev: 首个开源的超低延迟的实时交互语音对话模型
Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒,实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍
模型能够以类似人类的方式互动的先决条件,而不是感觉像延迟、断断续续的电话通话。
作者目前正在训练更大、更先进的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。
Hertz-dev 是实时语音交互的一次探索,也是世界上最容易让研究人员进行微调和构建的对话音频模型。
ten-agent
【2024-10-21】ten-agent: 又一款王炸级的开源端到端语音模型
首个集成 OpenAI Realtime API和RTC能力的实时多模态AI agent:TEN-Agent,具备
- 天气查询、网络搜索、视觉识别、RAG能力
- 适合智能客服、实时语音助手, 这种实时交互的场景, 能同时看、听、说,处理各种信息,具备超低延迟的音视频交互能力,agent状态实时管理,多模态处理能力
资源
- 代码地址:TEN-Agent
-
体验地址:theten, 在线体验,选模态、点击 connect 按钮开启
- 带有 OpenAI Realtime API 和 RTC 的 TEN 代理
- 将超低延迟的 OpenAI Realtime API 与 RTC 的 AI 噪音抑制相结合,可确保流畅、高质量的交互。除此之外,天气和新闻工具的无缝集成使 TEN Agent 更加通用。
功能
- OpenAI Realtime API 和 RTC 集成:TEN Agent 是集成 OpenAI Realtime API 和 RTC 的世界级多模式 AI 代理。
- 高性能实时多模式交互:为复杂视听AI应用提供高性能、低延迟的解决方案。
- 多语言和多平台支持:支持C++、Go、Python等扩展开发。可在Windows、Mac、Linux和移动设备上运行。
- 边缘云集成:灵活结合边缘和云部署的扩展,平衡隐私、成本和性能。
- 超越模型限制的灵活性:通过简单的拖放编程轻松构建复杂的AI应用程序,集成视听工具,数据库,RAG等。
- 实时代理状态管理:实时管理和调整代理行为以实现动态响应。
GLM-4-Voice
智谱开源语音克隆 GLM-4-Voice
GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。
GLM-4-Voice 由三个部分组成:
GLM-4-Voice-Tokenizer
: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。GLM-4-Voice-Decoder
: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。GLM-4-Voice-9B
: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。
预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,将 Speech2Speech 任务解耦合为“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成语音-文本交错数据以适配这两种任务形式。GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。
对齐方面,为了支持高质量的语音对话,设计流式思考架构:根据用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令要求做出相应的声音变化,在最大程度保留语言模型智商的情况下仍然具有端到端建模的能力,同时具备低延迟性,最低只需要输出 20 个 token 便可以合成语音。