鹤啸九天 自律更自由,平凡不平庸 Less is More

端到端语音交互 Voice Interaction of End2End

2024-11-08
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南, 或划到本页末尾, 或直接点击跳转, 查看全站导航图
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


端到端语音交互

端到端实时语音交互 LLM + TTS

总结

端到端的音频模型:

传统AI语音助手

【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互

AI语音助手传统路子:

  • 把问题往LLM(大语言模型)里一丢,等回话,再让TTS(文本转语音)上阵 —— 这一连串动作,听起来挺顺,实则很卡
  • 跟AI聊天还得等它反应,就像给朋友发微信,结果他秒回了个“正在输入……”,急不急人?
    • 传统方法每个步骤都得排队,结果就是“首次音频时间”(TTFA) 拖长,对话流畅度直接打折。
  • 分块和缓冲 是工程师们的噩梦。
    • 为了快那么一点点,系统得把长句子切成小块,到时候再像玩拼图一样拼起来。但这拼图可不是随便拼的,时间差一丁点,不是这边话音未落那边又响起来了,就是句子讲到一半突然卡壳,尴尬得能抠出三室一厅。
  • 错误处理也是个大坑。文本和语音本来天生一对,结果被硬生生拆散了。万一哪边出了岔子,找起原因来就像大海捞针,用户体验?先放一边凉快吧。
  • 馊主意: 把长句子拆成小段,一个个往TTS里送,想着这样能快点。
    • 结果 协调起来比登天还难,同步稍有不慎,音频乱套停顿尴尬。

说好的流畅对话呢?最后还是让人直呼“带不动”。

手机上 Siri、小爱同学,问它问题需要花费几秒钟去检索

包括GPT4,切换到语音输出模式,还是有不小的延迟。这样一来就显得有些卡顿,等待AI回复的过程像是过了几千年,让人恨不得把脑袋伸进手机里让AI快点。

贾扬清创办的Lepton AI刚刚宣布,Lepton LLM API 已经支持实时语音交互了!

语音克隆

【2024-11-23】两个端到端的语音模型Fish-Speech和GLM-4-Voice

  • Fish-Speech 零样本克隆效果达到要求。所以计划数字人的TTS就用它的克隆语音流式播放。
  • GLM-4-Voice 生成语音,间隔时间有点长,目前还无法满足我的数字人实时聊天。

Fish-Speech

Fish-Speech 只需3分钟,即可创建属于你的AI数字声音克隆。

  • 支持40+种语言,99.9%的还原度。
  • 🎯 超高还原度: 采用最新深度学习技术,声音还原度达99.9%,无法与真人声音区分。
  • ⚡️ 实时生成: 毫秒级响应,支持实时语音克隆,适用于直播、游戏等场景。
  • 🌍 多语言支持: 支持40+种语言,包括中文、英语、日语等,一次训练多语言使用。

语音对话

Ichigo

本地实时语音交互

Ichigo 是一个开放的、持续的研究实验,旨在扩展文本基础的大语言模型,使其具备原生的”听觉”能力。

一个开放数据、开放权重、在设备上运行的 Siri

全双工 LSLM

【2024-8-5】全双工对话:大模型能边说边听了

传统的AI对话模型都是”你一句我一句”的轮流模式。但LSLM不一样,它可以同时说话和听话。AI一边”嘴巴”不停,一边”耳朵”也没闲着

两个关键技术:

  • 基于token的解码器TTS:负责生成语音
  • 流式自监督学习编码器:实时处理音频输入

为了让”说”和”听”这两个通道更好地协同工作,探索了三种融合策略:

  • 早期融合
  • 中期融合
  • 晚期融合

最终,中期融合脱颖而出,在语音生成和实时交互之间取得了最佳平衡。

  • “中期融合就像人类大脑处理信息的方式,既不会太早下结论,也不会反应太慢。这可能是未来对话AI的发展方向。”

两种实验场景:

  • 基于命令的全双工模式
  • 基于语音的全双工模式

结果显示,LSLM不仅能抗噪音,还能对各种指令保持敏感。

Full Duplex Modeling (FDM)

虽然LSLM看起来很厉害,但距离真正的”自然对话”还有一段距离。

不过,这项研究确实为交互式语音对话系统的发展开辟了新路径,让AI在实际应用中更接地气。

Lepton LLM API

【2024-8-8】 告别TTS!贾扬清领衔的 Lepton AI 推出实时语音交互

技术原理

Lepton AI 直接把 LLMTTS 合二为一。

  • 传统系统里,文本和音频排队等处理;
  • 这里文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。

除了减少延迟外,Lepton AI 还引入用于简化和优化内容处理的高级机制,能根据对话内容动态调整音频片段。这样,对话不仅连贯,还超级自然,停顿、中断?不存在的!用户体验直接拉满!

这技术还超级百搭,跟那些开源的LLM模型都私下里串通好了。

  • 比如Llama3.1系列,无论是8B、70B还是405B,都能跟Lepton AI的语音模式无缝对接。
  • 开发者们可以随心所欲地挑选心仪的模型,再搭配上 Lepton AI 语音黑科技,创造出既个性又高效的应用,享受“私人订制”服务。

效果

向AI提问题后,AI立即进行回答,几乎是秒回,而且还有不同音色任君选择。

根据测试,他们已经能做到让AI在在300ms内开始回答问题。

贾扬清 Twitter 演示视频

Mini-Omni

【2024-9-3】开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话

Mini-Omni, 更强大的实时语音对话AI模型开源

【2024-8-30】清华 gpt-omni 团队开发,语音助手界的一匹黑马,不仅能实现实时语音对话,还能同时生成文本音频

Mini-Omni有哪些特性呢?

  • 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
  • 同时生成文本音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
  • 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。

Mini-Omni:语言模型在流式处理中的听、说、思考能力

Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。

功能特点

  • ? 实时语音对话功能,无需额外的ASR或TTS模型。
  • ? 边思考边对话,支持同时生成文本和音频。
  • ? 支持流式音频输出。
  • ? 提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。

模型结构

安装

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt

使用

# 启动服务器
conda activate omni
cd mini-omni

# 本地测试运行预设的音频样本和问题
python inference.py

# 启动服务
python3 server.py --ip '0.0.0.0' --port 60808
# 运行 Streamlit 演示
# 注意:本地运行 Streamlit 并安装 PyAudio。
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
# 运行 Gradio 演示
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

Hertz-dev

【2024-11-5】Hertz-dev: 首个开源的超低延迟的实时交互语音对话模型

Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒,实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍

模型能够以类似人类的方式互动的先决条件,而不是感觉像延迟、断断续续的电话通话。

作者目前正在训练更大、更先进的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。

Hertz-dev 是实时语音交互的一次探索,也是世界上最容易让研究人员进行微调和构建的对话音频模型。

ten-agent

【2024-10-21】ten-agent: 又一款王炸级的开源端到端语音模型

首个集成 OpenAI Realtime API和RTC能力的实时多模态AI agent:TEN-Agent,具备

  • 天气查询、网络搜索、视觉识别、RAG能力
  • 适合智能客服、实时语音助手, 这种实时交互的场景, 能同时看、听、说,处理各种信息,具备超低延迟的音视频交互能力,agent状态实时管理,多模态处理能力

资源

  • 代码地址:TEN-Agent
  • 体验地址:theten, 在线体验,选模态、点击 connect 按钮开启

  • 带有 OpenAI Realtime API 和 RTC 的 TEN 代理
    • 将超低延迟的 OpenAI Realtime API 与 RTC 的 AI 噪音抑制相结合,可确保流畅、高质量的交互。除此之外,天气和新闻工具的无缝集成使 TEN Agent 更加通用。

功能

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 是集成 OpenAI Realtime API 和 RTC 的世界级多模式 AI 代理。
  • 高性能实时多模式交互:为复杂视听AI应用提供高性能、低延迟的解决方案。
  • 多语言和多平台支持:支持C++、Go、Python等扩展开发。可在Windows、Mac、Linux和移动设备上运行。
  • 边缘云集成:灵活结合边缘和云部署的扩展,平衡隐私、成本和性能。
  • 超越模型限制的灵活性:通过简单的拖放编程轻松构建复杂的AI应用程序,集成视听工具,数据库,RAG等。
  • 实时代理状态管理:实时管理和调整代理行为以实现动态响应。

GLM-4-Voice

智谱开源语音克隆 GLM-4-Voice

GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。

GLM-4-Voice 由三个部分组成:

  • GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。
  • GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。
  • GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。

预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,将 Speech2Speech 任务解耦合为“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成语音-文本交错数据以适配这两种任务形式。GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。

对齐方面,为了支持高质量的语音对话,设计流式思考架构:根据用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令要求做出相应的声音变化,在最大程度保留语言模型智商的情况下仍然具有端到端建模的能力,同时具备低延迟性,最低只需要输出 20 个 token 便可以合成语音。

结束


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Similar Posts

Related Posts

下一篇 LLM 发展方向

标题:Transformer 改进方案

摘要:Transformer、Attention 有什么问题?如何改进?是唯一选择吗?

标题:LLM 发展方向

摘要:大模型会往哪个方向发展?

站内可视化导航

文章可视化导读:鼠标划过图形块时,如果出现蓝色光环, 点击即可跳转到对应主题

Comments

--disqus--

    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天