开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话
AI魔法学院
2024-09-05
分享海报

还记得前阵子ChatGPT风靡一时但一直没全量发布的高级语音功能吗?

如今,一个甚至更加强大的实时语音对话AI模型开源了!它的名字叫做:Mini-Omni

这个由gpt-omni团队开发的开源模型,可以说是语音助手界的一匹黑马。它不仅能实现实时的语音对话,更厉害的是,它还能同时生成文本和音频

有网友兴奋不已:

"这简直就是科幻电影里的场景啊!以后我们是不是可以和AI助手进行无障碍的实时对话了?"

Mini-Omni的出现,可能会让现有的语音助手们瑟瑟发抖

想想看,以后我们可能真的能和AI进行流畅的实时对话,就像在和真人聊天一样!

而数次跳票的ChatGPT 4o 语音功能,可能可以永久跳票了。

那么,Mini-Omni有哪些特性呢?

  1. 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
  2. 同时生成文本和音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
  3. 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。

Mini-Omni的开源,很可能会引发语音交互领域的一场革命。它不仅能提升用户体验,还可能为听障人士带来更多便利。

想象一下,以后我们可能真的能和AI进行毫无障碍的实时对话,这是多么令人兴奋的事情啊!

对这个项目感兴趣的小伙伴们,我整理好了相关链接:

·     模型下载:https://hf.co/gpt-omni/mini-omni

·     论文地址:https://hf.co/papers/2408.16725

·     代码仓库:https://github.com/gpt-omni/mini-omni

Mini-Omni 官方介绍👇

Mini-Omni:语言模型在流式处理中的听、说、思考能力

Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。

功能特点

实时语音对话功能,无需额外的ASRTTS模型。

边思考边对话,支持同时生成文本和音频。

支持流式音频输出

提供音频转文本音频转音频批量推理,进一步提升性能。

演示

,时长00:59

安装

创建一个新的conda环境并安装所需的包:

conda create -n omni python=3.10
conda activate omni

git 
clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt

快速开始

交互式演示

  • 启动服务器

conda activate omni
cd mini-omni
python3 server.py --ip 
'0.0.0.0' --port 60808

  • 运行 Streamlit 演示

注意:你需要本地运行 Streamlit 并安装 PyAudio

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

  • 运行 Gradio 演示

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

示例:

注意:Gradio 似乎无法立即播放音频流,因此延迟感会稍强。

,时长00:28

本地测试

conda activate omni
cd mini-omni
# 测试运行预设的音频样本和问题
python inference.py

致谢

  • Qwen2[1]作为 LLM 主干。
  • litGPT[2]用于训练和推理。
  • whisper[3]用于音频编码。
  • snac[4]用于音频解码。
  • CosyVoice[5]用于生成合成语音。
  • OpenOrca[6]MOSS[7]用于对齐。


参考链接

[1]

Qwen2: https://github.com/QwenLM/Qwen2/

[2]

litGPT: https://github.com/Lightning-AI/litgpt/

[3]

whisper: https://github.com/openai/whisper/

[4]

snac: https://github.com/hubertsiuzdak/snac/

[5]

CosyVoice: https://github.com/FunAudioLLM/CosyVoice

[6]

OpenOrca: https://huggingface.co/datasets/Open-Orca/OpenOrca

[7]

MOSS: https://github.com/OpenMOSS/MOSS/tree/main

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip