AI魔法学院客服
开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话
Mini-Omni,一个开源的实时语音对话AI模型,由gpt-omni团队开发,能实现实时语音对话并同时生成文本和音频,具有流式音频输出技术,可能引发语音交互领域革命,为听障人士带来便利。模型特点包括无需额外ASR或TTS模型,支持边思考边对话,及批量推理功能。提供了模型下载、论文和代码仓库链接,并详细说明了安装、快速开始步骤及致谢和参考链接。
 2024-09-05
收藏 复制地址分享海报

还记得前阵子ChatGPT风靡一时但一直没全量发布的高级语音功能吗?

如今,一个甚至更加强大的实时语音对话AI模型开源了!它的名字叫做:Mini-Omni

这个由gpt-omni团队开发的开源模型,可以说是语音助手界的一匹黑马。它不仅能实现实时的语音对话,更厉害的是,它还能同时生成文本和音频

有网友兴奋不已:

"这简直就是科幻电影里的场景啊!以后我们是不是可以和AI助手进行无障碍的实时对话了?"

Mini-Omni的出现,可能会让现有的语音助手们瑟瑟发抖

想想看,以后我们可能真的能和AI进行流畅的实时对话,就像在和真人聊天一样!

而数次跳票的ChatGPT 4o 语音功能,可能可以永久跳票了。

那么,Mini-Omni有哪些特性呢?

  1. 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
  2. 同时生成文本和音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
  3. 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。

Mini-Omni的开源,很可能会引发语音交互领域的一场革命。它不仅能提升用户体验,还可能为听障人士带来更多便利。

想象一下,以后我们可能真的能和AI进行毫无障碍的实时对话,这是多么令人兴奋的事情啊!

对这个项目感兴趣的小伙伴们,我整理好了相关链接:

·     模型下载:https://hf.co/gpt-omni/mini-omni

·     论文地址:https://hf.co/papers/2408.16725

·     代码仓库:https://github.com/gpt-omni/mini-omni

Mini-Omni 官方介绍👇

Mini-Omni:语言模型在流式处理中的听、说、思考能力

Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。

功能特点

实时语音对话功能,无需额外的ASRTTS模型。

边思考边对话,支持同时生成文本和音频。

支持流式音频输出

提供音频转文本音频转音频批量推理,进一步提升性能。

演示

,时长00:59

安装

创建一个新的conda环境并安装所需的包:

conda create -n omni python=3.10
conda activate omni

git 
clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt

快速开始

交互式演示

  • 启动服务器

conda activate omni
cd mini-omni
python3 server.py --ip 
'0.0.0.0' --port 60808

  • 运行 Streamlit 演示

注意:你需要本地运行 Streamlit 并安装 PyAudio

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

  • 运行 Gradio 演示

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

示例:

注意:Gradio 似乎无法立即播放音频流,因此延迟感会稍强。

,时长00:28

本地测试

conda activate omni
cd mini-omni
# 测试运行预设的音频样本和问题
python inference.py

致谢

  • Qwen2[1]作为 LLM 主干。
  • litGPT[2]用于训练和推理。
  • whisper[3]用于音频编码。
  • snac[4]用于音频解码。
  • CosyVoice[5]用于生成合成语音。
  • OpenOrca[6]MOSS[7]用于对齐。


参考链接

[1]

Qwen2: https://github.com/QwenLM/Qwen2/

[2]

litGPT: https://github.com/Lightning-AI/litgpt/

[3]

whisper: https://github.com/openai/whisper/

[4]

snac: https://github.com/hubertsiuzdak/snac/

[5]

CosyVoice: https://github.com/FunAudioLLM/CosyVoice

[6]

OpenOrca: https://huggingface.co/datasets/Open-Orca/OpenOrca

[7]

MOSS: https://github.com/OpenMOSS/MOSS/tree/main

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
杰克穷死2024/9/5 10:11:44
"这Mini-Omni简直是AI语音界的清流!实时对话,文本音频同步出,还自带流式音频黑科技,感觉像是给未来语音交互按下了快进键。特别是为听障朋友打开的新世界大门,暖心又前沿。无需ASR、TTS,边想边聊,批量推理更是效率爆表,这创新力满分!感谢gpt-omni团队的开源精神,链接已收,迫不及待要动手试试了,期待语音交互的新纪元!"
20秒读懂全文
伴读
# 1. 一句话总结文章摘要
Mini-Omni,一个强大的实时语音对话AI模型开源,具备实时语音对话、同时生成文本和音频及流式音频输出等特性,或引发语音交互领域革命。

# 2. 生成关键词和可能相关的关键词
- **关键词**:Mini-Omni, 实时语音对话, 多模态大型语言模型, 开源, AI助手, 文本和音频生成, 流式音频输出, 语音交互革命, 听障人士便
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群