【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理! - AI魔法学院

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

文章介绍了阿里语音团队最新开源的FunAudioLLM项目，旨在提升人类与大型语言模型的自然语音交互体验。项目包含SenseVoice和CosyVoice两个核心模型：SenseVoice负责语音识别和音频处理，支持多语言识别、低延迟、高性能及情感识别；CosyVoice则专注于语音生成和控制，支持多语言、零样本学习、情感共鸣及语音克隆等功能。文章还详细阐述了这两个模型的特点、应用场景，并提供了在

项目主页-https://fun-audio-llm.github.io/

代码链接-https://github.com/FunAudioLLM/

论文链接-https://arxiv.org/pdf/2407.04051

理论篇: FunAudioLLM项目介绍

FunAudioLLM整体系统框架介绍

FunAudioLLM 是阿里语音团队最新开源的项目，用于改善人类与大型语言模型的自然语音交互。包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟 ASR(目前已开源)，SenseVoice-Large 支持超过 50 种语言的高精度 ASR。
CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。整体项目的框架如下:

核心模型一: 语音识别模型SenseVoice介绍

SenseVoice 是一个全面的语音基础模型，旨在执行各种语音理解任务，包括自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。

SenseVoice-Small：一个仅编码器的模型，优化了快速语音理解。它在支持5种语言的同时提供高速处理。
SenseVoice-Large：一个编码器-解码器模型，旨在实现更精确的语音理解，支持更广泛的语言范围。它以准确性见长，并支持大量的语言功能。

SenseVoice模型具有的功能特点：

多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。
低延迟：特别是 SenseVoice-Small 版本，采用非自回归端到端架构，提供了极低的推理延迟。
高性能：与 Whisper-small(已开源) 和 Whisper-large 相比，SenseVoice-Small 的性能分别快 5 倍和 15 倍以上。
情感识别：SenseVoice 提供最先进的情感识别能力（例如高兴、悲伤、生气等），能够检测音频中的特定事件，如音乐、掌声和笑声等。
高精准度：SenseVoice-Large(目前还未开源) 支持超过 50 种语言的高精准度自动语音识别（ASR）。

核心模型二: 语音合成模型CosyVoice介绍

CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。模型支持五种语言：中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型：

CosyVoice-base-300M：擅长准确代表说话者身份，无需微调即可适应不同上下文，能够跨语言克隆声音。
CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。
CosyVoice-sft-300M：已针对七位多语言说话者进行了微调，适合立即部署使用。

语音合成模型 CosyVoice 功能特点：

多语言支持：CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习：能够无需训练即可适应新说话者（zero-shot in-context learning），能够在不同语言之间复制声音。
情感共鸣：能够创建情感共鸣的声音， CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成：生成的样本在词错误率（WER）和说话者相似性方面达到人类水平。
语音定制化：能够根据特定说话者生成多语言语音，适应新说话者而无需训练。
语音克隆与风格迁移：支持在不同语言之间进行语音克隆和情感风格迁移。

FunAudioLLM的应用场景

SenseVoice+ LLMs+ CosyVoice实现同声翻译

本文档由网友提供，仅限参考学习，如有不妥或产生版权问题，请联系我们及时删除。客服请加微信：skillupvip

这个创作者的更多内容

你的下一个浏览器，可以是豆包电脑版！

中学生能看懂：Sora 原理解读

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

评论

1 评论

包打听2024/7/11 9:57:31

太牛了，为真正无延迟的语音交互奠定了基础，离0延迟更近了

20秒读懂全文

asr tts 声音

伴读

# 1. 一句话总结文章摘要
FunAudioLLM项目由阿里语音团队开源，包含SenseVoice和CosyVoice两个核心模型，分别用于语音识别和语音生成，支持多语言，提供低延迟、高精度和情感识别等特性，并展示了实战部署和应用场景。

# 2. 生成关键词和可能相关的关键词
关键词：
- FunAudioLLM
- SenseVoice
- CosyVoic

查看更多...

推荐阅读

· 阿里推理模型来了！Marco-o1 发布即开源

· 【手把手带你微调 Llama3】改变大模型的自我认知，单卡就能训

· 手把手教你本地部署清华大学KEG的ChatGLM-6B模型——Windows+6GB显卡版本和CPU版本的本地部署

· 手把手带你微调一个自己的 ChatGLM2-6B 模型

· 开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

· 开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

· ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

One More Thing

One More Thing again ...

找组织，加入AI魔法学院群

Ai魔法学院精选

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

文章介绍了阿里语音团队最新开源的FunAudioLLM项目，旨在提升人类与大型语言模型的自然语音交互体验。项目包含SenseVoice和CosyVoice两个核心模型：SenseVoice负责语音识别和音频处理，支持多语言识别、低延迟、高性能及情感识别；CosyVoice则专注于语音生成和控制，支持多语言、零样本学习、情感共鸣及语音克隆等功能。文章还详细阐述了这两个模型的特点、应用场景，并提供了在

2024-07-11

Recommend

智能未来，AI悉心，学无止境

扫码阅读原文

下载到本地分享

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1