【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理! - AI魔法学院

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

AI魔法学院

2024-07-11

分享海报

项目主页-https://fun-audio-llm.github.io/

代码链接-https://github.com/FunAudioLLM/

论文链接-https://arxiv.org/pdf/2407.04051

理论篇: FunAudioLLM项目介绍

FunAudioLLM整体系统框架介绍

FunAudioLLM 是阿里语音团队最新开源的项目，用于改善人类与大型语言模型的自然语音交互。包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟 ASR(目前已开源)，SenseVoice-Large 支持超过 50 种语言的高精度 ASR。
CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。整体项目的框架如下:

核心模型一: 语音识别模型SenseVoice介绍

SenseVoice 是一个全面的语音基础模型，旨在执行各种语音理解任务，包括自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。

SenseVoice-Small：一个仅编码器的模型，优化了快速语音理解。它在支持5种语言的同时提供高速处理。
SenseVoice-Large：一个编码器-解码器模型，旨在实现更精确的语音理解，支持更广泛的语言范围。它以准确性见长，并支持大量的语言功能。

SenseVoice模型具有的功能特点：

多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。
低延迟：特别是 SenseVoice-Small 版本，采用非自回归端到端架构，提供了极低的推理延迟。
高性能：与 Whisper-small(已开源) 和 Whisper-large 相比，SenseVoice-Small 的性能分别快 5 倍和 15 倍以上。
情感识别：SenseVoice 提供最先进的情感识别能力（例如高兴、悲伤、生气等），能够检测音频中的特定事件，如音乐、掌声和笑声等。
高精准度：SenseVoice-Large(目前还未开源) 支持超过 50 种语言的高精准度自动语音识别（ASR）。

核心模型二: 语音合成模型CosyVoice介绍

CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。模型支持五种语言：中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型：

CosyVoice-base-300M：擅长准确代表说话者身份，无需微调即可适应不同上下文，能够跨语言克隆声音。
CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。
CosyVoice-sft-300M：已针对七位多语言说话者进行了微调，适合立即部署使用。

语音合成模型 CosyVoice 功能特点：

多语言支持：CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习：能够无需训练即可适应新说话者（zero-shot in-context learning），能够在不同语言之间复制声音。
情感共鸣：能够创建情感共鸣的声音， CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成：生成的样本在词错误率（WER）和说话者相似性方面达到人类水平。
语音定制化：能够根据特定说话者生成多语言语音，适应新说话者而无需训练。
语音克隆与风格迁移：支持在不同语言之间进行语音克隆和情感风格迁移。

FunAudioLLM的应用场景

SenseVoice+ LLMs+ CosyVoice实现同声翻译

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信：skillupvip

更多相关内容更多>>

阿里推理模型来了！Marco-o1 发布即开源

【手把手带你微调 Llama3】改变大模型的自我认知，单卡就能训

手把手教你本地部署清华大学KEG的ChatGLM-6B模型——Windows+6GB显卡版本和CPU版本的本地部署

手把手带你微调一个自己的 ChatGLM2-6B 模型

评论

1 评论

包打听2024/7/11 9:57:31

太牛了，为真正无延迟的语音交互奠定了基础，离0延迟更近了

Ai魔法学院精选

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

文章介绍了阿里语音团队最新开源的FunAudioLLM项目，旨在提升人类与大型语言模型的自然语音交互体验。项目包含SenseVoice和CosyVoice两个核心模型：SenseVoice负责语音识别和音频处理，支持多语言识别、低延迟、高性能及情感识别；CosyVoice则专注于语音生成和控制，支持多语言、零样本学习、情感共鸣及语音克隆等功能。文章还详细阐述了这两个模型的特点、应用场景，并提供了在

2024-07-11

Recommend

智能未来，AI悉心，学无止境

扫码阅读原文