阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01

概述

在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？无论是个人电话、专业会议还是内容创作，这些问题都在困扰着我们。虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。因此，市场急需一套能够应对这些挑战并适应现代应用需求的语音处理框架，例如虚拟助手、视频会议和创意媒体制作。

清晰之声，重塑沟通体验

为了解决这些痛点，阿里巴巴语音实验室推出了 ClearerVoice-Studio——一款功能全面的语音处理框架。它集成了先进的语音增强（Speech Enhancement）、语音分离（Speech Separation）和音视频扬声器提取（Audio-Video Speaker Extraction）功能，能够在嘈杂环境中清理音频、分离复杂声源并结合音频和视觉数据锁定目标发声者。

ClearerVoice-Studio 由阿里巴巴通义实验室开发，致力于为语音处理技术的广泛应用提供坚实支持。无论是日常沟通、专业音频工作流还是语音技术的前沿研究，这套框架都能提供强有力的解决方案。开发者和研究人员还可通过 GitHub 和 Hugging Face 平台获取工具并探索其潜力。

.02

技术亮点：多模型协作，创新驱动性能突破

ClearerVoice-Studio 的核心优势在于其精心设计的模型体系，针对不同的语音处理任务量身打造了多款创新模型。以下是几个技术亮点：

1） FRCRN 模型：还原自然语音的“魔术师”

FRCRN 模型擅长在移除背景噪音的同时保留音频的自然品质。其能力得到了权威认证，在 2022 IEEE/INTER Speech DNS Challenge 中荣获亚军。这一技术可广泛应用于嘈杂环境中的语音通话、播客制作以及任何需要高质量语音输入的场景。

2） MossFormer 系列：复杂音频场景中的“分离专家”

MossFormer 系列模型是 ClearerVoice-Studio 的另一个明星产品，专注于从复杂音频混合中分离单独的声源。相较于此前的主流模型 SepFormer，MossFormer 不仅在语音分离任务上表现卓越，还扩展了功能，能够处理语音增强和目标发声者提取任务。更灵活的应用场景：无论是多人会议记录中区分不同发言者，还是多声道音频编辑，它都能轻松胜任。

3） 高保真 48kHz 模型：不失真的清晰之音

针对对音频质量要求极高的场景，ClearerVoice-Studio 提供了基于 MossFormer2 的 48kHz 语音增强模型。该模型在显著降低噪声的同时，最大限度地保留了音频的自然音色，尤其适合音乐创作、专业录音和影视后期制作。此外，用户还能通过细调工具对模型进行个性化优化，以满足特定需求。

4） 音视频结合：精准锁定目标发声者

ClearerVoice-Studio 的音视频建模功能，是多发言者场景中的一大亮点。通过结合视觉信号和音频数据，该功能可以精准提取特定发声者的语音，为视频会议、直播和多人交互应用提供了理想解决方案。

.03

实用性与灵活性：从测试到应用的全面胜利

ClearerVoice-Studio 的实力不仅体现在模型的理论性能上，更通过大量实测和实际应用验证了其价值。以下是一些关键成就：

权威基准验证：FRCRN 模型在 IEEE/INTER Speech DNS Challenge 中的优异表现，证明了其在噪声抑制和语音增强任务中的强大能力。
真实场景应用：无论是用于实时会议的语音清理，还是在电影制作中分离背景音，ClearerVoice-Studio 都展现出卓越表现。
开放平台支持：通过 GitHub 和 Hugging Face 平台，用户可以快速上手并在各种场景中部署 ClearerVoice-Studio，例如：