文章列表-AI魔法学院

文章列表

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

它可以实现多种语音和文字之间的转换和翻译，而且只需要一个模型，就可以支持近百种语言，效果也非常出色。

大模型开源模型语音

关于AI声音生成的一切（语音+音乐+嘴型）

解压就能用）: OpenAI Whisper自动语音识别模型的高性能GPGPU推理，基于DirectCompute技术，对Windows系统进行了优化，并且在性能和内存使用上优于原始OpenAI实现。

声音

【语音识别】OpenAI语音力作Whisper

与人类相比，在语音识别和语音翻译（x→en）上，模型的准确性和稳健性接近人类。

语音转文字 whisper

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

然而，语言模型缺乏像人类一样感知非文本模态（如图像和音频）的能力。

大模型语音

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？

EmotiVoice 语音合成

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型，该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。

coqui-ai TTS 语音

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.02 技术亮点：多模型协作，创新驱动性能突破 ClearerVoice-Studio 的核心优势在于其精心设计的模型体系，针对不同的语音处理任务量身打造了多款创新模型

ClearerVoice-Studio 语音

我，大语言模型

作为大语言模型，我只前向思考，不反向思考。

大模型

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它作为全球首个开源中文情感端到端语音交互大模型，为中文语音交互技术带来了新的活力和可能性。

Westlake -Omni 语音

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1