文章列表-AI魔法学院

文章列表

关于AI声音生成的一切（语音+音乐+嘴型）

其实声音生成也有很多革命性的工具，例如高质量的声音识别、文字转成人声、人声克隆、音乐生成，已经能组成完整工作流了，其中一些工具甚至已经打包好了，只要下载解压就能用！

声音

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

哪款语音克隆模型最好，等你来评价~本文案例效果仅供参考！

语音克隆开源模型

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

【语音识别】OpenAI语音力作Whisper

这么多的标注数据使得我们可以直接在有监督语音识别任务上预训练Whisper，从标注音频转录数据中直接习得语音到文本的映射。

语音转文字 whisper

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

01 前言近日，香港中文大学（深圳）联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。

MaskGCT 声音克隆

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字，但是你需要用多个工具，而且效果不理想！

大模型开源模型语音

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？

EmotiVoice 语音合成

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

这一技术可广泛应用于嘈杂环境中的语音通话、播客制作以及任何需要高质量语音输入的场景。

ClearerVoice-Studio 语音

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。

asr tts 声音

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

这正是Zhipu AI的GLM-4-Voice脱颖而出的地方。

GLM-4-Voice 9B 语音安装

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1