文章列表-AI魔法学院

文章列表

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

哪款语音克隆模型最好，等你来评价~本文案例效果仅供参考！

语音克隆开源模型

【语音识别】OpenAI语音力作Whisper

这么多的标注数据使得我们可以直接在有监督语音识别任务上预训练Whisper，从标注音频转录数据中直接习得语音到文本的映射。

语音转文字 whisper

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

01 前言近日，香港中文大学（深圳）联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。

MaskGCT 声音克隆

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

关于AI声音生成的一切（语音+音乐+嘴型）

其实声音生成也有很多革命性的工具，例如高质量的声音识别、文字转成人声、人声克隆、音乐生成，已经能组成完整工作流了，其中一些工具甚至已经打包好了，只要下载解压就能用！

声音

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？

EmotiVoice 语音合成

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

它集成了先进的语音增强（Speech Enhancement）、语音分离（Speech Separation）和音视频扬声器提取（Audio-Video Speaker Extraction）功能，能够在嘈杂环境中清理音频

ClearerVoice-Studio 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。

asr tts 声音

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1