文章列表-AI魔法学院

文章列表

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

该项目还提供了其他功能： · MusicGen：一种最新技术实现的可控文本到音乐模型。

AudioCraft 音频

FFmpeg之父新作——音频压缩工具 TSAC

我们看下官网给出流行歌曲的例子进行分析，首先听起来整体上是比较接近的，但是经过压缩后还原的音频，伴奏和人声混在了一起，没有一轨一轨清晰的感觉，有点像混音没有做好。

TSAC 音频工具

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

声码器的作用是将模型生成的语音特征还原为可听的声音信号，通过这一步骤，最终生成与原始声音高度相似的克隆语音，实现声音克隆的效果。

clone-voice 声音克隆

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

涵盖了 AI 绘画、AI 视频、AI 音乐、AI 数字人等各个领域今天给大家推荐一款AI神器，匹诺曹Pinokio！

AI绘画 AI视频 AI音乐

AI拟声: 5秒内克隆您的声音

个性化语音助手：使用MockingBird，你可以创建自己的个性化语音助手。

声音克隆开源

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1