文章列表-AI魔法学院

文章列表

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

音乐可能是最具挑战性的音频类型，因为它由局部和长程模式组成，从一系列音符到具有多种乐器的全局音乐结构。

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

在AI技术的浪潮中，一款新型的语音识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。

Distil-Whisper 语音识别

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

目前，在AI生成视频这个环节，已经发展的越来越快，各种技术也越来越成熟，从文字直接生成视频已经可以快速实现下面这样有复杂场景的视频，再结合更完善的故事脚本、对话，更复杂的视频效果都是可以畅想的。

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

各种AI工具也层出不穷，其中语音克隆技术也是尤为引人瞩目的产品之一。

tts 文本转语音

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

Prompt | 抖音视频脚本

复制脚本并访问 https://beta.elevenlabs.io/speech-synthesis 以生成文本转语音。

解读wav2lip：探究语音驱动唇部动作的技术原理！

具体来说，wav2lip的训练流程如下：首先，提取音频特征，将音频特征与人脸图像进行配对，形成一个音频-图像对，然后训练专家音频和口型同步判别器。

<1 234 5 6 7 8 9 10 ...>

Ai助理

Hello 👏🏻

我是 Ai助理，关于ai的问题你可以问我