文章列表-AI魔法学院

文章列表

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

但目前的AI视频尚未解决视频和音频结合的问题，让人物的嘴与音频完美同步仍然具有挑战性。

AI视频

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

01 前言近日，香港中文大学（深圳）联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。

MaskGCT 声音克隆

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

情感识别：SenseVoice 提供最先进的情感识别能力（例如高兴、悲伤、生气等），能够检测音频中的特定事件，如音乐、掌声和笑声等。

asr tts 声音

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频

【语音识别】OpenAI语音力作Whisper

首先，通过特征提取器将原始音频输入变换为对数梅尔声谱图 (log-Mel spectrogram)。

语音转文字 whisper

24年首篇离奇论文：加点噪声，RAG效果翻倍？

· 研究结果发现相关文档比无关文档更有害于RAG系统，并且当放置正确时，无关但噪声的文档实际上有助于提高系统的准确性。

RAG 检索增强

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

与主要关注器乐作品的传统工具不同，Suno的独特之处在于它能够创作包含歌词和人声的完整歌曲。

suno 音乐

FFmpeg之父新作——音频压缩工具 TSAC

根据官网介绍，TSAC可达到非常低的比特率，例如44.1 kHz采样率下的码率可以达到单声道 5.5 kb/s 或立体声 7.5 kb/s，具有良好的感知质量。

TSAC 音频工具

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

torch.tensor(np.concatenate(wavs,axis=-1)) Audio(finally_wavs, rate=24_000, autoplay=True) 效果展示: 男声音展示

chattts tts 文生语音

24年首篇离奇论文：加点噪声，RAG效果翻倍？！

· 研究结果发现相关文档比无关文档更有害于RAG系统，并且当放置正确时，无关但噪声的文档实际上有助于提高系统的准确性。

RAG 检索论文

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1