文章列表-AI魔法学院

文章列表

它来了！SDXL + ControlNet 终于强强联合！

就好比当我们想要一张“鲲鲲山水图”的时候，会发现很难通过语言来描述这样的景象。

SDXL

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

FFmpeg之父新作——音频压缩工具 TSAC

其原理和我们之前介绍的突破压缩极限的AI语音编解码器类似，使用深度学习网络进行压缩，TSAC这里引入Transformer结构来提升性能。

TSAC 音频工具

ChatGPT提示工程5篇合集 - 吴恩达和OpenAI出品

吴恩达和OpenAI合作开发了一套针对ChatGPT提示工程的最佳实践课程，课程名为《ChatGPT Prompt Engineering for Developers》。

ChatGPT prompt

万字长文，大语言模型如何宣告心理学的死亡？

而未来的研究重点则可能是发展LLM的自我学习和自我改进能力，使其能够更独立地理解和生成语言，而不是仅仅依赖于人类输入的数据。

大语音模型

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

该项目各模块之间耦合度非常低，包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。

Fay 开源项目数字人

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

语义到声学模型同样采用非自回归掩码生成Transformer，该模型以语义标记为条件，生成多层声学标记序列以重建高质量语音波形。

MaskGCT 声音克隆

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

ChatGPT提示工程5篇合集(一)：ChatGPT提示工程的两个关键原则 - 吴恩达和OpenAI合作（珍藏版）

不久前，吴恩达和OpenAI合作开发了一套针对ChatGPT提示工程的最佳实践课程，课程名为《ChatGPT Prompt Engineering for Developers》。

prompt 提示词

大模型与游戏结合的一个思路

，甚至可以是语音，就好像面对你的部下或通过电话直接下达命令。

人工智能游戏

Sora相关论文合集---全32套大放送

附件是Sora相关论文合集，一共32套大放送，同时附上阅读这些论文相关的提示词，包括翻译、论文分析、文档阅读等。

Sora 论文

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

AI Agent：大模型与场景间的价值之桥，但不适合当纯技术看

这部分其实很适合大模型内置。

大模型

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

二、技术原理剖析 clone-voice的核心技术基于深度学习模型，特别是WaveNet和Tacotron系列模型，这些模型在语音合成领域有着出色的表现.

clone-voice 声音克隆

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1