文章列表-AI魔法学院

文章列表

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

采用Video2Motion，基于视频人物动作驱动3D数字人；人物唱演视频生成框架Emote Portrait Alive能够基于单张图和音频，输出准确、生动的人物唱演视频。

通义文生视频

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

Stable Diffusion

万字长篇！超全Stable Diffusion AI绘画参数及原理详解

这篇文章相当于个人的学习笔记，全文近两万字，建议配合目录观看。

文生图

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

通往AGI之路：什么是结构化提示词

核心的落脚点在于有序，比如我们常见的文章目录结构，词典以及有排序属性的数据。

提示词结构化

Pytorch安装（保姆级教学真·满血·GPU版）CUDA更新？torch版本？一文全搞定！

之前在安装Pytorch版本时搞错了环境，导致每次在进行model training的时候速度很慢，后来检查了一下电脑中的torch环境，原来是CUDA版本没有更新，导致版本不匹配，没有使用CUDA，每次都在用CPU进行训练，难怪时间很长。用此文记录一下遇到的问题。

训练

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

ChatGPT Prompt提示词课程（斯坦福吴恩达 | OpenAl）指南篇极简笔记

对于大模型prompt的设计，近期斯坦福吴恩达伙同OpenAl出了一套视频教程（B站地址：https://www.bilibili.com/video/BV1AT41187qt?

prompt 大模型

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

3月，国内外模型公司动作频频。

零一万物 YI 李开复

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Sadtalker是一个能够根据图片和音频生成视频的开源项目，它使用了一种叫做SadNet的神经网络，可以实现风格化的单图说话人脸动画。

数字人

你的下一个浏览器，可以是豆包电脑版！

例如在跟着李沐老师学Llama 3.1论文过程中，视频的右上角现在就有了豆包的总结视频功能：点击这个按钮，只需要几秒钟时间，一份针对视频内容的AI精读就完成了。

豆包浏览器

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1