文章列表-AI魔法学院

文章列表

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

· I2VGen-XL，阿里推出的图像到视频生成模型，也就是图生成视频又新增了一个 AI 工具，之前常用的效果好的有

阿里大模型

AI 换脸——Deepfacelab 下载与安装，新手教程

AI 换脸越来越火，换脸的视频到处都是，那种还是那种的都有。

Deepfacelab 换脸

Sora物理悖谬的几何解释

这里笔者依据现代数学特别是整体微分几何领域的一些观点来解释目前Sora技术路线中的缺陷，希望能够抛砖引玉，为广大AI研究和工程人员拓宽思路，共同促进提高。

Sora 解释

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

AI能够制作视频吗？

AI资讯 AI新闻

Stable Diffusion

Stable Diffusion 快速创作角色三视图

天分享分享如何通过 Stable Diffusion 快速创造出角色三视图。

SD 三视图文生图

了解Kimi必看的26个问题 | Kimi系列文（二）

了解到，目前的GenAI有文本类、视频类、绘图类、音频类、编程类、PPT、数字人、AI搜索等形式。

Kimi 大语言模型

ChatGPT Prompt提示词课程（斯坦福吴恩达 | OpenAl）指南篇极简笔记

对于大模型prompt的设计，近期斯坦福吴恩达伙同OpenAl出了一套视频教程（B站地址：https://www.bilibili.com/video/BV1AT41187qt?

prompt 大模型

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Sadtalker是一个能够根据图片和音频生成视频的开源项目，它使用了一种叫做SadNet的神经网络，可以实现风格化的单图说话人脸动画。

数字人

腾讯出品！开源AI数字人框架！号称可以不限时长

今天，介绍一个开源创新的虚拟人视频生成框架：MuseV MuseV是由腾讯音乐娱乐的天琴实验室开源，MuseV专注于生成高质量的虚拟人视频和口型同步，能够制作出具有高度一致性和自然表情的长视频内容

MuseV 视频数字人框架

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

、分离复杂声源并结合音频和视觉数据锁定目标发声者。

ClearerVoice-Studio 语音

体验完阿里的EMO模型，我emo了

简单来说，EMO（Emote Portrait Alive）是一个AI肖像视频生成系统，能够通过输入单一的参考图像，生成具有一定表现力的面部标签和各种头部姿态。

EMO 文生图

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1