文章列表-AI魔法学院

文章列表

一旦参透「第一性原理」，便洞悉所有事的本质

第一性原理能够帮助我们跳出这些限制，以一种更纯粹、更本质的视角来看待问题，从而找到创新的解决方案。

第一性原理大模型

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

具体来说，我们的目标是生成由新颖的姿势序列驱动的任何目标身份的人舞视频，同时保持身份不变。

MagicPose 视频

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

目前，视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。

ViTPose+Transformer 身体姿态

Roop参数说明，ROOP->StyleGAN演示！

因为这个视频刚好有很多张脸，然后又是多角度60帧4K的动态视频，所以我觉得非常适合拿来测试ROOP。

视频 StyleGAN

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

万字长文，大语言模型如何宣告心理学的死亡？

每一个幽灵都暗指传统心理学曾经忽略的问题，本文将从大语言模型的视角提供新的见解。

大语音模型

十篇高质量的AI-Agents相关论文，让AI教你认识AI-Agents

，基于 LLM的AI Agents是AGI领域接下来重要的发展方向，使得很多原本嘲笑Auto-GPT开发者，开始更多开始正视基于LLM驱动的AI-Agents系统。

开源模型

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

“视频版ControlNet”来了！

ControlNet

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

背后原理目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。

OCR 手写文字识别

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

但是从另一个角度将，创作门槛降低之后故事的竞争将异常激烈。

sora openai 视频生成

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

Sora生成的视频与此前其它平台生成的视频到底有哪些区别？

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

有点当年Flux出来的时候，那种既视感。

sora 视频生成

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1