文章列表-AI魔法学院

文章列表

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

如下图所示，相比去年诞生的Layered neural atlas算法，CoDeF能够呈现非常忠于原视频的细节，既没有变形也无破坏。

ControlNet

Roop参数说明，ROOP->StyleGAN演示！

首先，简单说一下，视频的原素材全部由AI生成！

视频 StyleGAN

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且能生成长达1分钟的超长视频，不管是一镜到底还是分镜头切换模式，都能够保持角色及背景神一般的一致性和稳定性。

视频生成 sora

Stable Diffusion

Stable Diffusion教程：文生图

最近几天AI绘画没有什么大动作，正好有时间总结下Stable Diffusion的一些基础知识，今天就给大家再唠叨一下文生图这个功能，会详细说明其中的各个参数。

文生图 Stable Diffusion

文生图提示词prompt详解

提示词 Prompt 用文字描述你想要生成的东西支持的语言支持的输入语言为英语（不用担心英语不好的问题，目前网上有很多tag生成器供你使用），SD支持用自然语言描述，不过还是推荐使用用逗号分隔的一个个的关键词来写

SD prompt 文生图提示词

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

该系列模型接受图像和文本输入，并提供高质量的文本输出。

minicpm 面壁

文生图生成不同年龄段模特的提示词

第一步：输入正面提示词任意复制以下2个年龄提示词之一，只复制英文部分！

年龄文生图

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

只需提供一段音频和一个视频，PersonaTalk便能精准同步人物的口型，不仅让声音和嘴型无缝贴合，还能保留视频中人物的表情和个性化说话风格，仿佛原生发声一般自然流畅。

PersonaTalk 视频

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

升级后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。　　

文生图混元腾讯

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1