文章列表-AI魔法学院

文章列表

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

这个视频中人物的身体姿势、头发、头部姿势、面部表情都在发生运动，看了上面的视频后，群里一位朋友问如何实现视频中的人物口型与音频的完美同步，以及当前可行的方法。

AI视频

Prompt | 抖音视频脚本

这个prompt可帮助您为 TikTok 视频生成极具吸引力的脚本。

prompt

语音、视频转文字神器：开源whisper介绍

这些数据包含了各种语言和口音的语音样本，以及各种不同的环境噪声和干扰。

人工智能大模型 wisper

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

在本文中，作者介绍了 Baichuan-Omni，这是第一款开源的 7B 多模态大语言模型（MLLM），能够同时处理和分析图像、视频、音频和文本的模态，同时提供先进的模态交互体验和强大性能。

Baichuan-Omni 多模态大模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

本次让我们基于Bert-vits2项目来克隆渣渣辉和刘青云的声音，打造一款时下热搜榜一的“青岛啤酒”鬼畜视频。

Bert-vits 语音

图文生成短视频的方法

画框和箭头指向的音频，需要删除，替换成自己声音，或用视频文案生成一段音频，导入剪映中~ 一键生成的字幕朗读，个人觉得不是很好，所有这里推荐一款软件：掌上配音app。

视频 ChatGPT

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

解读OpenAI Sora文生视频技术原理

碎片Patch已经被证明是一个有效的视觉数据表征模型，且高度可扩展表征不同类型的视频和图像。

sora

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

视频大模型训练相关词条解释

Sora是OpenAI公司发布的一款AI视频生成模型。

视频生成 sora 词条

FFmpeg之父新作——音频压缩工具 TSAC

仔细观察频谱发现，压缩后的音频高频细节有一些丢失，导致了听起来有模糊的感觉。

TSAC 音频工具

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

只需提供一段音频和一个视频，PersonaTalk便能精准同步人物的口型，不仅让声音和嘴型无缝贴合，还能保留视频中人物的表情和个性化说话风格，仿佛原生发声一般自然流畅。

PersonaTalk 视频

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1