文章列表-AI魔法学院

文章列表

解读OpenAI Sora文生视频技术原理

OpenAI Sora文生视频（图像看作单帧视频）一放出就炸翻整个AI 圈，也是ChatGPT掀起GenAI热潮时隔一年后，OpenAI再次史诗级的更新。

sora

GitHub星数暴涨，AIPC的开源实现，用AI记录电脑一整天的使用太简单了，功能非常多！

项目简介 ScreenPipe 在你的计算机上 7*24小时全天候记录你的电脑屏幕和麦克风，数据由用户自行掌控，确保隐私和安全，并且把记录的数据连接到大模型

AIPC ScreenPipe 开源

FFmpeg之父新作——音频压缩工具 TSAC

前两天FFmpeg作者Fabrice Bellard在个人主页发布了一款音频压缩工具TSAC。

TSAC 音频工具

视频大模型训练相关词条解释

Sora是OpenAI公司发布的一款AI视频生成模型。

视频生成 sora 词条

一个完整Prompt让ChatGPT自动生成短视频制作脚本

———————— 把你想象成热门短视频脚本撰写的专家。

ChatGPT Prompt 视频

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

语音、视频转文字神器：开源whisper介绍

用法直接使用whisper指令识别音频和视频文件为文本，如： whisper video.mp4 这里需要重点说明的是，默认会生成5个文件，文件名和你的源文件一样，但扩展名分别是：.json

人工智能大模型 wisper

开箱即用的图像增强、视频增强AI工具，Upscapl、Topaz Video AI

图像和视频领域使用较多的AI工具，免安装，无需会员，开箱即用！

图像增强视频增强

阿里出品自动化视频剪辑工具FunClip！

FunClip让用户能够根据识别结果，轻松选择文本片段或特定说话人，从而快速裁剪出所需视频片段。

FunClip 视频阿里

一文带你看懂OpenAI-Sora生成视频的原理

这就是视频压缩网络闪亮登场的时刻，它能够在不牺牲视频质量的前提下，极大地减少数据的大小。

视频生成 sora

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

Stable Diffusion

[Stable Diffusion]AnimateDiff ：最稳定的文本生成视频插件

在小视频风靡的时代，稳定的文本生成短视频成为了迫切需求。

AnimateDiff 视频训练

中学生也能看懂的Sora视频生成原理解读

其次，这种方法极大地提高了处理视频的灵活性，使得Sora能够生成具有复杂动态的高质量视频，而这对于传统视频生成技术来说是一个巨大的挑战。

视频生成 sora

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1