Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频。与其他AI公司不同，Stable Video Diffusion在开源领域提供了少数几个视频生成模型之一。

然而，需要注意的是，该模型目前处于“研究预览”阶段，使用者必须同意特定的使用条款，明确规定了其预期应用领域，如“教育或创意工具”等，同时禁止用于“真实事件或人物的表现”。考虑到过去类似AI研究预览的历史，有可能该模型很快会在暗网上流传，引发对其滥用的担忧，特别是因为它似乎没有内置的内容过滤器。

Stable Video Diffusion提供两个模型，分别为SVD和SVD-XT。其中，SVD将静止图像转换为14帧的576x1024视频，而SVD-XT在相同的架构下将帧数提升至24。这两者都能以每秒3到30帧的速度生成视频。白皮书显示，这两个模型最初在数百万个视频的数据集上进行训练，然后在数十万到百万数量级的较小数据集上进行“微调”。

模型生成的四秒视频片段质量相当高，被认为在某些方面可以与Meta、Google以及其他AI初创公司的视频生成模型相媲美。然而，Stable Video Diffusion存在一些局限性，例如不能生成没有运动或慢速摄像机移动的视频，无法通过文本控制，不能呈现文本（至少不能清晰可辨认），也不能一致地生成面部和人物。

尽管存在这些局限性，Stability AI指出这些模型是相当可扩展的，并可适应生成物体的360度视图等用例。公司计划推出“一系列”建立在SVD和SVD-XT基础上并扩展其功能的模型，以及一款将文本提示引入网络模型的“文本到视频”工具。最终目标是商业化，认为Stable Video Diffusion在“广告、教育、娱乐等领域都具有潜在应用”。

然而，Stability AI目前面临财务问题。据报道，公司最近通过可转债筹集了2500万美元，使其总融资达到1.25亿美元。但是，公司并未以更高的估值完成新一轮融资，最后一次估值为10亿美元。Stability AI曾计划在未来几个月内寻求四倍于此的估值，尽管公司收入较低，烧钱速度较高。

在这一时期，Stability AI还面临一次高管离职。公司副总裁Ed Newton-Rex在一份公开信中表示，他因对如何使用版权数据进行争论而离开了公司。这也是公司面临的另一次挫折，因为Newton-Rex曾在稳定AI音乐生成工具Stable Audio的推出中扮演了关键角色。

官方演示视频： https://www.youtube.com/watch?v=G7mihAy691g

模型地址：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt