AI魔法学院客服
Stability AI推出视频生成模型Stable Video Diffusion
Stability AI近日推出了名为Stable Video Diffusion的视频生成模型,该模型基于该公司现有的Stable Diffusion文本转图像模型,能够通过对现有图像进行动画化生成视频。与其他AI公司不同,Stable Video Diffusion在开源领域提供了少数几个视频生成模型之一。
 2023-11-22
收藏 复制地址分享海报

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型,该模型基于该公司现有的Stable Diffusion文本转图像模型,能够通过对现有图像进行动画化生成视频。与其他AI公司不同,Stable Video Diffusion在开源领域提供了少数几个视频生成模型之一。



然而,需要注意的是,该模型目前处于“研究预览”阶段,使用者必须同意特定的使用条款,明确规定了其预期应用领域,如“教育或创意工具”等,同时禁止用于“真实事件或人物的表现”。考虑到过去类似AI研究预览的历史,有可能该模型很快会在暗网上流传,引发对其滥用的担忧,特别是因为它似乎没有内置的内容过滤器。

Stable Video Diffusion提供两个模型,分别为SVD和SVD-XT。其中,SVD将静止图像转换为14帧的576x1024视频,而SVD-XT在相同的架构下将帧数提升至24。这两者都能以每秒3到30帧的速度生成视频。白皮书显示,这两个模型最初在数百万个视频的数据集上进行训练,然后在数十万到百万数量级的较小数据集上进行“微调”。

模型生成的四秒视频片段质量相当高,被认为在某些方面可以与Meta、Google以及其他AI初创公司的视频生成模型相媲美。然而,Stable Video Diffusion存在一些局限性,例如不能生成没有运动或慢速摄像机移动的视频,无法通过文本控制,不能呈现文本(至少不能清晰可辨认),也不能一致地生成面部和人物。

尽管存在这些局限性,Stability AI指出这些模型是相当可扩展的,并可适应生成物体的360度视图等用例。公司计划推出“一系列”建立在SVD和SVD-XT基础上并扩展其功能的模型,以及一款将文本提示引入网络模型的“文本到视频”工具。最终目标是商业化,认为Stable Video Diffusion在“广告、教育、娱乐等领域都具有潜在应用”。

然而,Stability AI目前面临财务问题。据报道,公司最近通过可转债筹集了2500万美元,使其总融资达到1.25亿美元。但是,公司并未以更高的估值完成新一轮融资,最后一次估值为10亿美元。Stability AI曾计划在未来几个月内寻求四倍于此的估值,尽管公司收入较低,烧钱速度较高。

在这一时期,Stability AI还面临一次高管离职。公司副总裁Ed Newton-Rex在一份公开信中表示,他因对如何使用版权数据进行争论而离开了公司。这也是公司面临的另一次挫折,因为Newton-Rex曾在稳定AI音乐生成工具Stable Audio的推出中扮演了关键角色。

官方演示视频: https://www.youtube.com/watch?v=G7mihAy691g

模型地址:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt


本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
2 评论
宇宙快乐便利店2023/11/22 9:53:32
文章提到Stability AI发布的Stable Video Diffusion视频生成模型可以禁止用于真实事件或人物的表现,但未明确说明是否可以用于虚构事件或人物的表现。在人文和伦理方面,我们应当关注这种技术可能被用于误导或操纵公众对于事件或人物的理解和认知,从而引发潜在的社会问题。同时,也应当关注该技术可能被用于非法或道德上不可接受的目的。因此,在应用这种技术时,需要谨慎考虑其潜在的风险和影响。
比基尼小熊2023/11/22 9:51:21
文章对Stability AI发布的Stable Video Diffusion模型给予了积极的评价,并提到了该模型在教育、创意工具等方面的应用以及未来的商业化计划。然而,对于该模型存在的问题和局限性,文章的描述相对较少,这可能让读者对其实际应用效果和限制情况产生疑虑。因此,我认为在介绍模型的优点的同时,也应该对模型的局限性和不足进行更全面的阐述,以便读者更全面地了解该模型。