Stability AI 推出 Stable Video Diffusion 模型，可根据图片生成视频-蓝影头条

当前位置：当前位置：首页 >休闲 >Stability AI 推出 Stable Video Diffusion 模型，可根据图片生成视频正文

Stability AI 推出 Stable Video Diffusion 模型，可根据图片生成视频

[休闲] 时间：2024-04-28 00:39:26 来源：蓝影头条作者：知识点击：135次

11 月 22 日消息，推图片专注于开发人工智能（AI）产品的根据初创公司 Stability AI 发布了其最新的 AI 模型 ——Stable Video Diffusion。这款模型能够通过现有图片生成视频，生成视频是推图片基于之前发布的 Stable Diffusion 文本转图片模型的延伸，也是根据目前为止市面上少有的能够生成视频的 AI 模型之一。

不过，生成视频这款模型目前并不是推图片对所有人开放的。Stable Video Diffusion 目前处于 Stability AI 所谓的根据“研究预览”阶段。想要使用这款模型的生成视频人必须同意一些使用条款，其中规定了 Stable Video Diffusion 的推图片预期应用场景（例如“教育或创意工具”、“设计和其他艺术过程”等）和非预期的根据场景（例如“对人或事件的事实或真实的表达”）。

Stable Video Diffusion 实际上是生成视频由两个模型组成的 ——SVD 和 SVD-XT。SVD 可以将静态图片转化为 14 帧的推图片 576×1024 的视频。SVD-XT 使用相同的根据架构，但将帧数提高到 24。生成视频两者都能以每秒 3 到 30 帧的速度生成视频。

根据 Stability AI 随 Stable Video Diffusion 一起发布的一篇白皮书，SVD 和 SVD-XT 最初是在一个包含数百万视频的数据集上进行训练的，然后在一个规模较小的数据集上进行了“微调”，这个数据集只有几十万到一百万左右的视频片段。这些视频的来源并不十分清楚，白皮书暗示许多是来自公开的研究数据集，所以无法判断是否有任何版权问题。

SVD 和 SVD-XT 都能生成质量相当高的四秒钟的视频，Stability AI 博客上精心挑选的样本看起来可以与 Meta 最近的视频生成模型以及谷歌和 AI 初创公司 Runway 和 Pika Labs 的 AI 生成视频相媲美。

注意到，Stable Video Diffusion 也有局限性，Stability AI 对此也很坦诚，他们称这些模型不能生成没有运动或缓慢的摄像机平移的视频，也不能通过文本进行控制，也不能渲染文字（至少不能清晰地渲染），也不能一致地“正确地”生成人脸和人物。

虽然还是早期阶段，Stability AI 指出这些模型非常具有扩展性，可以适应诸如生成物体的 360 度视图等用例。

Stability AI 最终的目标似乎是将其商业化，称 Stable Video Diffusion 在“广告、教育、娱乐等领域”都有潜在的应用。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

(责任编辑：百科)

新潟天鵝對 FC東京四川成都市彭州市发生3.0级地震震源深度17千米