稳定性AI进入视频生成游戏_科技快讯

本周，那些不是OpenAI的人工智能初创公司似乎都在埋头苦干，尽管OpenAI的混乱在电视广播中占据了主导地位，但它们似乎仍在坚持自己的产品路线图。

请看今天下午发布的“稳定视频扩散”(Stable Video Diffusion)，这是一种通过动画化现有图像来生成视频的人工智能模型。基于Stability现有的Stable Diffusion文本到图像模型，Stable Video Diffusion是为数不多的开源或商业视频生成模型之一。

但不是每个人都这样。

稳定视频扩散目前处于稳定所描述的“研究预览”阶段。那些希望运行该模型的人必须同意某些使用条款，这些条款概述了稳定视频扩散的预期应用程序(例如“教育或创造性工具”，“设计和其他艺术过程”等)和非预期应用程序(“真实或真实地表示人物或事件”)。

考虑到其他类似的人工智能研究预览——包括Stability自己的——已经成为历史，笔者不会惊讶地看到这个模型很快就开始在暗网上流传。如果有的话，我担心Stable Video可能会被滥用，因为它似乎没有内置的内容过滤器。当“稳定扩散”发布后，没过多久，意图可疑的演员就利用它制作了未经同意的深度色情作品——甚至更糟。

但我离题了。

稳定视频扩散有两种模型，SVD和SVD- xt。第一种是SVD，将静止图像转换成14帧的576×1024视频。SVD-XT使用相同的架构，但将帧数增加到24帧。两者都可以生成每秒3到30帧的视频。

根据与Stable Video Diffusion一起发布的白皮书，SVD和SVD- xt最初是在数百万个视频的数据集上进行训练的，然后在数十万个小得多的视频集上“微调”到大约100万个片段。目前还不清楚这些视频的来源——论文暗示许多视频来自公共研究数据集——所以不可能判断其中是否有版权。如果是这样的话，Stability和Stable Video Diffusion的用户可能会面临有关使用权的法律和道德挑战。时间会证明一切。

图片来源:Stability AI

无论训练数据的来源是什么，这些模型(包括SVD和SVD- xt)都会生成相当高质量的四秒剪辑。根据笔者的估计，Stability博客上精选的样本可以与meta最近的视频生成模型的输出，以及我们从谷歌和人工智能初创公司Runway和Pika Labs看到的人工智能生成的例子相媲美。

但是稳定视频扩散有其局限性。稳定性是透明的，在模特的“拥抱脸”页面上——研究人员可以申请访问“稳定视频扩散”的页面上——模特不能在没有运动或慢速镜头的情况下生成视频，不能由文本控制，不能呈现文本(至少不能清晰地呈现)，也不能始终“正确地”生成人脸和人物。

尽管还处于早期阶段，但Stability指出，这些模型具有很强的可扩展性，可以适应生成对象360度视图等用例。

那么稳定视频扩散会演变成什么呢?嗯，Stability说它正在计划“各种”模型，“建立和扩展”SVD和SVD- xt，以及一个“文本到视频”的工具，将文本提示带到网络上的模型上。最终目标似乎是商业化——《稳定》杂志正确地指出，《稳定视频扩散》在“广告、教育、娱乐等领域”都有潜在的应用。

当然，随着投资者对这家初创公司施加越来越大的压力，这家公司也在伺机大卖。

今年4月，Semafor报告称，Stability AI正在烧钱，这引发了一场高管争夺战，以提高销售额。据《福布斯》报道，该公司多次延迟或直接不支付工资和工资税，导致AWS威胁要撤销对其GPU实例的访问权限。AWS是Stability用来训练其模型的计算平台。

图片来源:Stability AI

Stability AI最近通过可转换票据(即转换为股权的债务)筹集了2500万美元，使其总融资额超过1.25亿美元。但它并没有以更高的估值完成新的融资;这家初创公司最近的估值为10亿美元。据说，尽管营收持续低迷，烧钱率居高不下，但该公司计划在未来几个月内将这一数字翻四倍。

最近，随着Ed Newton-Rex的离开，Stability又遭受了一次打击，他在这家初创公司担任音频副总裁一年多，并在Stability的音乐生成工具Stable audio的发布中发挥了关键作用。在一封公开信中，Newton-Rex表示，他离开Stability是因为在版权问题上存在分歧，以及受版权保护的数据应该——不应该——如何用于训练人工智能模型。

稳定性AI进入视频生成游戏

相关推荐