2023-11-22 14:07

稳定性AI进入视频生成游戏

本周,那些不是OpenAI的人工智能初创公司似乎都在埋头苦干,尽管OpenAI的混乱在电视广播中占据了主导地位,但它们似乎仍在坚持自己的产品路线图。

请看今天下午发布的“稳定视频扩散”(Stable Video Diffusion),这是一种通过动画化现有图像来生成视频的人工智能模型。基于Stability现有的Stable Diffusion文本到图像模型,Stable Video Diffusion是为数不多的开源或商业视频生成模型之一。

但不是每个人都这样。

稳定视频扩散目前处于稳定所描述的“研究预览”阶段。那些希望运行该模型的人必须同意某些使用条款,这些条款概述了稳定视频扩散的预期应用程序(例如“教育或创造性工具”,“设计和其他艺术过程”等)和非预期应用程序(“真实或真实地表示人物或事件”)。

考虑到其他类似的人工智能研究预览——包括Stability自己的——已经成为历史,笔者不会惊讶地看到这个模型很快就开始在暗网上流传。如果有的话,我担心Stable Video可能会被滥用,因为它似乎没有内置的内容过滤器。当“稳定扩散”发布后,没过多久,意图可疑的演员就利用它制作了未经同意的深度色情作品——甚至更糟。

但我离题了。

稳定视频扩散有两种模型,SVD和SVD- xt。第一种是SVD,将静止图像转换成14帧的576×1024视频。SVD-XT使用相同的架构,但将帧数增加到24帧。两者都可以生成每秒3到30帧的视频。

根据与Stable Video Diffusion一起发布的白皮书,SVD和SVD- xt最初是在数百万个视频的数据集上进行训练的,然后在数十万个小得多的视频集上“微调”到大约100万个片段。目前还不清楚这些视频的来源——论文暗示许多视频来自公共研究数据集——所以不可能判断其中是否有版权。如果是这样的话,Stability和Stable Video Diffusion的用户可能会面临有关使用权的法律和道德挑战。时间会证明一切。

图片来源:Stability AI

无论训练数据的来源是什么,这些模型(包括SVD和SVD- xt)都会生成相当高质量的四秒剪辑。根据笔者的估计,Stability博客上精选的样本可以与meta最近的视频生成模型的输出,以及我们从谷歌和人工智能初创公司Runway和Pika Labs看到的人工智能生成的例子相媲美。

但是稳定视频扩散有其局限性。稳定性是透明的,在模特的“拥抱脸”页面上——研究人员可以申请访问“稳定视频扩散”的页面上——模特不能在没有运动或慢速镜头的情况下生成视频,不能由文本控制,不能呈现文本(至少不能清晰地呈现),也不能始终“正确地”生成人脸和人物。

尽管还处于早期阶段,但Stability指出,这些模型具有很强的可扩展性,可以适应生成对象360度视图等用例。

那么稳定视频扩散会演变成什么呢?嗯,Stability说它正在计划“各种”模型,“建立和扩展”SVD和SVD- xt,以及一个“文本到视频”的工具,将文本提示带到网络上的模型上。最终目标似乎是商业化——《稳定》杂志正确地指出,《稳定视频扩散》在“广告、教育、娱乐等领域”都有潜在的应用。

当然,随着投资者对这家初创公司施加越来越大的压力,这家公司也在伺机大卖。

今年4月,Semafor报告称,Stability AI正在烧钱,这引发了一场高管争夺战,以提高销售额。据《福布斯》报道,该公司多次延迟或直接不支付工资和工资税,导致AWS威胁要撤销对其GPU实例的访问权限。AWS是Stability用来训练其模型的计算平台。

图片来源:Stability AI

Stability AI最近通过可转换票据(即转换为股权的债务)筹集了2500万美元,使其总融资额超过1.25亿美元。但它并没有以更高的估值完成新的融资;这家初创公司最近的估值为10亿美元。据说,尽管营收持续低迷,烧钱率居高不下,但该公司计划在未来几个月内将这一数字翻四倍。

最近,随着Ed Newton-Rex的离开,Stability又遭受了一次打击,他在这家初创公司担任音频副总裁一年多,并在Stability的音乐生成工具Stable audio的发布中发挥了关键作用。在一封公开信中,Newton-Rex表示,他离开Stability是因为在版权问题上存在分歧,以及受版权保护的数据应该——不应该——如何用于训练人工智能模型。