Sora的OPENAI技术对视频设计的影响

3

Sora 上周的亮相引发了关于人工智能如何改变娱乐行业的新一轮讨论,这在很大程度上要归功于该模型能够从文本快速生成相对高质量的视频。


Sora 添加了其他围绕文本、图像和音频的人工智能驱动模型,但这些模型在某些方面仍然存在缺陷,使得娱乐行业的创意人员需要在对工作的担忧与人工智能只能做这么多的现实之间取得平衡。

长春三维动画,长春3D动画,长春建筑漫游,长春工业动画,长春机械动画,长春影视广告,长春医疗动画,长春视频制作公司,长春动画制作,长春栏目包装,长春安全动画

“很多人都在说好莱坞已经结束了,好莱坞已经结束了,”电影概念艺术家和插画家里德·索森 (Reid Southen) 说。 “出于很多原因,我真的认为情况并非如此。生产流水线过于复杂。这些视频有点太草率了,有太多问题,尤其是时间一致性和额外肢体之类的伪影。”

在去年的罢工期间,对生成式人工智能的担忧是娱乐业工人最关心的问题。许多创意人士继续推动对人工智能模型的使用进行保护。国际动画电影协会好莱坞分会临时执行董事奥布里·明茨表示,动画界已经对索拉感到“相当不安”。

明茨说,如果索拉让参考动画、概念艺术和故事板中的角色变得多余,这些行业专业人士可能会发现自己失业。

娱乐界的一些人已经采取了行动。泰勒·佩里 (Tyler Perry)周四告诉《好莱坞报道》,由于人工智能的进步,他的工作室暂停了耗资 8 亿美元的扩张计划,并提到了索拉 (Sora) 的名字。

索森表示,他认为索拉不会很快取代电影制片人。但他确实担心先进技术可能会影响未来的行业就业。

“很明显,我们生活在一种在很多方面都足够好的文化中,所以如果有一美元可以削减,人们和公司就会加入其中,”他说。

英国导演、作家和演员布莱克·里德 (Blake Ridder) 表示,目前,索拉的能力似乎更适合制作库存素材,而不是电影素材

长春三维动画,长春3D动画,长春建筑漫游,长春工业动画,长春机械动画,长春影视广告,长春医疗动画,长春视频制作公司,长春动画制作,长春栏目包装,长春安全动画

作为世界模拟器的视频生成模型

我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。



语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们应用了 DALL·E 3 中引入的重新字幕技术到视频。我们首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。


与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。


但 Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。


扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频片段开始向后延伸的。因此,这四个视频的开头都不同,但所有四个视频的结局都是相同的。

连接视频


我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频插值在左侧和右侧的相应视频之间。


图像生成能力

Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。

新兴的模拟功能


我们发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

长春三维动画,长春3D动画,长春建筑漫游,长春工业动画,长春机械动画,长春影视广告,长春医疗动画,长春视频制作公司,长春动画制作,长春栏目包装,长春安全动画


Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

远程相干性和物体持久性。视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。与世界互动。索拉有时可以用简单的方式模拟影响世界状况的行动。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。模拟数字世界。
Sora 还能够模拟人工过程——一个例子是视频游戏。 Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及“我的世界”的标题提示 Sora 来零射击。

这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

讨论

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。例如长时间样本中出现的不连贯性或对象的自发出现。

长春3D模型制作,长春三维建模,长春游戏建模,长春三维模型制作,长春建筑漫游,长春工业模型制作,长春沙盘模型

我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。

参考

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化


我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。


文章分类: CG资讯
分享到:
 
 
 联系方式
电话:13134480001
微信:13134480001