关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

揭示Sora:以大语言模型的方式理解视频,实现物理世界的“出现”

发布时间:2024-03-07 22:26:03

声明:本文来源于微信公众号 硅星人Pro(ID:Si-Planet),作者:苗正 授权站长之家转载发布的王兆洋。

当全世界还沉迷于如何用文本生成文本和图片时,OpenAI就这样拿出了一个视频生成模型Sora。关于Sora的具体介绍和效果展示可以看到我们昨天的文章《OpenAI Sora问世,通往AGI的另一个ChatGPT时刻!GPT4也可能被杀。简单地说,这是一个扩散模型,可以根据文本指令或静态图像生成长达1分钟的视频,视频还包括精致和复杂的场景、生动的角色表达和复杂的镜头运动——它在市场上做不到视频模型。

那么Sora是怎么做到的呢?在昨天的文章中,我们曾经第一基于唯一的信息,时间给出了判断:

简单而粗糙的理解是,在语言能力足够强之后,它带来的泛化能力可以直接学习图像视频数据及其反映的模式,然后直接使用学习图像生成模型最能理解的方式,使用引擎和其他现有强大而成熟的视频生成技术视觉模型模块,最终生成我们看到的现实而强大的物理世界反映了“理解”视频。

然后OpenAI发布了Sora的技术报告:《Video generation models as world simulators》(视频生成模型作为世界模拟器),其中介绍的技术思路基本证实了我们上述判断。

接下来,让我们基于有限但信息丰富的技术报告来解释Sora背后的技术。

视频以大语言模型的方式理解

Sora的设计灵感来自于大语言模型。主要原因是大语言模型的核心功能之一是通过代码统一各种文本形式。为了训练Sora,OpenAI还将各种视觉数据转化为统一表示。

然而,在正式了解Sora之前,我们需要普及一个概念——块(patches)。它有点类似于大语言模型中的代币。块是指一系列将图像或视频帧分割成小块的区域。这些块是模型处理和理解原始数据的基本单元。

对于视频生成模型,块不仅包含局部空间信息,还包含时间维度的连续变化信息。该模型可以通过学习patches之间的关系来捕捉复杂的视觉特征,如运动和颜色变化,并在此基础上重建新的视频序列。这种处理方法有助于模型理解和生成视频中的连贯动作和场景变化,从而实现高质量的视频内容生成。

在块的基础上,OpenAI将其压缩到低维潜在空间,然后分解为“时空块”(spacetime patches)。

图片

晕了,别担心,一个一个解释。潜在空间是三年前出现的概念,是指高维数据通过某种数学变换(如编码器或降维技术)映射的低维空间。这个低维空间中的每个点通常对应于原始高维数据的潜在表示或抽象特征向量。但由于其序列评估性质,优化强大的扩散模型往往需要消耗数百个GPU日的计算资源,推理成本较高。因此,潜在的空间本质上是一个几乎可以在复杂性降低和细节保留之间实现的空间最优视觉保真度大大提高了平衡点。

时空块是指从视频帧序列中提取的具有固定尺寸和形状的空间-时间区域。与块相比,时空块强调连续性,模型可以通过时空块观察视频内容随时间和空间变化的规律。

OpenAI为了制造这些时空块,训练了一个用于降低视觉数据维度的网络,称为视频压缩网络。该网络接受原始视频作为输入,并在时间和空间上输出潜在的压缩表示。Sora在这个压缩后的潜在空间中训练和生成视频。OpenAI还训练了一个相应的解码器模型来映射生成的潜在向量到像素空间。

刚才我们也聊过,说这个“块”很接近token,所以这些块的作用应该和token差不多。OpenAi直接提取一系列块作为Transformer,用于给定的压缩输入视频 使用token,然后这些时空块将被进一步编码并传递给transformer网络进行全球自我注意力学习。最后,利用Transformer的强大能力来处理和生成具有不同属性的视频内容。

该方案也适用于图像,因为图像可以被视为只有一帧的视频。基于块的表示方法使Sora能够训练不同分辨率、长度和宽度比的视频和图像。在推理阶段,视频的大小可以通过在适当大小的网格中排列随机初始化块来控制。

此外,虽然Sora模型的介绍页面提到视频是通过文本生成的,但Sora也可以接受其他类型的输入,如图像或视频,以实现图像生成视频和视频生成视频的效果。这一特点使Sora能够执行广泛的图像和视频编辑任务,如制作完美的循环视频、添加静态图像的动画效果、向前或向后延伸视频时间轴等。

实现物理世界的“涌现”

在长期的训练中,OpenAI发现sora模型逐渐具备了一种叫做3D一致性的新功能。它指的是Sora可以生成动态视角的视频。同时,随着视角的移动和旋转,角色和场景元素在三维空间中仍然保持一致的运动状态。

图片

这对我们人类来说可能没什么,但对人工智能来说还是挺厉害的。人工智能理解三维物理世界不同于人类理解三维物理世界的方式。它采用了拓扑结构的理解。请注意,这里的拓扑结构不是计算机的拓扑结构,而是拓扑学中的拓扑结构。拓扑结构是几何或空间的抽象描述,用于描述集中元素之间的连接模式和空间属性,而不考虑具体的测量或形状。它关注的是空间中点之间的连接关系和空间的整体形状,而不是具体的尺寸或角度。

此外,由于视频的视角发生了变化,相应的纹理映射也应该发生变化。Sora有很强的现实感。换句话说,纹理映射在拓扑结构中必须非常准确。三维一致性使Sora能够模拟现实世界中人物、动物和环境的某些方面。

一个令人兴奋和害怕的消息是,这些属性不是通过3D、物体被添加到明确的归纳偏置中——它们纯粹是规模效应的现象。换句话说,Sora本人根据训练内容判断了现实世界中的一些物理客观规律。在某种程度上,如果人类只用肉眼观察,就很难达到这样的境界。

视频制作系统面临的另一个重大挑战是在制作成长视频时保持时间的一致性。Sora还能有效地模拟短程和长程依赖关系。例如,即使角色、动物或物体被屏蔽或离开图片,Sora仍然可以将这些元素保持在视线之外,直到视角转换为可以看到它们。同样,它可以在单个样本中生成多个相同角色的镜头,并在整个视频中保持其外观的一致性。

事实上,这没什么,因为Sora是从transformer模型中诞生的,而transformer模型本身可以通过全球自注机制等技术实现高连续性。Sora只是从视频中解释了这种连续性。

OpenAI得出结论,视频生成模型是构建通用物理世界模拟器的一条有前途的道路。

Sora目前的能力表明,它可以通过观察和学习来理解物理规律。就Sora的理解而言,它真的比我强。当老师在上面讲课时,我只能知道我的眼睛和大脑。

但Sora目前作为模拟器有很多局限性。在OpenAI的主页上,他们列出了该模型的一些常见故障模式,如长期采样中可能出现的不连贯现象和物体无端出现的异常情况。从现有的结果来看,它不能准确地模拟许多基本交互的物理过程,如玻璃破碎和其他类型的交互,如食物。对象状态的变化并不总能得到正确的模拟,这表明现实世界中许多物理规则都无法通过现有的训练来推断。

图片

这些是本技术报告中的核心信息。一如既往,OpenAI继续保持Close的模型和实现细节。然而,在报告中,OpenAI不断提到“大力创造奇迹”的效果:

关于出现,它写道:我们发现,当大规模训练时,视频模型显示出许多有趣的出现能力。这些能力使Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性没有3D属性、物体等的明确归纳偏见——它们纯粹是规模效应的现象。

OpenAI显然把Sora描述成它一直坚持的Scaling law的又一次胜利——没有纯粹的原创技术,很多技术成分早已存在,但却比所有人都更坚定,用足够的资源在巨大的规模上验证了它。


/template/Home/Zkeys/PC/Static