当Sora能做真实的3D视频，离它能设计战舰也就不远了

访客 2024-02-21 18:10:32 87738 抢沙发

默认

今年春节，AI的新闻特别多。

2月9日，Google发布Gemini Ultra1.0，上线Gemini Advanced版本。据称Gemini Advanced在第三方双盲测试中击败了GPT-4，拥有极强的推理能力和长期记忆。

2月10日，OpenAI的CEO奥特曼欲将OpenAI、各路投资者、合同芯片制造商和电源供应商联系起来，筹集7万亿美元的资金，打造庞大的芯片制造厂网络，为OpenAI及其他客户供应芯片。在过去几周里，奥特曼一直在与美国、中东和亚洲的潜在投资者以及合作伙伴会面，并在争取美国政府的批准。

2月14日，Nvdia推出本地AI聊天机器人Chat with RTX，这是为windows设计，可以在PC本地运行的ChatGPT。通过搜索PC本地的文件，分析在线流媒体视频内容，进行推理。所有推理和检索都在本地进行，不会有隐私泄露问题。

2月16日，Google推出基于MoE架构的Gemini Pro 1.5，创纪录实现100万token上下文能力，拥有强多模态理解推理能力，可实现44分钟的无声电影情节准确理解和分析。

当然，这些新闻中，最重要的是2月16日OpenAI推出的Sora。Sora可以通过依据简单的自然语言描述，创造出长达60秒的视频，并且能实现详细场景、镜头连续切换以及表情生动的多角色。

其实，早在Sora之前，AI视频生成模型领域就已经打得热火朝天了。

最初是Runway和Midjourney你追我赶。2023年2月初，Runway首次推出Gen-1，并在6月份开放了第二代Gen-2。

Gen-2通过文本、图片、文本+图片，采用扩散模型，从完全由噪声构成的起始图像中逐渐消除噪声，直接生成视频，同时支持风格化、故事版、蒙版、渲染等方式，添加好莱坞式大片特效，仅需要几分钟即可完成所有操作。Gen-2的训练数据包括2.4亿张图片、640万个视频剪辑片段以及数亿个学习示例。Gen-2最大的一个突破是，克服了生成视频AI领域的一致性难题，画面变得更连贯，变形问题也得到了解决。某种程度上，Gen-2已经涉足到“了解世界的模型”这个层面，模型负责模拟世界，生成人类想要的东西。当然，Gen-2还存在模糊、颗粒感重、光线穿透差、帧率不稳定、视频中动物、人物的动作诡异等问题。

9个月之后，也就是2023年11月29日，美国AI初创公司Pika labs发布了视频生成模型Pika1.0。Pika1.0也可以由文本和图像生成视频。Pika1.0拥有强大的语义理解能力，用户只需要输入一句话，就可以生成想要的各种风格的视频。输入“马斯克穿着太空服，3D动画”的关键词，一个身穿太空服的卡通马斯克便出现了，身后还有SpaceX的火箭。

此外，Pika1.0还可编辑更改视频，通过提示对背景环境、衣着道具等元素的增减或者更改；还可切换视频风格，比如在黑白、动画、3D等不同风格中转化。

Pika1.0生成的视频清晰度和连贯性，远超市面上其他竞争对手，所以，这家仅成立半年的AI初创公司已经成为硅谷资本的“新宠”。

但仅仅两个月之后，Sora的出现，颠覆了市场竞争格局。为什么Sora可以做到如此程度，与之前的诸多视频生成模型相比，Sora到底有哪些优势？

OpenAI Sora生成的视频截图

OpenAI Sora是一种结合了Diffusion模型和Transformer模型的技术。通过将视频压缩网络将原始视频压缩到一个低维的潜在空间，并将这些表示分解为时空补丁，类似于Transformer的tokens，这样的表示使得模型能够有效地训练在不同分辨率、持续时间和宽高比的视频和图像上。由此，OpenAI的Sora在视频的长度、连续性、真实世界模拟上，都拥有了很大的优势。

具体来说，Sora的优势有以下几个方面。

Sora可以生成长达一分钟的视频。不管是Pika1.0还是Runway2.0，都存在时间短、移动范围小的问题。这两个模型，默认生成的视频都只有几秒钟。简单地说，Sora是视频，而其他家是动图，Sora后来居上，拥有巨大的优势。

Sora可以生成更多的画面比例，更高的分辨率。Sora默认是1080P，而且其他平台大多数默认的清晰度，都在1080P以下。

Sora可以支持向前以及向后扩展视频，而其他家的只能向后扩展。也就是说，Sora不仅可以预测之后是什么，还可以推测之前是什么。Sora可以为一个视频，创造出不同的开头，最后都是以该视频结尾。

Sora支持多个视频的连接。Sora可以将两个视频连接在一起，生成一个新的流畅过度的视频。这是Sora独特的优势。

Sora还可以转换视频的视角，如移位、旋转等。转换拍摄视角，要与物理世界的三维空间一致，这是一个具有相当大技术挑战的优势。

Sora生成的长视频能保持时间上的一致性。简单地说，就是一个人，一个物体，在视频中是一致的。即使被遮挡或离开画面，Sora也能保持它们的存在，并在后续不变。

在生成的视频中，Sora还可以模拟视频中物体间在真实世界应该出现的互动。比如，一个人吃一个汉堡，可以留下咬痕，看到被咬下了一块。

Sora不仅可以模拟真实自然，还可以模拟人工过程。所谓人工过程，是指人类创造的一些世界，基于人类创造的不同于自然界的规律，来生成视频。通过语言提示，可以向Sora输入这些规则，Sora就可以根据这些规则，来模拟人工世界。比如，Sora可以模拟生成，《我的世界》这款游戏的视频。这种能力使得Sora在仿真领域具有强大的潜力。

这几方面的优势，体现了Sora具备强大的语言理解和任务推断能力，能处理复杂的视觉和控制任务。特别是后几个特征，反映出Sora涌现出对真实物理世界的理解能力。换言之，AI似乎越来越懂我们这个世界了。

Sora将会给世界带来的变化，最直接的，AI能把创意执行时的人力成本大大降低。

哪怕就在几个月前，画一张图，对普通人来说也是一件专业的事，更不用说视频。但现在，无需使用AE、Blender等专业软件，就能实现特效。每一次创作门槛的降低，都会改变行业格局，开辟出全新的市场。未来，人类导演就是一个上帝般的存在，不再需要摄像机。只需要把演员、场景、道具的数字化给到AI，告诉AI想要什么风格、多少时长等要求，AI给出各种画面选择。

未来，随着大模型生成式AI的爆发性发展，在各垂直领域场景，实际应用落地，相关行业会加速变革，与AI深入融合，其带来的利润也将持续刺激资本市场的期望，进而刺激算力基础设施相关需求。这是一个产业、金融、技术相互促进的新的技术爆发阶段，泡沫也是一个可以预期的东西。

但是，Sora带来的改变不会仅仅局限于此。

从应用上看，Sora文字生成视频的能力，只会涉及传播、舆论行业，比如广告、电影、视频创作等等。如果仅仅从这个层面上看，就会认为Sora只是提供给人“看的东西”，只能娱乐人、传播信息，却不能为人类赋能，不能帮助人类获得更高的生产效率，更新的生产力，帮助人类获得更大的改造自然的能力。

从这个角度，有观点认为，Sora的意义还不如ChatGPT。相比之下，ChatGPT可以成为一个生产工具。比如帮助程序员找出bug，帮助数学家获得灵感，帮助工程师收集资料，搜索到更多潜在的方案，甚至生成潜在的，人类从未有过的方案。所以，就会有人认为，用一段文字生成视频不要具备太多的价值。然而，这种看法是错误的。

首先，帮助人类提升生产效率，是一个全面的概念。衡量人类社会的总生产力、生产效率，并不能仅以工厂制造效率来计算，而是应该包括整个社会经济活动。这当中，商业、信息流通，也起到了很大的作用。比如电商、社交平台、智能手机，在商业领域，通过提升消费欲望、加快商业流通等方式，就能发展经济，也就是提升整个社会的生产总量。

其次，信息本身就是制造业的本质之一。所谓制造业，就是在信息（知识、经验、图纸等）的指导下，改造物质。IT技术的发展，赋能实体经济，极大地提升了物质生产的效率。所以，人工智能提升信息效率，也必然也会提升物质生产的效率。

最重要的是，当AI能够理解、生成3D的世界，就会成为改变物质世界的生产手段。

有人说，人工智能分为多种，大模型只是其中之一，中国在自动驾驶人工智能领域，全球领先。但更可能发生的是，当一个AI涌现出对世界的理解，AI就会打通所有领域。比如，人类的驾驶是依靠理解来识别的。而现在的自动驾驶，因为无法理解世界，就必须要用雷达来补充Z轴信息。当AI能够理解世界，自动驾驶的纯视觉方案，也就没有太大问题了。

再比如，人类对现实世界的设计，都是3D的，比如CAD设计图，大到工厂军舰，小到玩具零件。Sora生成视频的一致性，视角的转换，物体的互动，都体现了对3D世界的理解，那么，AI从生成娱乐视频，进化为改造世界的手段，也只有一步之遥了。

英伟达科学家Jim Fan表示，OpenAI的Sora不再是一个创意玩具，而是一个数据驱动的物理引擎。他拿“咖啡杯中的海盗船”视频进行了分析，在这个视频中，模拟器生成了两艘带不同装饰且精美的海盗船，在咖啡的波浪中起起伏伏。Jim Fan认为，这需要Sora在其潜在空间中解决文本到3D的隐含问题。从流体动力学上来看，咖啡的流动、船只周围的泡沫都非常自然。流体模拟是计算机图形学的一个完整子领域，传统上需要非常复杂的算法和方程。虽然提示词中场景的语义并不存在于现实世界中，但Sora仍然实现了我们所期望的正确物理规则。模拟器考虑到与海洋相比，杯子的体积较小，因此采用了移轴摄影视角，营造出一种微景观的感觉。

当一个AI能够理解流体力学，理解海盗船的构造，理解海盗船与海浪的相互作用，理解其中的物理规律，那么，这个AI能在制造业，能在人类改变世界的过程中，赋予人类什么力量，就几乎是一个呼之欲出的答案了。换言之，在不远的将来，人类或许可以轻易地根据新的需求，让AI设计一艘新的战舰，并实现无数次仿真，最后交出定型的3D设计图纸。这一切，只需要在短短数月、数周甚至几天内完成。

所以，当Sora等模型展现出对世界的理解，或将意味着人类朝着实现通用人工智能（AGI）迈进的重要一步，也意味着人类改变世界的效率会发生天翻地覆的变化。

（作者刘远举为上海金融与法律研究院研究员）

标签：视频世界