下载客户端

生数、智谱、智源谈Sora：模型在预期之内，产品才是亮点

2024-12-12 17:48

来源：澎湃新闻·澎湃号·湃客

原创苏霍伊甲子光年

Sora只是GPT-1。

作者｜苏霍伊

编辑｜赵健

OpenAI科技“马拉松”的第三天——鸽了近一年的Sora终于上线！

场面之火爆，Sora Turbo一经发布服务器就被挤爆了。

很多视频case已经在网上传播。对于Sora真实的“买家秀”效果，口碑评价出现了两极分化。有人认为，Sora代表了视频生成的最强水平。但也有人认为，Sora的表现并不及预期。

在今天举办的2024甲子引力年终盛典上，清华大学人工智能研究院副院长、生数科技首席科学家朱军，智谱CEO张鹏，以及北京智源人工智能研究院院长王仲远第一时间对Sora进行了评价。

朱军认为，Sora正式上线所带来的冲击度，相比今年二月的首次发布已经弱了很多。视频生成模型在今年有了长足的发展，已经完全不是Sora二月份刚发布时的阶段。整体来说，Sora的发布有一些产品上亮点，尤其是视频编辑的能力。但在基础模型能力的表现上其实没有太多的亮点，效果在预期之内，比如Sora的生成速度看上去还是挺长的，大概在分钟级，而且成本也不低，这都可能会影响后续用户的使用以及商业化的进展。

张鹏表示：“Sora的效果离自己的预期有一点偏差。如果看技术指标，国内有的视频生成模型不比Sora差。”比如智谱发布的视频生成模型产品清影，已经可以支持生成4K分辨率的视频了。

当然视频模型的比拼肯定不是简单地对比参数，而是如何产生实际的应用、产生生产力。张鹏认为，Sora这次发布把很大的精力放在了产品而非模型上，比如视频编辑能力、工作流，这是面向用户需求的转变。

王仲远认为Sora的上线基本符合预期，没有年初发布时的惊艳效果。从产品上线时间来看，国内公司也实际上已经早于OpenAI做出了产品级的模型。今年智源发布的新模型Emu3也探索了下一代的技术路线，是一个包括文本、图片、视频在内的原生多模态统一理解和生成模型。

从官网的介绍到用户的体验，总体看下来「甲子光年」最大的感受是OpenAI已经不仅仅是一个模型公司，而是进化为产品公司。Sora Turbo的亮点更偏重视频编辑的产品设计。

OpenAI在今年显然加强了产品层的投入。比如今年6月，前Instagram产品副总裁以及Twitter产品副总裁Kevin Weil加入OpenAI，担任首席产品官。

人们经常问AI时代的Killer App是什么？今天来看，“Sora+ChatGPT”或许就是最被忽略的killer app。

1.视频版的GPT-1

北京时间12月10日凌晨，OpenAI CEO 萨姆·奥尔特曼（Sam Altman）与Sora团队负责人比尔·皮布尔斯（Bill Peebles）、阿迪亚·拉梅什（Aditya Ramesh）一起进行了20分钟关于Sora的讲解直播。

奥尔特曼在直播中将Sora称之为视频版的GPT-1，Sora是DALL·E和GPT模型的基础上创建的。

Sora采用了扩散模型（Diffusion Model），通过从初始“噪声”中生成基础视频，并逐步去噪以生成高质量画面。这一过程依托Transformer架构，能够一次性预测多个帧，确保画面中主体的连续性，即使主体暂时脱离视野，也能保持一致。

此外Sora继承了DALL·E 3的重新字幕技术（Re-captioning），为视觉训练数据生成详细的描述性字幕，增强了对用户文本指令的忠实呈现能力。

Sora的训练数据集来自多种来源，包括：

公开数据集（Public Datasets）：来自行业标准机器学习数据集及网络爬虫的数据。

专有数据（Proprietary Data）：通过合作伙伴获取的非公开数据，例如与Shutterstock、Pond5的合作。

人工生成数据（Human-Generated Data）：由AI培训师和红队成员提供的反馈。

奥尔特曼表示Sora Turbo开启了AI模拟现实与交互的全新篇章。作为Sora的全新升级版本，它提供了多种视频比例选项，包括横屏（16:9）、正方形（1:1）和竖屏（9:16），适应不同的显示需求和创意表达。同时Sora Turbo引入了多种高级编辑功能：

Remix（重混）：用户可以替换、删除或重构视频中的元素；

Re-cut（重新切割）：用户可以寻找视频中的最佳帧，并从此延展或循环剪辑；

混合：Sora Turbo可以将两个视频片段进行无缝合并；

故事板剪辑：精确地指定每个帧的输入，精确叙事控制，将照片转化为视频；

风格预设：用户可以选择预设的风格来创建视频，速设定视频的视觉风格。

Sora Turbo的效果展示

Sora有三种视频生成模式：

文本到视频（Text-to-Video）模式：Sora的核心功能，可以让用户通过输入文本描述来生成完整的视频。利用先进的自然语言处理技术和生成模型，Sora能够理解文本的含义，并将其转化为具象的视觉内容。这一模式适用于制作从简短的短片到情节丰富的叙事视频。

文本+图像到视频（Text+Image-to-Video）模式：在这个模式中，用户不仅可以输入文本描述，还可以上传图像来增强视频生成的精确性。通过结合文本和图像，Sora可以更准确地捕捉并实现创作者的创意意图，生成更符合视觉期望的视频。这一功能尤其适用于需要在视频中整合特定图像元素的应用场景，例如广告制作和产品展示。

文本+视频到视频（Text+Video-to-Video）模式：Sora还提供了视频编辑和转换功能，允许用户上传已有视频素材，并结合文本描述进行修改或扩展。这一模式使用户能够在现有视频的基础上添加新的情节、细节，甚至创作出全新的版本或完全不同的内容。例如，用户可以对现有的广告视频进行重新编辑，加入新的对话、场景或动画效果。

“我们希望通过Sora项目构建能真正理解世界及物理（原理）的AI系统。我们才刚起步，Sora早期版本并不完美，偶尔有错误，但它现在已经能做到真正增强人类的创造力了。”皮布尔斯说道。

o1模型的核心贡献者之一、OpenAI的研究科学家诺姆·布朗（Noam Brown）称赞Sora是scale力量的最直观展示。OpenAI的研究员威尔·德普（Will DePue）也在社交媒体上表示：“我们付出了巨大的努力才实现这一目标，Sora是非常直接和有趣的产品。”

ChatGPT Plus/Pro用户可直接用Sora Turbo生成视频。ChatGPT Pro计划的用户每月可生成500个视频，时长最长可达20秒，最大分辨率为1080p；ChatGPT Plus用户每月可以生成50个视频，最大分辨率为720p，最长时长为5秒。

在推广Sora Turbo的同时，OpenAI对于技术的安全性和伦理使用也非常重视。他们对模型内置了多项安全措施，例如加入C2PA元数据确保视频的透明度，并验证视频的来源。同时OpenAI还设立了红队测试，这些测试由信息误导、仇恨内容和偏见等领域的专家进行。

“在过去的九个月中，我们观察了来自60多个国家/地区300多名用户的500000多个模型请求的用户反馈。这些数据有助于增强模型行为并提高模型对安全协议的遵守程度。”OpenAI在文章中写道。

2.Sora并不完美

Youtube科技评测网红马克斯·基思·布朗利（Marques Brownlee，网名MKBHD）也对Sora进行了深度评测。

布朗利的评测视频，来源：Youtube

布朗利发现Sora擅长粒子和流体模拟，“令人惊讶的是，Sora对流体动力学的处理相当出色，水的波动和火焰的效果往往能达到令人信服的程度，即使烟雾效果可能还不够完美”。但他同时也认为，Sora完全不懂物理。

从官方展示的视频也可以看出，Sora对“运动”的理解还不全面，有时甚至错误百出。比如在一个猴子轮滑的的视频中，可在看到猴子的右腿“毫无防备”地变成了左腿。

以及在提示词为“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的视频中，金毛猎犬的数量模糊，每个个体的形状不稳，又时隐时现，比如有的脑袋突然变成了尾巴。