下载客户端

Sora终于来了，但OpenAI先“泼了一盆冷水”

2024-12-10 15:37

来源：澎湃新闻·澎湃号·湃客

原创学术头条学术头条

今日凌晨，在 OpenAI 为期 12 天的“ship-mas”的第三天，OpenAI 宣布正式推出其视频生成模型 Sora，据今年 2 月 16 日 Sora 首次亮相以来，该模型终于面向用户开放。

同时，Sora 迎来大升级——OpenAI 还发布了 Sora 新版本 Sora Turbo，该版本比二月份的预览版模型快得多，并于今天作为独立产品发布给 ChatGPT Plus 和 Pro 用户使用。

“我们希望这个早期版本的 Sora 能够让世界各地的人们探索新的创造力形式，讲述他们的故事，并突破视频叙事的可能性，”OpenAI 在官方博客中写道。

20 秒、1080p 分辨率、多种创新玩法

据介绍，Sora 旨在为用户提供一站式的视频创作解决方案，能支持生成最高 1080p 分辨率、最长 20 秒的视频，兼容宽屏、竖屏和方形比例。无论是创作全新内容，还是对现有素材进行改编，用户都能通过直观的界面和强大的功能轻松完成复杂的编辑任务。

Sora 的三大生成模式——文本到视频（Text-to-Video）、文本+图像到视频（Text+Image-to-Video）和文本+视频到视频（Text+Video-to-Video）为创作者提供了灵活的创意工具：

Text-to-Video：这是 Sora 的核心功能之一，它允许用户仅通过输入文本描述就能生成完整的视频内容。

Text+Image-to-Video：通过结合文本和图像，Sora 能够更精确地理解并展现创作者的创意意图，制作出更符合视觉预期的视频内容。这一功能特别适合需要在视频中融入特定图像元素的场景，如广告制作、产品展示等，为创作者提供了更多的创意空间。

Text+Video-to-Video：这一模式让用户能够在现有视频的基础上，添加新的情节、细节，甚至创作出全新的版本或完全不同的内容。例如，用户可以对现有的广告视频进行重新编辑，加入新的对话、场景或动画效果，从而提升视频的吸引力和表现力。

在具体功能上，Sora 提供了多种创新功能：

混音（Remix）：用 Remix 替换、移除或重新想象视频中的元素（例如，移除飞船，添加丛林）

重剪（Re-cut）：找到并分离出最佳帧，向任一方向延伸以完成一个场景

故事板（Storyboard）：在个人时间轴上组织和编辑视频的独特序列

循环播放（Loop）：使用循环功能缩减并创建无缝重复视频

混合（Blend）：将两个视频合并为一个无缝片段

风格预设（Style presets）：使用预设创建和分享能捕捉你想象力的风格

此外，为进一步提升易用性，OpenAI 还专为 Sora 设计了新界面，以便于用户可以更轻松地使用文本、图像和视频提示 Sora。

Sora 的强大性能不仅为新手提供了趣味十足的原创视频制作体验，更为视频个人创作者和电影制作人带来了革命性的视频编辑支持。

炸裂/失败案例

Sora 专为创意和故事叙述而设计，可以轻松编辑或生成全新内容。

当然，Sora 在功能上并非完美无缺，例如可以看到下面视频中的鹈鹕莫名其妙地变形，在半途以相反的方向折回。

视频 | 提示：“一只鹈鹕骑着自行车，沿着海岸小径俯瞰海港。”

但这或许并不是一个特别重要的问题，Sora 完全是围绕直接操纵、编辑和重新混合它生成的剪辑的想法而构建的，目标不是让它从单个提示中制作出可用的视频。

在直播的最后，Sora 产品团队也给自己「泼了一盆冷水」，“如果你带着这样的期望来到 Sora，认为只需点击一个按钮就能生成一部故事片，那么你可能抱有错误的期望。”

他们谈道，Sora 是一个工具，它让你能够同时身处多个地点，同时尝试多种想法，去尝试之前不可能完成的事情。“然而，我们实际上认为 Sora 是一个非常特别的存在，它是背后创造者能力和思想的延伸。”

技术细节

在今日 Sora 正式发布的同时，OpenAI 也公开看 Sora 的系统卡，展示了模型的技术细节。

系统卡中介绍，继 DALL·E 和 GPT 系列模型成功之后，Sora 为用户提供了多样化的视频创作工具，可通过文字、图片或视频输入生成最高 1080p 分辨率、最长 20 秒的视频。

Sora 采用扩散模型与 Transformer 架构，确保生成视频的质量与一致性。此外，Sora 采用了 DALL・E 3 中的重描述（recaptioning）技术，可为视觉训练数据生成高度描述性的字幕（captions），从而使模型可通过文字指令生成新视频。此外，该模型还可以为静态图片添加动态效果，或扩展和修改现有视频。

在正式发布之前，Sora 经过了严格的测试，包括与艺术家合作及覆盖九个国家的红队测试。这些测试揭示了潜在风险，如内容误用和对抗性提示词，从而促使模型加入了严格的安全防护措施。OpenAI 还将使用年龄限制为18岁以上，并在生成的视频中嵌入水印和元数据，以确保透明性和可追溯性。

如今，Sora 已经正式上线，Plus 用户可生成最多 50 个优先视频（720p，5秒），而 Pro 用户则享有 500 个优先视频（1080p，20秒）及无限 Relaxed 视频下载，并支持无水印导出和多任务并发生成。

对于 OpenAI 终于发布 Sora 这件事，你怎么看？

作者：阮文韵

如需转载或投稿，请直接在公众号内留言素材来源官方媒体/网络新闻

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报