澎湃Logo
下载客户端

登录

  • +1

Sora终于来了,但OpenAI先“泼了一盆冷水”

2024-12-10 15:37
来源:澎湃新闻·澎湃号·湃客
字号

原创 学术头条 学术头条

今日凌晨,在 OpenAI 为期 12 天的“ship-mas”的第三天,OpenAI 宣布正式推出其视频生成模型 Sora,据今年 2 月 16 日 Sora 首次亮相以来,该模型终于面向用户开放。

同时,Sora 迎来大升级——OpenAI 还发布了 Sora 新版本 Sora Turbo,该版本比二月份的预览版模型快得多,并于今天作为独立产品发布给 ChatGPT Plus 和 Pro 用户使用。

“我们希望这个早期版本的 Sora 能够让世界各地的人们探索新的创造力形式,讲述他们的故事,并突破视频叙事的可能性,”OpenAI 在官方博客中写道。

20 秒、1080p 分辨率、多种创新玩法

据介绍,Sora 旨在为用户提供一站式的视频创作解决方案,能支持生成最高 1080p 分辨率、最长 20 秒的视频,兼容宽屏、竖屏和方形比例。无论是创作全新内容,还是对现有素材进行改编,用户都能通过直观的界面和强大的功能轻松完成复杂的编辑任务。

Sora 的三大生成模式——文本到视频(Text-to-Video)、文本+图像到视频(Text+Image-to-Video)和文本+视频到视频(Text+Video-to-Video)为创作者提供了灵活的创意工具:

Text-to-Video:这是 Sora 的核心功能之一,它允许用户仅通过输入文本描述就能生成完整的视频内容。

Text+Image-to-Video:通过结合文本和图像,Sora 能够更精确地理解并展现创作者的创意意图,制作出更符合视觉预期的视频内容。这一功能特别适合需要在视频中融入特定图像元素的场景,如广告制作、产品展示等,为创作者提供了更多的创意空间。

Text+Video-to-Video:这一模式让用户能够在现有视频的基础上,添加新的情节、细节,甚至创作出全新的版本或完全不同的内容。例如,用户可以对现有的广告视频进行重新编辑,加入新的对话、场景或动画效果,从而提升视频的吸引力和表现力。

在具体功能上,Sora 提供了多种创新功能:

混音(Remix):用 Remix 替换、移除或重新想象视频中的元素(例如,移除飞船,添加丛林)

重剪(Re-cut):找到并分离出最佳帧,向任一方向延伸以完成一个场景

故事板(Storyboard):在个人时间轴上组织和编辑视频的独特序列

循环播放(Loop):使用循环功能缩减并创建无缝重复视频

混合(Blend):将两个视频合并为一个无缝片段

风格预设(Style presets):使用预设创建和分享能捕捉你想象力的风格

此外,为进一步提升易用性,OpenAI 还专为 Sora 设计了新界面,以便于用户可以更轻松地使用文本、图像和视频提示 Sora。

Sora 的强大性能不仅为新手提供了趣味十足的原创视频制作体验,更为视频个人创作者和电影制作人带来了革命性的视频编辑支持。

炸裂/失败案例

Sora 专为创意和故事叙述而设计,可以轻松编辑或生成全新内容。

当然,Sora 在功能上并非完美无缺,例如可以看到下面视频中的鹈鹕莫名其妙地变形,在半途以相反的方向折回。

视频 | 提示:“一只鹈鹕骑着自行车,沿着海岸小径俯瞰海港。”

但这或许并不是一个特别重要的问题,Sora 完全是围绕直接操纵、编辑和重新混合它生成的剪辑的想法而构建的,目标不是让它从单个提示中制作出可用的视频。

在直播的最后,Sora 产品团队也给自己「泼了一盆冷水」,“如果你带着这样的期望来到 Sora,认为只需点击一个按钮就能生成一部故事片,那么你可能抱有错误的期望。”

他们谈道,Sora 是一个工具,它让你能够同时身处多个地点,同时尝试多种想法,去尝试之前不可能完成的事情。“然而,我们实际上认为 Sora 是一个非常特别的存在,它是背后创造者能力和思想的延伸。”

技术细节

在今日 Sora 正式发布的同时,OpenAI 也公开看 Sora 的系统卡,展示了模型的技术细节。

系统卡中介绍,继 DALL·E 和 GPT 系列模型成功之后,Sora 为用户提供了多样化的视频创作工具,可通过文字、图片或视频输入生成最高 1080p 分辨率、最长 20 秒的视频。

Sora 采用扩散模型与 Transformer 架构,确保生成视频的质量与一致性。此外,Sora 采用了 DALL・E 3 中的重描述(recaptioning)技术,可为视觉训练数据生成高度描述性的字幕(captions),从而使模型可通过文字指令生成新视频。此外,该模型还可以为静态图片添加动态效果,或扩展和修改现有视频。

在正式发布之前,Sora 经过了严格的测试,包括与艺术家合作及覆盖九个国家的红队测试。这些测试揭示了潜在风险,如内容误用和对抗性提示词,从而促使模型加入了严格的安全防护措施。OpenAI 还将使用年龄限制为18岁以上,并在生成的视频中嵌入水印和元数据,以确保透明性和可追溯性。

如今,Sora 已经正式上线,Plus 用户可生成最多 50 个优先视频(720p,5秒),而 Pro 用户则享有 500 个优先视频(1080p,20秒)及无限 Relaxed 视频下载,并支持无水印导出和多任务并发生成。

对于 OpenAI 终于发布 Sora 这件事,你怎么看?

作者:阮文韵

如需转载或投稿,请直接在公众号内留言素材来源官方媒体/网络新闻

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2025 上海东方报业有限公司

            反馈