澎湃Logo
下载客户端

登录

  • +1

OpenAI正式上线Sora,王者归航

2024-12-12 17:47
来源:澎湃新闻·澎湃号·湃客
字号

原创 数字生命卡兹克 数字生命卡兹克

OpenAI Day3的直播,我们等了298天的Sora,终于,正式上线了。

而且不仅仅是一个模型,而是一个非常完善且体验极佳的真正的产品。Sora背后接入的是一个新模型,Sora Turbo,推理成本肯定少了非常非常多,这也解释了为啥OpenAI把Sora拖了这么久,就是因为二月份的那个模型,推理起来太烧钱了,跑不动。

虽然是个新产品,但是会员体系是跟ChatGPT全面打通的。

20刀的Plus比较惨,最多生成50个视频,最多720P、5s,还有水印。

尊贵的200刀的Pro会员就比较香了,最多快速生成500个视频,还能无限慢速跑,1080P、20s,还有无水印。

所以,没办法,我只能,当场怒氪了200刀。。。

于是,我也成了尊贵的200刀的Pro会员了,o1没让我充钱,但是Sora这波,我是真的逃不了了。。。

真的都是宿命。

2月16号,OpenAI发布Sora,在全世界,掀起了新的浪潮。

而那天,我也写下了那篇传播最广的文章:

然后,就是死一般的沉寂。

那个Sora,成了所有人心中,最远的梦。宛如天上的星辰,美得不可方物,却又遥不可及。

有人说,5G只改变了何同学的生活,而Sora,也只改变了我的生活。

虽是一句玩笑,但也却只能是一声叹息。

而今天,298天之后。

在铁王座上的王已经换了无数次之后,在可灵、即梦、海螺、vidu等等AI视频模型已经一统江湖之后。

Sora回来了。

它说:

“重铸OpenAI荣光,吾辈义不容辞。”

这次,我用4句话总结这次Sora的完整特点:

极度完整的用户体验、还不错的运动效果、超丰富的视频修改与编辑、完美一致性的故事板。

一个一个来说。

一. 极度完整的用户体验

我最开始以为的Sora,是一个网页,就一个写Prompt的输入框,然后没了。

就跟很多AI视频刚上线的时候一样。

结果,Sora这个产品,掏出来的完整度,还是超出了我的预期。

在整体界面上,非常的Midjourney,有一种熟悉的感觉的即视感。最左边的其实就是社区和你自己的生成出来的素材管理。

有喜欢的、收藏的等等,不赘述了,都大差不差。

而真正的操作区,放在了底部,功能比我想象的要多很多。

从左到右,分别是:

上传图片或者视频:Sora支持文生视频、图生视频。所以可以传图。

预设的风格模板:

当然你也可以新增自己喜欢的风格做成预设。

比例:支持的比较少,只有16:9、1:1、9:16三种尺寸。

分辨率:3种,480p到1080p,Plus会员只能生成720p的,pro会员才可以生成1080p。

持续时长:4种,5s、10s、15s、20s,这里需要注意,720p的是可以生成20s的,但是如果你选1080p,那最多只能生成10s了。

一次生成视频个数:1、2、4三种选择,1080p最多1个,720p最多2个、480p最多3个。

右边还有一个非常非常牛的故事板功能,这个我们放在第四趴细说。

非常牛,真的。

在这个功能的完整度上,已经比很多产品好了,但是,这不是最重要的,最可怕的完整度,是在生成视频后。

Remix(重新混合)、blend(混合)、Loop(循环),这些功能,是我全部第一次见,也都是Sora的独创功能,这一趴,我放在第三块细说。

我们先来看看,Sora生成出来的效果。

二. 还不错的运动效果

现在几乎所有的AI视频模型还在努力追赶真实世界的运动质感,在让人能走起来、跑起来、做一些复合型动作。

那Sora作为整个的鼻祖,其实在运动效果上,会好一些,但是并没有好那么的超乎预期。

在运动质量、物理规律、镜头语言上,会比大部分的AI视频模型效果都要厉害。还有那个神级的审美。

太喜欢了。

当然,不足也有很多,而且跟2月的时候,我觉得没有太大的变化。

就是肢体变形、物体的突然出现以及消失、错位等等,这些也还是会有不少。

在一些复杂语义的理解上,也差点意思。

比如,我给的Prompt是:“在那间破旧的出租公寓里,刚毕业的年轻人疲惫地脱下西装外套,把它扔在椅背上。他走到窗边,呆呆地望着城市的夜景。远处,霓虹灯闪烁。”

你会发现完全没有理解脱衣服、扔衣服这事...一直漫无目的在屋子里走来走去。。。

还会经常有莫名其妙的切镜,如果把时间拉到10s钟,我个人觉得,切镜的过于频繁了。

所以,整体来看,我觉得Sora如果对标GPT进度的话,那现在应该是GPT2.5左右的水平。

等到Sora的v2版本。

那可能就真的能达到GPT3.5,那种全民可用的地步。

产生巨大颠覆的效果了。

三. 超丰富的视频修改与编辑

如果我说,我希望在刚刚生成的的草地上,加个游泳池。

我想,任何一个人都会用看煞笔的眼神来看我,不开口骂我我觉得都是轻的。

动动嘴,一句话改视频,听起来像天方夜谭,对吧。

但是Sora,做到了。

这就是我们在之前提到的,Remix(重混)功能。

可以一句话,改掉视频里面的素材。

比如在他们的直播演示里,他们先生成了一段猛犸象在荒原奔跑的视频。

那如果你对这个猛犸象不满意,想把他变成机械猛犸象。

那就可以直接点remix,来一句话,改视频。

你可以修改Remix强度。

来决定Remix值的大小。

可以选择温和,于是,你就有了,机械猛犸象在荒原上奔跑。

还有这个Blend混合功能。

比如我们有两段视频。

我想让雪花先开始放,然后无缝变成花朵的样子,中间无缝斜街。

Blend功能直接完美搞定。

你还可以用Loop功能,做一段无限循环的海浪。

甚至,OpenAI还给你开了剪辑功能。。

你可以,直接在Sora上面剪辑。

只能说,这一波,产品功能的完成度,实在太高了。

四. 完美一致性的故事板

就是这个玩意。

你可以通过不同的Prompt,生成几乎完美一致性的分镜,从而组成一段一分钟的影片。

其实用AI一键生成电影,是很多炒概念的公司,在打的点。

因为电影,或者视频,本质上是由一个一个的镜头组成的。

很多时候为了在前期就把大概的画面定好,就需要提前画故事板。

比如《流浪地球2》上映的时候,就有媒体对当时球2的故事板指导费雪豪老师做过专访,其中透露了一些故事板的设计,就是长这样的。

虽然是一帧一帧的,但是你也能看出来,其中的动态表达,还有那种强到夸张的戏剧张力,更重要的是。

每一帧之间的一致性。

而这一点,是每一个试图去做故事板的AI产品,都逃不过的核心点。

你前后镜头的人物、场景,如果都长得不一样,那还聊啥沉浸感,对吧。

所以,过往的类似于LTX Studio的产品,我觉得失败就失败在这。因为都是先生图,然后图生视频,一致性,太难太难保持了。

但是Sora这次,靠着自己的特性,把每一段的镜头的一致性,做到了完美。

你可以直接在时间轴中,加分镜帧,来引导每个画面应该怎么做。

不仅能实现一个镜头里面的多动作引导,还能实现可控的分镜切镜。

比如我写的这一段。

你可以随意拖动时间轴上的分镜,以便控制让它从几秒钟开始。

然后,一段流畅的动作视频,就生成完毕了。

而且不止是文字。

你还可以输入图片,比如我上传两张图片进去。

就可以完美的实现首尾帧的效果。

写在最后

298天,说长不长,说短不短。

298天,也恍若一梦。

这298天里,我们见证了AI视频领域的群雄并起。

可灵首当其冲划破黑暗,即梦用完美的人物演绎征服观众,海螺用极致的表情赢得掌声,Vidu用完美的一致性获得赞誉,开源世界里也有智谱和混元让黎明升起。

每一个都像是一颗璀璨的星星,照亮了那一片天空。

但在这298天里,更看到了人性的投射。

有人用AI还原逝去至亲的音容笑貌,有人用它创作出天马行空的奇思妙想,有人用它表达内心最深处的情感。

AI不仅是冰冷的工具,而成为了我们创造力的延伸。

当影像制作的门槛被彻底打破,当每个人都能轻松创作出专业级的视频。

我觉得更值得思考的是:

我们要用这份能力做些什么?是沉迷于虚拟的完美,还是用它来表达真实的情感?是制造更多的喧嚣,还是传递更有价值的声音?

在这个即将影像即真相的时代,我们每个人都将面对这个选择。

而且,这亦不是终点,而是另一个起点。

因为在AI的世界里,永远没有最后一个奇迹。

只有,下一个奇迹。

原标题:《OpenAI正式上线Sora - 王者归航。》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈