下载客户端

“国产Sora”Vidu全球上线，中国视频大模型支棱起来了？

2024-08-01 12:07

来源：澎湃新闻·澎湃号·湃客

这大半年来，小雷已经记不清自己体验过多少视频生成大模型产品了，但有一个名词已经深深印在我的脑海中。因为国内每当有一个新产品出现，就会被无数媒体冠以“国产Sora”的头衔，所以许多不常关注大模型的小伙伴经常云里雾里，搞不清谁才是真正的“国产Sora”。

如果从发布时间角度来看，生数科技联合清华大学在4月底发布的视频大模型Vidu才是Sora全球首个挑战者，也是严格意义上的首个“国产Sora”。

时隔3个月，Vidu终于迎来了正式上线，全面开放文生视频、图生视频两大功能。用户无需申请即可注册体验。生数科技表示，Vidu目前提供4s和8s两种时长选择，分辨率最高达1080P。

图源：生数科技

小雷认为就算不看生成视频的效果，Vidu也实现了对Sora的超越，毕竟它是一款能用的产品，而不是Demo。

Vidu体验：生成效率加分，拟真度有待优化

官方4月放出的生成视频中，Vidu已经实现了相当程度的“拟真”——模拟真实世界的物理原理，以及主体的一致性，这也是Vidu真正对标Sora的底气。而这次，Vidu带来了角色一致性（Character To Video）、动漫风格、文字与特效画面生成等特色能力。

此外，Vidu号称拥有业界最快的实测推理速度，只需不到30秒即可生成一段4秒的视频。等待时间过长一直是影响用户体验的重灾区，小雷试过某产品苦等2个小时的折磨，如果Vidu真能保持这种生成效率，这也能体现出背后大模型从框架到算力的全链路实力。

图源：生数科技

大家最关心的视频内容方面，Vidu同样展现出了动态性、逼真度、一致性等特点。

比如这段根据随机描述词生成的视频，展示了一个在昏暗的火车车厢中发生的故事，视频运镜与描述词完全一致，我们从人物脸部表情能感受到明显的担忧与紧张。除了人物站位和镜面没有反射人物表情外，视频基本还原了所有描述词，甚至给人一种在看谍战剧的错觉。

Vidu 生成，动图经过压缩。图源：生数科技

不过视频中突然出现的字幕和闪点让我有些绷不住，出戏感太严重了。或许Vidu是想通过字幕来表达角色间在交流，如果嘴部动作更加明显或许效果更佳。

类似的表现还出现在其他生成视频上，比如这段典型西部风格的人物特写，人物面部光线反射细节还是展现出了Vidu的功力，手部在移动过程中保持了一致性，并不像很多扩散模型一样，这一秒和下一秒的主体都可能出现明显的差异。

但还是老问题，自行蠕动的“原力”香烟和略带生硬的肢体动作给作品扣了不少印象分。

Vidu 生成，动图经过压缩。图源：生数科技

保真度方面，小雷认为这是Vidu下阶段考虑重点优化的部分，用比较通俗的话讲，就是背景画面与真实世界存在一定差异，有点油画风。

Vidu 生成，动图经过压缩。图源：生数科技

在人物生成上，Vidu表现比较稳定，充分展示了它的实力，从面部表情、眨眼到抬头，都比较接近实拍镜头。虽然仍存在小瑕疵，但考虑到参与视频内容制作的难度，Vidu算是展示出了相当不错的水平。

Vidu 生成，动图经过压缩。图源：生数科技

总的来说，虽然有快手可灵AI珠玉在前，但从目前体验的生成视频来看，Vidu依然展示了极高的视频生成能力，或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还略微逊色于可灵AI，但有一些镜头完全称得上可用，这已经是一个很大的进步。

此外，小雷认为Vidu辅助创作的设置还是相当人性化的，用户可以自定义视频内容风格（目前仅支持写实和动画），还可以后期修改内容画质和倍速。即使你的描述词太过天马行空，Vidu也能自行优化，让大模型更好地理解描述词。

国产大模型，一股不可忽视的东方力量

从ChatGPT发布到Sora问世，OpenAI被无数科技爱好者、专业从业者奉为行业高标准。事实上，生数科技早在2022年9月就提出了融合Diffusion和Transformer的U-ViT架构，比OpenAI提出DiT架构（Sora的底层架构）还要早。甚至因为发布时间更早，计算机视觉顶会CVPR 2023提前收录了清华大学的U-ViT论文，而以“缺乏创新”为由拒绝了OpenAI DiT论文。

图源：生数科技

不止是Vidu，还有很多国产大模型也参与到全球AI竞争中，向外界展示了中国技术具备领先的可能。比如被美国权威技术杂志《麻省理工科技评论》评价为具有里程碑意义的快手可灵AI。

据快手披露的数据显示，可灵大模型上线一个月以来，累计申请用户数50万+，开通用户数30万+，生成视频数700万。同时，可灵AI凭借大幅度运动的合理性和物理世界特性的高度模拟能力在国内外社交媒体和技术社区受到广泛讨论。

众多评价释放了同一信号，那就是中国大型科技公司在人工智能 (AI) 应用领域大有赶上美国同行的趋势。说实话，目前国产视频生成模型水平层次不齐，但领先者已经达到不输Sora Demo的程度，并且国产大模型是可以给用户使用的。

可灵AI、即梦AI、智谱AI等国产视频生成大模型产品大多采用免费、付费混合的商业模式，即普通用户免费使用基础版的视频生成功能，有更高需求的会员则可付费享受更高规格的功能。

在小雷看来，国产大模型在产品化和商业化方面是领先于海外大模型的。首先产品能用是最基础的，这点国产大模型赢麻了，基本上每个产品一推出就是全量测试。同时即梦AI、可灵AI还进行了短剧等领域的合作，给视频生成模型开辟了新道路，未来肯定还会运用教育、汽车、医疗等更多场景。

其次，混合商业模式的构成能在吸引大量用户的同时，探索产品盈利的可能性。毕竟做产品不是做慈善，有盈利才能投入更多，研发更好用的功能。

例如可灵AI近期上线的付费会员体系，就是针对不同类别会员提供相应的专属功能服务。据了解，三档会员的价格分别为66元/月、266元/月、666元/月，能额外生成可生成66个、300个或800个高性能5秒视频。会员用户还可使用高表现模式、视频延长、视频生成尾帧参考、大师视频运镜等专属功能。

图源：快手可灵AI

对于国产大模型们来说，下阶段或许会逐步细分付费体系，将资源更好地分配给用户。

海外大模型不够接地气，Sora带头画饼

另一边，海外大模型的迭代速度和商业模式则跟国产大模型不太相似。Sora就不用多说了，小雷已经吐槽过很多次了，2月发布Demo至今，Sora一直在跳票。最近一次看见它的相关信息，还是网友对SearchGPT具象化答案的联想。

行业明星带头画饼，其他海外大模型的表现又如何呢？

6月12日，Luma AI发布了Dream Machine（造梦机器）；7月2日，Runway宣布文生视频模型Gen-3向所有用户开放使用。直到今天凌晨，Runway Gen-3才正式上线图生视频功能。与国产大模型相比，迭代速度确实有点慢了。

图源：Runway

同时，海外大模型对普通用户不够友好。Runway最新模型Gen-3只有付费用户才能使用，会员费大约是每月12美元。

而Dream Machine每月为普通用户提供30次免费生成机会，除了免费用户，“造梦机器”还提供三档付费选项，包括29.99美元的标准档、99.99美元的专业档以及499.99美元的高级档，区别是每个月可以生成视频的次数，或许官方目标群体是那些通过“造梦机器”创作视频在TikTok上赚钱的创作者吧。

换句话说，海外大模型对普通用户的重视程度远不如国产大模型，国产大模型无论是产品的场景落地，还是商业模式，都更接地气。

写在最后

回想Sora刚发布的时候，国内除了惊叹AI的神奇，还有对中国AI发展相对落后的惋惜。

有人认为Sora将人类实现AGI（通用人工智能）的时间缩短了6-8年.还有更多人认为，Sora的出现进一步拉大了中美在AI领域的差距。尽管国内大模型众多，做视频模型的也不少，却看不到一个能够追赶Sora的竞争对手。

在抢占AI制高点的过程中，对国产大模型的一个普遍判断是：处于第一梯队，但距离顶尖还存在差距。而可灵AI、Vidu等国产大模型的发布，至少再次证明了一切皆有可能。

现阶段的AI角力不再是纯技术与算力的“内卷”，而是基础设施、技术研发、应用落地、用户驱动的多向奔赴。如果说Sora的发布是一个开始，那我相信国产大模型的崛起是Sora垄断的结束。

2024上半年，科技圈风起云涌。

大模型加速落地，AI手机、AI PC、AI家电、AI搜索、AI电商……AI应用层出不穷；

Vision Pro开售并登陆中国市场，再掀XR空间计算浪潮；

HarmonyOS NEXT正式发布，移动OS生态生变；

汽车全面进入“下半场”，智能化成头等大事；

电商竞争日益剧烈，卷低价更卷服务；