下载客户端

又来一个“对标Sora”，首个国产纯自研视频大模型Vidu是真牛还是吹牛？

2024-08-03 12:54

来源：澎湃新闻·澎湃号·湃客

作者｜Valentina

编辑｜方奇

媒体｜AI大模型工场

7月30日，首个国产纯自研视频大模型Vidu全球上线，可在Web 端www.vidu.studio访问。

在今年4月举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上，清华大学教授、生数科技首席科学家朱军宣布，生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。生数科技称，Vidu全面对标Sora。

此次Vidu面向全球正式上线，开放文生视频、图生视频两大核心功能，提供4s和8s两种时长选择，分辨率最高达1080P。在推理速度上，Vidu生成一段4s的片段仅仅需30s。在付费机制方面，Vidu与其它生成产品类似，提供免费版与3种收费机制。3种收费机制分为标准、高级与尊享。目前在上线前两周，Vidu提供限时5折优惠。

那么究竟Vidu功能是不是和宣传一致，能否担当“国产视频AI之光”的名号？AI大模型工场也感到好奇，于是迅速进行了一手测评。

一、两大新功能体验抢先测评：动漫风格化功能、角色一致性功能

除了文生视频和图生视频的两大基础功能外，Vidu此次同步上线两大全新功能，一是动漫风格，二是角色一致性。

1. 动漫风格化功能体验

Vidu官方打出“万物皆可二次元”的旗号。目前市面上的AI视频工具大多局限于写实风格或源于现实的想象。Vidu除了能实现常见的写实等多元风格外，还新增动漫风格选项。官方图生视频实测案例如下：

图生动漫风格能基本百分百保持原形像角色。整个视频无明显畸变，角色一致性保持良好。

来看看文生动漫风格效果怎么样：

prompt: 动漫风格。清晨，一个穿着围裙的女孩从林间小屋中走出来，伸了个懒腰，然后给飞过来的鸟儿笑着打了招呼。

从画面效果来看，画风很美，有宫崎骏电影般的质感。背景画面细腻丰富，光线柔和有质感。从生成动漫角色看，女孩面部表情丰富生动，并且在从后面走过来的过程中，画面背景和人物保持了高度一致性。但帧与帧卡顿感明显，甚至最后一秒还有穿模现象。

2.角色一致性功能

在“图生视频”板块中，Vidu上线了角色一致性功能。在上传图片的过程中，Vidu支持首帧图和角色图两种选择，前者是实现基于首帧画面的连续生成（常见的图生视频功能），后者则是角色一致性生成，用户可上传人像图或者自定义的角色图，然后通过文字描述指定该角色在任意场景中做出任意动作。

上一张真人图，先来测评看看“首帧图”效果如何。

prompt：两人深情拥抱

整个画面、背景无明显形变，人物一致性保持的更是完美，从表情、形象外观到服装细节，原图到视频都没有发生改变。视频人物动作流畅，表情细节包括皱纹等也处理的十分到位。同时，运动后衣服褶皱的变化也符合物理运动规律。

再来看看“角色图”效果如何：

prompt：男人头戴墨镜在沙滩边悠闲散步度假

在“角色图”功能中，人物一致性同样保持的很好，角色面部细节到位。新的背景抠的十分自然，整个画面高级、漂亮、有质感。人物动作稍显卡顿，但整体流畅度还是较高。

二、经典视频功能深度评测

1.宏大场景+延时摄影

prompt：一座现代化城市市中心，有很多摩天大楼。俯拍的视角。延时摄影，从早上八点到晚上八点，表现了这座城市从白天的晴朗，到夜晚降临但是霓虹灯闪烁的场景。

对于延时摄影的概念，Vidu 能够准确的把握。对于提示词的要求也全部给予了回复，包括俯拍摩天大楼，从早到晚等。画面稳定流畅，甚至能让人体验到城市车水马龙之感。但可惜对于4s延时摄影视频太短，难免给人仓促之感。

2.电影感镜头：细腻人物刻画

prompt：舞台上里，一个三十岁的男性钢琴家在表演钢琴独奏。舞台上一束灯光照耀这位钢琴家和钢琴。钢琴家穿着燕尾服。钢琴家很投入，陶醉的随着音乐而摇头晃脑。画面效果：真实、细腻、电影感

这个片段完成度很高。首先，人物比较稳定，手指这些细节也未发生变形，对于“摇头晃脑”的微表情处理的也比较到位；其次，画面的一致性保持的很好，不管是人物动作还是北京画面，都保持了流畅稳定。对于提示词能够充分的理解，所有提示词元素基本全展现画面中；对于光影等物理规律也处理的很恰当。

3.多人物场景刻画

prompt：橄榄球赛场上，来自两个队伍的多名运动员正在追着一枚扔出去的橄榄球奔跑。

到了多人画面质感就断崖式下跌。Vidu基本理解了多人橄榄球赛的要求，但是不论是人物还是动作都缺少细节感。并且橄榄球飞来飞去的路线，牛顿看了都要爬起来说一句：天理何在！

4.物体移动

prompt：傍晚，一座宽敞的跨江大桥上，一辆红色的跑车在上面疾驰。跨江大桥两岸有夜灯，但是车灯更加耀眼。红色金属反射出周围的景色与灯光。

画面质感很好，傍晚、红色跑车、夜灯要素齐全；头车车身有四周景色与光的反射，路面也有车灯倒影，光学物理满分；画面稳定、流畅、帧与帧连接较为自然；但是要求中的“一辆”跑车变成了“两辆”，疾驰变成了缓慢行驶，理解能力一般。

虽然跑车是缓慢行驶，但是可以看出动作流畅，无明显顿感。并且随着运动车身还有轻微上下颠簸的细节，物理真实感和细节感拉满。

从Vidu官方评测给出的跑车疾驰画面，可以看出在动作幅度较大的场景中，Vidu能够保持高流畅、高动态的画面效果。

5.精彩二创：名画“活过来"

prompt：切远景，少女捧着爆米花，拿了一粒放入口中。

视频保留了原画风，且少女与原画几乎一模一样，人物动作过程无明显畸变，一致性Max。画面生成稳定，且一些物理细节也刻画的很细腻，例如少女往前伸头的时候耳坠随之摇摆。唯一的遗憾是没有完全还原prompt中“拿了一粒放进嘴里”的要求。

6.超现实主义

prompt：飞机驾驶舱内，两只熊猫在开飞机。

这个视频完全还原了两只可爱的熊猫在驾驶舱内操纵飞机行驶。整个画面较为稳定、流畅，窗外天空细节做的特别好。两只熊猫毛发细节逼真，动作自然，美中不足的是右边熊猫的下半身貌似有粘连情况。除此之外，客舱仪表盘、按键等并没有刻画的很细腻。但考虑到驾驶舱仪表、按键等细节本身的复杂程度，相信Vidu也已经尽力了。

总的来说，Vidu还是“有点东西”。

对于AI视频基本要求方面，包括一致性、画面内容度、流畅度等方面，Vidu表现的几乎满分。无论是特色“角色一致性”功能，还是普通文生视频及图生视频功能，Vidu都能确保人物角色保持较高的一致性。同时，生成画面基本稳定流畅且细节到位。

另一方面，Vidu审美一流，生成的视频往往画面细腻，画风优美，质感强。相比过去的视频模型，Vidu 的动作幅度也得到了大幅度提高，并且基本上能保持动作高度流畅。同时，Vidu生成视频的速度快是真快，所有4s视频基本都能在30s内完成。一句话，Vidu没有虚假宣传！

提升空间当然还是大大有之，比如画面偶尔还有穿模、粘连现象；对于文本理解，Vidu能够基本理解并满足大部分的要求，但是仍偶尔会出现对提示词回应不充分的情况；在多人场景下，Vidu丢失了人物与动作处理细腻的特点，画面细节严重缺失，还需加强多人场景制作能力。

以上是AI大模型工场本次测评体验。虽然有不足之处，总体观感还是不错的。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#文生视频