- +1
又来一个“对标Sora”,首个国产纯自研视频大模型Vidu是真牛还是吹牛?
作者|Valentina
编辑|方奇
媒体|AI大模型工场
7月30日,首个国产纯自研视频大模型Vidu全球上线,可在Web 端www.vidu.studio访问。
在今年4月举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。生数科技称,Vidu全面对标Sora。
此次Vidu面向全球正式上线,开放文生视频、图生视频两大核心功能,提供4s和8s两种时长选择,分辨率最高达1080P。在推理速度上,Vidu生成一段4s的片段仅仅需30s。在付费机制方面,Vidu与其它生成产品类似,提供免费版与3种收费机制。3种收费机制分为标准、高级与尊享。目前在上线前两周,Vidu提供限时5折优惠。
那么究竟Vidu功能是不是和宣传一致,能否担当“国产视频AI之光”的名号?AI大模型工场也感到好奇,于是迅速进行了一手测评。
一、两大新功能体验抢先测评:动漫风格化功能、角色一致性功能
除了文生视频和图生视频的两大基础功能外,Vidu此次同步上线两大全新功能,一是动漫风格,二是角色一致性。
1. 动漫风格化功能体验
Vidu官方打出“万物皆可二次元”的旗号。目前市面上的AI视频工具大多局限于写实风格或源于现实的想象。Vidu除了能实现常见的写实等多元风格外,还新增动漫风格选项。官方图生视频实测案例如下:
图生动漫风格能基本百分百保持原形像角色。整个视频无明显畸变,角色一致性保持良好。
来看看文生动漫风格效果怎么样:
prompt: 动漫风格。清晨,一个穿着围裙的女孩从林间小屋中走出来,伸了个懒腰,然后给飞过来的鸟儿笑着打了招呼。
从画面效果来看,画风很美,有宫崎骏电影般的质感。背景画面细腻丰富,光线柔和有质感。从生成动漫角色看,女孩面部表情丰富生动,并且在从后面走过来的过程中,画面背景和人物保持了高度一致性。但帧与帧卡顿感明显,甚至最后一秒还有穿模现象。
2.角色一致性功能
在“图生视频”板块中,Vidu上线了角色一致性功能。在上传图片的过程中,Vidu支持首帧图和角色图两种选择,前者是实现基于首帧画面的连续生成(常见的图生视频功能),后者则是角色一致性生成,用户可上传人像图或者自定义的角色图,然后通过文字描述指定该角色在任意场景中做出任意动作。
上一张真人图,先来测评看看“首帧图”效果如何。
prompt:两人深情拥抱
整个画面、背景无明显形变,人物一致性保持的更是完美,从表情、形象外观到服装细节,原图到视频都没有发生改变。视频人物动作流畅,表情细节包括皱纹等也处理的十分到位。同时,运动后衣服褶皱的变化也符合物理运动规律。
再来看看“角色图”效果如何:
prompt:男人头戴墨镜在沙滩边悠闲散步度假
在“角色图”功能中,人物一致性同样保持的很好,角色面部细节到位。新的背景抠的十分自然,整个画面高级、漂亮、有质感。人物动作稍显卡顿,但整体流畅度还是较高。
二、经典视频功能深度评测
1.宏大场景+延时摄影
prompt:一座现代化城市市中心,有很多摩天大楼。俯拍的视角。延时摄影,从早上八点到晚上八点,表现了这座城市从白天的晴朗,到夜晚降临但是霓虹灯闪烁的场景。
对于延时摄影的概念,Vidu 能够准确的把握。对于提示词的要求也全部给予了回复,包括俯拍摩天大楼,从早到晚等。画面稳定流畅,甚至能让人体验到城市车水马龙之感。但可惜对于4s延时摄影视频太短,难免给人仓促之感。
2.电影感镜头:细腻人物刻画
prompt:舞台上里,一个三十岁的男性钢琴家在表演钢琴独奏。舞台上一束灯光照耀这位钢琴家和钢琴。钢琴家穿着燕尾服。钢琴家很投入,陶醉的随着音乐而摇头晃脑。画面效果:真实、细腻、电影感
这个片段完成度很高。首先,人物比较稳定,手指这些细节也未发生变形,对于“摇头晃脑”的微表情处理的也比较到位;其次,画面的一致性保持的很好,不管是人物动作还是北京画面,都保持了流畅稳定。对于提示词能够充分的理解,所有提示词元素基本全展现画面中;对于光影等物理规律也处理的很恰当。
3.多人物场景刻画
prompt:橄榄球赛场上,来自两个队伍的多名运动员正在追着一枚扔出去的橄榄球奔跑。
到了多人画面质感就断崖式下跌。Vidu基本理解了多人橄榄球赛的要求,但是不论是人物还是动作都缺少细节感。并且橄榄球飞来飞去的路线,牛顿看了都要爬起来说一句:天理何在!
4.物体移动
prompt:傍晚,一座宽敞的跨江大桥上,一辆红色的跑车在上面疾驰。跨江大桥两岸有夜灯,但是车灯更加耀眼。红色金属反射出周围的景色与灯光。
画面质感很好,傍晚、红色跑车、夜灯要素齐全;头车车身有四周景色与光的反射,路面也有车灯倒影,光学物理满分;画面稳定、流畅、帧与帧连接较为自然;但是要求中的“一辆”跑车变成了“两辆”,疾驰变成了缓慢行驶,理解能力一般。
虽然跑车是缓慢行驶,但是可以看出动作流畅,无明显顿感。并且随着运动车身还有轻微上下颠簸的细节,物理真实感和细节感拉满。
从Vidu官方评测给出的跑车疾驰画面,可以看出在动作幅度较大的场景中,Vidu能够保持高流畅、高动态的画面效果。
5.精彩二创:名画“活过来"
prompt:切远景,少女捧着爆米花,拿了一粒放入口中。
视频保留了原画风,且少女与原画几乎一模一样,人物动作过程无明显畸变,一致性Max。画面生成稳定,且一些物理细节也刻画的很细腻,例如少女往前伸头的时候耳坠随之摇摆。唯一的遗憾是没有完全还原prompt中“拿了一粒放进嘴里”的要求。
6.超现实主义
prompt:飞机驾驶舱内,两只熊猫在开飞机。
这个视频完全还原了两只可爱的熊猫在驾驶舱内操纵飞机行驶。整个画面较为稳定、流畅,窗外天空细节做的特别好。两只熊猫毛发细节逼真,动作自然,美中不足的是右边熊猫的下半身貌似有粘连情况。除此之外,客舱仪表盘、按键等并没有刻画的很细腻。但考虑到驾驶舱仪表、按键等细节本身的复杂程度,相信Vidu也已经尽力了。
总的来说,Vidu还是“有点东西”。
对于AI视频基本要求方面,包括一致性、画面内容度、流畅度等方面,Vidu表现的几乎满分。无论是特色“角色一致性”功能,还是普通文生视频及图生视频功能,Vidu都能确保人物角色保持较高的一致性。同时,生成画面基本稳定流畅且细节到位。
另一方面,Vidu审美一流,生成的视频往往画面细腻,画风优美,质感强。相比过去的视频模型,Vidu 的动作幅度也得到了大幅度提高,并且基本上能保持动作高度流畅。同时,Vidu生成视频的速度快是真快,所有4s视频基本都能在30s内完成。一句话,Vidu没有虚假宣传!
提升空间当然还是大大有之,比如画面偶尔还有穿模、粘连现象;对于文本理解,Vidu能够基本理解并满足大部分的要求,但是仍偶尔会出现对提示词回应不充分的情况;在多人场景下,Vidu丢失了人物与动作处理细腻的特点,画面细节严重缺失,还需加强多人场景制作能力。
以上是AI大模型工场本次测评体验。虽然有不足之处,总体观感还是不错的。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司