澎湃Logo
下载客户端

登录

  • +1

智谱版“Sora”清影上线,张鹏回应技术商业细节

2024-07-27 20:54
来源:澎湃新闻·澎湃号·湃客
字号

AI视频生成,离我们越来越近。

文|牛慧

编|赵艳秋

7月26日,智谱AI对外发布了AI生成视频模型清影(Ying),并宣布清影已上线清言App,面向所有用户开放文本生成视频以及图片生成视频,30秒时间可生成6秒视频。

清影(Ying)采取了免费排队、付费加速的收费模式,24小时为5元,一年为199元。同时,清影API也上线大模型开放平台bigmodel.cn,企业和开发者可以采用API调用方式。

智谱AICEO张鹏称,清影(Ying)是初步的阶段性成果。从产品角度来讲,会成为一个单独的产品去商业化落地。但无论是2C还是2B,纯粹走向大规模商业化还比较早期。

清影(Ying)也会涉及开源。“我们从来同时兼顾开源和商用。”

在文生视频会不会取代长视频拍摄手段这个问题上,张鹏称,他曾去北影与老师们聊这件事。“从技术发展角度,大家认为对影视行业的变化有积极的意义。但至少目前,能把它用在直接面向最终观众的生产过程当中,可能还不是太够,用来做一些辅助的工作是可以的。”

在融入清影(Ying)后,智谱AI能不能打造一款超级APP?张鹏认为,现在对超级APP的定义不同。“可能没有那么超级。它是循序渐进式的,从时间维度来说,过去半年,大家的使用习惯已经改变了非常多,只不过没有让你一觉醒来就有改变的感觉,这是人感知上的误差。”

在清影发布后,张鹏与现场与会者进行了交流。为方便阅读,数智前线对部分对话内容进行了整理。

01

清影(Ying)为什么开放给公众

Q:OpenAI Sora还没有开放给公众使用,为了保障清影能向公众开放,智谱做了一些什么事,尤其算力方面?

张鹏:首先OpenAI Sora效果还是不错的,今天智谱清影(Ying)还是一个初步的阶段性成果,还达不到像Sora演示出来的那么好、那么长的视频,这个还需要更多的努力。

虽然我们承认与OpenAI 、与世界顶级水平之间的差距,但是这条路还得自己走,我们一直也在走自己的路,不断用自己的方式往前追赶,想到新的方法,比如怎么把视频生成算力成本降下来,响应速度提升上去,让所有人可以用。其实这件事是除了技术追求以外,为了让技术人人可用,我们也同步追求了技术的可普及性和成本,这也是我们这个团队的一些特点。

Q:成本是多少?

张鹏:这个在大家用起来以后,统计才有意义。

Q:从什么时候开始做清影(Ying)的,团队规模、产品研发投入是什么样?

张鹏:做视频模型这件事往前追溯,从2021年开始就布局了,去验证了这件事可行,但是里面有很多的问题。

为什么会有一段时间转去做语言模型,是我们认为本身做大模型这件事最终目标想要实现AGI,本质上还是在于如何对现实世界里的信号、数据进行提炼、压缩、学习的过程。这个事情可能语言是密度最高的,相对来说比较容易,而且也是人机交互当中非常重要的环节。能让它听懂人类的自然语言,这件事是非常重要的一个点。如果它能理解这件事,就能解决很多的问题,比如生成视频可控的问题,最简单的可控,就是我说什么你做什么,它强烈依赖于你能不能准确理解这个内容。我先有这样一个抽象层面、宏观层面的能力,对世界的建模和理解。

Q:一些做纯做视频模型的企业发的更早一点,还有视频公司像快手,他们的路径和大模型企业不同吗?

张鹏:我个人理解,从传统视频厂商或者纯粹做视觉的转去做模型,他们可能是沿着视觉信号这个路线做这件事。但这两个事情有对错吗?不一定,前一段时间我们看论文,单模态的建模、语言模态的建模、跨模态的建模,最终本质上会走向物理世界统一的表示,大家追求的是同一个真理,只是走不同的路而已,可能是这样一个结局。

Q:现在视频生成模型都是DiT架构,智谱在这方面有没有创新?

张鹏:视频生成模型是DiT+Tansformer,大家知道Sora也是这种方案,我们也采用这种方案。但是因为技术细节上的不透明,很多地方需要自己摸索。算法上在不断改进,比如3D VAE等,也是改进DiT和Tansformer结合的效率。大模型纯算法本身只占其中一部分,还有大量的系统工程等各方面的事情,所以它是比较复杂的事情,还有很多工作要做。

Q:智谱不像快手等视频公司,有视频数据的积累,智谱的训练数据来自哪里?

张鹏:做视频生成真的非常依赖于数据。文字数据我们可能积累了很多年,视频数据是这几年才有的事情,而且难度更高。

我们用的视频训练数据主要是来自于两大方面,一方面是公开的数据集,互联网上有很多,尤其开源社区有很多人在做这方面的工作,积累了一些资料。另外就是合作伙伴,像B站、华策、央视帮我们提供了一些训练数据。

就数据的质量问题,所谓高质量视频,和我们一般观众所感受到的略微有一些差别,它包括很多维度,像视频的解析度、风格、分进、组合、连续性等,这个要求非常高,并不是说在短视频网站随便抓一个视频就能训练。所以对于数据本身的清洗、筛选,也是一个很重要的过程,里面有很多技术性的东西,因为你不可能靠人去看这件事,太多了,很多时候还是要靠技术手段改进。

除了有高质量的视频以外,还有对应的字幕、文字、描述等等,这个才能帮助我们训练视频模型。

Q:在算力上,有人说文生视频的算力需求是十倍甚至百倍的增长,但也有人说算力在千卡规模,比一些大语言模型要小很多。你看到算力需求是怎样的?

张鹏:我不是太同意生成视频的算力,会小于文字生成算力这件事情。可能未来很多都会变成多模态信号融合,但以视觉信号为主,视频对人的大脑,目前还是冲击力最强的。前两天有人问我,你看不看好PPT生成这件事。我说跳开这件事来看,PPT为什么比传统胶片方式要更被人接受,是因为有更主观的视觉信号,把文字转换成结构化的信息。未来会不会所有内容都转成视觉形式,没有所谓的PPT,你可以想象这个问题,人交流的需求是什么,什么方式是最直接的?所以这个都有可能。

02

清影的付费方式是怎么定出来的

Q:清影(Ying)付费方式是免费让我排队,但如果要加速,24小时要收5元钱,一年收199元,这是怎么定出来的?

张鹏:你看的是C端,我们也有B端API按价格收取费用。现在还是比较初级的尝试,人人可用,付费加速。想看看看市场和用户的反馈,后面会及时调整。大家喜不喜欢我们也不知道,大家用脚投票吧。主要是因为这个事情虽然已做到这个程度,但成本还是比较高,我相信所有的友商把这个东西不开放出来,很大程度也是因为成本问题,顶不顶得住很多人来用,这也是一个选择。

Q:后续商业化的策略是什么,比较偏向于2C还是2B?

张鹏:清影(Ying)功能上线,主要是阶段性成果,让大家体验一下目前视频生成这样的事情。在每人可用的前提下能做到什么程度,而不是关在实验室里或者在很小的概率上生成出什么东西。

从现在这个阶段来说,无论是2C还是2B,纯粹走向大规模商业化还比较早期。为了公平起见,除了C端和B端,还有创作者们也都能享受这个能力,所以在开放平台开放了API,它有一定的收费,这是为了统一计费方式,但是这样的形式比较亲民。大家知道生成视频成本代价也是非常高的,稍稍收回来一点点成本也是好事。

Q:文生视频会不会出现取代长视频拍摄的手段?

张鹏:这个问题从Sora出现以后一直在讨论,国外已经引起了很大的影响,包括好莱坞罢工等,肯定大家已经意识到它对传统影视行业的影响。甚至有一次我去了北影,和老师们也在聊这件事,大家对这件事的看法,从宏观来讲是比较一致的。从技术发展角度,大家认为这是很好的事情,对影视行业的变化有积极的意义。但至少目前,能把它用在直接面向最终观众的生产过程当中,可能还不是太够,用来做一些辅助的工作是可以的,甚至是做一些小规模的创作,有些专业玩家玩出来的短片,这个可能还是OK的,但真正要达到改变电影的制作等,这些更高要求的事情,可能还得要有一段路去走。

Q:智谱的视频生成产品,是整个模型矩阵中的一部分,还是说未来希望它能够独立形成商业闭环?

张鹏:实际上视频生成并不是孤立来看,是放到整个技术和产品发展路线当中来看,我们认为它是AGI里必须要走的路径。从产品角度来讲,会不会成为一个单独的产品去商业化落地,我觉得这是肯定的,只要市场有需求,作为一个公司就应该做商业化的事情。

Q:目前有哪些商业需求?

张鹏:有些需求在,做广告短片、演示视频、创意概念表达、视觉概念的表达、辅助性的表现,需要时间效率非常快,对细节要求没有那么严苛的,这些产品是能够快速去降低成本和周期。具体客户方面,像线上电商营销、媒体需求、社交平台的短视频需求是比较旺盛的,但是我相信肯定不仅止于这些客户。对于这类客户我们也有计划,也是大家用手投票,我们看哪些需求相对比较集中,会针对性做一些优化。下一步往哪个方向发展,哪些事情会成为技术突破和落地应用最关键的问题,其实我们有很多项目,不可能全部做,会集中在真正解决问题的路径上做,希望它是这样一个闭环,从上到下,从下而上这样一个闭环。

Q:清影(Ying)会不会开源?

张鹏:我们从来同时兼顾开源和商用。我们每一项技术都会有核心的内容以开源方式,开放给开源社区和开发者。我们开源的项目前前后后加在一起有20多个,大量的开源项目也比较有影响力。商业应用是另外一回事,是满足商业客户的需求,要求成本可控、安全、服务质量和稳定性,这两者之间是有一些差异,所以我们坚持做两件事情,统和起来,最终目标还是让我们追寻AGI。

Q:对智谱清言或者清影(Ying)来说,怎么能够把超级APP做出来?

张鹏:清言APP我们定位成人工智能助,帮你做生产力提效,学习效率提升,工作便利的提升。简单来说就是两个字——使用,我们做所有事情都是往实际效用方向走。实际上我们认为所谓的超级APP,可能它不一定是这样的超级,我们也是循序渐进,在潜移默化过程当中,让大家真的爱上使用,习惯上使用这个工具。可能这个改变并不一定是阶跃式的,而且从时间维度来说,过去半年,大家的使用习惯已经改变了非常多,只不过没有让你一觉醒来就有改变的感觉,这是人感知上的误差。

Q:大模型企业都很烧钱,你现在怎么平衡技术研发投入和商业变现?

张鹏:确实做大模型这件事太烧钱了,而且确实也面临市场上的需求,你要商业化落地,所以我们是分层次去做。最基础的技术突破创新,是我们消耗资源,其中算力消耗方面是最大的部分。商业化层面是在这个基础之上推进的。但商业化这个事情,源于你的技术创新和驱动,我们不太希望说研究是一张皮,商业化、产品、服务客户是另外一张皮,这样的割裂对企业来讲会面临一个问题,就是怎么样分配资源。我们希望是贯通的,商业化过程当中,服务客户过程当中,就是以我们的技术和产品核心能力驱动的,客户的需求和反馈是我们技术往前创新突破和迈进的驱动力,让两者比较好的闭环,我们努力做到这样的事情。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈