下载客户端

专访Unity中国技术总监：AIGC为元宇宙带来生产流程的进化

澎湃新闻记者吴天一

2023-02-27 08:54

来源：澎湃新闻

∙ 未来2% >

·“如果一个大模型足够有创造力，我们不应该直接让人去指挥它。如果说它是一把枪的话，你不应该直接让人去使用，而是应该让一个训练有素的士兵拿着这把枪，然后人去指挥这个士兵，而这个士兵有基本的善恶判断能力。”

·“可能在漫长的开发过程中，有一些关键的技术得到突破，大家就充分关注它，但是其实背后是更大的困难。这些因素导致某些技术、概念短时间没有成绩，被公众忘记。但是其实该努力的人还是在努力。”

“如果有一天我的数字人会聊天了，它说了不该说的话，到底是谁的责任？”

2月25日，在全球人工智能开发者先锋大会（GAIDC）间歇，Unity中国技术总监孙志鹏接受澎湃科技（www.thepaper.cn）专访，谈到了AIGC（生成式人工智能）和元宇宙未来的趋势。

孙志鹏认为，ChatGPT作为一种“能力”释放给公众可能带来一定问题，创作平台有审核责任，但是怎么审，“我觉得其实也可以用一些技术手段实现。”

Unity中国是为开发者提供3D引擎的平台，本身也是元宇宙底层技术的开发者。孙志鹏表示，创造元宇宙中的内容，原先是专业开发者通过专业工具进行的，而AIGC赋予了每个人创造内容的能力。

Unity中国参展2023全球人工智能开发者先锋大会。

枪只能放到训练有素的士兵手中

澎湃科技： 2022年DALL-E、ChatGPT等人工智能工具让AIGC变成了科技界最火的一个名词，国内也有很多企业追赶浪潮，你认为在2023年这一领域的发展趋势是什么？

孙志鹏：两个方面，一是人工智能模型会越来越大，二是人工智能在多模态方向上（多种模态的信息，包括文字、图片、视频等）的工作还将继续。上述两个方向最近就是在大模型的指挥下做了一些很“出圈”的事，引起了巨大的反响。模型越做越大的同时，模型所能生成的模态也会越变越多。现在我们看到最多的还是文字、图片这两个模态，未来3D内容也会加入进来，包括3D数字人。

目前的语言大模型本身需要“掌握”两部分知识，语言的知识和有关世界认知的知识。有关语言的知识只需要很少的数据量就可以训练出来，而有关世界认知的知识，则可以用来驱动多模态领域的研究。比如描述我在上海这件事，我可以用文字，也可以用图片、视频。但无论何种模态，表达的都是我与上海的关系。也就是说知识的关系是跨模态的，知识的表达方式，可以按照各模态的需要来分配，就如同多模态工作中发现的经验一样，BeiT v3模型结构也反映了这一结论。大语言模型，通过语言模态越做越大，再加入更多的模态，将来就可以驱动3D内容、脚本的生产。不仅仅是语言模型的开发者，未来会有更多领域的人加入，而不仅仅是语言模型的开发者，这是2023年的趋势。

澎湃科技：Unity同样是一个内容平台，目前各平台对于UGC（用户生成内容）的监管已经“分身乏术”，你认为在AIGC的时代，人工智能生成内容对平台会有什么样的影响？

孙志鹏：一个大模型能够产生的模态越多，对人的影响可能就越大。只能产生文字的时期，或许传播效率还有限。但未来必然可以产生各种模态的内容，图片、视频、3D内容等等，这带来的影响力、传播力将远超文字。所以监管是必要的，但同时人工监管的成本确实太高了。

我们目前在进行数字人的生产流程，就会考虑到，如果有一天我的数字人会聊天了，它说了不该说的话，到底是谁的责任？所以ChatGPT作为一种“能力”释放给公众可能是有问题的。创作平台有审核责任，但是怎么审，我觉得其实也可以用一些技术手段实现。

比如ChatGPT为什么能够善解人意，按照InstructGPT（ChatGPT的前身，基于GPT-3）的描述，就是因为首先有数万的人工数据（提问和回答数据）加入训练，然后再用大量的人工对结果进行筛选，最后再由一个reward model强化学习，才使得ChatGPT除了具备GPT-3.5（相较于GPT-3加入了github上大量代码的“语料”）带来的语言能力，还融入了人工智能的强化训练，加入了人的偏好对AI的训练。无数人对ChatGPT提问，可能有数万次，在这过程中会不断强化ChatGPT的能力，而这些人的意志也就会带入AI。

所以，开发、训练AI的人是重点，如果训练的人加入更多以表达善意为主的数据，那么这些人善意的偏好就会加入大模型里。如果提问的源头是一个善良的目的，大概率会得到一个善良的结果。

最近还有一个趋势是，问大模型的问题，不由人直接提问，而是人类把诉求告诉另外一个语言模型，这个语言模型先理解你的诉求，然后去生成一个“不会有问题的问题”。一个“不会有问题的问题”，就会得到一个“不会有问题的回答”。如果一个大模型足够有创造力，我们不应该直接让人去指挥它。如果说它是一把枪的话，你不应该直接让人去使用，而是应该让一个训练有素的士兵拿着这把枪，然后人去指挥这个士兵，而这个士兵有基本的善恶判断能力。比如杭州有人用ChatGPT编写了车辆不限行的文件。那么人工智能一开始就需要判断，作为一个合法公民，编写不存在的政府文件，这种诉求是否合理。

AIGC将为元宇宙带来生产流程的进化

澎湃科技：AIGC的火爆可能一定程度上让元宇宙的声量小了一些，你怎么看待二者间的关系？

孙志鹏：有起有伏很正常，刚开始做出来一点成果的时候，大家可能会过度乐观，觉得ChatGPT如此强大，我们已经迎来了通用人工智能的曙光，但其实离得还远。比如现在人工智能的推理能力其实是很差的。

但这些乐观实际上涵盖了我们对技术的期待，描述了一个更好的未来，给了开发者一个目标。而怎么去实现这个目标是手段的问题，AIGC可能就是这个手段，两个概念此起彼伏。

可能在漫长的开发过程中，有一些关键的技术得到突破，大家就充分关注它，但是其实背后是更大的困难。这些因素导致某些技术、概念短时间没有成绩，被公众忘记。但是其实该努力的人还是在努力。虽然大家可能没有太多耐心，又过度乐观，但一个行业的人，坚持做自己觉得对的事情就可以了。

而AIGC为元宇宙带来的是生产流程的进化。元宇宙描述的形态太过庞大，以至于传统生产流程不适应。AIGC可以赋能创作者。人工智能本质上就是在赋予人更大的算力支配，进而激发人的创造性。以前专业开发者需要耗时耗力做到的事情，现在很容易就能实现。你只要说话就可以完成画图、建模。而干这件事本身就使用了更多算力，消耗了更多的资源。同时，随着AIGC越来越多地使用，算力也会变得更加便宜，元宇宙的开发也会从中受益。

澎湃科技：作为元宇宙核心技术的引擎技术在未来会有什么发展？元宇宙产业在2023年有什么样的机遇和挑战？

孙志鹏：有关元宇宙，大家一直在讨论生产流程。这在过去实际上就是专业引擎的工作。比如Unity引擎本身怎么开发，以前是一个小众的事，毕竟做工具的人是少数，创作生态里更多的是用工具做内容的人。元宇宙中可以诞生更高效的生产数字内容的流程。

比如一个平台，在自己的元宇宙里定义一个新的内容生产方式，生产这个宇宙里的内容，在这个宇宙里消费。Unity这类引擎要做的就是适配。比如一个公司购买了Unity Pro，只用到20%的功能，却花费了100%的钱，多余的功能对个人而言实际上可能会干扰其生产效率。所以引擎在未来通过解耦合、模块化的能力，为元宇宙提供特定场景下的生产流程，让其在特定领域足够高效，才是发展的重点。此外，引擎升级的同时，该引擎支撑的内容也会更精美。

通俗来说，引擎应该是一整套乐高积木，用户可以根据自己的想法制作工具、场景，同时积木更精美、质量更好，那么做出来的东西也会变好。如果我们把引擎的功能合理拆散，元宇宙开发者通过与自己的诉求有机结合，就会创造更高效的生产流程。