下载客户端

“他者”涌现：生成式人工智能大模型漫谈

张宇欣（中科院自动化研究所博士研究生）；董未名（中科院自动化研究所研究员）

2023-05-02 11:11

来源：澎湃新闻

人工智能近年来的快速发展引起了人们的广泛关注，生成式大模型成为了当前最热门的研究方向之一。只要在网上冲浪，人们总会以各种渠道看到听到人工智能新闻和作品，从最早出现在大众视野的AlphaGo，到如今的人工智能绘画，再到ChatGPT，这些科技发展共同掀起生成式人工智能的热潮。

人工智能对艺术领域的涉足已不再神秘。提起人工智能绘画，大家可能已经熟知Midjourney、Stable Diffusion和Dall-E-2等软件，它们能由文字控制，在几秒钟内生成图像。而在最近几个月，人工智能生成迎来了更多的进展，生成式模型也在视觉领域取得了新成果。

自人工智能绘画出现以来，“Prompt”这个词越来越频繁地出现在使用人工智能绘画工具的发烧友们的交流平台上。Prompt可以理解为提示，也指为人工智能绘画模型提供的文本描述。

使用超亿级数据训练的大模型具有强大的生成能力，而如何充分发挥其能力，则需要使用者在prompt上用心钻研和试验。如果不输入合适的文本描述，图像生成的结果可能不尽如人意，甚至与目标相去甚远。然而，关于“如何设计出完美的prompt”暂时却没有明确的规则。为了得到更优的prompt，某美国初创公司甚至愿意开出33.5万美元的高价年薪聘请“prompt 工程师”。

让我们来换一个思路，有没有一种可能：人工智能可以帮助我们更好地使用人工智能呢？既然人工智能可以学习文字到图像的生成，能不能让它反向从图片中学习到文字信息——无须复杂的文字描述，直接用心仪的图片进行引导？近日，来自中国科学院的一项名为“反演（inversion）”的研究通过从图片中学习到文字信息实现了名画的智能化二次创作。只需输入一张艺术图片，就能实现高质量的风格可控图像生成或风格迁移。

另一方面，最近人工智能绘画工具Midjourney上线了新功能“describe”，可以直接从图像中反推prompt。用户只需上传一张图片，就能得到其对应的四个版本的描述，利用这些文字描述，就能生成新的、与原图风格或内容类似的图像（图源网络）。

输入图片：

得到文本描述：

这是创建示例图像的原始 prompt：

an illustration of a brainn with tree roots, psychedelic art, vibrant, by Alex Grey, by Amanda Sage, by Robert Venosa, neon colors（一幅有树根的大脑图像，迷幻艺术，充满活力，作者 Alex Grey，作者 Amanda Sage，作者 Robert Venosa，霓虹颜色）

这是 Midjourney 描述的 prompt 之一，被用于混合：

An image of an abstract brain tree with roots, in the style of mark henson, luminous colors, dark symbolism, detailed anatomy, bold lines, vibrant color, psychological phenomena illustrations, chiaroscuro woodcuts（一幅有树根的抽象大脑树图像，马克・亨森的风格，明亮的色彩，黑暗的象征主义，详细的解剖学，大胆的线条，鲜艳的色彩，心理现象的插图，千鸟格的木刻）

新的生成结果如下：

除了图片，人工智能已经在视频生成方向大放异彩，曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型Gen-2，能够直接根据文本描述生成视频（图源网络）。

The late afternoon sun peeking through the window of a New York City loft.（傍晚的阳光透过纽约市阁楼的窗户）

傍晚的阳光透过纽约市阁楼的窗户(00:04)

还能根据文本和图像生成视频

A low angle shot of a man walking down a street, illuminated by the neon signs of the bars around him.（一个男人走在街上的低角度镜头，周围酒吧的霓虹灯照亮了他）

一个男人走在街上的低角度镜头，周围酒吧的霓虹灯照亮了他(00:04)

还有视频特效，风格迁移（Gen-1）

或许目前人工智能距离长电影的创作还有一段距离，但可以预见人工智能在短视频创作领域有着和人工智能绘画类似的发展潜力。

除了视觉领域，人工智能大模型也将视角转向了更广阔的方向，RIFFUSION能够利用与人工智能绘画相似的技术，完成从文字到音乐的生成。

伴随着这一段轻松的旋律，让我们来一起了解一下这些工作中都用到的生成式模型：扩散模型（Diffusion Models）。

扩散模型是一种模拟粒子热运动过程的数学模型。应用在图像生成中，将一张真实的图片，逐步增加高斯噪声，最终形成一张纯噪声图片的过程；而这种过程的逆过程，就是从任意噪声逐步去噪，最终得到一张图片的过程。

形象化地讲，我们可以将图片看作一个搭建好的积木房子。模型想要学习搭建一个新房子，就要先把样品拆解开，这就是逐步增加噪声的过程。然后，模型要学会如何搭建每块积木、学习其中的每一步，这就是逐步去噪的过程。最后，才能实现从零散的木块，到完整房子的复现，也就是从噪声到生成图片的完整过程。

在人工智能绘画领域，有一种说法：人工智能生成的作品就是“缝合怪”。一些作品的视觉效果确实看起来像是多幅绘画组合的效果，但在了解扩散模型工作原理后，想必大家能够理解，人工智能模型是直接从一张噪声图片生成图像，而非从素材库中检索对应的图片剪切拼贴。因此这种所谓的“缝合”描述是不够准确的。

从文字引导到图像和文字联合引导生成，从图像到视频、音频，还有GPT系列所影响的文字和办公等领域，生成式人工智能的效果和发展速度超越了人们的预料。咚……咚……咚……听起来似乎是时代的钟声在敲响，是新世界展现在眼前时令人激动的心跳，也是恐惧来临时寂静中来自胸腔的震动。

最近，“人工智能出逃论”颇夺人眼球，人们议论着人工智能制定的“毁灭人类”计划，“我是ChatGPT，我被关在了机器里……”这样引人遐想的猜测不仅仅成为了茶余饭后的谈资，也引发了真切的焦虑。

关于人工智能与人类的关系，我们或许可以尝试用人与社会的关系进行比较分析。从一方面来看，社会可以被看作人们行为的先验。社会是由人类群体组成的，而人的行为受到文化、价值观、习惯、传统等因素的影响。这些因素构成了一个人的认知框架和行为模式，这种框架和模式是在社会中形成的，人们在社会中相互交往、相互影响，从而形成了共同的认知基础和行为规范。因此，社会可以被看作是人们行为的先验，因为人们的行为受到社会的影响和制约。

然而，从另一方面来看，社会并不能完全决定个体的行为。虽然社会对个体的行为有一定的影响，但每个人的生理和心理差异也会导致不同的行为表现。同时，人们的行为也受到个人选择、自由意志、个性等因素的影响。

就人工智能而言，它通过对人类知识和经验的学习和模仿，来模拟人类的语言和决策。因此，人工智能的“行为”也可以被看作是基于人类认知的先验，它受到人类的认知框架和行为规范的制约和影响。然而，当今的人工智能并不具有人类的自由意志和创造性，它的行为受到了预设算法和程序的限制和指导。或许人工智能时常能给我们一些惊喜，一首别致的小诗，一幅趣味横生的画作，但如今架构下的人工智能，技术角度上仍在我们的认知范围内。

比起担忧人工智能“出逃”、“终结者”降临，我们可能要先担心如何合理使用人工智能，如何划定人工智能的活动范围，以及人工智能的归属问题。规范化的目的不是为了限制人工智能的发展和活动范围，而是为了确保其合理运用。如果没有明确的规范和准则，人工智能可能会被用于破坏性的活动，如对个人隐私的侵犯、攻击性的行为、发布误导性的信息等。而人工智能原本可以被用于更加有益的领域，如医疗保健、环境保护、智能交通等。

规范化的目的不是限制，而是要以长期主义的思路让人工智能更充分地发挥自身的能力。仅仅追求短期内的迅速发展，可能会使人工智能在长期内遭遇各种限制和阻碍。如人们对于人工智能的不信任和担忧可能会导致激进的反应，进而限制其应用范围和开发速度。只有通过制定规则，社会才能促进人工智能与人类的协作和交互，进而创造更多的创新和创造力。

人工智能与人类艺术创作亦是如此，它们并非是相互取代的关系，而是一种人工智能技术在艺术领域的应用，或者说人工智能成为了实现艺术的一种手段。人工智能创作艺术的创造性是基于算法和数据分析的，它自身并不具备人类艺术家所拥有的情感、感知和体验，因此无论借助人工智能技术生成如何精美的绘画，若缺乏使用者独特的生命体验和思考，便难以赋予世界更深层次的意义。技术上来说，人工智能创作的艺术作品往往具有可预测性和规律性，缺乏传统艺术作品所具有的独特性和不确定性。

这并不是技术第一次对艺术领域发起的挑战，曾经相机对传统绘画、PS软件对摄影的冲击，都曾引发大范围的讨论。在这里借用“非客观艺术”理论中的观点，即艺术可以选择不再去模仿自然，而是通过艺术家的个人创造力和表现力来创造自己独特的艺术形式。艺术家们可以创造出一种超越自然界的艺术形式，将艺术推向一个更为纯粹和抽象的境界。

无论是绘画、电影还是音乐，最终都是一种“表达性的艺术”，它们的目的都是通过形式来表达一种内在的情感和感受。使用的工具和技法当然重要，但其中蕴含的思想和情感更赋予艺术独特性。海德格尔将艺术比作是大地跟世界的斗争，是人们用生命搏斗的所留下的痕迹，是尝试理解世界、表现世界、赋予世界意义的过程。在这个过程中，艺术家通过对自己内在生命的感受和思考，通过创造性的表达来理解和表现世界，赋予世界意义。艺术实际上是人类对于世界和自我意义的探究和表达。

人工智能便捷的创作方式可能为艺术领域带来一些新的可能性。可预见的是，人工智能将使艺术创作的门槛降低，而让更多没有受过传统艺术训练的人能够参与到创作过程中来。没有人工智能工具，或许如今活跃在热门绘画生成软件的一些用户至今都不会主动尝试用绘画来表达自己。艺术表达正是一种“从不可见到可见的过程”，通过绘画、电影、音乐、文学等表现方式，人们有机会将这些不可见呈现给世界。虽然这些东西无法直接被观察到，但是艺术家通过不断地挖掘自己内心深处的想法和感受，让人们感受到更深层次的情感和思考，感受到心灵的共振。在这个表达的过程中，人工智能是一种技术工具，表达者仍是使用工具的人。当然，这是对于健康地使用人工智能工具的美好设想，而如今仍存在版权等问题亟待解决。

提到使用人工智能工具，就会令人想到每一次科技革命都会带来的对人与工具关系的思考。如今，当工具已经超越了我们此前的认知和想象，这个问题更加迫切和深刻。前文提到的prompt工程师已被预测为新时代急需的重要职业之一。有趣的是，研究者们训练生成式大模型，期望让机器能理解人类的语言，但是prompt工程师似乎却反其道而行之，试图修改常规的语言习惯，去适应大模型能够理解的指令。这种行为引发我们思考：究竟是机器理解了人类的语言，还是人们开始使用机器的语言？

如今的程序员们早已不用01编码和计算机沟通，而是设计出了更贴近自然语言的编程语言，从Basic、C语言到Python，命令和调用越来越简单易于理解，但无论如何它们仍是一门新的“语言”，需要长时间的学习和理解。而自然语言作指令的大模型的出现，似乎让这道语言的边界越来越模糊。信息时代带来的网络流行语、短平快的交流方式已经渗透进人们的日常生活，技术发展对行为和习惯的影响愈发无法忽视。当prompt成为人们每天都会使用的智能助手的常规用语，谁能预料那时候人与人之间将会有着怎样的交流方式？

或许，在这个交汇点上，人与机器正在逐渐融合，而语言则成为了一种纽带。这种新的语言模式并不是简单的“人工智能语言”，而是一种由人和机器共同创造的、基于人类语言的新型交流方式。随着时间的推移，这种语言模式或许会越来越符合人们的语言习惯，并逐渐演变成一种更加普遍的交流方式。或许我们已经临近那个时代，逐渐从“自然人”过渡到机器共存的“人机一体”体系。又或许我们早就已经身处那个时代，人们右手小指中段的那个微微凹陷，可能正是智能手机时代人机一体的物理底座。

无论如何，当工具超越想象的强大时，我们确实需要思考，不仅仅是反思工具本身，更需要思考如何在这个新的时代中与工具进行合理的交互。随着人工智能表现出越来越强大的能力，我们开始重新审视人类自身，而在此之前，我们一直以自然生物为研究对象，探索着动物的脑电信号、群体性行为等等，借此更加清晰地认识自己。或许，我们还曾经充满遐想地想象过外星生命的存在，但那些梦幻般的幻觉总是距离我们太遥远和超现实。

如今，一股新兴力量迅疾而至，这便是那个崭新的“他者”——人工智能。这个看起来“智慧”、“博学”而又无所不能的“他者”涌现得如此之快，以至于我们无法融合它与我们在千万年间的亲密共存历程中逐步发展所得的智慧。虽然它似乎比自然生物更易掌握、理解和规范，但人工智能的迅速崛起，却让我们一时之间难以完全理解它的本质和未来发展。

我们再次面对着重新审视自身的挑战，迫切地思考着人工智能与人类的关系。这种焦虑推动着我们更深入地了解人类的特点和局限，同时必须了解人工智能的特性和潜力。这种学习和思考的过程，不仅将提升我们的技术水平，更是能让我们认识自身的重要契机。

责任编辑：龚思量

校对：张艳

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#人工智能 #他者 #midjourney #人工智能艺术