沈向洋：“一言胜千图”时代到来，AIGC将发生颠覆式变化

澎湃新闻记者邵文

2022-11-23 07:57

来源：澎湃新闻

·“单从技术角度而言，AIGC（AI生成内容）所具备的能力还不够全面，现在只是从文字生成图像，但事实上我们想要的可能更多，比如对已经生成的图像进行交互式编辑。而对专业领域如服装设计，则需要非常特定的模型。这个故事才刚刚开始。”IDEA研究院讲席科学家、“盖亚计划”负责人张家兴在采访中表示。

首个中文Stable Diffusion模型“太乙”根据油画“君不见黄河之水天上来”生成的图片。

11月22日，在深圳举行的2022 IDEA大会上，粤港澳大湾区数字经济研究院（IDEA）创院理事长沈向洋在发布会上分享了他对前沿技术的看法以及对未来趋势的判断，其中他谈到了当下AI发展的技术趋势，提到风头正劲的AIGC，将其概括为“从一图胜千言到一言胜千图”。沈向洋认为，伴随算力和数据的数量级增长，以及大模型持续迭代， AIGC领域将发生颠覆式变化，如何用好AI数字生产力，是各类企业和创业团队接下来要思考的问题。

IDEA研究院公布了专注于AIGC领域的项目——“盖亚计划”，这一项目已于今年11月1日正式开源了自主研发的首个中文Stable Diffusion模型“太乙”，旨在更好地助力中国AIGC文化产业数字化转型的创新发展。

DALL.E（基于GPT-3开发的一种新型神经网络）根据语言描述生成的牛油果形状扶手椅。

“每个人都是达芬奇”

AIGC（AI-Generated Content，AI生成内容），即使用语言描述就可以通过人工智能自动生成生动的图片甚至视频，比如OpenAI的图像生成模型DALL-E。

“人工智能大模型发展的规模和速度，都到了今天我们不可忽视的地步。最新的技术可以通过一句话，创造出数不清的图像，每张都有自己的特点。可谓从一图胜千言，到了一言胜千图。”沈向洋在IDEA大会上说， “我从事计算机视觉研究这么多年，如果三五年前告诉我能做出这样的效果我是不会相信的。”

沈向洋谈到，人工智能技术将在文本生成图像等领域开启新的技术趋势。今年发布的DALL-E 2、近期备受热议的Stable Diffusion等模型，为人们展现了AI数字生产力在图像生成乃至艺术创作上的强大力量。

“AIGC最重要的是，可以帮助每个人在有艺术创作冲动时做一些事情。”沈向洋说，“有人研究过历史上为什么有些艺术家一辈子只能画几张画，而其他艺术家可以画很多画，这其中最著名的就是达芬奇。艺术史研究者专⻔研究后发现：达芬奇那么多的作品不是他一个人画的，而是带了很多徒弟。”而到了现在，“每个人都是‘达芬奇’，人工智能就是每个人的小徒弟。”

沈向洋认为，目前AIGC能实现这样的效果有三个技术基础：巨大的数据量、庞大的算力和新的深度学习算法。“这个结果代表了今天人工智能能够达到的高度和方向。”

“这个故事才刚刚开始”

这个突破是如何实现的呢？IDEA研究院讲席科学家、“盖亚计划”负责人张家兴对澎湃科技（www.thepaper.cn）表示，从整个AI的发展历程来说，“此前我们更多在研究AI如何分析和理解，比如图像识别、人脸识别、文本情感分析等。然后这个技术趋于成熟，这时候大家亟待有一个新的AI能力出现。”

在AIGC的探索过程中有一个重要的思路转换：不是用AI理解内容，而是用AI来直接生成内容。“原来的技术趋势，如卷积神经网络从输入基本图像到输出我们想要的结果，过程就是对原始输入有越来越抽象的理解。而当下的生成，实际上是一个反向的过程——从一张完全模糊的图像开始想象，最终呈现清晰的图像。”张家兴对澎湃科技解答道，这个过程大概从2015年左右开始，尝试了六七年的时间后，终于现在有一些模型上的进步，如Diffusion模型，于是才有了这样一个大的突破。

Diffusion模型通过定义一个不断加噪声的前向过程来将图片逐步变为高斯噪声，再通过定义一个逆向过程将高斯噪声逐步去噪变为清晰图片以得到采样。

Diffusion模型在使用上一个非常大的限制就是采样速度，模型采样需要从纯噪声图片出发，一步一步不断地去噪，最终得到清晰的图片。据11月发布的最新研究，清华大学计算机系教授朱军带领的TSAIL团队将扩散模型的快速采样算法提升到了极致：无需额外训练，仅需10到25步就可以获得极高质量的采样，采样8张图片的时间从原来的8秒钟被缩短至4秒钟。

除此之外，对于当下存在的问题，张家兴表示，“单从技术角度而言，AIGC所具备的能力还不够全面，现在只是从文字生成图像，但事实上我们想要的可能更多，比如对已经生成的图像进行交互式编辑。除此之外，对专业领域如服装设计，那就需要非常特定的模型。”

“这个故事才刚刚开始。”张家兴说。

“中文AIGC时代”

目前在国内，大部分团队主要基于翻译API+英文Stable Diffusion模型进行开发，Stable Diffusion被称为当下最强的AI图像生成器。然而，由于中英文之间的文化差异，在遇到中文独特的叙事和表达时，这种模型就很难正确匹配图片内容。

为了解决这个问题，“盖亚计划”近期开源了首个中文Stable Diffusion模型“太乙”。“我们这个项目的开源也标志着中文AIGC时代的来临。”沈向洋说。

“盖亚计划”由IDEA研究院认知计算与自然语言研究中心发起，致力于在预训练大模型时代建设认知智能的基础设施，是国内目前唯一以开源为目的的技术团队。

为什么如此看重开源？和AIGC本身的技术门槛有关。

“AIGC一定要依赖于预训练模型，而预训练模型的训练本身就是一个巨大的技术门槛。因为要想得到一个真正高质量的AI模型，需要聚集大量的算力、数据以及在训练模型方面有经验的人才。从这一点来说，目前可以聚集这样资源的团队并不多。整个AIGC的预训练模型生产也呈现高成本化的状态。”张家兴对澎湃科技表示。

而开源就意味着，下游的所有公司都可以免费使用这个模型完成其产品创新。“这件事情非常重要。其实这次国际上为什么AIGC会这样兴起？这跟Stability AI开源了其模型非常相关。所以我们希望通过开源让整个产业成长。”张家兴介绍称这是IDEA研究院的一个长期目标。

张家兴提到的Stability AI在10月宣布获得了1.01亿美元超额融资，此轮融资后，Stability AI估值到达10亿美元，成为新晋独角兽。其资金将用于开发图、文、视频、音频（音乐生成算法和工具Dance Diffusion也已曝光）和3D等多模态开源模型。

IDEA大会由IDEA研究院创院理事长、美国国家工程院外籍院士、前微软公司全球执行副总裁沈向洋发起，致力在粤港澳大湾区搭建一个分享人工智能技术和凝聚数字产业力量的国际化交流平台，发布年度科技趋势与创新产品，将前沿对话落实到数字经济时代的实践中。

责任编辑：郑洁