下载客户端

MOSS大模型负责人邱锡鹏：大模型不仅仅是工程问题

澎湃新闻记者邵文

2023-09-11 12:59

来源：澎湃新闻

∙ 未来2% >

·“很多人认为大模型是工程问题，但事实上并不是。大模型里存在很多科学问题，比如智能涌现、复杂推理、知识融合以及学习策略等等。”

·“大模型的平民化”，即最终要让应用大模型的每个人都觉得成本可以接受，包括微调、预训练、推理部署。

复旦大学计算机科学技术学院教授、MOSS大模型负责人邱锡鹏在外滩大会见解论坛。

“现在的大模型比较耗资源，但总体而言它的资源消耗都集中在预训练阶段。除了算力需求大之外，很多人认为大模型是工程问题，但事实上并不是。大模型里存在很多科学问题，比如智能涌现、复杂推理、知识融合以及学习策略等等。”

9月7日，复旦大学计算机科学技术学院教授、MOSS大模型负责人邱锡鹏在外滩大会见解论坛“大语言模型消除人机鸿沟：人类主体性是强化还是弱化”上发表主旨演讲，演讲题目为“大型语言模型的科学挑战”。

“自然语言处理已经进入大模型时代。由早期的专家系统到深度学习，再到现在参数量上千亿或万亿的大模型，总体上进入参数量和训练数据都大规模发展的状态。但这些千亿模型或百亿模型不是最近才出现的，可能两年前就有了。”邱锡鹏说。

这自然引出一个疑问，为什么两年前不叫大模型？

邱锡鹏解释道，之所以现在叫“大模型”，关键因素在于其内涵和使用方式发生了变化。以前是把一个语言模型作为基座，运用到不同任务中，每个任务要微调（fine tuning）一个自己的模型。而现在大语言模型有了新的内涵，即一个模型能够解决所有问题。

在ChatGPT出现后，大语言模型变得更加流行，邱锡鹏认为这是因为其泛化能力非常好，只需要少量学习人类的一些指令，就能够泛化到很多其他的、甚至没有见过的指令上，“这就是大语言模型带来的涌现效应。”

据邱锡鹏介绍，现在做大模型研发有3个非常重要的准则，也叫“HHH准则”。

第一是有用性（Helpful），“我们跟GPT-4还是有非常大的差异，虽然都可以用来完成日常的对话聊天，但这个差异在于能不能用其完成非常复杂的任务。这是非常重要的一点。”邱锡鹏说。

其次是诚实性（Honest），邱锡鹏解释道，也就是说大模型知道的要说，不知道的不说，这就涉及到现在广泛提及的“幻觉”问题（指模型生成不正确、无意义或不真实的文本），这也是非常难，非常有挑战性的问题。

第三是无害性（Harmless），“因为语言模型在训练时见过非常多的数据，其中包含好的与不好的，要让它对齐（alignment，使系统的目标和人类价值观一致），不要产生具有冒犯性、歧视性、有害的内容。”邱锡鹏表示，“这3个准则就是新的时代我们做大语言模型时主要考虑的3个目标。不过这3个是比较宽泛的原则，具体又可以细化出非常多的研究点。”

今年2月20日晚，邱锡鹏领导的团队发布国内首个类ChatGPT的对话式大型语言模型MOSS，邀请公众参与内测，一经发布就引起极高参与热情。

在论坛上，邱锡鹏也谈到MOSS的发布，“它是国内第一个发布的类ChatGPT模型，我们也是最早提出开源的插件增强版本，比OpenAI的发布都更早。”邱锡鹏的团队当时意识到，语言模型不只是用来对话，最重要的是它作为使用工具和外部世界相连接时对人的赋能。“我们现在也在不断提高，会有些更新的结果，在原来的能力基础上取得大幅提升。”

邱锡鹏所提及的正在进行的工作，一个值得注意的方向是“大模型的平民化”，即最终要让应用大模型的每个人都觉得成本可以接受，包括微调、预训练、推理部署。“像现在买一台英伟达A100服务器的成本，不是所有单位都能方便采用的，非常重要的就是如何去低成本优化这些模型”。

邱锡鹏也提到一些具体方法，如高效的参数微调方法，“但这些方法都有一定缺陷，总体上来讲调的参数量越小，模型能力就会越差。”能不能参数量不变，但把成本降下来？

邱锡鹏团队提出一个名为LOMO的优化器，将它称为低内存的优化。它可以做到什么程度呢？“比如一个非常大的，如650亿参数的开源模型，全量微调原来需要10台8卡的英伟达A100，那现在用一台8卡的英伟达RTX3090就可以微调它了。这样的话成本就会非常低，并且是全量参数，微调并没有损失它的性能，这样没有太多资源的人也都可以去优化这些大模型。”

“最近OpenAI的一位创始人公布了他们的整个流程，包括大概的花费。在整个大模型的训练阶段，可以看到第一阶段需要高算力，但在其他阶段的算力投入并不是很大，这里面有非常多的研究空间。之前大家总以为做大模型就需要买好多张显卡，确实需要一定的卡，但不是需要特别多。如果细分到后面的几个步骤，可能就需要几十张卡，几周时间就可以完成。”邱锡鹏表示。