下载客户端

追问｜停止对ChatGPT的空洞唱和，不如反思人类社会的诸多设计

澎湃新闻记者曹年润

2023-02-13 08:26

来源：澎湃新闻

肖仰华表示，“从具体实现技术路线上来讲，ChatGPT面向领域的优化路线已经十分清晰，不存在太大的障碍。只要将医疗数据与医疗知识库准备好，进行体现领域特点的持续训练，大模型很快就会学到更多医疗领域的专门知识。不过，领域数据如何有效治理、领域知识如何植入、领域大模型如何廉价训练仍有较大研究空间。此外，医疗数据比较敏感，涉及用户隐私，是个不可回避的问题。”

•这一次推出的是面向聊天任务的GPT，即Chat版本的GPT，将来可能会有很多其他任务形态的GPT，比如医疗场景中的诊断GPT。大模型作为机器医生与人类交互，还需要解决与人类共情的难题。毕竟看病过程中，病人总是希望得到医生心理上的安慰与同情。

•以ChatGPT为代表的大模型对人工智能核心竞争力的形成具有决定性作用。未来5年到10年，我们必须在战略上充分重视大模型技术的发展，但是要注意保持冷静心态，不要盲目乐观。

ChatGPT，全名为“Chat Generative Pre-Trained Transformer”，其中，GPT（Generative Pre-training Transformer）译成中文为“预训练生成模型”，它是一款由美国人工智能研究机构OpenAI研发的对话式大型语言模型。

自2022年11月30日发布以来，至2023年1月末，ChatGPT的全球活跃用户已达1亿，成为史上用户增长速度最快的消费级应用程序。

硅谷科技公司PerceptIn创始人刘少山在接受《中国新闻周刊》采访时表示，ChatGPT有更好的语言理解能力，它可以更像一个通用的任务助理，能够和不同行业结合，衍生出很多应用场景。

在医疗领域，已经有很多学者开始探索ChatGPT的边界。ChatGPT还在一项研究中通过了美国执业医师资格考试（USMLE）。还有学者利用ChatGPT进行心血管疾病、阿尔兹海默病等疾病的诊疗。

在医疗领域，ChatGPT究竟有多大的潜力，它还存在什么局限，将会有怎样的升级？2月9日，澎湃科技连线复旦大学计算机科学技术学院肖仰华教授，和他聊了聊ChatGPT在医疗领域的可能性和存在的问题。

在肖仰华看来，单纯从医疗领域来聊ChatGPT，是把主题聊“小”了，他认为，对ChatGPT的讨论，格局可以更大。但肖仰华还是很耐心地回答了澎湃科技提出的问题。

肖仰华告诉澎湃科技，ChatGPT已经远远超出以前人工智能的水平，可能对行业产生深刻影响。目前在医疗领域，ChatGPT可以较好地完成助理类的工作，比如导诊，辅助医生自动生成病例或摘要，进行医疗健康咨询等。“在很多方面，ChatGPT可以极大地提质提效。可以预见，医生的时间和精力可以在ChatGPT类似产品的协助下得到极大解放。”肖仰华说。

目前来看，ChatGPT所生成的内容较为基础、泛化，在提供专业的医学服务上面临挑战。肖仰华表示，“从具体实现技术路线上来讲，ChatGPT面向领域的优化路线已经十分清晰，不存在太大的障碍。只要将医疗数据与医疗知识库准备好，进行体现领域特点的持续训练，大模型很快就会学到更多医疗领域的专门知识。不过，领域数据如何有效治理、领域知识如何植入、领域大模型如何廉价训练仍有较大研究空间。此外，医疗数据比较敏感，涉及用户隐私，是个不可回避的问题。”

“在医疗领域应用ChatGPT需要慎重，医疗对信息准确性、安全性和用户隐私、人文关怀、医学伦理等要求比较高，学界和业界可能还要花一段时间去探索如何去规避道德与伦理风险，才有可能让ChatGPT在医疗中发挥积极作用。”肖仰华说。

肖仰华还提醒道，ChantGPT最近在学术界带来的乐观多来自谷歌等学者在《Emergent Abilities of Large Language Models》（2022年6月）中的观点，然而必须要谨慎论证大模型由于规模效应所带来的涌现行为。涌现出了怎样的智能？如何可信论证各种涌现？这里虽然采取了“智能涌现”的说法，但是大模型的涌现行为仍然需要深入细致的论证。“我在此提醒读者，不要盲从。”

【对话】

ChatGPT可胜任助理类工作，应用于医疗需慎重

澎湃科技：ChatGPT在医疗领域可能有哪些应用？

肖仰华（复旦大学计算机科学技术学院教授）：ChatGPT是一个面向自然语言问答的生成式大规模预训练语言模型。从它的核心能力来讲，它具备对文本的理解能力，也具备对用户问题的理解能力，所以它可以提供比较精准的问答服务，同时还具有较为强大的文本生成能力。基于这些能力，它可以赋能多种多样的应用场景，因此具有平台化的能力和产业化的应用前景。这一次推出的是面向聊天任务的GPT，即Chat版本的GPT，将来可能会有很多其他任务形态的GPT，比如医疗场景中的诊断GPT。

很多年前产业界就设想过聊天助手的应用形式，但当时在技术上有很多瓶颈，到今天，ChatGPT的语言理解能力和交互能力显著提升，可以更为流畅地、智能地完成很多助理类的工作。比如，我们到医院的第一件事情是导诊，根据你的症状和描述，ChatGPT可以知道你适合哪个科室。ChatGPT还可以成为医学专家助理，帮助专家去找一些文献，也可以根据病情以及问诊记录自动生成病例或摘要。慢病管理、医疗健康咨询类的职业也有可能被ChatGPT之类的产品所取代，比如它通过问答形式回答用户对于用药限制、注意事项的问题。ChatGPT对药品行业的智慧研发也有很大帮助，比如它可以跟踪某种药品在国外最近的专利，将某方面的科技情报形成一个概要描述。在这些方面，ChatGPT可以极大地提质提效。

随着它的能力越来越强，我相信它未来也可能会具有超越助理类工作的能力，非专家水平的医生，也就是普通医生的工作，比如通过问答交互形式，完成常规疾病的诊断或医疗建议，对类似疾病过往案例的搜索与推荐，在大模型的加持下都将离落地应用越来越近，可以预见，医生的时间和精力可以在ChatGPT类似产品的协助下得到极大的解放。从此意义来看，它对缓解优质医疗资源分布不平衡问题有着积极意义。

但是在医疗领域应用ChatGPT需要慎重，因为医疗对信息准确性、安全性和用户隐私、人文关怀、医学伦理等要求比较高，学界和业界可能还要花一段时间去探索如何去规避道德与伦理风险，才有可能让ChatGPT在医疗中发挥积极作用。

澎湃科技：有很多人问ChatGPT各种各样的医学知识，它给的回答基本上是概要的基础知识。

肖仰华：这涉及到ChatGPT技术的目标应用场景问题，我们需要考虑它是应用于通用领域还是特定垂直领域。ChatGPT的第一波应用场景是像微软这样的一些通用平台，它提供的是Bing通用搜索，或者Office等通用办公软件，总体而言专业性不高。

在通用场景，ChatGPT的表现已经相当不错，但是若将其应用在垂直领域，尤其是医疗这类对知识的专业性和深度要求比较高的领域，则需要进一步向ChatGPT注入医疗数据、领域知识乃至专家经验，对ChatGPT进行针对性的训练与优化。大家对当前版本的ChatGPT作了很多尝试，发现它犯了很多事实错误与逻辑错误，比如它会认为人类有两个心脏。其原因在于通用语料里，医学类知识很少，它没有看过，自然没有机会接受医疗领域数据的专门训练。其他领域应用也是同理。

从具体实现技术路线上来讲，这种面向领域的优化路线已经十分清晰，不存在太大的障碍。只要将医疗数据与医疗知识库准备好，进行体现领域特点的持续训练，大模型很快就会学得更多医疗领域的专门知识。不过，领域数据如何有效治理、领域知识如何植入、领域大模型如何廉价训练也仍有较大研究空间。此外，医疗数据比较敏感，涉及用户隐私，是个不可回避的问题。

澎湃科技：提到医疗咨询，我作为患者，最关心的是它是否真的靠谱。

肖仰华：这种担忧不无道理。让通用版的ChatGPT变成一个专业医疗版的ChatGPT，还是有不少问题要解决的。首先，就是刚才提到的医疗知识有限，仍需极大的注入领域知识的努力。过去十多年来，医疗领域已经建立了很多大规模的医疗、疾病、医药与健康知识库，某种程度上，为今天向ChatGPT这样的大模型灌注领域知识做好了充分准备。但是单单富有知识还不足以胜任为人类的医生。

大模型本质上是一种统计模型。任何统计模型都有出错的概率。但在医疗领域，即便是以极低概率犯了错，也是难以接受的，一次重大医疗事故就足以毁掉病人的家庭和医生的职业生涯。因此，仍需要发展大模型的兜底方案，特别是人机结合的综合方案，在发挥大模型在自动化诊断方面的高效率的同时，由人类专家对于极低概率的错误进行审核与纠正。

另一种担忧在于大模型的可解释性。通常，病人看医生不单单需要一个诊断结果，更需要对诊断的详细解释。作为统计模型的大模型擅长做出结果判断，在过程解释上仍然需要付诸较大努力。不过ChatGPT在思维链（Chain of thought）等技术的助力下，在结果解释方面已经有了极大提升。

大模型作为机器医生与人类交互，还需要解决与人类共情的难题。毕竟看病过程中，病人总是希望得到医生心理上的安慰与同情。这些都是以ChatGPT为基础的智能医疗应用场景需要深入考虑的问题。

澎湃科技：这样看来，人类灌输给它的知识很关键，这会不会导致公平性的问题？

肖仰华：大模型的公平性问题包含多个方面。首先是来自训练数据分布不均所带来的结果偏见问题。大模型的学习语料往往存在较为严重的分布偏差，比如近三年提到传染病，一定就是新冠，但事实上传染病绝不仅仅这一种，只不过由于近三年新冠暴发，绝大多数媒体数据提到的传染病都是新冠。这样一种具有“暴露偏差”的数据“喂”给大模型之后，会误导大模型认为传染病就是新冠，从而在被提问艾滋病之类的传染病时，ChatGPT也会匹配到新冠相关的答案。

公众所关心的公平性，往往涉及技术的民主性问题，也就是拥有技术的人群，因为能受益于 AI，比没有技术能力人群，具有竞争优势，从而导致机会不公，有失民主。某种意义上，能够操控AI技术的人在淘汰不能操控AI技术的人，是一件已经在发生的事实，是个我们必须正视且尽快回应的问题。这是技术伦理研究者密切关注的问题，相信他们会在未来给出完美方案。

澎湃科技：发达地区在人才和技术上都更有优势，可能也会输入更多医疗数据，欠发达地区应用ChatGPT的时候，是不是就会缺少一些代表性？

肖仰华：是的。大模型建立的前提是数据，数据资源越丰富、数据分布越均衡、数据质量越精良，数据治理能力越强，大模型能力越出众。某种意义上，大模型是机构乃至国家人工智能核心竞争力的集中体现，是检验其数据治理、模型研发、工程实现等能力的重要场景。这实际上跟一个国家和地区的信息化、数字化与人工智能技术发展水平密切有关。如果国家和地区都还没有发展到相应的阶段，甚至连必要的数据基础都不具备，那么大模型就很难体现这个国家或地区的人群疾病的相关特点。

好在病理和药理是整个人类适用的，大模型不会因为人群不同而习得不同的病理与药理。但是对于健康管理与公共卫生等与生活环境密切相关的医疗问题而言，大模型因为地区发展水平差异而呈现出的能力差异，是无法回避的问题。我国总体而言，医疗数字化发展基础较好，但是也要充分关注各地区间医疗数字化发展不平衡问题。

防止ChatGPT一本正经地胡说八道

澎湃科技：医疗行业在使用 ChatGPT的时候，有没有一些需要注意的问题？

肖仰华：首先，需要持续关注ChatGPT在医疗领域的泛化能力。所谓泛化能力，是指统计模型不出现在训练数据中的样本上，仍然能够做出准确预测的能力。通俗来说，就是举一反三的能力。我们人类是智能的，集中的体现就是对少量样本进行学习之后，我们能在未来未见过的类似样本中做出准确判断或者响应。

大模型本质是一个统计模型，它能在输入和输出之间建立起很强的统计关联，它就是通过这种统计关联来解决问题的。当你输入一个问题，它看到这个问题中某些词或者某些词的语义，发现和它以前看过的文本中一些词的统计关联特别强，它就可以产生相应文本作为答案。那么这种能力能否持续迁移到没见过的问题呢？往往会有困难。ChatGPT之所以能够成功，一个重要原因就是其基础模型GPT-3系列模型在精心与充分的训练下，涌现出了高度泛化的语言理解能力。这种能力能否持续迁移到特定领域，如何在不遗忘通用语言的能力同时，合理适配医疗领域，仍然有待技术检验。

其次，要密切关注ChatGPT的事实错误、逻辑错误等问题。ChatGPT目前经常出的问题就是一本正经地胡说八道。比如问某个历史人物的生辰信息，ChatGPT很难给出精准答案。在ChatGPT一本正经回复里，往往存在前后不一致的情况。作为一种神经模型，ChatGPT接受某个输入问题时，所激发的神经网络运算模式，非常接近人脑接受文字或语音输入后大脑神经元的激活与放电模式。客观评价，这是个了不起的进步。但是，人类智能的进化毕竟经历了漫长的岁月洗礼。ChatGPT所激发的内容在精准度与逻辑合理性等方面仍有差距。事实上，人类慢条斯理的逻辑推理过程，如何通过神经网络有效实现，仍然是个难题。

事实错误本质上归结于知识缺失。前面已经谈到，未来优化ChatGPT的重要思路之一就是知识植入，特别是领域（专业）知识，从而缓解事实错误。逻辑错误包括命题逻辑、数理逻辑、计算逻辑等错误。这里不一一展开。作为一个生成模型，如何能在统计生成过程中规避逻辑错误，仍然是个非常活跃的研究领域。总体而言，需要研究与发展模拟人类大脑双系统认知结构的认知智能技术，才有可能缓解这一问题。这或许是ChatGPT的后来者能否居上的关键所在。

第三，它还存在跟人类价值观对齐的问题。比如喝酒是否有益健康，不同的专家有不同的观点，那么大模型到底是应该支持哪一派的观点呢？再比如对于安乐死，ChatGPT应该持什么态度？在医学伦理的一些边缘和模糊的地带，大模型应该和哪一种价值观对齐，这是一个难以回避的问题。

第四，是用户隐私的问题。ChatGPT需要从海量数据进行学习，其生成的内容可能来自于某一个人的隐私内容。在回答问题的过程中，有没有可能暴露特定个人或人群的某些隐私，会暴露多少？是否存在着某些漏洞，使得通过特定的提示能够诱导出敏感内容？对于这个问题，我们现在还不清楚。但是，就像当年的大数据应用无意中侵犯了人类隐私一样，我们必须十分警惕大模型应用中侵犯人们的隐私，甚至暴露国家敏感信息。

最后，还要提一下大模型的遗忘能力问题。让大模型记住一件事情是容易的，但是让它忘记一件事情很困难。因为它的记忆是通过神经网络的分布式存储。某个事实一经存储，就会分布式地嵌入它的“神经网络”中，我们甚至难以追踪相应的负责记忆该事实的神经元。所以某种程度上，大模型一旦训练完成，消除特定事实就会相对困难。当然一种直接的方法是从语料中清除特定事实，但这种做法会带来大模型高昂的训练成本。

我们为什么让大模型学会遗忘呢？因为人类社会总有些敏感的事实，只有彻底遗忘才能不犯禁忌，这是人类文化的一种典型现象。大模型要想为人类服务，迟早要学会这种能力。大模型的遗忘问题再进一步拓展，还涉及大模型的事实可控编辑问题、大模型的知识更新问题，已经属于人工智能博士生需要研究的问题，再次不再赘述。

需要指出的是，ChatGPT的上述种种问题，并不妨碍其大规模商业应用。几乎没有哪种技术要等到100%完美才能大规模应用。事实上，很多产品在设计思路、工程中的人机结合方案，可以有效规避或者弥补上述问题。比如，可以对应用场景进行区分，在非严肃场景，自动生成偶尔犯错的文本，再经人类修正，已经能极大提升人类工作效率。

技术突破路线与反思

澎湃科技：技术上可以怎么样进行突破？

肖仰华：第一，应用络线的融合。我估计ChatGPT在搜索引擎应用时，很快就会结合检索模型。信息检索技术仍是当前搜索引擎的核心，帮我们解决了从海量数据中精准检索相关事实的问题。“老老实实”的检索恰好可以弥补“随性而为”的生成模型的缺陷，从而更好地为人类用户服务。

第二，大模型的数据治理工作。不管是通用数据还是垂直领域的数据，其实大模型最终质量效果取决于“喂”进去的数据本身质量高不高，规模大不大。具体来说要做很多事，比如样本纠偏、噪音清洗、价值对齐、多模融合、领域适配等等。

第三，大模型的可控编辑。我们能不能像操作一个数据库一样，让它可以记住、删除和更新特定事实？领域知识如何有效植入？都是需要进一步深入研究的问题。

还有一个很重要的问题是算力的问题，因为大模型成本特别高，如果把大模型往各行各业推广的话，这会是一个很重要的瓶颈。不能每次跑一遍模型，都花几百万美金，没有几个机构能承受得起。如何实现廉价的大模型训练与部署？也是个需要深入研究的问题。事实上，高质量数据、丰富知识以及精心设计的训练任务很可能极大地降低大模型智能涌现的门槛，这是个极为重要研究思路。大模型的智能涌现十分接近宗教信仰中的顿悟与科学研究中的灵感，这两类认知现象对于大模型的智能涌现现象研究或许有着极大的启发意义。

澎湃科技：很多人和ChatGPT聊过天之后，觉得它没有想象中那么智能，没有连贯的语境，会犯事实性的错误，那为什么要这么关注它？

肖仰华：它现在是有一些弊端，但其实人也会犯错误。ChatGPT已经远远超出了以前的人工智能的水平。问答系统在前几年就已经落地在很多产品中，比如国内厂商推出的带问答功能的音响、玩具。但是，用户很快就会发现，几个回合的问答交互后，它们很容易就答不出来，或者答非所问，你就会觉得它是“人工智障”。比如你问刘德华生日，它回答香港，那么很多用户就会果断弃用。ChatGPT仍会犯事实性的错误，但是基本不会偏移提问的主题，“智障”感因此极大降低。

另一方面，ChatGPT经过人类专家的精心调教，掌握了人类常见问题的回答策略，其回答问题的策略与结构达到人类专家水平。比如，你问他人工智能是否会超越人类水平。它在回答是有结构的，会先给出结论，再逐条列出理由，这是专业水平的答题，我们很多学生回答问题都未必如此有条理。而且它具有一定的自知之明和一定的反思能力。如果它认为你提的问题不合理，它就拒绝回答，如果你说它错了，它会反思自己哪里错了。两三年前，我在《机器能否认知世界》等报告中展望过，“问答系统要向具有人类高级认知水平的智能系统演进，要具备自知之明、要具备拒绝回答不合理问题的能力、要与人类价值观对齐等”的目标，在当时被认为过于理想而不切实际，却已经悄然在ChatGPT上实现。

最后， ChatGPT这类大模型作为人工智能基础实施的效应十分显著。也就是说，大模型有望像电网、电信网络一样，用户或者终端一接入，即可享受智能。基础设施十分容易形成垄断地位。在人工智能产业化过程中，往往只有第一，没有第二。从这些意义来看，以ChatGPT为代表的大模型对人工智能核心竞争力的形成具有决定性作用，对于人工智能产业形态的塑造具有重要作用。其所带来一系列连锁反应将逐步渗透到社会发展的各行各业。以ChatGPT为代表的具备智能涌现能力的大模型，是人工智能发展的一个重要里程碑，是信息技术变革人类社会的一个重大事件。

在即将结束时，我想补充一下我们应该保持一种怎样的态度对待ChatGPT的发展？为什么要谈这个问题，最近一两个月的媒体，无异于发生了一场8级地震。企业家、专家、媒体、技术、资本、各行各业均对ChatGPT这一变革性技术从各种角度进行了解读，可谓热闹非凡。我想借用比尔•盖茨曾经说过的话回应这一问题：“我们总是高估短期的变化，却低估中长期的变革。”

从短期看，也就是未来5年到10年，我们必须在战略上充分重视大模型技术的发展，但是要注意保持冷静心态，不要盲目乐观。从事人工智能研究技术人员往往盲目乐观，认为很快大模型能做很多事，甚至代替人类从事科学发现；与之形成鲜明对比，恰是不从事人工智能研究的外行的盲目悲观，认为大模型很快就要取代他们的工作。这两种心态有着本质上相同的原因。事实上，以大模型为代表的人工智能进展，很多时候不是在证明机器有多智能，而是在间接证明人类社会当前的很多行为设计有多愚蠢，比如教育中的各种考试、各种“复制+修改”就能胜任的文案工作。比如，最近很多机构利用ChatGPT先后在各种专业资格考试中获得了通过，这诚然是技术进步的一种体现。受益于大模型的思维链等技术，大模型的推理能力得到极大提升，因而在考试这类需要一定推理能力的任务中取得进展。然而这种推理能力仍然十分有限的，至少离人类专家的直觉推理水平仍有遥远距离。更为讽刺地是，这个进展证明我们的评测方式偏离了教育的初衷。“死记硬背+有限推理”，似乎就可以胜任当下大多数考试。与其赞叹大模型的进展，不如更深刻地反思人类社会自身发展过程中的诸多问题。以创新为根本目的的教育，是当前这种评测方式真能准确评价的吗？我们应该充分抓住人工智能发展契机，对人类社会的诸多设计进行深刻反思，促进教育等行业的高质量发展。

从长期来看，也就是未来20年，甚至50年，我们必须在战略上警醒人工智能对于人类社会发展的影响，并对其开展细致的深入的研究，而不是在人工智能遭遇了人类的调戏后轻蔑地下一个“不过如此”的结论。人工智能发展已经不是第一次在挑战人性的底线了。不管是人类的动物性与社会性，都在持续地被机器所模拟、所实现，从计算到游戏，从听音识图到能说会道，从写诗到作画。最近的认知智能研究，仍在持续将人类的高级认知能力，比如幽默认知、情感认知、社会认知赋予机器。那么到底什么是人性不容侵犯的领地呢？抑或真像某些哲学家认为的“人是机器”？宗教认为人类的本性是“自我超越”，然而，即便这个最根本特性似乎也会受到机器智能的挑战。这些问题的深入讨论，要比“机器是否消灭人类”的空洞唱和，有意义得多。