下载客户端

迄今最智能的通用AI，能做什么，不擅长做什么

梁捷

2023-02-10 18:48

来源：澎湃新闻

去年年底，OpenAI公司正式推出的聊天机器人ChatGPT震惊了世界。我一直在试用，也不断与各界朋友交流使用ChatGPT的感受。这两天，全世界似乎都兴起了一阵ChatGPT狂热，每天都有关于它的新闻，至今仍在发酵之中。我个人并非AI相关领域的专家，对ChatGPT具体的机器学习机制也不够了解。这里只是作为一个使用者，一个爱好者，谈谈自己的使用心得和感悟。

ChatGPT的出现，是最新技术和巨额资本联手创造的奇迹。2015年，Sam Altman和Elon Musk在旧金山共同创立了一个非营利机构OpenAI，吸引了众多风险投资。2016年，微软Azure云服务为OpenAI提供了算力条件，使得ChatGPT要进行大规模深度学习、神经网络渲染等都成为可能。2017年，Google团队首次提出基于自我注意力机制（self-attention）的Transformer模型，并将其应用于自然语言处理。OpenAI应用了这项技术，2018 年发布了最早的一代大型模型GPT-1。2019年，相关的营利性公司OpenAI LP成立，开始接受外部投资，微软是它的主要投资者。

ChatGPT的早期版本并没有引发太多的关注。最初的GPT-1，运用几十亿文本档案的语言资料库进行训练，模型的参数量为1.17亿个，据说效果一般；2019年，GPT-2发布，模型参数量提高到15亿个，效果仍然很一般；可OpenAI坚持“大力出奇迹”的想法，继续扩大它的参数量。2020年，GPT-3诞生，参数量达到了创纪录的1750亿个。这一次结果终于不同，大家发现它的对话功能一下子达到相当高的水平，目前的ChatGPT就是在GPT-3基础上的3.5版本。据说OpenAI近期会把AI更新到第4代，GPT-4的参数量毫无疑问将比3代再高出几个量级。有人说，它的参数量会和大脑突触一样多，达到100万亿个。Sam Altman否认了这种猜想，公司毕竟需要评估所需成本和训练中可能涉及的算力。

ChatGPT目前已经非常强大，尽管它自己并不知道自己有多强大。有人给ChatGPT做过智商测试，各个类目的平均分是83分，已经达到正常人的水平。而用它来做美国高中生申请大学都要做的SAT测试，分数是1020/1600，达到了美国高中生的平均水平。而如果让它来做一些编程方面的测试，分数会更高，可能已经超过一般程序员的水平。

1950年，图灵曾提出一种测试，作为衡量机器智能的方法。该测试让人与机器进行对话。如果机器能骗过人，以为它也是人，那么就可以说它通过了测试。毫无疑问，ChatGPT已经通过图灵测试。图灵测试在未来已经没有很大的意义，AI走出了这一步。有了第一个AI，很快就会有更多后续的AI跨越这一标杆。

在此之前，已经有很多AI带给过我们惊喜。2016年，AlphaGo横空出世，击败了世界顶尖围棋棋手。之前人类曾自豪地认为，围棋包含大量难以言传的判断和感悟，人类研究围棋那么多年，至今难以用清晰、精确的语言把这些感悟说清楚，AI就可能永远学不会。可事实上，AI很快学会了，用一种不同于人类的认知方式学会了，而且做得特别好。从结果来看，AI对于围棋的理解已经远远超出人类。

但围棋终究是一个规则明确、外围有限的领域。DeepMind公司也用它来玩其他竞技项目，打星际争霸，或者预测蛋白质结构。这些当然都是很重要的工作，但并不是人类生活的全部。游戏有胜负之分，蛋白质结构有对错之分，在结果明确的前提下，程序有相对明确的学习方向。所以我们可以在AlphaGo身上看到一条漂亮的学习曲线。但在其他没有胜负、没有对错的模糊领域，AI要怎么进步？

事实上，AI在自然语言处理方面已经取得了惊人的进步。这些年来，在文本翻译领域，AI表现得极为出色，著名的Deepl已是周围很多专业人士手边必备的翻译软件。用它来翻译一篇没有太多专业概念的文章，甚至一本通俗著作，正确率可能达到九成以上，比一般中国大学生的翻译能力更强。我自己以及身边的一些专业人士，甚至经常用它来初步翻译一些本打算随手翻翻的专业著作。只要自己对专业概念、人名等比较熟悉，就不会被它误导，它对于语义的理解几乎总是正确的。

而ChatGPT再一次刷新了我们的认识。很多第一次使用ChatGPT的人，都被它的强大功能所惊吓。其中让人最感到惊讶的几个点包括：

第一，它能够富有逻辑地与人沟通互动，而且可以持续不断聊下去，有条不紊。而且能根据你上下文的内容、逻辑甚至语气，不断调整自己的表达方式。它的认知能力可以贯穿整个对话过程，而不只是单次对话。过去大家也试用过不少聊天机器人，往往只能对单次的提问或指令做出回应，而不能有机地联系上下文。这不得不说是ChatGPT的很大进步。

第二，ChatGPT可以不设限制、毫无边界地与人对话，这种通用性至关重要。过去的AlphaGo只会下围棋，或者只会打游戏，但不能做更一般的工作。而ChatGPT除了它标榜的聊天以外，还可以写代码，写公文，写简历，写申请书，写小说，写论文，或者像搜索引擎一样回答各种天马行空的问题。它上知天文，下知地理，既可以聊文学，又可以聊社会，还可以聊艺术，没有任何知识上的死角。

很多专家都曾试着用它来聊一些专业问题、学术问题。在我看来，ChatGPT在很多时候聊得都很像样，甚至常常能抓住问题的关键。它如果去参加各个学科的研究生面试，估计大多数都可以通过，至少在我熟悉的领域都能通过。

第三，ChatGPT有明显的伦理意识。它不会回应粗话、脏话，也不会生产具有攻击色彩的文本，这点让人欣慰。几年前，微软推出聊天机器人Tay，很快就因为网民用粗话、脏话对它进行训练，使得它迅速变成一个满嘴脏话、充满歧视和偏见的AI，微软不得不把它下线。虽然从人类角度看，这样的聊天机器人更接近人类，但这并不是我们希望看到的AI。

当然，ChatGPT为了做到这一点，很明显在训练时进行了大量的人工干预。有一篇报道说，OpenAI公司把训练数据中的标识工作外包到了非洲，就是雇佣一些普通人提前阅读充满粗话、脏话、人身攻击、意识形态等问题的文本，并且为文本打上标签。这一阶段的伦理判断是人为参与的。AI在后续学习的时候，就可以根据标签绕过陷阱，避免染上这些恶习。

从这个角度看，ChatGPT的目的是与人沟通，需要使用标记过的数据来学习，而不能像AlphaGo那样打破边界，寻找到很多人类之前从未考虑过的下棋方法。据说OpenAI在非洲的外包工作也出现了一些伦理问题，很多负责贴标签的工人在阅读大量恶意文本后，出现了心理和身体方面的不适，而OpenAI还没有妥善处理这些职业伤害问题。

不管怎样，ChatGPT的训练工作已经完成，我们现在对它提出的各种诱导性问题，都不会对它本身产生影响。它声称自己学习的语料库截止到2021年，不包含最新内容。同时，它也不会即时地在网络上搜索信息，没有最新知识。它给出的所有回答，都是基于过去学习过的文本内容，通过自己的算法生产出来的。

我和很多朋友都很喜欢ChatGPT，经常在上面输入各种问题。时间久了，大家也陆续发现ChatGPT存在的一些问题。当然AI的算法充满了随机性，每一次的回答都不一样，并不能保证它一定会出现问题。但不止一次出现的问题，还是暴露出ChatGPT在学习过程中难以避免的一些缺陷。

而且AI的缺陷与人类常见的缺陷不一样，因为它是用一种跟人类不尽相同的学习方法在学习。当年AlphaGo出现的时候，围棋高手在跟它交手的过程中就发现过这种现象。过去人们会以为，计算机的“计算”肯定比人强，但“判断”就不行了，判断没有精确答案，对人类而言，是一种虚无缥缈的“直觉”。结果与AI交手以后发现，AI的判断远远超出人类，但在计算方面反而有缺陷。AI是用一种不同于人类的思考方式来阅读棋局，不是用逻辑。所以一些人类用逻辑能解决的问题（如围棋中的计算），对于AI反而不那么容易。

与之类似，ChatGPT也有这样一些致命缺陷。

第一，它非常不擅长事实核查。对于人类而言，我们对于知识的“真实性”有不同程度的把握。比如说：87是不是一个质数？我们稍微想一想，或者算一下，很快可以得出结论，不需额外信息，而且我们对此结论深信不疑。换一个问题：史景迁（Jonathan Spence）是否担任过美国历史学会的主席？这个问题我们可能没办法凭借逻辑推演出来，但只要上网查一下，很容易找到，结果也是确凿无疑的。再换一个问题，2020年，欧盟人均GDP排名第九的国家是哪个？这个问题比较复杂，我们需要在网上查一下，而且还要看数据来源和计算方法。这里可能存在争议，即使是维基百科的结论，恐怕也不能完全相信。

这些就是一般人类对于不同知识的认识，而且人类对前两类错误答案的容忍度很低，尤其对第一类错误的容忍度最低。因为这是人类小学生凭借一定的逻辑能力就能回答的问题。可惜的是，ChatGPT并不擅长回答这类问题。它最擅长回应没有明确答案、含糊不清、有无数可能性的问题，却不擅回答有明确答案的问题。它似乎没有“真实性”的感受，只是追求完整、漂亮地给出一段答复，并不顾忌答案的正确性。所以很多人向它提出一些简单的数学问题，结果得到了可笑的回答。

第二，ChatGPT缺乏逻辑推理能力。AlphaGo即是如此，ChatGPT也表现出相似的缺陷。有人这样问它，现在有一个无盖的红色盒子，里面有一个白球，还有一个蓝色的盒子，蓝色盒子有盖，现在我们怎样才能取出白球？ ChatGPT会回答，打开蓝色盒子的盖子，取出白球。它并不能意识到，白球会在红色盒子以内、蓝色盒子以外。

从这一类错误也可以看出，ChatGPT对于事实的推理能力很差。它的学习都是从文本到文本，对于文字之间的关系非常敏感，但是对于事实却没有什么认知。它永远只在追求让提问者感觉更好，而不是追求提高回答的质量。

第三，ChatGPT缺乏深入思考、深入挖掘的能力。很多人开始用它来写格式文书，效果非常好。但是更进一步，希望它能提供富有专业水平的写作时，它就显得力不从心。问它一些笼统问题，比如对于法国大革命的看法，对于美国废奴运动的看法，它很快可以写出一篇思考全面、观点不俗的大纲性质的文字。专业人士希望它能就某一个论点继续讨论，但是无论怎么问，怎么引导，它都没法继续深入，这一点和我们面试研究生时的感觉非常相似。ChatGPT看似足够渊博，但是全都不够深入，没法写出具有专业洞见的文字。

使用ChatGPT进行文学创作时，也会有相似的感受。只要你给出主人公的名字，给出叙事要求，它很快就可以写出一个故事梗概或者故事大纲。但故事大纲无法等同于文学。当你要求ChatGPT再对这个大纲补充更多细节，补充更多描写时，它就一筹莫展。ChatGPT要在文学上给我们惊喜，恐怕还有很长的路要走。

第四，它的文字、审美品味普遍不高。ChatGPT可以写出文从字顺的短文，但没法写出有个性、有特点的文字，即使我们努力诱导它模仿鲁迅、模仿张爱玲、模仿卡夫卡，它也完全不得要领。它显然学习了太多的文本，又没有个性，最终只能写出最一般的文字。

在让ChatGPT编写创造性内容时，这种感受更为强烈。让它写一点故事梗概，写一点剧本桥段，即使给出很多诱导，最终写出来的东西还是平庸。可以想象，ChatGPT学习的语料库中，质量低劣、缺乏品位的文字一定占据绝大部分，没有人告诉它什么才是好的，最终ChatGPT无法分辨好坏，只能人云亦云地写作。对于创造性有较高要求的读者，肯定还无法接受目前ChatGPT生产的产品。

第五，ChatGPT在编造内容时，缺乏道德感。这也是让人头疼的一点。不欺骗、不撒谎，这是人类社会的主流道德。我们对于虚构/非虚构有着非常明确的认知边界，但是ChatGPT完全没有这种障碍。比如我们对ChatGPT说，Adam Smith是一位经济学者，请你介绍一下他的研究成果。ChatGPT会马上为Adam Smith虚构一个当今某大学经济学教授的身份，然后为他虚构一连串在主流学术期刊上的发表记录。很多杂志名称是真的，题目、格式也像模像样，就像从某个教授的简历里摘下来的一样，可全部这些文章都不存在。

对于人类而言，一般对话中包含有错误信息、错误观点不足为奇，但是简历是很重要的文件，虚构简历是一种性质恶劣的造假行为，无法接受。但ChatGPT并不认为虚构一份简历与虚构一段故事情节有什么区别，两者都是对人类提出问题的回应。

ChatGPT具有以上这么多的问题，使得我们在运用它解决问题时，也常感为难。我们希望ChatGpT能回应我们的问题，能生产出符合预期、符合要求的文本，最好还是超出我们预期的文本。同时我们对文本也有一些底线要求，千百年来都如此，比如真、善、美。但ChatGPT不知何为真，何为善，何为美。它只是想产生能对人们输入的语句进行回应的内容，但不知不觉，可能就违背了真、善、美的底线要求。

所以，我个人一方面为ChatGPT的出世而欢欣鼓舞，另一方面却也明确地感受到它的不足。目前我们可以用它来生产一些格式文档，也可以用它来写一些程序代码。但是在我的经验范围里，还几乎不能用它来写论文，更不用说写有创造性、文学性的文本。它就像一个自以为是、看似无所不知的本科新生，看起来知识渊博，但都只知皮毛，满口的陈词滥调。要把一个懵懂无知的本科新生训练成一个思考缜密、言辞准确的学者，或者脑洞大开、文采飞扬的作家，其中都还有很长的路要走。

而微软对于ChatGPT的应用，比我预想的要激进得多，这恐怕也是资本压力下不得不做出的妥协。如果它不走得快一点，其他竞争对手就要追上来了。据说微软会把ChatGPT嵌入到word，这样可以自动地写出大量文本；又说要把它嵌入到bing等搜索引擎，把传统的搜索方式改变成为聊天方式。但是前面列举的ChatGPT一系列的问题都不容易解决。现在就把它投入使用，会产生很多严重问题。

虽然我对ChatGPT充满感情，但并不认为它很快就能取代大量人类的工作。语言是我们认识这个世界的重要工具，其中也蕴含了人类对于这个世界的很多价值判断。ChatGPT很好地掌握了人类的语言，但是却还没有学会人类的价值判断，或者它秉持一些不同的价值判断。而且我们并不知道，它的道德感是否会随着模型的参数量扩大而涌现。这是我对下一代ChatGPT的最大期待。

（作者梁捷任教于上海财经大学中国经济思想发展研究院，主要研究方向为中西经济思想史，著有《调适与维新：19世纪中国经济思想的转变》《梁捷西方经济思想史讲稿》《看！这就是经济学》等。）

责任编辑：蔡军剑

图片编辑：金洁

校对：施鋆

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#梁捷 #ChatGPT #AI