下载客户端

人工智能会说“外语”吗？——自然语言与计算机语言刍议

叶桃桃

2019-04-18 16:12

来源：澎湃新闻

语言是人类表达交流和思维的重要工具。语言反映人的思想，人使用语言沟通、表达、创作。人类日常使用的语言被称为自然语言，自然语言包括词汇语音语义语法等方面。用于机器程序编写的语言被称为计算机语言，由数字、字符以及语法规则构成。人类的自然语言有不同语种、分属不同语系，计算机语言根据编写规则的不同也分为各种门类。人使用语言对话交流写作思考的能力，即语言智能，被看作是人类智能的一个方面。相对的，机器（计算机）具备识别计算机语言、运行程序、执行操作的能力，计算机语言可以看作是先天内在于机器里的语言。如果计算机能够理解作为“外语”的自然语言，实现对自然语言的翻译，理解并执行人的命令，乃至与人对话，是否可以认为计算机具有了与人相似的语言智能呢，本文将回答这一问题。

自然语言与计算机语言的定义

人类日常生活中使用的语言称之为自然语言，人类用语言表达想法，交流沟通，描述对象。语言作为一种载体，承载了语词的内涵。人类的多种语言分属不同的语系，但是语言和语言之间可以对应和翻译。每种语言都是一个包括词汇、语法和语音的系统，在系统中根据语法规则运用词汇进行表达。正如哲学家、语言学家乔姆斯基在《语言与心智》中所讲：“知道某种语言的人都掌握了一套规则系统，这套系统以确定的方式为无数种可能的句子指派声音和意义。”但是使用自然语言的个体并不见得能够意识到这套语言系统的规则和内涵：“知道语言的人并没有意识到已经掌握了这些规则或正在使用这些规则，也没与任何理由假定语言规则的这种知识能够被带入意识中”。

自然语言的习得基于生活和社会交往。儿童掌握语言的过程是通过大量对话接触词汇和句子，在对话聊天中的习得语句模型，再掌握语法，可见自然语言的学习是从语义到语法的，因此一些学者站在人类语言天赋论的立场上讨论语言习得，例如乔姆斯基认为人脑中有一种天生的普遍语法，这一普遍语法存在于人脑中一个叫做语言习得机制的地方。他试图解释语言研究与人类本质的关系，认为语言反映人类心智的过程并且决定思想特征和发展的各方面。

从语言系统来看，自然语言这个系统是稳定性和变动性兼具的。在一种语言存在的前提下，它的词汇和基本语法是稳定的，同时语言在传承使用中，受到时代、环境的变化影响，又在不断更新、衍生和发展。

计算机语言，是指按照规定的语法规则，使用数字、字符来编写程序，使得计算机能够进行各种工作的语言，它包括机器语言、汇编语言、高级语言等。在不同的思考程序设计方式和程序设计模型中，字符和语法规则构成的语句按照指令执行操作。计算机语言的设计初衷是为了使人能够更好地控制和操作计算机。目前，所有计算机做的每次动作每个步骤，都是按照计算机语言编好的程序来执行。计算机的运行操作是这样一个流程：接受输入，匹配对象，输出回答。在执行操作中，计算器首先要理解人的输入命令，对自然语言进行转换翻译，应用程序源代码由相应语言的解释器翻译成目标代码机器语言，再进行编译操作，将程序源代码翻译成目标代码机器语言。

可以说，计算机语言是人机对话的媒介。计算机语言在构造中能够识别并翻译自然语言，执行操作，输出结果，其中的翻译过程是人机合作乃至人机对话的关键。机器只有在理解人类输入的命令之后才能继续执行操作。在智能机器产生之前，人对机器的输入指令方式是单一的，但如今的智能机器已经在逐步尝试通过语音和图像的识别理解人的命令，目前这种能力主要依赖于语料库分析、强化匹配搜索以及深度学习。

如果把自然语言的词汇看作是一套符号，它的语法看作是符号的使用规则，那么相较而言，计算机语言也是符号和规则的运用。计算机的编码解码输入与输出，以及在人机交互中的运算，也类似与人在表达和交流中使用语言听读说写的过程。在这个意义上，计算机语言似乎可以看作是计算机的自然语言。如果计算机是真正智能的，那么在它看来，人类的自然语言可以算作是一门外语。但计算机能具备智能吗？

要比较自然语言与计算机语言，一个重要的视角是从自然语言和计算机语言中的逻辑系统来辨析两种语言的内在逻辑。逻辑是语言的重要内涵，一种语言的逻辑结构和语法系统，是使其本质区别于其他语言和语种的根源所在。

自然语言与计算机语言中的逻辑

在自然语言的使用中，歧义和含混是不可避免的，各种语言之间的翻译也存在误解和偏差。学者们想要解决表达中语词的歧义和模糊，找到人类语言中共通的深层结构，于是借鉴数学的方法，发明了形式化语言。形式化语言提出的初衷是人们要想使逻辑学像数学那样也有一套通用的符号，从而试图建立一种普遍的、没有歧义的语言。通过这种语言，可以把所有的思维推理都转变为演算，变得和数学一样精确。逻辑学家们试图用形式化的系统和符号精确刻画自然语言描述的世界，以更准确地进行推理、分析和判断。因而在逻辑语言的研究中，也包括了对自然语言生成语法的研究。

自然语言可以看作是一套符号系统，其中的语词是文化背景下表达观念的符号。然而自然语言中的逻辑不只是语法结构上的，也是在语义之中的。我们日常表达中某些语词的歧义和模糊，在语法中很难判断，但可以通过上下文以及语境的带入简单解决。维特根斯坦就认为自然语言是用来表达对象的，一个命题或语句的意义源自外在于它的实在对象，我们学习语言的过程就是掌握语词与对象之间的关联。我们无法从一个单独的词获得意义，而要通过关联和活动，所以自然语言在一定环境和特定的游戏规则下才具有意义。

因此，自然语言的逻辑比形式化语言的逻辑多一个维度。自然语言是人类心智的一部分，包含在语词中的逻辑是人类心智独有的逻辑能力。正如维特根斯坦指出的：单个的词汇和语法结构并不能传达完整的意义。自然语言的习得也无法单从语言的逻辑结构学习来获得。因此，在自然语言的习得中，心智就是一个重要概念。

机器使用的计算机语言也是一种形式化语言。它是人先赋予机器并成为其内有先在的语言。计算机在理解和执行人的命令时，需要将自然语言翻译为机器可理解的计算机语言，再进行程序操作。将自然语言的形式化描写，这一步骤对计算机程序的机械模仿至关重要，但理解力模仿不同于机械模仿。机械模仿涉及的是形式性质，而理解力模仿涉及的是准语义性质。现阶段计算机以机械模仿为主并通过逻辑语言与人的自然语言对话。因此，尽管计算机对自然语言的处理可以算作一种翻译，但就目前而言这种翻译与自然语言中两个语言之间的互相翻译是不同的。

计算机在消除歧义过程中，需要大量的知识，包括语言学知识（词法、句法、语义、上下文等）和关于世界的常识认知。这也造成了目前自然语言处理的两个主要困难。从自然语言的视角衡量计算机语言，高度形式化使其对语境的刻画能力有限，也无法像自然语言那样传达多层信息。因此，形式化语言虽然在准确度上拥有优势，语境塑造能力和表达力却必然弱于自然语言。在自然语言的理解中，词汇装置如何与句法结构产生联系，从而形成句子表达涵义，这是形式化语言很难完全刻画的，这也是计算机识别自然语言时产生错误的一个重要原因。当然，随着语料库建设和语料库语言学的发展，计算机原先处理自然语言时主要运用的基于句法-语义规则的理性主义方法已退居其次，现今自然语言的处理技术引入了统计数学的方法，在匹配搜索和自动学习的方法支持下逐渐减少错误。

认知科学认为思维和认知是知识的逻辑运算，而计算化的自然语言分析则主要依赖逻辑语言的表述。如果从行为主义的角度出发，机器拥有计算机语言，并且在后天的操作执行和使用中不断强化更加精确，这是一种习得和巩固。在这个意义上，计算机语言于计算机而言似乎可以说是它的自然语言。然而，尽管自然语言和计算机语言各自都包含很多种类，二者多样种类的原因是不一样的，不同于人类语言的多样性根源于历史文化和地域的区别，计算机语言则是在编写程序时面向不同的需求而开发。因此，自然语言与计算机语言承载的内涵是不同的。从根本上讲，自然语言体现的心智与计算机语言表达的心智是有所不同的。

自然语言与心智

如果说自然语言是人类表达的工具和思维的媒介，那么自然语言与心智的关系密不可分，在一定程度上，人对语言的使用能力是心智能力体现之一种。心智与智能不同，心智是智能的一部分，它泛指人的知觉、感觉、记忆、学习、理解、创新等能力。

心智能力包含了对自然语言的理解。日常生活中使用自然语言时，可以同时获得关于描述对象的语音、形象以及内涵。我们在日常生活中，但凡听到别人描述一件东西，或看到别人指着一个对象有所称谓，那么我们就记住了这东西叫什么，往后要再指称那件东西时，就讲出同样的词汇。我们也能从别人的语音、动作、表情和眼神，乃至肢体动作、声调口气来体会到语句中的各种情绪与感受。也就是说，在自然语言中，语词的意义并不局限于单个词的含义，它还包括了指称对象的模样，语音、讲述者的意图以及当时的语境。自然语言的涵义是在社会交往和对话中完全体现的，对这些涵义的全面把握，需要心智能力，反之也是对心智存在的印证。正如乔姆斯基所述：语词构成句子的表层规则是语法，但句子的真正含义体现在深层结构上。深层结构是通过某些心智的操作而与表层结构相关联的。也就是说，自然语言所有词汇、声音和意义之间的联系，是基于心智基础上的语法结构。

再者，自然语言的学习也是心智能力的一个反映。以乔姆斯基为代表的心智主义者认为语言和语法结构是人类心智的本质和特征。不管语言使用者在个体经验和个人能力方面具有多大的不同，他们都会按照极为相似的方法完成语言理论系统的构造任务。我们的心智中先天就拥有认知结构和语言能力，在后天的运用中逐渐强化对语法规则的掌握。 “在某种基础性的层面上，我们人类不是在学习语言，真实的情况是，语言在心智中自行成长。”

有别于乔姆斯基，哲学家蒯因的语言理论是基于经验主义与行为主义的立场。他既反对彻底的经验主义还原论也反对纯粹的先验知识，他认为语言之所以能表达含义，是依赖于行为习得的，人们在语言行为中体现出的心智能力也是逐步后天习得的。掌握并使用语言的心智能力是后天的并且可以通过训练得到强化的。在蒯因看来，我们掌握语言的能力来自于公共知识，是一种人类共同经验知识背景的传承，而非先验的存在：“即使我们要谈论某种独特的感官觉知的品质，多半也要求助于公共物体，桔子的颜色，臭鸡蛋的味道，诸如此类。要持续通达以往的感觉资料，同样也靠了指涉物体。我们固然应当好好探究关于物体的日常话语背后的感官觉知、感觉刺激，但这些是概念成形或语言的背景，而不是它们的下层结构。”

如果按照乔姆斯基的理论，那么我们赋予一台智能计算机的初始内在，可以算作它的先天“心智”，当然这样的心智是人给予的并且是不完全的。如果按照蒯因的理论，计算机在被构造的前提下，已经获得了知识背景，并且能在学习中不断强化语言能力，这似乎意味着它有可能在强化学习中获得真正的智能，包括与人同等水平的语言智能。

机器语言与心智

在人工智能著名的图灵测试中，如果一个人能够与一台机器进行一次足够长的对话，假如对话人不能分辨回答是来自一台机器或者一个人，那么就判定这台机器就是拥有智能的。可见，图灵设想中的智能计算机主要能力就是对语言的理解和运用能力。测试将机器拥有智能定义为几个方面：机器要能回答输入文本的问题；能够对语词进行含义解释；能够理解语词组成的句子；能够把一种语言翻译为另一种语言。语言能力是判断计算机是否拥有智能的重要标准。甚至可以说，从图灵测试的机制看来，语言能力可以等同为智能。

如果智能必然要掌握语言能力，如前所述，人类使用的自然语言虽有模糊不清和歧义难解的内容，表达力确是强于形式化语言的。计算机如果要具备真正的智能，必须要具备在不同语境中理解自然语言的能力。然而这一能力在现有的技术中几乎是办不到的。德雷福斯在《计算机不能做什么》一书中提到，机器要获得智能，要解决困难问题之一即语言中的歧义问题。虽然现在已有强化匹配搜索和大数据的支持，自然语言的歧义问题表面上得到了部分解决。但是如果参照我们人类使用自然语言的方式，真正理解并能使用一门语言，除了需要掌握必要的推理规则（包括专家知识推理和常识推理），还要具备上下文环境的理解与领悟能力。有了这样的能力，才算是具有心智，拥有智能。

在讨论机器智能与心智时，很多研究者都希望从人类智能的产生和结构中获得启示。从简单发育到复杂思考，人的智能看似有规律可循，但如果仔细考虑，即使是最简单、最初级的智能，都涉及千万脑细胞、肌肉细胞的大范围共同协作。这些简单的行为内嵌了太多智能，都是日常讲话和行为中未曾意识到的深层心智能力。语言智能作为其中的一种，如果考虑语言机制的来源以及语言机制在人类智力突然质变的过程中所承担的角色时，至少两个基本的问题就会出现：第一，最小的承载意义的元素的核心语义内容，包括形式最为简单的元素。第二，允准符号进行无限制组合的原则。如果希望通过分层渐进地剖析人类心智产生的生理结构和逻辑结构，从而尝试在模仿这种结构中赋予机器以心智。那就必然会面临两个困境：一是人的大脑就是一个不可能完全掌握的黑箱；二是心智作为一个没有实体但确实有的存在，对技术而言是不可捉摸的存在。

就心智主义的立场而言，计算机是不可能拥有与人类同等的心智能力的，尽管它可以随着技术发展获得更加精细准确的自然语言处理技术，在操作执行中表现得能够听懂自然语言的一切指令。从行为主义的立场来讲，如果一台机器表面具备了同人类一样的语言能力，能够理解并表达自然语言，似乎可以认为它是具有心智的机器。然而，自然语言和形式化语言互相转换中不可避免的问题，也预示了由行为主义出发的模仿不可能完全与人一样。

结论

随着技术的发展，计算机可处理的自然语言文本数量一直增长，面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求下，计算机的自然语言处理研究也在不断推进。然而，自然语言在描述和表达中，具有指向性、逻辑性，传递并承载了文化。这也就意味着，自然语言不仅是一些语词符号的组合，和形式化的语言不同，自然语言虽然也在一定的逻辑语法下使用，具有沟通、交流、表达、创造等功能，但语言还具有文化属性，一种语言的习得不仅是会使用其中的语词和语法规则，还包括了对一种文化的理解和认同。在这个层面上，现有的智能机器无论对自然语言的处理做到何种程度，都尚未拥有真正的智能。因此，我们可以将语言的正常使用作为证明其他生物具有与我们相同心智的极其明确的经验性证据，但不能作为心智与人类能力的来源的判别性证据。

笛卡尔讲“语言是人类思维的核心标志”，意即语言能力和人的思维能力密不可分并且语言能力是人类心智的表征。他还提出：人类心智的两个重要能力，理解力和意志，是机器（自动机）无法实现的。因为心智没有实体，自动机无论如何模仿表层结构，都不可能创造出心智。笛卡尔的预言在今天看来虽然缺乏论证完整性，结论依然正确。语言的使用表达和创造是人类智能的重要内容，如果未来的智能机器将拥有同人类一样甚至更强的智能，那么它必然掌握了人类语言能力同等的理解运用能力。这在现有的计算机语言层面是做不到的。而至于未来机器能否籍由新的突破性的技术学会“外语”，那又是另一个问题了。

参考文献：

德雷福斯. 计算机不能做什么: 人工智能的极限[M]. 三联书店，1986.

诺姆·乔姆斯基. 语言与心智[M]. 中国人民大学出版社，2015.

诺姆·乔姆斯基. 乔姆斯基语言哲学文选[M]. 商务印书馆，1992.

诺姆·乔姆斯基. 句法理论的若干问题[M]. 中国社会科学出版社，1986.

蒯因.语词和对象[M]. 中国人民大学出版社，2012.

维特根斯坦.哲学研究[M].商务印书馆，2000.

弗雷格.弗雷格哲学论著选辑[M].商务印书馆，2006.

责任编辑：朱凡

校对：刘威

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载