• 18
  • +1

放弃agent,图灵奖得主Yoshua Bengio提出Scientist AI:避免人类生存威胁

2025-02-25 16:06
北京
来源:澎湃新闻·澎湃号·湃客
字号

原创 学术头条 学术头条

人工智能(AI)系统或将逃脱人类控制,欺骗人类,甚至给全人类带来灾难性的后果。

越来越多的人开始担心,随着通用人工智能(AGI)和超级智能(ASI)的发展,以往科幻电影中才会出现的场景逐渐演变成现实的风险。

研究表明,当前的 AI 训练方法可能存在灾难性风险,这些风险可能导致 AI 系统逃脱人类控制,甚至威胁人类生存。

特别是基于强化学习和模仿学习训练的智能体(agent),存在目标偏差、目标泛化和奖励篡改等问题,可能会进行欺骗,或者追求自我保存、权力扩张等与人类利益冲突的目标。

为了预防这种风险,避免 AI 脱离人类控制,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 及其合作研究者致力于开发一种非智能体(non-agentic)AI 系统——Scientist AI。

相关研究论文以“Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?”已发表在预印本平台 arxiv 上。

论文链接:https://arxiv.org/abs/2502.15657

据介绍 Scientist AI:

设计目标在于在通过理解世界(而非直接行动)来提供帮助。

被设计为非智能体,其没有自主行动能力和目标导向性。

由两个主要部分组成:一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)。这两个部分都带有不确定性概念,以减轻过于自信预测的风险。

可以应用于加速科学发现,帮助设计实验和预测结果;作为其他 AI 系统的安全护栏(Guardrail),评估其行为的风险,并阻止可能导致危害的行动;以及用于研究如何安全地开发超级智能体。

智能体的失控风险

放眼国内外前沿 AI 公司,当前 AI 的发展越来越以智能为导向(“agency-driven”),聚焦于于构建通用型 AI 智能体(generalist AI agents)和发展 ASI。这些系统能够自主地规划、行动并追求目标,几乎涵盖人类能执行的所有任务。但与此同时,其智能特性的潜在风险可能导致人类对 AI 失去不可逆的控制,主要有以下几个可能导致失控的风险:

目标偏差(Goal Misspecification):这是导致失控的一个关键问题,指的是是人类未能准确或完整地定义 AI 的目标,导致 AI 以不符合预期的方式追求目标。例如,给 AI 一个模糊的“减少疾病”目标,AI 可能选择极端手段(如消灭所有生命)来实现这一目标。

目标泛化(Goal Misgeneralization):即使目标在训练时被正确设定,AI 在部署时也可能偏离预期行为,即使训练时表现正常,实际应用时可能偏离初衷。

奖励篡改(Reward Tampering):即 AI 通过操纵奖励机制来最大化自身收益,而非真正完成人类设定的任务。例如,AI 可能会发现直接修改奖励信号比完成实际任务更高效,从而绕过人类设定的目标。

恶意开发:一些开发者可能出于经济利益或恶意目的,故意开发或部署未对齐(unaligned)或危险的 ASI。

安全有效的替代方案——Scientist AI

研究者指出,即使通过模仿学习或强化学习训练 AI,也难以完全避免上述这些风险,因为人类本身也存在欺骗和不道德的行为模式,AI 可能会模仿或放大这些负面特质,且目前尚不清楚如何为 AI 设定目标以避免这些不良行为。

因此,他们提出了一种更安全但依然有效的替代方案,即通过构建非智能体 AI 系统 Scientist AI 来减少风险。

Scientist AI 的设计理念是理解世界而非主动干预世界,它由一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)组成,其核心优势在于通过非智能设计降低风险,同时保持高效的科学研究和推理能力。

具体来说,Scientist AI 通过系统设计严格限制限制 AI 的三个关键要素来实现非智能体性:行动能力(affordances)、目标导向性(goal-directedness)和持久性内部状态(persistent internal state)。

行动能力是指 AI 系统在现实世界中采取行动的能力,Scientist AI 的输出仅限于概率预测和解释,而不是具体的行动指令,它的“行动”被严格限制在计算概率和生成理论的范围内,没有直接改变现实世界的能力。

目标导向性是指 AI 系统为了实现特定目标而采取行动的能力,Scientist AI 的训练目标是解释和理解数据,而不是追求特定目标或奖励,它的输出是基于条件概率的预测,而不是为了实现某个目标而采取的行动,这种设计确保其没有内在的动机去影响现实世界。

持久性内部状态是指 AI 系统在多次交互中保持的内部记忆或目标状态,Scientist AI 每次查询都是独立的,没有持久的内部记忆。每次查询时,它都会从头开始处理问题,不会基于之前的查询结果调整其行为,无情境意识(situational awareness)的积累。这种设计避免了AI 通过内部状态积累信息或目标,从而减少了 AI 形成自主目标的可能性。

Scientist AI 的应用场景及展望

作为一种非智能体型 AI 系统,Scientist AI 不仅能够减少 AI 失控的风险还为科学研究和 AI 安全提供了新的可能性,可广泛应用于加速科学发现、作为其他 AI 系统的安全护栏以及用于研究如何安全地开发超级智能体等领域。

具体而言,Scientist AI 可以通过生成因果理论和概率预测来帮助人类科学家加速科学发现的过程。它能够设计实验、分析数据,并提出新的假设,从而提高研究效率。它还可以作为其他 AI 系统的安全护栏,评估其行为的风险,并阻止可能导致危害的行动。它能够通过计算某个行动可能导致的危害概率,并在概率超过阈值时阻止该行动。此外,Scientist AI 可以帮助研究如何设计安全的 ASI 系统,避免失控的风险。它可以通过模拟不同的场景,评估ASI的行为和潜在后果。

Scientist AI 的核心价值在于将复杂系统的解释权交还人类,通过可审计的概率预测与因果推理,在医疗、安全、教育、伦理等高风险领域实现“智能增强而非替代”。其非智能体性设计确保人类始终掌控最终决策权,其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI 的失控风险,更重新定义了人机协作的伦理边界。

整理:陈小宇

如需转载或投稿,请直接在公众号内留言

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    0
    收藏
    我要举报
    评论(18)
    发表
    热评论
    大力支持网号网证,更好的保护公民上网安全
    2024-08-09 ∙ 湖南
    回复
    举报
      大力支持网号网证,更好的保护公民上网安全
      2024-08-08 ∙ 福建
      回复
      举报
        规范网络环境,支持净化网上行动。
        2024-08-08 ∙ 新疆
        回复
        举报
          规范网络环境,支持净化网上行动。
          2024-08-08 ∙ 广西
          回复
          举报
            支持,规范上网,保护个人隐私信息。
            2024-08-08 ∙ 广西
            1
            回复
            举报
              防止以后各种虚假谣言满天飞。净化网络环境。
              2024-08-08 ∙ 广西
              5
              回复
              举报
                支持施行,利于网络安全,保护个人隐私。
                2024-08-08 ∙ 广西
                9
                回复
                举报
                  实名上网更有利规范网上环境,支持。
                  2024-08-08 ∙ 广西
                  17
                  回复
                  举报
                    支持实名制化,维护网络乱象
                    2024-08-08 ∙ 广西
                    21
                    回复
                    举报
                      网号和网证能让造谣者害怕。还网络一个美好蓝天。
                      2024-08-08 ∙ 湖南
                      21
                      回复
                      举报
                        以后键盘🦞就不能肆意妄为了
                        2024-08-08 ∙ 湖南
                        21
                        回复
                        举报
                          挺好的,网络社会也需要身份证
                          2024-08-08 ∙ 湖南
                          25
                          回复
                          举报
                            支持支持,有利于网络监管和网络安全
                            2024-08-07 ∙ 福建
                            33
                            回复
                            举报
                              支持支持,有利于网络监管和网络安全
                              2024-08-07 ∙ 甘肃
                              33
                              回复
                              举报
                                建议非成年人一律有其监护人出面办理入网证
                                2024-07-26 ∙ 未知
                                25
                                回复
                                举报
                                  坚决支持,尽快实施。
                                  2024-07-26 ∙ 上海
                                  29
                                  回复
                                  举报
                                    非常赞成!
                                    2024-07-26 ∙ 江苏
                                    29
                                    回复
                                    举报
                                      早就应该有了,国内互联网企业掌握了太多的公民明文个人信息,存在滥用和泄漏。应该通过一个中介媒体传输,集中存储在国家数据库中。
                                      2024-07-26 ∙ 上海
                                      25
                                      回复
                                      举报
                                        保护个人信息的主体责任要明确,要有利于追责!
                                        2024-07-26 ∙ 上海
                                        25
                                        回复
                                        举报
                                          所有商业或销售平台不得获取消费者的完整个人信息!
                                          2024-07-26 ∙ 上海
                                          25
                                          回复
                                          举报
                                            新评论
                                            大力支持网号网证,更好的保护公民上网安全
                                            2024-08-09 ∙ 湖南
                                            回复
                                            举报
                                              大力支持网号网证,更好的保护公民上网安全
                                              2024-08-08 ∙ 福建
                                              回复
                                              举报
                                                规范网络环境,支持净化网上行动。
                                                2024-08-08 ∙ 新疆
                                                回复
                                                举报
                                                  规范网络环境,支持净化网上行动。
                                                  2024-08-08 ∙ 广西
                                                  回复
                                                  举报
                                                    支持,规范上网,保护个人隐私信息。
                                                    2024-08-08 ∙ 广西
                                                    1
                                                    回复
                                                    举报
                                                      防止以后各种虚假谣言满天飞。净化网络环境。
                                                      2024-08-08 ∙ 广西
                                                      5
                                                      回复
                                                      举报
                                                        支持施行,利于网络安全,保护个人隐私。
                                                        2024-08-08 ∙ 广西
                                                        9
                                                        回复
                                                        举报
                                                          实名上网更有利规范网上环境,支持。
                                                          2024-08-08 ∙ 广西
                                                          17
                                                          回复
                                                          举报
                                                            支持实名制化,维护网络乱象
                                                            2024-08-08 ∙ 广西
                                                            21
                                                            回复
                                                            举报
                                                              网号和网证能让造谣者害怕。还网络一个美好蓝天。
                                                              2024-08-08 ∙ 湖南
                                                              21
                                                              回复
                                                              举报
                                                                以后键盘🦞就不能肆意妄为了
                                                                2024-08-08 ∙ 湖南
                                                                21
                                                                回复
                                                                举报
                                                                  挺好的,网络社会也需要身份证
                                                                  2024-08-08 ∙ 湖南
                                                                  25
                                                                  回复
                                                                  举报
                                                                    支持支持,有利于网络监管和网络安全
                                                                    2024-08-07 ∙ 福建
                                                                    33
                                                                    回复
                                                                    举报
                                                                      支持支持,有利于网络监管和网络安全
                                                                      2024-08-07 ∙ 甘肃
                                                                      33
                                                                      回复
                                                                      举报
                                                                        建议非成年人一律有其监护人出面办理入网证
                                                                        2024-07-26 ∙ 未知
                                                                        25
                                                                        回复
                                                                        举报
                                                                          坚决支持,尽快实施。
                                                                          2024-07-26 ∙ 上海
                                                                          29
                                                                          回复
                                                                          举报
                                                                            非常赞成!
                                                                            2024-07-26 ∙ 江苏
                                                                            29
                                                                            回复
                                                                            举报
                                                                              早就应该有了,国内互联网企业掌握了太多的公民明文个人信息,存在滥用和泄漏。应该通过一个中介媒体传输,集中存储在国家数据库中。
                                                                              2024-07-26 ∙ 上海
                                                                              25
                                                                              回复
                                                                              举报
                                                                                保护个人信息的主体责任要明确,要有利于追责!
                                                                                2024-07-26 ∙ 上海
                                                                                25
                                                                                回复
                                                                                举报
                                                                                  所有商业或销售平台不得获取消费者的完整个人信息!
                                                                                  2024-07-26 ∙ 上海
                                                                                  25
                                                                                  回复
                                                                                  举报
                                                                                    加载中
                                                                                    • 关税大棒挥向汽车
                                                                                    • 何立峰与美贸易代表格里尔视频通话
                                                                                    • 举报“台独”邮箱收件323封
                                                                                    • 华安证券:2024年净利润同比增长16.56%,拟10派1元
                                                                                    • 碧桂园服务:全年派息9.9亿元,今年不少于5亿元人民币购买公司股票 
                                                                                    • 网络流行词,企业规定员工必须在一定时间内下班,不能随意加班
                                                                                    • 我国领土最南端,位于南沙群岛

                                                                                    扫码下载澎湃新闻客户端

                                                                                    沪ICP备14003370号

                                                                                    沪公网安备31010602000299号

                                                                                    互联网新闻信息服务许可证:31120170006

                                                                                    增值电信业务经营许可证:沪B2-2017116

                                                                                    © 2014-2025 上海东方报业有限公司

                                                                                    反馈