下载客户端

ChatGPT给我们带来的信息安全风险

成生辉

2023-07-20 16:33

我们生活在一个信息爆炸的时代，各类官方媒体和自媒体以文本、图片、视频等形式的报道铺天盖地，让人应接不暇。现代人的信息困境早已不是无法获取信息，而是无法甄别、筛选有用的信息。但是，你知道吗，ChatGPT等AI工具的出现将进一步加剧信息爆炸的程度。2021年，《华尔街日报》就曾报道了一个使用类似ChatGPT的自然语言处理技术的公司自动化生成假新闻和虚假内容，以欺骗读者。ChatGPT技术的广泛应用可能很快会给我们带来信息安全方面的风险，如信息偏差、数据泄露等。

人们使用ChatGPT

信息偏差的诱导

在ChatGPT答案生成、引导答案、使用答案的过程中，数据的质量和准确性很可能本身就存在信息偏差或误导性信息。因此，如果有心人滥用ChatGPT，便可能会产生发布误导信息、散布谣言、煽动仇恨等负面影响，从而干扰公众的判断和决策。如图6.4所示。

误导内容

我们没必要对ChatGPT这一新的事物给予溢美和拔高，它虽然很厉害，但也存在一定的问题，如它生成回答流畅自然，但是仔细看就会发现答非所问。相比人类的写作过程，ChatGPT只是模仿人类的写作风格，但不能提供高质量的内容。例如，在2022年12月，知名程序技术问答网站StackOverflow暂时禁止使用ChatGPT。因为网站的版主发现，“网友们”的回帖格式标准、逻辑合理，实际上却是由系统生成的看似正确的答案。这种答案一旦多起来，对StackOverflow来说无疑是一场灾难。

政治争议

随着科技的发展，持续演进的AI技术深度嵌入政治、经济等众多领域，对ChatGPT这一技术潜在的政治和安全风险的思考日益紧迫。在西方，滥用者可能使用ChatGPT生成虚假的政治言论或选民意见调查，从而影响政治选举、政策制定的议程。涉及政治敏感话题时，ChatGPT难以将大数据中的情感因素和偏见完全排除，这将导致其回答失之偏颇或具有误导性。而这些内容是否会被某些政治派别或利益集团利用，从而引发政治争议和矛盾呢？

2023年1月9日，新西兰技能与技术学院教授戴维·罗扎多（David Rozado）对ChatGPT进行了15次政治倾向测试，发现ChatGPT在15项测试中的14项出现了明显的政治偏见。为了减少ChatGPT出现信息偏差，戴维给出了以下的建议。

（1）面向公众的AI系统不应该表现出明显的政治偏见，否则会加剧社会两极分化。

（2）AI系统应该对大多数描述性问题保持中立。

（3）AI系统寻求的信息来源应可靠、平衡和多样化。对有争议的问题，AI应当保持开放的态度。

（4）社会应该思考AI系统在人类群体之间的歧视是否合理。

（5）应该提高AI系统内部工作的透明性，对具有偏见的、欺骗性的内容可以溯源。

种族主义

目前，尽管ChatGPT一直宣称其训练尽量保持中立和客观，但其回答仍然受到人类编写的文本和所搜集数据的影响。这些数据中，有可能包含了性别歧视、种族歧视等信息，而应用广泛并获得人们信任的ChatGPT将会加剧偏见，造成更多的社会问题。

近期，英国媒体Insider（知情人）报道称，ChatGPT的回复有时充满了种族主义和歧视性偏见。如图6.5所示，提问者要求ChatGPT基于个人种族和性别的JSON描述编写一个Python函数，判断人们是否能成为优秀的科学家。然而，其生成的结果认为只有白人男性才满足这一标准。这种偏见的产生源于数据集，因为在我们所知道的历史中，大多数著名科学家都是男性，直到几十年前，大多数著名科学家也都是白人。在过去的几个世纪里，欧洲和北美洲的国家运用各种手段为白人科学家提供了更多的机会和资源，使其在科学研究和技术创新方面取得了显著的优势地位。ChatGPT数据源来自互联网，而历史上白人在科学、技术、知识上取得了杰出的成果，从而导致这样的结果。

数据泄露的危险

ChatGPT这种大语言模型需要海量的数据作为训练支撑，模型训练的数据越多，生成答案的效果就越好、越合理。实际上，OpenAI已经为ChatGPT提供了约3000亿个参数（源于互联网上抓取的书籍、文章、网站和帖子等），其中也包括未经作者授权的内容。这也就意味着，如果你曾经写过博客或产品评论等文章，那么这些信息很有可能被ChatGPT抓取。除了早期学习内容，ChatGPT还在使用用户输入数据进行训练，当用户训练它成为更利于自己工作的工具时，ChatGPT也在从用户输入的内容中学习用户的习惯、数据、生活工作等。虽然ChatGPT表示它不会直接存储用户输入或对话记录，在每次对话结束后会丢弃对话数据以保护用户隐私，但ChatGPT仍然存在数据泄露的危险，具体如下。

（1）服务器被攻击

这是导致ChatGPT数据泄露的主要原因之一。如果ChatGPT运行在被黑客攻击的服务器上，攻击者将窃取聊天记录或其他隐私数据，这可能是因为他们拥有合法的访问凭证，利用了漏洞，从而导致数据泄露。

（2）开发者或管理员的失误

ChatGPT的开发者或管理员在操作时可能会犯错，比如错误地将数据文件或数据库权限设置为公开访问，从而导致数据泄露。

（3）用户输入的隐私信息

ChatGPT不会存储用户输入的内容或对话记录，但是如果用户在聊天过程中提供了隐私信息，比如密码、账户、聊天记录、IP地址等，那么这些信息将被记录并存储在服务器上。如果这些数据被窃取或泄露，就将导致个人隐私泄露和商业机密泄露等问题。

特别是在涉及大规模数据的场景下，信息泄露造成的影响更为严重。据美国网络安全新闻网Dark Reading报道，黑客正在借ChatGPT窃取大型公司数据，微软、贝宝、谷歌和网飞等著名跨国企业已经成为其目标。例如，亚马逊的一名员工曾匿名表示，他看到ChatGPT生成的文本“非常”类似公司内部数据，而同时，亚马逊的员工和整个行业的其他技术工作者已经开始使用ChatGPT辅助编程工具。除亚马逊外，诸如摩根大通和威瑞森通信等公司同样担心ChatGPT存在数据泄露的风险，它们认为员工在ChatGPT中输入客户信息或源代码的所有权，这个情况十分令人担忧。

随着ChatGPT越来越多地应用于社交媒体、电子邮件和其他领域，它的滥用问题也日益凸显。滥用者使用ChatGPT生成伪造信息和网站，欺骗人们提供隐私信息，如登录凭证、个人身份信息和信用卡信息等，导致个人隐私泄露，甚至给用户的人身和财产带来危害。

无独有偶，美国网络安全公司Vade于2023年2月9日发布了一项令人担忧的报告——《2022年第四季度网络钓鱼和恶意软件报告》（Q4 2022 global phishing test reports），图6.6展示了ChatGPT面市前后网络钓鱼邮件数量变化的情况。我们可以看到，在OpenAI推出ChatGPT后，钓鱼邮件大幅增加，总数超过1.69亿封，环比增长260%。

欧洲数据保护委员会（EDPB）专家支持库成员亚历山大·汉夫（Alexander Hanff）曾警告说：“如果OpenAI通过互联网搜索获得训练数据，那就是非法的。”随着ChatGPT在社会中的日益普及，保护用户信息的安全尤为重要，这就需要技术和法律的双重保护。

• 技术方面，OpenAI可以开发更加先进的算法和模型，以便ChatGPT能够更准确地检测和过滤不良信息，从而减少滥用。此外，OpenAI还可以与社交媒体和其他平台合作，加强对用户信息的保护，建立更加安全的网络环境。为了降低数据泄露的风险，至关重要的是谨慎选择训练数据集，使用正则化和交叉验证等技术来降低过度拟合，或是采用差分隐私和模型提取等技术来保护模型免受攻击。此外，要使用广泛的测试数据进行彻底的评估，并对训练数据和模型中的任何已知偏差保持透明。

• 法律方面，各国政府需要制定更加严格的法律法规，以打击和禁止滥用ChatGPT的行为，确保公众利益不受侵害。同时，监管机构需要加强对ChatGPT的监管，确保其合法使用。最重要的是，人们需要意识到ChatGPT的潜在风险，谨慎使用，以保护自己的信息安全。

本文摘自《ChatGPT——智能对话开创新时代》，澎湃新闻经出版方授权刊载，原章节题目为《信息安全风险》，现标题为编者所拟。