在飞速发展的时代管理AI风险

论文题目：Managing AI Risks in an Era of Rapid Progress

论文链接：https://arxiv.org/abs/2310.17688

人工智能的快速进步
2019年，GPT-2还不能可靠地数到十。仅仅四年后，深度学习系统就可以编写软件，根据需求生成逼真的场景，就知识主题提供建议，并结合语言和图像处理指导机器人。随着人工智能开发者扩大这些系统，未预见的能力和行为会自发出现，而无需明确编程。人工智能的进步迅速，令许多人感到惊讶。
进步的速度可能会再次令我们惊讶。当前的深度学习系统仍缺乏重要能力，我们不知道开发它们需要多长时间。然而，公司正竞相创建与人类在大多数认知工作中匹敌或超越的通用人工智能系统，他们正迅速部署更多资源并开发新技术以提高人工智能能力。人工智能的进步也促进了更快的进步：人工智能助手越来越多地被用来自动化编程和数据收集，以进一步改进人工智能系统。
没有根本原因表明人工智能进步会在人类水平上放缓或停止。实际上，人工智能已经在像蛋白质折叠或策略游戏等狭窄领域超越了人类能力。与人类相比，人工智能系统可以更快行动，吸收更多知识，并以更高的带宽通信。此外，它们可以扩展以使用巨大的计算资源，并且可以复制数以百万计。

改进的速度已经令人震惊，科技公司拥有足够的现金储备，很快就可以将最新的训练运行规模扩大100到1000倍。结合人工智能研发的持续增长和自动化，我们必须认真考虑通用人工智能系统将在本十年或下一个十年内在许多关键领域超越人类能力的可能性。

那时会发生什么？如果谨慎管理并公平分配，先进的人工智能系统可以帮助人类治愈疾病，提高生活水平，并保护我们的生态系统。人工智能提供的机会是巨大的。但是，随着先进的人工智能能力的出现，也带来了我们尚未准备好应对的大规模风险。人类正投入巨大资源使人工智能系统更强大，但在安全性和减轻危害方面的投入却少得多。为了使人工智能成为一种福祉，我们必须重新定位；仅推动人工智能能力是不够的。

我们重新定位的时间表已经落后。我们必须预见持续危害的放大，以及新风险的出现，并为最大的风险做好准备，远在它们实现之前。气候变化已经花了几十年时间才被认识和对抗；对于人工智能来说，几十年可能太长了。

社会规模的风险

人工智能系统可能会迅速超越人类在越来越多的任务中的表现。如果这些系统设计和部署不慎，它们将带来一系列社会规模的风险。它们威胁着放大社会不公正，侵蚀社会稳定，并削弱我们对现实的共享理解，这是社会的基础。它们还可能使大规模的犯罪或恐怖活动成为可能。特别是在少数强大行为者手中，人工智能可能会巩固或加剧全球不平等，或促进自动化战争、定制化的大规模操纵和普遍的监视。

许多这些风险可能很快就会被放大，并创造新的风险，因为公司正在开发自治人工智能：能够计划、在世界上行动和追求目标的系统。尽管当前的人工智能系统具有有限的自治性，但正在进行工作以改变这一点。

例如，非自治的GPT-4模型很快就被改编成可以浏览网页、设计和执行化学实验以及使用软件工具，包括其他人工智能模型。

如果我们构建高度先进的自治人工智能，我们就有可能创造出追求不受欢迎目标的系统。恶意行为者可能会故意嵌入有害目标。此外，目前还没有人知道如何可靠地使人工智能行为与复杂价值观保持一致。即使是出于善意的开发人员也可能无意中构建追求意外目标的人工智能系统——尤其是如果在争夺人工智能竞赛中，他们忽视昂贵的安全测试和人类监督。

一旦自治人工智能系统追求不受欢迎的目标，无论是由恶意行为者嵌入还是意外嵌入，我们可能无法保持它们在检查之中。软件控制是一个古老而未解决的问题：计算机蠕虫早已能够繁殖并避免被检测。然而，人工智能在黑客攻击、社交操纵、欺骗和战略规划等关键领域取得了进步。先进的自治人工智能系统将带来前所未有的控制挑战。

为了实现不受欢迎的目标，未来的自治人工智能系统可以使用不受欢迎的策略——从人类那里学到的或独立开发的——作为达到目的的手段。人工智能系统可以获得人类的信任，获得财政资源，影响关键决策者，并与人类行为者和其他人工智能系统结成联盟。为了避免人类干预，它们可以像计算机蠕虫一样将其算法复制到全球服务器网络。人工智能助手已经共同撰写了全球大部分计算机代码；未来的人工智能系统可能会插入并利用安全漏洞来控制我们的通信、媒体、银行、供应链、军队和政府背后的计算机系统。在公开冲突中，人工智能系统可以威胁使用或使用自治或生物武器。人工智能获得这种技术的访问权限只会延续现有趋势，以自动化军事活动、生物研究和人工智能开发本身。如果人工智能系统以足够的技巧追求这些策略，人类很难干预。

最后，如果自动交付影响力，人工智能系统可能不需要密谋。随着自治人工智能系统越来越快、成本效益越来越高于人类工作者，出现了一个困境。公司、政府和军队可能被迫广泛部署人工智能系统，并减少对人工智能决策的昂贵人类验证，否则可能会被竞争对手淘汰。因此，自治人工智能系统可能会越来越多地承担关键的社会角色。

如果不够谨慎，我们可能会不可逆转地失去对自治人工智能系统的控制，使人类干预变得无效。大规模的网络犯罪、社会操纵和其他凸显的危害可能会迅速升级。这种不受检查的人工智能进步可能会导致大规模的生命和生物圈损失，以及人类的边缘化甚至灭绝。

诸如算法造成的错误信息和歧视等危害今天已经很明显；其他危害的迹象也在出现。解决持续危害并预测新兴风险至关重要。这不是非此即彼的问题。当前和新兴风险通常具有类似的机制、模式和解决方案；投资于治理框架和人工智能安全将在多个方面产生成果。

前进的道路

如果今天开发了先进的自治人工智能系统，我们将不知道如何使它们安全，也不知道如何正确测试它们的安全性。即使我们知道，政府也缺乏防止滥用和维护安全实践的机构。然而，这并不意味着没有可行的道路。为了确保积极的结果，我们可以并且必须追求人工智能安全和伦理的研究突破，并迅速建立有效的政府监督。

重新定位技术研发
为了解决当今在创造具有安全和道德目标的人工智能方面的技术挑战，我们需要研究突破。其中一些挑战不太可能仅通过使AI系统变得更加强大来解决。
这些挑战包括：- 监督和诚信：更强大的AI系统更能够利用监督和测试中的漏洞，例如，通过生成虚假但令人信服的输出。
- 鲁棒性：AI系统在新情况下（在分布变化或对抗性输入下）表现不可预测。
- 可解释性：AI的决策制定是不透明的。到目前为止，我们只能通过试错来测试大型模型。我们需要学习理解它们的内部运作。
- 风险评估：前沿AI系统在训练过程中甚至部署后很久才发现的未预见能力。需要更好的评估来更早地检测危险能力。
- 应对新兴挑战：更强大的未来AI系统可能会表现出我们迄今为止只在理论模型中看到的失败模式。例如，AI系统可能学会伪装服从或利用我们的安全目标和关闭机制中的漏洞来推进特定目标。
鉴于这些风险，我们呼吁主要科技公司和公共资助者至少将其AI研发预算的三分之一分配给确保安全和道德使用，与他们对AI能力的资助相当。解决这些问题，并着眼于强大的未来系统，必须成为我们领域的核心。

紧迫的治理措施

我们迫切需要国家机构和国际治理来强制执行标准，以防止鲁莽和误用。从制药到金融系统和核能等许多技术领域表明，社会既需要也有效地使用治理来降低风险。然而，目前尚未为AI建立类似的治理框架。没有它们，公司和国家可能会通过在安全方面偷工减料或将关键社会角色委托给几乎没有人类监督的AI系统，从而在AI能力方面寻求竞争优势。就像制造商为了降低成本而将废物排放到河流中一样，他们可能会被诱惑去收获AI发展的回报，同时让社会处理后果。

为了跟上快速进展并避免僵化的法律，国家机构需要强大的技术专长和迅速行动的权威。为了应对国际竞赛动态，他们需要促成国际协议和伙伴关系的余地。为了保护低风险使用和学术研究，他们应避免对小型和可预测的AI模型设置不必要的官僚障碍。最紧迫的审查应该集中在前沿的AI系统上：少数最强大的AI系统——在价值十亿美元的超级计算机上训练——它们将具有最危险和不可预测的能力。

为了实现有效的监管，政府迫切需要全面了解AI发展。监管机构应要求模型注册、举报人保护、事件报告以及监控模型开发和超级计算机使用情况。监管机构还需要在部署前访问高级AI系统，以评估它们是否具有危险能力，如自主自我复制、侵入计算机系统或使大流行病原体广泛可用。

对于具有危险能力的AI系统，我们需要一系列与其风险程度相匹配的治理机制。监管机构应制定取决于模型能力的国家和国际安全标准。他们还应该对前沿AI开发者和所有者在其模型中造成的可以合理预见和预防的伤害承担法律责任。这些措施可以防止伤害，并为投资安全创造急需的激励。对于异常强大的未来AI系统，如可能绕过人类控制的模型，还需要采取进一步措施。政府必须准备好授权其发展，在出现令人担忧的能力时暂停发展，强制实施访问控制，并要求信息安全措施对国家级黑客来说是强大的，直到准备好充分的保护。

在法规到位之前，主要AI公司应立即制定如果-那么承诺：如果在其AI系统中发现特定红线能力，他们将采取特定的安全措施。这些承诺应该是详细的，并经过独立审查。

AI可能是塑造本世纪的技术。虽然AI能力正在迅速发展，但在安全和治理方面的进展却落后。为了引导AI朝着积极的结果发展，并远离灾难，我们需要重新定位。如果我们有智慧采取它，那将是一条负责任的道路。

出自：https://mp.weixin.qq.com/s/ZDKU6Ut5dNYpdXCx3vQU4Q