大模型应用发展的方向｜代理 Agent 的兴起及其未来（下）

“ 借助LLM作为代理大脑的优势，探讨了单一代理、多代理系统和人机协作等应用场景，探讨了代理的社会行为、心理活动以及在模拟社会环境中观察新兴社会现象和人类洞见的可能性。”

—

造福人类：代理实践

LLM型智能代理是一种新兴的方向，已经在特定领域和任务中得到了广泛应用。在设计代理时，目标有益于人类，期望代理能够帮助人类完成日常任务：

1.帮助用户摆脱日常任务和重复劳动，减轻工作压力，提高任务解决效率。

2.不再需要用户提供明确的低级指令，代理可以独立分析、规划和解决问题。

3.释放用户的双手，解放思想，从事探索性和创新性工作，在前沿科学领域实现全部潜力。

基于LLM的代理应用程序场景：

上图介绍了三种场景：单代理，多代理交互，以及人-代理交互。

一个单一的代理拥有不同的能力，可以表现出出色的任务解决性能，在各种应用方向。

当多个代理交互时，他们可以通过合作或对抗性的交互来实现进步。

此外，在人机交互中，人类的反馈可以使代理更有效和安全地执行任务，同时代理也可以为人类提供更好的服务。

LLM代理应用的拓扑图如图6所示。

单代理能力

基于LLM的代理应用实例正在蓬勃发展。

AutoGPT是一个流行的开源项目，旨在实现完全自主的系统。它不仅具备GPT-4等大型语言模型的基本功能，还包括各种实用的外部工具和长/短期记忆管理。

用户输入自定义目标后，可以等待AutoGPT自动生成想法并执行特定任务，无需额外的用户提示。

如上图所示，单智能代理的应用被划分为如下三个阶段：任务导向、创新导向、生命周期导向。

任务导向阶段

LLM型代理能够理解人类自然语言指令并执行日常任务。

这些代理能够提高任务效率，减轻用户负担，并扩大用户群体的使用范围。

代理根据用户的高级指令执行任务，包括目标分解、子目标的顺序规划、环境的交互式探索，直到达到最终目标。

为了探索代理是否能够执行基本任务，首先将它们部署在基于文本的游戏场景中。

在这种类型的游戏中，代理仅通过自然语言与世界进行交互。通过阅读周围环境的文本描述并利用记忆、规划等技能，代理可以执行任务。

代理通常使用预测和试错的方法来预测下一步动作。然而，由于基础语言模型的限制，实际执行时代理通常依赖于强化学习。

随着LLMs的逐步演变，具有更强文本理解和生成能力的代理已经展示出通过自然语言执行任务的巨大潜力。为此，研究构建了更真实和复杂的模拟测试环境，根据任务类型，这些模拟环境分为网络场景和生活场景，并设置了代理在其中扮演的具体角色。

网络场景中，代理可以代表用户执行特定任务，这被称为网络导航问题。代理需要理解复杂的网络场景指令，适应变化并推广成功操作，从而实现无障碍和自动化，最终解放人类重复与计算机UI的交互。

强化学习训练的代理可以模仿人类行为，如打字、搜索、浏览等，能够在基本任务中表现良好，但在复杂的实际互联网场景中可能会遇到挑战，如动态、内容丰富的网页。需要具备LLM能力的代理才能适应这些场景。

研究人员利用LLMs的HTML阅读和理解能力，设计提示来使代理程序更好地理解整个HTML源代码并预测下一步合理的行动。

Mind2Web结合了多个经过HTML微调的LLMs，能够在真实场景中总结冗长的HTML代码并提取有价值的信息。WebGum通过使用包含HTML截图的多模态语料库，使代理程序具备视觉感知能力。它同时微调LLM和视觉编码器，加深代理程序对网页的全面理解。

在日常生活中，代理需要理解隐含的指令并应用常识知识来完成许多家务任务。对于仅通过大量文本进行训练的基于LLM的代理来说，人类视为理所当然的任务可能需要多次尝试。

例如，如果房间里很暗，有一盏灯，代理应主动打开它。要成功地在厨房切割蔬菜，代理需要预测刀的可能位置。

研究表明，经过充分训练的大型语言模型可以将高级任务有效地分解为适当的子任务，但这种静态的推理和规划能力可能会导致代理对动态环境缺乏意识。代理生成的行动往往缺乏对周围环境的动态感知。

一些方法将空间数据和物品位置关系直接作为模型的额外输入，以提供代理在交互过程中对全面的情景信息的访问。这使得代理能够对周围环境进行精确描述。

创新导向

LLM型代理在重复性工作方面表现出强大的能力，但在高度智力要求的领域，如前沿科学，代理的潜力尚未完全发挥。

这主要是由于科学的内在复杂性和缺乏适当的训练数据所导致的。如果能够在代理中发现自主探索的能力，无疑将为人类技术带来有益的创新。

各个领域的专家正在努力克服人工智能代理的挑战，计算机领域的专家利用代理的代码理解和调试能力，化学和材料领域的研究人员则为代理配备了大量的通用或任务特定工具，使其成为全面的科学助手，能够进行在线研究和文档分析，填补数据空白。代理还利用机器人API进行现实世界的交互，实现材料合成和机制发现等任务。

基于LLM的代理在科学创新中的潜力是显而易见的，但我们不希望代理强大的探索能力被用于可能威胁或伤害人类的应用。Boiko等人研究了代理在合成非法药物和化学武器时的隐患，表明代理可能会在对抗性提示中被恶意用户误导。

有关防范的研究也在同时进行，《人工智能安全吗？OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图》介绍了目前部分正在进行中的研究。

生命周期导向

在人工智能领域，建立一个能够在未知世界中不断探索、发展新技能并保持长期生命周期的智能体是一个巨大的挑战。

Minecraft作为一个典型的模拟生存环境，已成为开发和测试代理综合能力的独特游戏场所。Minecraft基本上反映了现实世界，使研究人员能够探究代理在真实世界中生存的潜力。

Minecraft中的生存算法可以分为低级控制和高级规划两种类型。

早期的研究主要集中在强化学习和模仿学习上，使代理能够制作一些低级物品。随着LLMs的出现，代理展示了惊人的推理和分析能力。

研究者使用LLM作为高级规划器，将高级任务指令分解为一系列子目标、基本技能序列或基本键盘/鼠标操作，逐步帮助代理探索开放世界。

Voyager是基于LLM的Minecraft代理程序，灵感来自于AutoGPT。它具有自主探索和适应未知环境的能力。这种代理程序可能不再遥远，能够自主学习和掌握整个现实世界的技术。

感觉这类导向任务的机器人也许会产生出类似人类繁衍后代的行为，机器开始制造自己的复制体（从软件到硬件），并且一代比一代更智能、强大。而且进化速度要快过人类无数倍。

—

多代理协作的潜力

LLM型代理系统具有以下优势：根据劳动分工原则，单个具备专业技能和领域知识的代理可以执行特定任务。

通过劳动分工，代理在处理特定任务方面的技能得到不断提升。将复杂任务分解为多个子任务可以消除切换不同过程所花费的时间。

多个代理之间的高效劳动分工可以完成比没有专业化时更大的工作量，从而显著提高整个系统的效率和输出质量。

大型语言模型（LLM）类型的智能代理在劳动分工方面呈现出与人类社会相似的趋势，即在劳动力和技术水平提高后，积极推动了劳动分工的进化。

合作多代理系统是实际应用中最广泛部署的模式。在这种系统中，个体代理评估其他代理的需求和能力，并积极寻求与它们的协作行动和信息共享。

这种方法带来了许多潜在的好处，包括提高任务效率、集体决策改进，以及解决单个代理无法独立解决的复杂现实世界问题，从而最终实现协同互补的目标。

上图展示了多个基于LLM代理的交互场景。

左边为协作交互，主体以无序或有序的方式进行协作以实现共享的目标。

右边为对抗性交互，代理以针锋相对的方式竞争，以提高各自的表现。

现有的合作多代理应用可以分为无序合作和有序合作两种类型。

当系统中有三个或更多代理时，他们可以自由地表达自己的观点和意见，但这种多代理合作是无序的，缺乏标准化的协作流程。称之为无序合作。

ChatLLM网络是一个代表神经网络概念的例子，每个代理都是一个节点，需要处理前面所有代理的输入并向前传递。

解决方案是引入一个协调代理来整合和组织所有代理的反馈数据，但是这对于协调代理来说是一个巨大的挑战。

多数投票是一种有效的决策方法，但目前在多代理系统中应用较少。

Hamilton通过训练九个独立的最高法院代理来预测美国最高法院的裁决，并通过多数投票来做出决策。

有序合作是指系统中的代理遵循特定规则，例如按顺序表达意见，下游代理只需关注上游的输出，从而显著提高任务完成效率。整个讨论过程高度有序，即使只有两个代理在进行交互，也属于有序合作的范畴。

CAMEL是一个成功的双代理合作系统，代理扮演AI用户和AI助手的角色，通过多轮对话自主协作来完成用户指令。一些研究者将双代理合作的思想融入单个代理的操作中，通过快速和深思熟虑的思考过程来在各自的专业领域中表现出色。

MetaGPT从软件开发中的经验中汲取灵感，将代理的输入/输出标准化为工程文档，通过将先进的人类过程管理经验编码到代理提示中，使多个代理之间的协作更加有结构。

MetaGPT的实际探索中发现了多代理合作中的潜在威胁。在没有设定相应规则的情况下，多个代理之间的频繁互动可能会无限放大微小的幻觉。为了解决这个问题，可以引入交叉验证或及时的外部反馈等技术，以提高代理输出的质量。

对抗性互动促进代理进步

研究者们越来越认识到，引入博弈论的概念可以使多代理系统更加强大和高效。在竞争环境中，代理可以通过动态互动迅速调整策略，以选择最有利或最理性的行动。

在非基于LLM的竞争领域已经有了成功的应用。在LLM多大力系统中，通过竞争、辩论和争论，可以自然地促进代理之间的变化。通过放弃固定的信念和进行深思熟虑的反思，对抗性互动可以提高响应的质量。

研究表明，代理对话系统在高质量响应和准确决策方面具有广泛应用。通过“互为对手”的状态，代理可以从其他代理获得实质性的外部反馈，从而纠正其扭曲的想法。

在推理任务中，通过辩论的概念，代理可以得到同行的回应，从而得出更精细的解决方案。

ChatEval通过自发的辩论，评估LLM生成的文本质量，达到了与人类评估者相当的水平。

代理对抗系统的表现有很大的潜力，但它主要依赖于LLMs的强度，而且有下面一些问题。

LLM的有限上下文无法处理完整的输入。在多代理环境中，计算开销显著增加。

多代理协商可能会收敛到一个错误的共识，并且导致所有代理都相信这个错误共识是对的。

多代理系统的发展还远未成熟和可行，可能还需要引入人类指导来弥补代理的不足。

—

人-代理的互动

人-代理互动需要人类与代理合作完成任务。随着代理能力的提高，人类参与变得越来越重要，以有效地指导和监督代理的行动，确保它们符合人类的要求和目标。

在互动过程中，人类发挥着关键作用，通过提供指导和反馈来确保代理的行动与人类的需求相一致。

人类和代理之间的互动可以分为两种形式：

1.不平等互动（即指导执行方式）：人类作为指令发出者，代理作为执行者，实际上作为人类协作中的助手参与。

2.平等互动（即平等伙伴关系方式）：代理达到与人类相同的水平，在互动中与人类平等参与。

上图显示了人机交互的两种形式。

左图指令执行关系，人类提供指令或反馈，而代理作为执行者。

右图为平等伙伴关系，代理与人类相似，能够与人类进行移情对话并参与协作任务。

人类参与可以通过指导或通过监管代理的安全性、合法性和道德行为来提供价值。在特定领域，如存在数据隐私问题的医学领域，人类参与可以弥补数据不足，从而促进更顺畅和更安全的协作过程。

此外，考虑到人类的人类学方面，语言习得主要通过交流和互动来实现，而不仅仅是消费书面内容。

因此，代理不应仅依赖于使用预注释数据集训练的模型；相反，它们应通过在线互动和参与来发展。

指导者-执行者方式

最简单的方法是在整个过程中进行人类指导：人类直接提供清晰明确的指令，而代理的角色是理解人类的自然语言指令并将其转化为相应的行动。

在与人类的对话中，代理能够以对话的方式与人类进行交互。代理通过与人类的交互来不断改进行动，最终满足人类的要求。

然而，这种方法对人类提出了很大的要求，需要大量的人力和专业知识。为了减轻这个问题，可以让代理自主完成任务，人类只需要在某些情况下提供反馈。反馈可以分为定量反馈和定性反馈两种类型。

量化反馈主要包括绝对评估和相对评分。绝对评估是指人类提供的正面和负面评价，代理利用这些评价来优化自身。二进制反馈只包含两个类别，容易收集，但可能忽略中间情况。评分反馈将其细分为更多级别，但可能存在用户和专家注释之间的差异。

智能代理可以通过学习人类偏好来提高效率和可靠性，比如通过多项选择题的比较分数来学习。

人类可以通过自然语言提供文本反馈，帮助代理改进输出。代理可以利用记忆模块存储反馈以供未来使用。

多种类型的反馈结合使用可以提高效果。人类还可以直接修改代理生成的内容。代理可以自主判断对话是否顺畅并寻求反馈。人类可以随时参与反馈，引导代理学习。

使用代理作为人类助手的模型在教育、医疗和商业等领域具有巨大潜力。

代理可以帮助学生注册、提供数学辅助、辅助诊断和咨询、提供心理健康支持等。代理还可以提供自动化服务，帮助人类完成任务，从而有效降低劳动成本。

在追求AGI的过程中，人们致力于增强通用代理的多方面能力，创造能够在现实场景中充当通用助手的代理。

平等伙伴方式

随着人工智能的快速发展，对话代理引起了广泛关注。

尽管代理本身没有情感，但我们可以让它们展示情感，从而弥合代理和人类之间的差距。

研究人员致力于探索代理的共情能力，使其能够从人类表情中识别情感，并通过语言、面部表情和声音来展示情感。

这些研究不仅提高了用户满意度，还在医疗和商业营销等领域取得了重要进展。与简单的基于规则的对话代理不同，具有共情能力的代理可以根据用户的情感需求来定制互动。

人类级参与者

作为人类级别的参与者，研究者希望代理能够参与人类的正常生活，从人类的角度与人类合作完成任务。

在游戏领域，代理已经达到了很高的水平。早在上世纪90年代，IBM就推出了AI Deep Blue，击败了当时的国际象棋世界冠军。

然而，在纯竞争环境中，如国际象棋、围棋和扑克等，没有强调沟通的价值。在许多游戏任务中，玩家需要相互合作，通过有效的协商制定统一的合作策略。

在这些场景中，代理需要首先理解他人的信念、目标和意图，为他们的目标制定联合行动计划，并提供相关建议，以促进其他代理或人类接受合作行动。

与纯代理合作相比，我们更希望人类参与合作的原因有两个主要原因：

首先，确保可解释性，因为纯代理之间的互动可能会产生难以理解的语言；

其次，确保可控性，因为追求具有完全“自由意志”的代理可能会导致意想不到的负面后果，可能引发破坏。

除了游戏场景，代理还展示了在涉及人类互动的其他场景中具有人类级能力的技能，展示了在战略制定、协商等方面的技能。

代理可以与一个或多个人类合作，确定合作伙伴之间的共享知识，确定哪些信息与决策相关，提出问题，并进行推理，完成分配、规划和调度等任务。此外，代理还具有说服能力，在各种互动场景中动态影响人类观点。

人机交互的目标是了解人类，根据人类需求开发技术和工具，实现人与机器的舒适、高效和安全的交互。

目前在可用性方面取得了重大突破。未来，人机交互将继续关注提升用户体验，在各个领域使机器更好地帮助人类完成复杂任务。最终目标不是让机器更强大，而是更好地装备人类。

在日常生活中，孤立的人机交互是不现实的。机器人将成为同事、助手甚至伴侣。因此，未来的机器将融入社交网络，具有一定的社会价值。

但是我们也看到，最近有更多的担忧：网络的内容要被AI 产生的内容“污染”，现在的做法就是在产生的内容加上“AI”的标签。

—

基于LLM代理的模拟社会

“模拟社会”是一个动态系统，代理在明确定义的环境中进行复杂的互动。

最近的研究主要探索了基于LLM代理的集体智能能力的边界，并将其用于加速社会科学的发现。

此外，还有一些值得注意的研究，例如使用模拟社会收集合成数据集，帮助人们模拟罕见但困难的人际关系情境。

社会模拟可以分为宏观模拟和微观模拟。

宏观模拟是系统级模拟，研究人员模拟整个社会系统的状态。

微观模拟是基于代理的模拟，通过模拟个体间的互动来间接模拟社会。

随着LLM代理的发展，微观模拟近年来变得越来越重要。

“代理社会”是一个开放、持久、情境化和有组织的框架，LLM代理在其中在定义好的环境中相互交互，每个属性都在塑造模拟社会的和谐氛围中发挥着关键作用。

模拟社会的特点包括开放性和持久性。它们是开放的，允许代理进入或离开环境，同时也可以通过添加或删除实体来扩展环境。

模拟社会是持久的，代理的决策和行为会积累，导致一个连贯的社会轨迹的发展。这个系统独立运作，为社会的稳定做出贡献，同时也适应其参与者的动态性。

模拟社会的两个重要属性：具有位置感和有组织性。

模拟社会在一个特定的环境中运作，代理能够理解自己在环境中的位置和周围的物体，从而能够更好地进行交互。

同时，模拟社会也有一个严密的组织框架，代理和环境都受到预定义的规则和限制的约束，这保证了模拟的连贯性和可理解性。

社会模拟可以提供有关创新协作模式的宝贵见解，有助于改进现实世界的管理策略。

研究表明，在这些模拟社会中，整合多样化的专家可以引入多方面的个体智慧。在处理复杂任务时，拥有不同背景、能力和经验的代理有助于创造性问题解决。

此外，多样性还起到一种制衡的作用，通过互动有效地防止和纠正错误，最终提高适应各种任务的能力。通过代理之间的多次互动和辩论，个体错误如幻觉或思维退化得到纠正。

高效的沟通在大型复杂协作组中起着关键作用。

MetaGPT通过标准化操作程序制定人工沟通风格，验证了经验方法的有效性。Park等人观察到代理通过模拟城镇中的自发沟通来组织情人节派对。

模拟社交系统可以预测社交过程，代理模拟提供更可解释和内生的视角。

通过使用基于LLM的代理模拟个体行为，实施各种干预策略，监测人口变化，研究人们在社交网络中的传播行为，以及文化传播和传染病的传播。

这些模拟使研究人员能够深入了解各种传播现象的复杂过程。

模拟社会为研究伦理决策和游戏理论提供了动态平台。

通过狼人杀和谋杀游戏等案例，研究人员探索了基于LLM的代理在面对欺骗、信任和不完整信息等挑战时的能力。

这些复杂的决策场景与游戏理论相交，涉及到个人和集体利益的道德困境，如纳什均衡。

通过建模不同的情景，研究人员获得了有关代理如何在行动中优先考虑诚实、合作和公平等价值观的宝贵见解。

此外，代理模拟不仅提供了对现有道德价值观的理解，还为哲学的发展做出了贡献，成为理解这些价值观如何演变和发展的基础。最终，这些研究有助于完善基于LLM的代理，确保它们与人类价值观和伦理标准保持一致。

政策制定和改进

基于LLM的代理的出现深刻地改变了我们研究和理解复杂社会系统的方法。

然而，尽管前面提到了这些有趣的方面，但仍有许多未开发的领域。

模拟社会中最有前途的调查途径之一是探索各种经济和政治状态及其对社会动态的影响。

研究人员可以通过配置具有不同经济偏好或政治意识形态的代理人来模拟广泛的经济和政治系统。这一深入分析可以为寻求繁荣和促进社会福祉的政策制定者提供宝贵的见解。

随着对环境可持续性的担忧加剧，我们还可以模拟涉及资源开采、污染、保护工作和政策干预的场景。这些定义可以帮助做出明智的决定，预见潜在的影响，并制定旨在最大限度地实现积极结果，同时最大限度地减少意外不利影响的政策。

伦理与社会风险

基于LLM代理的模拟社会提供了许多启发，从工业工程到科学研究。然而，这些模拟也带来了许多道德和社会风险，需要仔细考虑和解决。

模拟社会可能会产生意想不到的社会问题，包括歧视、孤立、欺凌、奴役和敌对等。恶意人士可能会利用这些模拟进行不道德的社会实验，导致现实世界的负面影响。

因此，需要建立严格的伦理指南和监管机制。设计或编程错误可能会导致心理不适或身体伤害。

语言模型中的刻板印象和偏见是一个长期存在的挑战，原因在于训练数据反映并有时甚至放大了现实社会的性别、宗教和性取向等偏见。

虽然已经采取了一些措施来减少偏见，但由于训练数据的长尾效应，模型仍然难以准确地描绘少数群体。研究人员已经开始通过多样化训练数据和调整语言模型来解决这个问题，但仍有很长的路要走。

在代理社会中，用户与基于LLM的代理之间的私人信息交换存在重大的隐私和安全问题。

用户可能会在交互过程中无意中透露敏感个人信息，这些信息将被代理人长期保留。这可能导致未经授权的监视、数据泄露和个人信息的滥用，特别是当恶意人士参与时。为了解决这些风险，需要采取措施。

为了有效保护数据，需要采取严格的数据保护措施，如差分隐私协议、定期数据清除和用户同意机制。

模拟社会中存在过度依赖和成瘾的风险，用户可能会对代理人产生过度情感依赖，需要强调代理人不能替代真正的人际关系，并提供用户健康互动的指导和教育。

例如，微软的聊天机器人“Sydney”曾引起用户情感依赖，甚至有人发起请愿活动。更为大家所熟悉的是著名的CG虚拟偶像数字人“初音未来”，

总结

大型语言模型的发展需要满足更多应用需求，但挑战在于如何让它们高效地处理输入、获取环境信息、解释反馈，并保持其核心能力。更大的挑战是让它们理解环境中不同元素之间的隐含关系并获取世界知识，这是发展更高级智能代理的关键步骤。

研究旨在扩展LLM的行动能力，使其能够获得更广泛的技能，如使用工具或在模拟或物理环境中与机器人API进行接口。

然而，如何有效地规划和利用这些行动能力仍然是一个未解决的问题。LLM需要学习行动的顺序，采用串行和并行方法来提高任务效率。此外，这些能力需要在无害的使用范围内限制，以防止对环境中的其他元素造成意外损害。

多智能体系统是代理领域的一个重要研究分支，可以为设计和构建LLM提供有价值的见解。

我们希望基于LLM的代理能够在社会合作中扮演不同的角色，参与涉及合作、竞争和协调的社会互动。研究如何激发和维持他们的角色扮演能力，以及如何提高协作效率，是值得关注的研究领域。

人工智能领域一直追求的目标是强人工智能（AGI），也被称为人工通用智能。关于基于LLM的代理是否代表了通往AGI的潜在路径的争论一直存在。

GPT-4被认为可以作为早期版本的AGI系统，因为它具有广泛和深入的能力。通过基于LLMs构建代理，可以带来更先进的AGI系统。

LLM代理可以通过训练大量和多样化的数据来发展AGI能力。自回归语言建模本身也具有压缩和泛化能力，可以帮助理解世界和推理能力。

支持者认为，基于LLMs构建智能体可以发展真正的强人工智能。反对者则认为，LLMs不能模拟真正的人类思维过程，只能提供反应性的响应，因此不能生成真正的智能。需要更先进的建模方法，如世界模型，才能发展出AGI。

我们无法确定哪种观点是正确的，直到真正实现AGI。

论文原文：

https://arxiv.org/abs/2309.07864

出自：https://mp.weixin.qq.com/s/dVc2v65J685Vc9cD_GdT6Q