大模型应用发展的方向｜代理 Agent 的兴起及其未来（上）

“ 介绍了人工智能代理的历史渊源与演进，接着探讨了大型语言模型（LLMs）的发展，以及它们在知识获取、指令理解、泛化、规划和推理等方面所展现出的强大潜力。在此基础上，提出了一个以大型语言模型为核心的智能代理概念框架，该框架包括大脑、感知和行动这三个主要组成部分。”

—

长期以来人工智能领域一直追求与人类水平相当甚至超越人类的人工智能（AI），AI 代理（Agent）被认为是实现这一追求的有希望的工具。AI代理是能感知环境、做出决策和采取行动的人工实体。

人们一直在努力开发智能的AI代理，然而，这些努力主要集中在算法或训练策略的进步上，以增强特定能力或在特定任务上的表现，例如我们曾经熟悉的图像识别、人脸识别、多种语言翻译等等。

在大模型出现前，一直缺乏一个足够通用和强大的模型，作为能够适应各种情景的AI代理的起点。大模型的代表ChatGPT面世后，由于它展示出的多功能和卓越能力，大型语言模型（LLMs）被视为人工通用智能（AGI）的里程碑，为构建通用AI代理提供了希望。许多研究工作利用LLMs作为构建AI代理的基础，并取得了重要进展。

在此基础上，人们提出了一个基于LLM的代理的概念框架，包括三个主要组成部分：大脑、感知和行动，该框架可以根据不同的应用进行定制。

—

“If they find a parrot who could answer to everything, I would claim it to be anintelligent being without hesitation.” — Denis Diderot, 1875

“如果有一只能回答所有问题的鹦鹉，我会毫不犹豫地认为它是一个智能生物。” — 丹尼·狄德罗, 1875

人工智能是一个致力于设计和开发能够模拟人类智能和能力的系统的领域。

早在18世纪，哲学家Denis Diderot提出了一个观点，即如果一只鹦鹉能够回答每一个问题，那么它可以被认为是智能的。这个观点强调了高度智能的生物可能与人类智能相似的概念。

随后 Alan Turing（艾伦·麦席森·图灵）写于1950年的一篇论文《计算机器与智能》中将这个观点扩展到了人工实体，并提出了著名的图灵测试（The Turing test）。

这个测试是人工智能的基石，旨在探索机器是否能够展示与人类相媲美的智能行为。

在人工智能中，这些实体通常被称为"代理/Agent"，是人工智能系统的基本构建模块。代理是一种人工实体，能够通过传感器感知周围环境，做出决策，并通过执行器采取相应的行动。

“代理（Agent）” 概念起源于哲学，描述具有欲望、信念、意图和行动能力的实体。

随着人工智能的发展，代理成为了AI研究中的重要概念，代表着具有智能行为和自主性、反应性、积极性和社交能力等特质的实体。

AI代理是实现人工通用智能的关键步骤之一，具有广泛的智能活动潜力。

过去的智能AI代理研究主要集中在提高特定能力和掌握特定任务上，缺乏广泛适应不同场景的能力。此外，以往的研究更注重算法和训练策略的设计，而忽视了模型固有的一些通用能力的发展。

因此，需要一个具有知识记忆、长期规划、有效泛化和高效交互等关键属性的强大基础模型，作为代理系统的起点。

大型语言模型（LLMs）的发展为进一步发展智能代理带来了希望。LLMs在知识获取、指令理解、泛化、规划和推理方面展示了强大的能力，并能与人类进行有效的自然语言交互。

将LLMs提升为智能代理，并赋予它们扩展的感知空间和行动空间，有可能实现更复杂的任务，并观察到新兴的社会现象。

将来，我们可能会面对一个由人工智能代理和人类组成的和谐社会。

—

基于LLM的代理

受代理定义的启发，人们提出了一个基于LLM的智能代理的通用概念框架，这个框架包括大型语言模型的“大脑”、感知模块和行动模块。

大脑是AI代理的核心，存储重要的记忆、信息和知识，并承担信息处理、决策、推理和规划等重要任务。

感知模块扩展了代理的感知空间，从文本到多模态空间，包括声音、视觉、触觉、嗅觉等多种感官模式。

行动模块扩展了代理的行动空间，包括文本输出、实体行动和使用工具等，使其能更好地响应环境变化、提供反馈并改变和塑造环境。

语言模型的进步使得人工智能意图代理的出现更有前景。虽然语言模型只是条件概率模型，但有些研究者认为它们可以在一定程度上模拟代理的信念、欲望和意图。

也有研究者认为当前的语言模型范式与代理的意图行为不兼容。

在人工智能领域，代理是指计算实体，而不是哲学上的人、动物或概念。

AI研究者暂时将代理是否“真正”思考或拥有“意识”等问题搁置，而是通过描述代理人的其他属性来定义，如自主性、反应性、主动性和社交能力。

AI代理是哲学代理人在AI领域的具体化，能够通过传感器感知环境、做出决策并通过执行器采取行动。

AI代理的发展阶段

Symbolic Agents 符号代理

早期人工智能研究主要采用符号AI方法，依赖于符号逻辑来实现知识的表示和推理。这种方法构建的AI代理模拟人类的思维模式，具有明确和可解释的推理能力。主要关注解决转导问题和表示/推理问题。

符号代理是一种基于符号逻辑的方法，具有高度的表达能力。

知识型专家系统是这种方法的经典例子。然而，符号化代理在处理不确定性和大规模实际问题方面存在局限性。

此外，由于符号推理算法的复杂性，很难找到一种能够在有限时间内产生有意义结果的高效算法。

Reactive agents 反应式代理

反应式代理与符号代理不同，它们不使用复杂的符号推理，而是主要关注代理与环境的交互，强调快速实时响应。

这些代理主要基于感知-行动循环，高效地感知和响应环境。这种代理的设计优先考虑直接的输入输出映射，而不是复杂的推理和符号操作。

然而，反应式代理也有局限性，它们通常需要较少的计算资源，能够更快地响应，但可能缺乏复杂的高级决策和规划能力。

Reinforcement learning-based agents 强化学习代理

强化学习是一种训练智能体解决复杂任务的方法，通过与环境的交互来实现最大化累积奖励。

最初的强化学习方法主要基于策略搜索和价值函数优化，随着深度学习的兴起，深度强化学习应运而生，使智能体能够从高维输入中学习复杂的策略。

然而，强化学习在实际应用中仍面临着训练时间长、样本效率低和稳定性问题等挑战。

传统上，训练强化学习代理需要大量的样本和长时间的训练，且缺乏泛化能力。为了加快代理在新任务上的学习，研究人员引入了迁移学习。

迁移学习减轻了在新任务上的训练负担，促进了知识在不同任务之间的共享和迁移，从而提高了学习效率、性能和泛化能力。

此外，元学习也被引入到AI代理中。元学习专注于学习如何学习，使代理能够从少量样本中迅速推断出新任务的最优策略。当面临新任务时，这样的代理可以通过利用已获得的通用知识和策略来快速调整其学习方法，从而减少对大量样本的依赖。

然而，当源任务和目标任务之间存在显著差异时，迁移学习的有效性可能不如预期，并且可能存在负迁移。

此外，元学习需要大量的预训练和大样本量，使得建立一个通用的学习策略变得困难。

Large language model-based agents 大模型代理

研究人员开始利用大型语言模型构建AI代理人，将LLMs作为这些代理人的主要组成部分，并通过多模态感知和工具利用等策略扩展它们的感知和行动空间。

这些基于LLM的代理可以通过链式思维和问题分解等技术展示与符号代理相媲美的推理和规划能力。它们还可以通过学习反馈和执行新动作来获得与环境的互动能力，类似于反应式代理。

类似地，大型语言模型经过大规模语料库的预训练，展示了少样本和零样本泛化的能力，可以在任务之间无缝转移而无需更新参数。LLM-based代理已经应用于各种实际场景。

多智能体系统可以在软件开发和科学研究等领域中协同工作，通过自然语言理解和生成能力实现无缝交互，从而产生合作和竞争。

—

为什么LLMs非常适合作为AI智能体的主要部分

自主性是指代理人在没有人类或其他人的直接干预下运作，并对其行动和内部状态具有一定的控制能力。

LLM可以通过生成类似人类的文本、参与对话和执行各种任务来展示一种形式的自主性。此外，它们可以根据环境输入动态调整输出，体现一定程度的自适应自主性。

它们还可以展示创造力，如提出新颖的想法、故事或解决方案，这些都没有被明确编程进去。

LLM在构建自主代理人方面具有巨大潜力，例如Auto-GPT。通过提供任务和一组可用工具，它们可以自主制定计划并执行以实现最终目标。

研究表明，通过多模态融合技术和具体化技术，可以扩展语言模型的感知和行动空间，使其能够有效地与现实世界进行交互和执行任务。

然而，当执行非文本动作时，需要进行中间步骤的文本生成，这会消耗时间并降低响应速度。但这与人类行为模式密切相关，符合“先思考再行动”的原则。

大型语言模型具有主动性，能够通过主动采取行动来实现特定目标或适应环境变化。它们具有推理、规划和调整计划的能力，可以进行逻辑和数学推理，并在任务分解、目标重构和环境变化时调整计划。

虽然它们可能没有意图或欲望，但研究表明它们可以隐含地生成这些状态的表示，并指导模型的推理过程。

社交能力是指代理通过某种代理通信语言与其他代理（包括人类）互动的能力。

大型语言模型展现了强大的自然语言交互能力，这种能力使它们能够以可解释的方式与其他模型或人类进行交互，这是基于LLM的代理社交能力的基石。许多研究人员已经证明，基于LLM的代理具有强大的社交能力。

代理可以通过协作和竞争等社交行为增强任务绩效。

通过输入特定提示，LLM可以扮演不同的角色，从而模拟现实世界中的社会分工。

当我们将具有不同身份的多个代理人放入一个社会中时，可以观察到新兴的社会现象。

代理包括感知模块、大脑模块和行动模块，类似于人类的感官系统、大脑和肢体。

感知模块感知外部环境的变化并将信息转化为可理解的表示形式。大脑模块作为控制中心进行信息处理，包括思考、决策和存储操作。行动模块执行操作并通过工具对环境产生影响。

通过不断重复这个过程，代理可以不断获得反馈并与环境互动。

人脑是一个复杂的结构，由大量相互连接的神经元组成，能够处理各种信息，产生不同的思维，控制不同的行为，甚至创造艺术和文化。

类似于人类，大脑是AI代理的中央核心，主要由一个大型语言模型组成。

为了有效沟通，自然语言交互能力至关重要。

大脑模块接收感知模块处理的信息后，首先进行存储、检索知识和回忆记忆。这些结果有助于代理人制定计划、推理和做出明智决策。

同时，大脑模块还可以将代理人的过去观察、思考和行动以摘要、向量或其他数据结构的形式记忆下来，并更新常识和领域知识以备将来使用。

LLM代理还可以通过内在的泛化和可转移性适应陌生情境。

LLM是一种自然语言理解和生成技术，使得智能代理能够进行多语言的基本交互对话，并展现深入的理解能力，从而更好地与人类合作。使用自然语言的LLM代理能够获得更多的信任和更有效的合作。

多轮交互对话是有效和一致沟通的基础，LLMs可以理解自然语言并生成连贯和相关的回应，帮助代理人更好地理解和处理各种问题。多轮对话需要理解对话历史、决定采取的行动和生成自然语言回应。LLM代理人能够不断优化输出，有效地进行多轮对话并实现最终目标。

最新的大型语言模型(LLMs)在自然语言生成方面表现出色，能够以多种语言生成高质量的文本。它们的连贯性和语法准确性不断提高，能够适应不同的文本风格和内容。

在对话场景中，LLMs表现出良好的对话质量，包括内容、相关性和适当性。同时，通过可控的提示，人类监督仍然有效，确保对这些语言模型生成的内容进行精确控制。

LLMs的出现突显了基础模型理解人类意图的潜力，但对于模糊指令或其他含义而言，对于代理人来说是一个重大挑战。

人类能够自然地理解对话中的暗示意义，而代理人需要将暗示意义形式化为奖励函数，以在未知情境中选择符合说话者偏好的选项。

奖励建模的主要方式之一是基于反馈推断奖励，这主要以比较形式呈现，以及自由自然语言。

另一种方式是通过描述恢复奖励，使用行动空间作为桥梁。人类行为可以映射到一个隐含选项集的选择，这有助于将所有信息解释为一个统一的形式。

通过利用对上下文的理解，代理可以采取高度个性化和准确的行动，以满足特定要求。

知识

NLP研究者试图利用大规模的非结构化和未标记的数据来提高语言模型的知识水平。语言模型可以学习自然语言中的各种知识，并且可以帮助LLM代理做出明智的决策。

这些知识可以大致分为以下三种知识类型：语言知识、常识知识和专业领域知识。

语言知识包括语法、语义和语用学，只有掌握语言知识的智能体才能理解句子和进行多轮对话。

常识知识是指人们通常在年幼时学到的一般世界知识，缺乏这种知识的模型可能会误解意图或做出错误决策。

专业领域知识是指与特定领域相关的知识，对于模型有效地解决特定领域问题至关重要。

LLMs在获取、存储和利用知识方面表现出色，但存在知识过时或错误、产生幻觉等问题。

解决方法包括重新训练和编辑模型，但仍需进一步研究。一些研究者提出了度量幻觉程度的方法，以评估LLMs输出的可信度。同时，一些研究者使LLMs利用外部工具避免错误。

记忆

我们的框架中的“记忆”存储了代理过去的观察、思考和行动的序列，这与Nuxoll等人提出的定义相似。

就像人脑依赖记忆系统来回顾以往的经验以制定策略和做出决策一样，代理需要特定的记忆机制来确保他们能够熟练处理一系列连续的任务。

当面临复杂问题时，记忆机制帮助代理有效地回顾和应用先前的策略。此外，这些记忆机制使个体能够通过借鉴过去的经验来适应陌生的环境。

基于大模型代理面临两个主要挑战：历史记录长度过长可能导致系统截断内容，同时提取相关记忆变得困难，可能导致回应与上下文不符。

下面是几种提高基于LLM的智能体记忆能力的方法。

提高Transformer的长度限制、通过总结记忆来提高效率、使用向量或数据结构来压缩记忆。这些策略包括文本截断、分段输入、强调关键部分、修改注意力机制等。

记忆总结方法包括使用提示、反思过程和分层方法。

压缩记忆的方法包括使用嵌入向量、三元组配置和SQL数据库。

记忆检索的方法包括考虑最近性、相关性和重要性三个指标，并通过加权组合这些指标来确定记忆的得分，从而选择最合适的记忆。

一些研究提出了交互式记忆对象的概念，它们是对话历史的表示，可以通过摘要进行移动、编辑、删除或组合。用户可以查看和操作这些对象，影响代理程序对对话的感知。

其他研究允许基于用户提供的特定命令进行删除等记忆操作。这些方法确保记忆内容与用户期望密切相关。

推理

推理是人类智力活动的基石，是解决问题、做决策和进行批判分析的基础。推理分为演绎、归纳和诱导三种形式。对于基于LLM的代理人来说，推理能力对于解决复杂任务至关重要。

关于大型语言模型的推理能力存在不同的学术观点。一些人认为语言模型在预训练或微调阶段就具备了推理能力，而另一些人认为它在达到一定规模后才会出现推理能力。

一些方法如Chain-of-Thought (CoT)可以引导大型语言模型在输出答案之前生成推理依据，从而展现其推理能力。

还有其他一些策略如自一致性、自我优化、自我完善和选择推理等也被提出来增强大型语言模型的性能。

一些研究表明，逐步推理的有效性可以归因于训练数据的局部统计结构，局部结构化的变量之间的依赖关系比训练所有变量更具数据效率。

规划

规划是人类面对复杂挑战时采用的关键策略，对于代理来说也是如此。

规划模块的核心是推理能力，它基于LLMs提供了结构化的思维过程，将复杂任务分解为可管理的子任务，并为每个子任务制定适当的计划。

此外，代理人可以通过内省来修改计划，确保它们与现实情况更加符合，从而实现适应性和成功的任务执行。

规划通常包括两个阶段：计划制定和计划反思。

在计划制定阶段，代理通常将一个总体任务分解成许多子任务，并采用不同的方法。

制定计划后，需要反思和评估其优点。代理利用内部反馈机制和人类的反馈来改进其策略和计划方法。

此外，他们还可以从任务完成或后续观察中获得反馈，帮助他们修订和完善计划。代理的计划方法可以通过与特定领域的规划器集成来提高性能。

人类大脑的非凡之处在于其高度的可塑性和适应性，可以根据外部刺激和内部需求不断调整其结构和功能，从而适应不同的环境和任务。

研究表明，通过在大规模语料库上预训练模型，可以学习到通用的语言表示。利用预训练模型的能力，只需少量数据进行微调，就可以在下游任务中展现出优秀的性能。

然而，通过任务特定的微调，模型缺乏通用性，难以推广到其他任务。基于预训练模型的代理人具有动态学习能力，能够迅速而稳健地适应新任务。

LLMs具有任务泛化能力，可以在没有特定微调的情况下完成新任务。

多任务学习和直接在提示上训练可以提高模型的鲁棒性。随着模型和语料库的扩大，LLMs在不熟悉的任务中表现出出色的能力。GPT-4展示了在各种领域和任务中的显著能力。

提示的选择对于适当的预测至关重要。通过扩大模型大小和训练指令的数量或多样性，可以进一步提高泛化能力。

研究表明，上下文学习（ICL）可以提高语言模型的预测性能，通过将原始输入与几个完整的示例连接起来，以丰富上下文。

ICL的关键思想是通过类比学习，类似于人类的学习过程。与监督学习过程不同，ICL不涉及微调或参数更新，这可以大大降低适应新任务的模型的计算成本。

此外，研究人员还探索了不同多模态任务中ICL的潜在能力，使代理能够应用于大规模的现实世界任务。

最近的研究表明，LLM的规划能力有助于实现持续学习，但持续学习面临的核心挑战是灾难性遗忘。

为了解决这个问题，人们提出了三种方法：引入先前模型的术语、近似先前数据分布和设计具有任务自适应参数的架构。

LLM的代理通过合成复杂技能来快速提高能力，并有效地解决灾难性遗忘。有研究试图通过合成简单程序的复杂技能来解决越来越难的任务，从而实现持续学习。

感知

人类和动物都依靠感官器官如眼睛和耳朵从周围环境中收集信息。

这些感知输入被转化为神经信号并发送到大脑进行处理，使我们能够感知和与世界互动。

同样，对于基于LLM的代理来说，从各种来源和模态接收信息是至关重要的。这种扩展的感知空间有助于代理更好地理解其环境，做出明智的决策，并在更广泛的任务中取得成功，这是一个重要的发展方向。代理通过感知模块将这些信息传递给大脑模块进行处理。

使基于LLM的代理程序获得多模态感知能力，包括文本、视觉和听觉输入，并考虑其他潜在的输入形式，如触觉反馈、手势和3D地图。LLM代理程序的感知类型图如图4所示。

文本输入

文本是传递数据、信息和知识的一种方式，是人类与世界互动的重要方式之一。

但是，当前的LLM代理在理解文本输入中的隐含意义方面仍存在挑战。一些研究采用强化学习来感知隐含意义，从而推断说话者的偏好，提高代理与用户的沟通效率和质量。

此外，经过指令调整的LLM可以展现出出色的零样本指令理解和泛化能力，消除了任务特定的微调的需求。

视觉输入

LLMs在语言理解和多轮对话方面表现出色，但它们缺乏视觉感知能力，只能理解离散的文本内容。

将视觉信息与其他模态数据集成可以为代理提供更广泛的上下文和更精确的理解，加深代理对环境的感知。

为了帮助智能代理理解图像中的信息，一种简单的方法是为图像输入生成相应的文本描述，即图像字幕。这种方法高度可解释，不需要额外的字幕生成训练，可以节省大量计算资源。

研究者将transformers应用于计算机视觉领域，通过将图像分成固定大小的块，并将其视为输入令牌，通过计算自我注意力，整合整个图像的信息，从而实现高效的视觉感知。

一些工作尝试直接将图像编码器和LLM结合起来，以端到端的方式训练整个模型。虽然代理可以实现卓越的视觉感知能力，但代价是大量的计算资源。

经过广泛预训练的视觉编码器和LLM可以极大地增强代理的视觉感知和语言表达能力。冻结其中一个或两个模型是一种广泛采用的方案，可以在训练资源和模型性能之间取得平衡。

为了使语言模型能够理解视觉编码器的输出，需要添加一个可学习的接口层。一些研究者采用计算效率高的方法，使用单个投影层来实现视觉-文本对齐。投影层可以与可学习接口有效地集成，以适应其输出的维度，使其与语言模型兼容。

视频输入由一系列连续的图像帧组成，与图像信息相比，视频信息增加了时间维度。

因此，代理程序对不同帧之间的关系的理解对于感知视频信息至关重要。一些方法如Flamingo使用掩码机制确保理解视频时的时间顺序。掩码机制限制代理程序的视野，使其只能访问在特定帧之前发生的帧的视觉信息。

听觉输入

听觉信息对于智能体来说非常重要，可以提高其对周围环境和潜在危险的感知能力。

使用语言模型作为控制中心，可以调用现有的工具集和模型库来感知音频信息。

例如，AudioGPT可以利用FastSpeech、GenerSpeech、Whisper等模型来实现文本转语音、风格转移和语音识别等任务。

音频频谱图提供了音频信号频谱随时间变化的直观表示。

它可以将一段时间内的音频数据抽象为有限长度的音频频谱图。音频频谱图具有二维表示，可以视为平面图像。一些研究致力于将视觉领域的感知方法迁移到音频领域。

AST（音频频谱图变换器）采用了类似于ViT的Transformer架构来处理音频频谱图像。通过将音频频谱图分割成补丁，它实现了对音频信息的有效编码。

此外，一些研究者从冻结编码器的思想中获得了启发，以减少训练。

通过添加相同的可学习接口层，将音频编码与其他模态数据编码对齐，从而减少时间和计算成本。

其他输入

未来，基于LLM的智能代理将具备更丰富的感知模块，如触觉、嗅觉等，能够感知和理解多种现实世界的模态。

同时，代理还能够感知环境温度、湿度、亮度等信息，以便采取相应的行动。此外，代理还可以通过集成基本的感知能力，如视觉、文本和光敏感性，为人类开发各种用户友好的感知模块。

未来，代理还有可能感知更复杂的用户输入，如AR/VR设备中的眼动追踪、身体动作捕捉和脑机接口中的脑电信号。

基于LLM代理应该具备对更广泛环境的意识。

目前，许多成熟且广泛采用的硬件设备可以帮助代理完成这一任务。

激光雷达可以创建3D点云地图，帮助代理检测和识别周围的物体。

GPS可以提供准确的位置坐标，并可以与地图数据集成。

惯性测量单元可以测量和记录物体的三维运动，提供有关物体速度和方向的详细信息。

然而，这些感知数据很复杂，基于LLM的代理无法直接理解。

探索代理如何感知更全面的输入是未来的一个有希望的方向。

行动

人类感知环境后，大脑会整合、分析、推理并做出决策，然后通过神经系统控制身体做出适应或创造性的行动。

如果一个代理具有类似人类的大脑结构，具备知识、记忆、推理、规划和泛化等能力，以及多模态感知能力，那么它也应该具备类似人类的多样化行动来应对周围环境。

行动模块接收大脑模块发送的行动序列，并执行与环境交互的行动。

此外，工具使用和具体行动也可以增强代理人的多功能性和专业性。

文字输出

基于Transformer的生成性大型语言模型（LLM）增强了具有强大语言生成能力的基于LLM的代理。这些模型在流利性、相关性、多样性和可控性方面表现出色，使基于LLM的代理成为异常强大的语言生成器。

使用工具

人类使用工具来简化任务解决和提高效率，节约时间和资源。同样，如果代理也学会使用和利用工具，他们有能力更高效地完成复杂任务并提高质量。

基于LLM的代理在某些方面存在局限性，使用工具可以增强其能力。

LLM型代理的知识库和专业知识强大，但无法记忆所有训练数据，容易受到上下文提示的影响，甚至产生虚假知识。

专业工具可以增强LLM型智能体的专业知识，适应特定领域的需求。此外，LLM型智能体的决策过程缺乏透明度，不够可信。使用工具的智能体具有更强的可解释性和鲁棒性，更适合处理输入修改和对抗攻击。

LLM型代理不仅需要使用工具，而且非常适合工具集成。

通过预训练和CoT提示积累的丰富世界知识，LLM在复杂交互环境中展现出了卓越的推理和决策能力，有助于代理人以适当的方式分解和解决用户指定的任务。

此外，LLM在意图理解和其他方面也显示出了显著的潜力。当代理人与工具结合使用时，工具利用的门槛可以降低，从而充分释放人类用户的创造潜力。

要让代理人有效地使用工具，先要全面了解工具的应用场景和调用方法。代理人可以利用零样本和少样本学习方法，通过描述工具功能和参数或提供具体使用场景和方法的演示来获取工具知识。

代理人需要将复杂任务分解为子任务，并有效组织和协调这些子任务，这需要依赖于LLM的推理和规划能力，以及对工具的理解。

学习使用工具的方法主要包括从演示中学习和从反馈中学习。

这涉及模仿人类专家的行为，理解行为的后果，并根据来自环境和人类的反馈进行调整。环境反馈包括结果反馈和中间反馈，人类反馈包括明确的评估和隐含的行为。

如果一个代理僵化地应用工具而没有适应性，它无法在所有情况下实现可接受的性能。

代理需要将在特定环境中学到的工具使用技巧推广到更一般的情况，例如将在Yahoo搜索上训练的模型转移到Google搜索上。

为了实现这一点，代理人需要掌握工具使用策略中的共同原则或模式，这可以通过元工具学习来实现。

增强代理人对简单工具和复杂工具之间关系的理解，例如复杂工具是如何建立在简单工具之上的，可以提高代理人的工具使用能力。

这使得代理人能够有效地辨别各种应用场景中的细微差别，并将先前学到的知识转移到新的工具上。课程学习允许代理人从简单工具开始逐步学习复杂工具，符合这些要求。

此外，代理人受益于对用户意图、推理和规划能力的理解，可以更好地设计工具利用和协作方法，从而提供更高质量的结果。

为了让代理更好地使用工具，需要设计专门为代理设计的工具，这些工具应该更加模块化，输入输出格式更适合代理。

代理可以通过生成可执行程序或将现有工具集成到更强大的工具中来创建工具。代理还可以学习自我调试。未来，代理可能会变得更加自给自足，具有高度的工具自主性。

工具可以扩展基于LLM的代理的行动空间，帮助代理在推理和规划阶段利用外部资源，如外部数据库和Web应用程序，提供高专家、可靠性、多样性和质量的信息，促进其决策和行动。

代理可以使用搜索工具来改善其访问的知识范围和质量，使用领域特定工具来增强其在相应领域的专业知识。

代理还可以使用科学工具来执行任务，如化学中的有机合成，或与Python解释器和LaTeX编译器进行接口，以提高其在复杂数学计算任务上的性能。对于多代理系统，通信工具（如电子邮件）可以作为代理之间交互的手段，促进他们的协作，展示自治和灵活性。

虽然之前提到的工具增强了代理的能力，但与环境的交互介质仍然是基于文本的。然而，这些工具旨在扩展语言模型的功能，其输出不仅限于文本。非文本输出的工具可以多样化代理行为的模态，从而扩展基于语言模型的代理的应用场景。

例如，代理可以通过视觉模型进行图像处理和生成。

在航空航天工程中，正在探索使用代理建模物理和解决复杂的微分方程。

在机器人领域，需要代理进行物理操作规划和控制机器人执行等。

能够通过工具或以多模态方式与环境或世界动态交互的代理可以被称为数字化体现。

具体行动

在追求人工通用智能（AGI）的过程中，具身化代理被视为一个关键范式，它努力将模型智能与物理世界相结合。

具身化假设从人类智能发展过程中汲取灵感，认为代理的智能来自与环境的持续互动和反馈，而不仅仅依赖于精心策划的教科书。

与传统的深度学习模型不同，传统模型通过学习互联网数据集中的显式能力来解决领域问题，人们预计基于LLM的代理行为将不再局限于纯文本输出或调用精确工具。

机器代理应该具备主动感知、理解和与物理环境互动的能力，能够根据其内部知识做出决策并生成特定行为，以修改环境。这些被称为具身行动，使得机器代理能够以类似人类行为的方式与世界互动和理解。

在LLM普及之前，研究者通常使用强化学习等方法来探索代理的具体行动。然而，强化学习算法在数据效率、泛化能力和复杂问题推理方面存在一定局限性。最近的研究表明，利用LLM预训练期间获得的丰富内部知识可以有效缓解这些问题。

基于语言和视觉的强化学习在实体任务中的应用。其中，语言语境模型（LLMs）可以提高样本效率和行动泛化能力，同时也可以用于行动规划。此外，LLMs还可以通过与机器人数据联合训练，实现在实体任务中的显著转移能力。

在实体任务中，智能体需要具备动态学习和泛化能力，而LLMs在不同任务类型和形式的微调下，展现了出色的跨任务泛化能力。此外，LLMs的语言能力也可以作为与环境交互和传递基础技能的媒介。

在行动规划方面，LLMs可以无需先前知识，以零次或少次学习的方式应用于复杂任务中。外部反馈可以进一步提高LLMs的规划性能。

基于LLM的代理人的具体行动包括观察、操作和导航，这取决于代理人在任务中的自主程度和行动的复杂性。

观察是代理程序获取环境信息和更新状态的主要方式，对于增强后续行动的效率至关重要。观察主要发生在具有各种输入的环境中，最终汇聚成多模态信号。常见的方法是使用预训练的视觉转换器（ViT）作为文本和视觉信息的对齐模块，并使用特殊标记来表示多模态位置。

在具体任务中，包括感知、操作和导航等方面，如何利用多模态输入和长期记忆来增强具身化智能体的能力。感知方面，通过使用混合模态输入和语言指令，代理可以更全面地观察环境。

操作方面，代理可以执行物体重新排列、桌面操作和移动操作等任务，并通过交互式规划和多步骤观察来实现任务的完成。导航方面，代理可以根据环境进行位置调整，并利用内部地图和视觉观察来找到最佳路径。同时，音频输入也被认为对于导航任务的完成具有重要意义。

整合这些技术后，代理可以完成更复杂的任务，如具身问答。具身问答的主要目标是自主探索环境并回答预定义的多模态问题，例如“西瓜在厨房里比锅大吗？”解决这些问题的难度更大。代理需要导航到厨房，观察两个物体的大小，然后通过比较来回答问题。

LLM代理通过训练特定的具体化数据集，生成高级策略命令来控制低级策略，以实现特定的子目标。

低级策略可以是机器人变形器，它接收图像和指令作为输入，并为末端执行器和机械臂生成控制命令。

最近，在虚拟具体化环境中，高级策略被用于控制游戏代理或模拟世界中的代理。例如，Voyager通过调用Mineflayer API接口来获取各种技能并探索世界。

研究人员在Minecraft等模拟环境中探索代理的行为，以解决物理世界机器人操作员和数据集稀缺的问题。然而，模拟环境与现实世界之间存在显著差异，需要更接近真实世界的任务范例和评估标准。此外，学习为代理人建立语言联系也是一个障碍。需要进一步研究来解决这些问题。

论文原文

https://arxiv.org/abs/2309.07864

出自：https://mp.weixin.qq.com/s/L_uPQFzfZPFi-qOs0NN2wg