吴恩达老师建议大家关注 AI 智能体工作流

吴恩达老师建议大家关注 AI 智能体工作流，可以大幅提升 AI 应用的性能，并且他们总结了一套智能体设计模式：

• 反思：让大语言模型对自己的结果检查改进

• 使用工具：让大语言模型调用外部工具，如网络搜索、代码执行等

• 规划：让大语言模型自己设计一个多步骤的计划来达成目标

• 多智能体合作：多个 AI 智能体协同工作，分配任务，讨论和辩论想法，写作得到更好的结果

以下内容为推文转译：

今年 AI 智能体 (AI Agent) 的工作流程将会促进 AI 领域的巨大进步，这种影响可能会超越下一代的基础模型。这是一个重要的趋势，强烈建议所有 AI 领域的工作者关注这一点。

目前，我们通常在零样本 (Zero-shot) 模式下使用大语言模型 (LLM)，即让模型一步步地生成输出，而不进行任何修改。这好比要求一个人一气呵成地写完一篇文章，不允许回退修改，却期望文章能达到高质量。尽管这样做存在挑战，但大语言模型在此任务上的表现出乎意料地好！

通过采用智能体工作流，我们可以引导大语言模型对文档进行多轮迭代处理，仿佛它在多次精细打磨它的作品。具体操作可以包括：

• 制定文档大纲。

• 决定是否需要网络搜索以获取更多资料。

• 撰写初稿。

• 仔细审阅初稿，标记不合逻辑的论点或不必要的信息。

• 根据标记的问题对稿件进行修订。

• 以此类推。

这种迭代过程是大多数人类作者撰写优质文本不可或缺的步骤。对 AI 来说，采用这种迭代工作流显著优于单次过程的写作方式，能够产出更优质的成果。

最近，Devin 的一个引人注目的演示在社交媒体上引发了广泛讨论。我的团队一直在跟踪研究编写代码的 AI 的发展。我们分析了多个研究小组的成果，特别关注这些算法在广泛使用的 HumanEval 编程基准测试中的表现。以下图表展示了我们的一些发现。

在零样本 (Zero-shot) 模式下，GPT-3.5 的准确率为 48.1%。而 GPT-4 的表现更佳，达到了 67.0%。不过，从 GPT-3.5 到 GPT-4 的提升，并没有迭代智能体工作流带来的提升那么显著。实际上，当 GPT-3.5 应用在一个迭代智能体循环中时，它的表现可以提高到惊人的 95.1%。

开源的智能体工具和有关智能体的学术论文日益增多，这让我们既感到兴奋又觉得困惑。为了更好地理解这一工作，我想介绍一个用于分类构建智能体设计模式的框架。我的团队 AI Fund 已经在多个应用场景中成功应用了这些模式，我希望它们对你也有所帮助。

• 反思：大语言模型会审视自己的作品，并寻找改进的方法。

• 使用工具：为大语言模型提供各种工具，如网络搜索、代码执行等，帮助其收集信息、执行操作或处理数据。

• 规划：大语言模型能够设计并执行一个多步骤的计划来达成目标（比如，先为一篇文章制定大纲，接着进行在线研究，然后撰写草稿等）。

• 多智能体合作：多个 AI 智能体协同工作，分配任务，讨论和辩论想法，共同寻找比单独工作时更好的解决方案。

下周，我将进一步深入这些设计模式，并为每种模式提供推荐阅读材料。

出自：https://mp.weixin.qq.com/s/vf6ziQordt0SFv354sP8NQ