清华、面壁智能发布:主动式Agent 2.0
AI魔法学院
2024-12-05
分享海报


Agent展现出了解决复杂任务的卓越能力。

· 目前大多数Agent是被动式的,限制了它们在需要预见性和自主决策的场景中的有效性。

· Agent2.0 主动发起任务,无需明确的人类指令。从被动响应转变为能够主动预测并发起任务的主动代理。这种转变不仅减轻了用户的认知负担,还能够帮助识别人类未明确表达的潜在需求,从而为用户提供更全面和无缝的服务。

· 左边Agent,被动式接受用户查询,然后生成响应

· 右边Agent,主动式Agent基于环境观察推断任务,并相应地提出可能的协助请求。

ProactiveAgent流程图

数据收集与处理

1.        环境监控与事件收集:开发基于Activity Watcher的监控软件,捕获用户与计算机系统的交互细节,包括键盘和鼠标操作、访问的网页和使用的开发工具。

2.        事件合并与文本描述:将原始数据合并成逻辑上连贯的段落,并使用语言模型将结构化数据转换为更自然的文本描述。

场景生成

1.        种子工作生成:使用GPT-4o基于人类标注者收集的种子工作创建各种任务,这些任务可能是用户在特定类别下执行的,如编码、写作或日常生活。

2.        实体生成:为任务可能涉及的实体(如浏览器、软件和工具)生成所有可能的实体。

3.        场景细化:通过添加更多细节(如实体状态或日期时间)来完善场景,并根据收集的事件为每个特定上下文生成示例事件。

事件生成

1.        用户活动生成:对于每个场景,用户代理首先描述其在模拟环境中完成工作的活动和行动。

2.        事件详细生成:环境健身房接受用户活动和行动,逐一生成详细事件。

3.        状态维护:环境健身房在生成新事件时更新实体的状态和属性,并根据最新环境状态生成下一个事件。

代理预测与任务执行

1.        预测任务:主动代理接收新事件后,更新其记忆,并结合新旧事件及与用户的对话历史,提出可能的任务。

2.        执行任务:一旦用户接受预测任务,代理将在环境健身房中执行任务,产生关于代理与环境交互的多个事件。

奖励模型评估

1.        模型训练:使用人类标注的数据训练LLaMA-3.1-8B-Instruct模型,并与几个基线模型进行比较,以展示其优越性。

2.        评估指标:使用奖励模型对预测任务进行二元分类,并与人类标注结果进行比较,计算召回率、精确度、准确度和F1-Score

https://github.com/thunlp/ProactiveAgent

 https://arxiv.org/abs/2410.12361

原文出自:https://mp.weixin.qq.com/s/UJVnE30rPivNsGcDGkQaHw

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip