Agent2.0展现出解决复杂任务的卓越能力,从被动响应转变为主动预测并发起任务的代理,通过环境监控、事件处理、场景及事件生成、代理预测与任务执行等流程,实现更全面和无缝的服务,并通过奖励模型评估其性能。
Agent展现出了解决复杂任务的卓越能力。
· 目前大多数Agent是被动式的,限制了它们在需要预见性和自主决策的场景中的有效性。
· Agent2.0 主动发起任务,无需明确的人类指令。从被动响应转变为能够主动预测并发起任务的主动代理。这种转变不仅减轻了用户的认知负担,还能够帮助识别人类未明确表达的潜在需求,从而为用户提供更全面和无缝的服务。
· 左边Agent,被动式接受用户查询,然后生成响应
· 右边Agent,主动式Agent基于环境观察推断任务,并相应地提出可能的协助请求。
ProactiveAgent流程图
数据收集与处理
1.
环境监控与事件收集:开发基于Activity Watcher的监控软件,捕获用户与计算机系统的交互细节,包括键盘和鼠标操作、访问的网页和使用的开发工具。
2.
事件合并与文本描述:将原始数据合并成逻辑上连贯的段落,并使用语言模型将结构化数据转换为更自然的文本描述。
场景生成
1.
种子工作生成:使用GPT-4o基于人类标注者收集的种子工作创建各种任务,这些任务可能是用户在特定类别下执行的,如编码、写作或日常生活。
2.
实体生成:为任务可能涉及的实体(如浏览器、软件和工具)生成所有可能的实体。
3.
场景细化:通过添加更多细节(如实体状态或日期时间)来完善场景,并根据收集的事件为每个特定上下文生成示例事件。
事件生成
1.
用户活动生成:对于每个场景,用户代理首先描述其在模拟环境中完成工作的活动和行动。
2.
事件详细生成:环境健身房接受用户活动和行动,逐一生成详细事件。
3.
状态维护:环境健身房在生成新事件时更新实体的状态和属性,并根据最新环境状态生成下一个事件。
代理预测与任务执行
1.
预测任务:主动代理接收新事件后,更新其记忆,并结合新旧事件及与用户的对话历史,提出可能的任务。
2.
执行任务:一旦用户接受预测任务,代理将在环境健身房中执行任务,产生关于代理与环境交互的多个事件。
奖励模型评估
1.
模型训练:使用人类标注的数据训练LLaMA-3.1-8B-Instruct模型,并与几个基线模型进行比较,以展示其优越性。
2.
评估指标:使用奖励模型对预测任务进行二元分类,并与人类标注结果进行比较,计算召回率、精确度、准确度和F1-Score。
https://github.com/thunlp/ProactiveAgent
https://arxiv.org/abs/2410.12361
原文出自:https://mp.weixin.qq.com/s/UJVnE30rPivNsGcDGkQaHw
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。
客服请加微信:skillupvip