很多朋友可能看过2004年的《机械公敌》,它来自于Isaac Asimov的经典科幻小说《我,机器人》这部小说。机器人心理学家苏珊·卡尔文博士(由布兰杰特·莫纳翰饰演)是一个关键角色,她是机器人制造公司USR(U.S. Robotics)的主要员工,专门研究机器人的行为和心理。当一个机器人的行为出现异常时,她会深入其电路,试图理解其背后的原因,从而找到解决之道。这不仅是对机器人硬件的检查,更是对其逻辑和思维方式的反思。机器人心理学家在我们的现实世界中,截至2023年大模型涌现的元年还未出现,但这个角色的反思方式却带给我们很多启示。
01
Asimov的机器人心理学家
很多朋友可能看过2004年的《机械公敌》,它来自于Isaac
Asimov的经典科幻小说《我,机器人》这部小说。机器人心理学家苏珊·卡尔文博士(由布兰杰特·莫纳翰饰演)是一个关键角色,她是机器人制造公司USR(U.S. Robotics)的主要员工,专门研究机器人的行为和心理。当一个机器人的行为出现异常时,她会深入其电路,试图理解其背后的原因,从而找到解决之道。这不仅是对机器人硬件的检查,更是对其逻辑和思维方式的反思。机器人心理学家在我们的现实世界中,截至2023年大模型涌现的元年还未出现,但这个角色的反思方式却带给我们很多启示。
I ,ROBOT
机器人心理学家 Dr. Susan Calvin
02
"Reflexion"的框架概述
正如Asimov的机器人心理学家深入探索机器人的思维,现代的AI研究者也在努力理解和改进机器学习模型的行为。这篇论文,就为我们提供了一个全新的视角。大型语言模型(LLMs)越来越多地被用于与外部环境(如游戏、编译器、APIs)互动作为目标驱动的代理。但是,这些语言代理很难快速有效地从试验和错误中学习,因为传统的强化学习方法需要大量的训练样本和昂贵的模型微调。论文提出了一个名为"Reflexion"的框架,该框架旨在增强语言代理的能力,不是通过更新权重,而是通过语言反馈。
03
"Reflexion"框架的工作原理
论文提出了一个名为"Reflexion"的框架,框架的核心思想是允许语言模型通过语言反馈进行增强。这意味着,与其直接修改模型的权重,不如让模型通过口头反思其行为,并在一个情节记忆缓冲区中保留其反思文本,以促进在后续任务中做出更好的决策。Reflexion在多种任务(如序列决策制定、编码、语言推理)上都取得了显著的改进(论文并未给出其它范例,或许这就是"Reflexion"框架使用的边界)。例如,在HumanEval编码基准测试上,Reflexion达到了91%的pass@1准确率,超过了之前的最新技术GPT-4的80%。这种方法的灵感,与Asimov的机器人心理学家对机器人“大脑”进行反思的方法有异曲同工之妙。
04
如何利用"Reflexion"框架
首先,当我们为模型提供一个任务时,可以引导它进行自我反思。例如,如果我们要求模型描述一个复杂的概念,我们可以添加一个Prompt“Reflect on---”,让模型反思其先前的答案,考虑其答案的准确性和完整性。其次,通过观察模型的反馈,我们可以更好地理解其思维方式。这不仅可以帮助我们更好地调整Prompt,还可以使我们更深入地理解模型的工作原理。下面是修猫给出的三个Prompt示例
购物决策(序列决策制定):
Prompt:
"Given a shopping list and a budget constraint, prioritize the items to
buy based on their importance and total cost.Reflect on previous
shopping experiences to make an optimal decision."
提示: "给定一个购物清单和预算限制,根据它们的重要性和总成本对购买的物品进行优先排序。反思以往的购物经验,做出最优决策。"
数组排序(编码):
Prompt:
"Write a Python function to sort an array of integers in ascending
order. Reflect on common sorting algorithms
and their efficiency to choose the best approach."
提示: "编写一个Python函数,对整数数组进行升序排序。反思常见的排序算法及其效率,选择最佳方法。"
隐含意义(语言推理):
Prompt:
"Infer the implied meaning of the statement 'It's not rocket
science.' Reflect on idiomatic expressions
and their usage in everyday language."
提示: "推断句子 '这不是火箭科学。' 的隐含含义。反思成语表达和它们在日常语言中的用法。"
05
关于"Reflexion"的启示
谈到Asimov不得不说起人类的科幻黄金时代,现在很多AI从业者的工作似乎早就被这个俄裔美籍的犹太作家预言了,又或许他是来自未来的穿越者。本文开头的那部《我,机器人》(中国引进后叫做《机械公敌》)写于1940年到1950年之间,原作讲述的故事发生在2035年,那是一个高度依赖机器人的社会,人们更加依赖机器人而减少与其他人的互动,或者对机器人产生过度的信任,导致对其他人的怀疑,人们生活在孤立中,彼此之间很少有真正的面对面的互动。2035-2023=12,还有12年,快了。
艾萨克·阿西莫夫(Isaac Asimov,1920年1月2日 - 1992年4月6日)是20世纪最著名的科幻作家之一他的代表作《基地系列》、《银河帝国三部曲》和《机器人系列》三大系列被誉为“科幻圣经”。《我,机器人》只是他三大科幻小说系列之一。阿西莫夫在1941年10月完整提出了机器人三大定律的说法。82年前的提法依然对今天的AI产业、Robot产业和科幻文学的世界观构建都有着深远的影响。这三大定律被称为现代机器人学的基石。
第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管。
第二定律:机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外。
第三定律:机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存。
出自:https://mp.weixin.qq.com/s/JYrEHXbVQwp9OIaGL7TOTg
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。
客服请加微信:skillupvip