在机器人领域,AI才刚刚开始展露头角。
不久前,一家名为Figure的初创企业,估值高达26亿美元,由一群来自波士顿动力、特斯拉、谷歌DeepMind和Archer Aviation的前员工成立。今天,他们与新投资者及合作伙伴OpenAI的首次合作问世,着实令人眼前一亮。
Figure的联合创始人兼CEO Brett Adcock在社交平台X上分享了一段视频,展示了他们的全尺寸人形机器人Figure 01的能力。
视频中,这位机器人展示了它与人类和环境互动的能力:遵循人类的指令,找到并递给他们物品(比如一个苹果),同时描述它正在做什么并与人对话(尽管反应时间比人与人交流时稍有延迟),自主识别、规划并执行有益的任务(比如捡垃圾和把盘子放到晾碗架上)。
视频如科幻电影般展开:
人类询问“嘿,Figure One,你现在看到了什么?”
机器人回答:“我看到桌子中央有个红苹果,一个晾碗架里有杯子和盘子,还有你,手搭在桌子上。”
“太好了,我能吃点什么吗?”人类问道。
“当然可以。”Figure One回答,小心翼翼地伸手抓起苹果,递给人类——它明白苹果是桌面上唯一可食用的物品,即使人类没有特别指明。
接着,视频展示了Figure捡起垃圾,把盘子和杯子放入晾碗架的场景。
OpenAI新模型的问世?OpenAI VLM
Adcock在X上的帖子中提到,Figure的机载摄像头输入到由OpenAI训练的大型视觉语言模型(VLM)中,但目前还不清楚这是否是GPT-4的一个版本,是GPT-4V,还是完全新的模型。
Adcock还宣称:“视频展示了端到端的神经网络。没有遥控操作。此外,视频是以1.0倍速拍摄并连续拍摄的。”换句话说:视频没有加速,这一点与以往的人形机器人演示视频常做的不同,那些视频通常加速以展现更流畅的动作,并且没有人在幕后远程控制机器人的动作。
Figure接下来的路
Figure的演示视频似乎是人形、通用目的机器人互动领域的一大飞跃——展示了一台机器人与人相当自然地互动,听从人的指令,凭直觉做出反应,并且动作比许多其他公司和研究者的示例要流畅得多。
当然,这依然只是一个演示,而且是一个原型。要让这样的机器人做好商业部署的准备,并将其出售给企业或个人,可能还需要大量的工作。
然而,Adcock在X上的帖子中明确表示,“我们的目标是训练一个世界模型,使亿级单位的人形机器人运行。”
在Figure的网站上写到:“Figure的目标:开发出对人类有积极影响的通用人形机器人,为后代创造更美好的生活。这些机器人可以消除不安全和不受欢迎的工作——最终让我们过上更快乐、更有目的的生活。”
然而,Adcock继续说,“我们的公司旅程将持续数十年——需要一支致力于使命的冠军团队、数十亿美元的投资和工程创新,以实现大规模市场影响。我们面临高风险和极低的成功机会。”
他还承诺:“我们不会将人形机器人用于军事或防御应用,也不会用于需要对人类造成伤害的角色。”
Adcock和Figure今天展示的进展,得益于OpenAI的支持,可能会给像特斯拉的Optimus项目和与亚马逊合作的人形机器人初创公司Agility等领域的竞争对手带来更大的压力。
此外,随着越来越多的公司进入这一领域,包括Hugging Face(它刚刚聘请了一位前特斯拉Optimus科学家来领导其新宣布的开源机器人项目)和昨天宣布的一家名为Physical Intelligence的初创公司,竞争将变得更加激烈。