OpenAI与Figure的人形机器人“Figure 01”问世！

在机器人领域，AI才刚刚开始展露头角。

不久前，一家名为Figure的初创企业，估值高达26亿美元，由一群来自波士顿动力、特斯拉、谷歌DeepMind和Archer Aviation的前员工成立。今天，他们与新投资者及合作伙伴OpenAI的首次合作问世，着实令人眼前一亮。

Figure的联合创始人兼CEO Brett Adcock在社交平台X上分享了一段视频，展示了他们的全尺寸人形机器人Figure 01的能力。

视频中，这位机器人展示了它与人类和环境互动的能力：遵循人类的指令，找到并递给他们物品（比如一个苹果），同时描述它正在做什么并与人对话（尽管反应时间比人与人交流时稍有延迟），自主识别、规划并执行有益的任务（比如捡垃圾和把盘子放到晾碗架上）。

视频如科幻电影般展开：

人类询问“嘿，Figure One，你现在看到了什么？”

机器人回答：“我看到桌子中央有个红苹果，一个晾碗架里有杯子和盘子，还有你，手搭在桌子上。”

“太好了，我能吃点什么吗？”人类问道。

“当然可以。”Figure One回答，小心翼翼地伸手抓起苹果，递给人类——它明白苹果是桌面上唯一可食用的物品，即使人类没有特别指明。

接着，视频展示了Figure捡起垃圾，把盘子和杯子放入晾碗架的场景。

OpenAI新模型的问世？OpenAI VLM

Adcock在X上的帖子中提到，Figure的机载摄像头输入到由OpenAI训练的大型视觉语言模型（VLM）中，但目前还不清楚这是否是GPT-4的一个版本，是GPT-4V，还是完全新的模型。

Adcock还宣称：“视频展示了端到端的神经网络。没有遥控操作。此外，视频是以1.0倍速拍摄并连续拍摄的。”换句话说：视频没有加速，这一点与以往的人形机器人演示视频常做的不同，那些视频通常加速以展现更流畅的动作，并且没有人在幕后远程控制机器人的动作。

Figure接下来的路

Figure的演示视频似乎是人形、通用目的机器人互动领域的一大飞跃——展示了一台机器人与人相当自然地互动，听从人的指令，凭直觉做出反应，并且动作比许多其他公司和研究者的示例要流畅得多。

当然，这依然只是一个演示，而且是一个原型。要让这样的机器人做好商业部署的准备，并将其出售给企业或个人，可能还需要大量的工作。

然而，Adcock在X上的帖子中明确表示，“我们的目标是训练一个世界模型，使亿级单位的人形机器人运行。”

在Figure的网站上写到：“Figure的目标：开发出对人类有积极影响的通用人形机器人，为后代创造更美好的生活。这些机器人可以消除不安全和不受欢迎的工作——最终让我们过上更快乐、更有目的的生活。”

然而，Adcock继续说，“我们的公司旅程将持续数十年——需要一支致力于使命的冠军团队、数十亿美元的投资和工程创新，以实现大规模市场影响。我们面临高风险和极低的成功机会。”

他还承诺：“我们不会将人形机器人用于军事或防御应用，也不会用于需要对人类造成伤害的角色。”

Adcock和Figure今天展示的进展，得益于OpenAI的支持，可能会给像特斯拉的Optimus项目和与亚马逊合作的人形机器人初创公司Agility等领域的竞争对手带来更大的压力。

此外，随着越来越多的公司进入这一领域，包括Hugging Face（它刚刚聘请了一位前特斯拉Optimus科学家来领导其新宣布的开源机器人项目）和昨天宣布的一家名为Physical Intelligence的初创公司，竞争将变得更加激烈。