OpenAI Qstar项目解密进度95%？合成数据让GPT4后时代模型突破现实世界限制！

上周我们为大家总结OpenAI “甄嬛传”，现在应该叫Sam 的“真还传”了，Sam 已经回归了OpenAI，但是关于上周Sam被解雇的消息一直是大家讨论的重点，大家也都好奇着Sam 提到过的取得的“第四次突破”，这周传来了新的消息。

在媒体发布的信息中，介绍了一个名为Q*（发音为Q Star）的OpenAI模型，该模型最近在内部进行了演示，并能够解决简单的数学问题。从事小学数学可能似乎并不令人印象深刻，但报告指出，据所涉研究人员称，这可能是迈向建立AGI的一步。

当前，生成的AI擅长通过统计学预测下一个单词来写作和语言翻译，并且对同一问题的答案可能会有所不同。但是，征服数学的能力（只有一个正确的答案）意味着AI具有更大的推理能力，这将与人类的智力更接近。

与此同时OpenAI的CTO Mira Murati 在此前在致员工的内部信件中提到了一个代号为“Q*”的项目，并提到上周关于Q*“促使董事会的行动促使董事会的行动”

难道这第四次突破指的就是Q*？它到底是什么？究竟是怎样的能力会有可能导致它成为开出Sam的原因？

什么是 Q*？

Q* 读作 Q-star，目前OpenAI内部没有任何关于Q*的详细信息流出。

The Information发布一篇“OpenAI在Altman被开除前取得了人工智能突破，引发兴奋和担忧”的文章，介绍了Q*的项目背景和曝光了更多信息。

根据来自The Information的最新消息，Q* 的前身是一个由Ilya Sutskever发起叫GPT-Zero的项目，项目的名字致敬了DeepMind的Alpha-Zero。

该项目克服了训练数据限制的困难，可以自己合成训练数据，这帮助 OpenAI 克服了在获取足够高质量数据来训练新模型方面的限制。

此前Ilya在一次采访中说到：

“

“Without going into details I'll just say the Data Limit can be overcome..."

“

“无需详细说明，我只是说数据限制是可以克服的......”

Alpha-Zero :让AI不用学习人类棋谱，通过自己跟自己博弈来掌握下围棋。

GPT-Zero: 让下一代AI模型不用依赖互联网上抓取的文本或图片等真实世界数据，而是使用合成数据训练。

OpenAI研究团队的两位顶尖研究人员 Jakub Pachocki 和 Szymon Sidor 运用 Ilya Sutskever 的GPT-Zero的研究成果，开发了这个名为 Q*（Q-Star）的模型，希望利用模型推理能力解决基础数学问题。

同时reddit上也有人猜测Q* 可能与强化学习中的Q-learning算法，和A*搜索算法有关，这也都是强化学习和启发式搜索算法的经典算法了，感兴趣的同学可以去学习一下。

关于Q*的分析：

Jim Fan，NVIDIA 高级人工智能科学家，Stanford 博士，对最近很热的OpenAI可能在AGI上的新突破算法Q*给出了分析。

这份分析可以说是干货满满！下面我们带大家一起来看一下！

Jim 先是为我们介绍了AlphaGO的四大构成要素，方便我们理解AlphaGo是如何将搜索与学习这两大 AI 技术的结合起来的。

AlphaGo构成四大要素：

策略神经网络（Policy NN，学习部分）：它的任务是选择好的行动，通过估计每个行动带来胜利的可能性。
价值神经网络（Value NN，学习部分）：这部分负责评估棋盘状况，并预测围棋中任何合法位置的胜负。
蒙特卡洛树搜索（MCTS，搜索部分）：它代表着“Monte Carlo Tree Search”。这个过程利用策略神经网络模拟出从当前位置开始的多种可能的移动序列，然后综合这些模拟的结果来决定最有希望的行动。它是一个“慢思考”环节，与大语言模型（LLM）快速采样 Token 的方式形成对比。
真实信号：这是推动整个系统运作的动力源泉。在围棋中，这个信号非常简单，就是一个二元标签“谁获胜”，由固定的游戏规则决定。可以将其视为维持学习进程的能量源泉。

那么，这些组件是如何相互协作的呢？

AlphaGo 通过自我对弈不断进步，即它与自己之前的版本进行对弈。

在这个过程中，策略神经网络和价值神经网络通过迭代不断优化：

随着策略在选择动作方面变得更加高效，价值神经网络从中获取更优质的数据进行学习，并反过来为策略提供更精准的反馈。更强的策略也帮助蒙特卡洛树搜索探索出更优的策略。

这样形成了一个巧妙的“永动机”。通过这种方式，AlphaGo 自我提升能力，并在 2016 年以 4-1 的成绩击败了人类世界冠军李世石。仅仅模仿人类的数据，AI 是无法达到超人类水平的。

Q*的四大组件：

接下来他探讨了Q*的构成。

策略神经网络：这将是 OpenAI最强大的内部大语言模型（GPT），负责实际执行解决数学问题的思维过程。
价值神经网络：另一个 GPT，用于评估每个中间推理步骤的正确性概率。OpenAI在 2023 年 5 月发布了一篇名为《Let's Verify Step by Step》的论文，由 Ilya Sutskever、John Schulman和 Jan Leike等大佬共同撰写：Let's Verify Step by Step 虽然它没有 DALL-E 或 Whisper 那么出名，但为我们提供了不少线索。这篇论文提出了“过程监督奖励模型”（PRM），它对思考链中的每一步提供反馈。相比之下，“结果监督奖励模型”（ORM）只在最终对整体输出作出判断。

ORM 是强化学习从人类反馈（RLHF）中原始奖励模型的表达，但它太过粗略，无法适当评估长回应的各个子部分。换言之，ORM 不适合分配信用。在强化学习文献中，我们将 ORM 称为“稀疏奖励”（仅在最终给出），而 PRM 则是“密集奖励”，能够平滑地引导大语言模型朝我们期望的行为发展。

搜索：与 AlphaGo 的离散状态和动作不同，大语言模型操作的是“所有合理字符串”的更复杂空间。因此，我们需要新的搜索方法。

在思考链（CoT）的基础上，研究社区已经发展了一些非线性 CoT：- 思考树（Tree of Thought）：实际上是将 CoT 与树搜索结合起来：Tree of Thoughts: Deliberate Problem Solving with Large Language Models- 思考图（Graph of Thought）：正如你所猜测的。将树变成图，就能得到一个更复杂的搜索操作符：Graph of Thoughts: Solving Elaborate Problems with Large Language Models

真实信号：有几种可能性：1. 每个数学问题都伴随着一个已知答案。OAI 可能已经收集了大量来自现有数学考试或竞赛的语料。2. ORM 本身可以作为真实信号，但这样可能会被利用，从而“失去能量”维持学习。3. 形式验证系统，如 Lean 定理证明器，可以将数学问题转化为编码问题，提供编译器反馈：https://lean-lang.org

就像 AlphaGo 一样，策略大语言模型和价值大语言模型可以通过迭代相互促进改进，也可以在可能的情况下从人类专家的注释中学习。更优秀的策略大语言模型将帮助思考树搜索探索出更佳策略，反过来为下一轮迭代收集更好的数据。

Demis Hassabis曾提到 DeepMind 的 Gemini 将使用“AlphaGo 风格的算法”来加强推理能力。即便 Q* 不是我们想象中的那样，谷歌肯定会用自己的方式紧随其后。如果我能想到这些，他们肯定也能。

同时Jim指出他所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话 Grok或角色扮演方面会更有创造力。提升创造力本质上是人类的事情，因此他也相信自然数据仍会胜过合成数据。