击败Llama 2，抗衡GPT-3.5，Stability AI新模型FreeWilly2登顶开源大模型排行榜

「我就午休了 30 分钟，我们的领域又变了？」在看到最新的开源大模型排行榜后，一位 AI 领域的创业者发出了灵魂追问。

排行榜链接：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型：FreeWilly 1 和 FreeWilly 2。刚刚，它们超越了 Meta 三天前发布的 Llama-2-70b-hf，成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是，FreeWilly 2 在很多基准上还击败了 ChatGPT（GPT-3.5），成为首个真正可以和 GPT-3.5 相抗衡的开源大模型，这是 Llama 2 都没有做到的事情。

FreeWilly 1 基于原始的 LLaMA 65B 基础模型构建，并且在标准 Alpaca 格式下，使用新的合成数据集进行了仔细的有监督微调（SFT）。FreeWilly2 则基于最新的 LLaMA 2 70B 基础模型构建。

从 Stability AI 发布的博客中，我们可以看到这两个新模型的一些细节：

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似，但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了 60 万个数据点（大约是原始 Orca 论文使用的数据集大小的 10%），它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的：

COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original

采用这种方法，研究者使用了一个较简单的 LLM 模型生成了 50 万个示例，并使用一个更复杂的 LLM 模型生成了额外的 10 万个示例。为了确保公平比较，他们仔细筛选了这些数据集，并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的 1/10（相比原始论文大大降低了训练模型的成本和碳排放），但由此产生的 FreeWilly 模型在各种基准测试中表现出色，验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估，研究者使用了 EleutherAI 的 lm-eval-harness 基准，并加入了 AGIEval。

其中，lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建，前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准，它会在 Hugging Face 计算集群的空闲周期中运行评估，并将结果存储在数据集中，然后在在线排行榜空间上显示。

AGIEval 则由微软创建，专门用于评估基础模型在「以人为本」（human-centric）的标准化考试中的表现，比如数学竞赛、律师资格考试。

在许多方面，两个 FreeWilly 模型表现都非常出色，包括复杂的推理、理解语言的微妙之处，以及回答涉及专业领域（如法律和数学问题）的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下（这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的）：

二者在 AGIEval 基准上的表现如下（全部是 0-shot）：

此外，他们还在 GPT4ALL 基准上对两个模型进行了测试（全部是 0-shot）：

总体来看，这两个模型的性能表现都非常优秀，进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly 1：https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly 2：https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看，FreeWilly 模型的出现给大家带来了一点小小的震撼，因为它们来得实在是太快了，毕竟 Llama 2 才刚刚推出 3 天，排行榜位置都没坐热。有位研究者表示，他最近刚做了眼科手术，一个星期没看新闻，但感觉自己已经昏迷了一年。所以，这是一段「不能眨眼」的时期。

不过，需要注意的是，虽然两个模型都是开放获取的，但和 Llama 2 不同，它们是以非商业许可的形式发布的，仅可用于研究目的。然而，这样的做法引起了网友质疑。对此，Stability AI的研究者回复说，这种情况（仅用于研究目的）只是暂时的，未来，FreeWilly 有望像 Llama 2 一样允许商用。

此外，也有人对测试采用的基准产生了质疑：

这也是当前一个比较棘手的问题。此前，Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议，后来，该事件彻底反转，事实证明 Llama 并未被 Falcon 碾压，HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天，如何有效地评估这些模型依然是一个值得讨论的问题。因此，对于这些登顶排行榜的模型，我们有必要保持更加谨慎的态度，等待更多的评测结果出炉。

参考链接：https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement