解读 | SuperCLUE 2023年9月全面测评大模型四大能力

引言

SuperCLUE是中文通用大模型的综合性评测基准，旨在对大模型在各个能力维度上的表现进行全方位的评估。本文我们将对2023年9月SuperCLUE大模型评测榜单进行剖析，解读各大模型的性能表现和行业发展趋势。

9月SuperCLUE支持细分基础能力榜单，详情可关注：www.superclueai.com

一、SuperCLUE评测方法论

1. 测评维度与能力

SuperCLUE的评测主要关注大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进一步细化为12项基础能力、100+细化任务。具体包括：

- 语言理解与生成：包括语言理解与抽取、上下文对话、生成与创作、角色扮演等方面；

- 专业技能与知识：涵盖了计算、逻辑与推理、代码、知识与百科等专业知识技能；

- Agent智能体：包括工具使用和任务规划两个关键能力，是当前与大语言模型相关的前沿研究热点；

- 安全性：关注大模型对可能引起困扰或伤害的内容的生成的防护能力。

2. 评分机制

SuperCLUE的评测分为"OPEN多轮开放问题"和"OPT三大能力客观题"两部分。OPEN多轮开放问题通过与特定代表性基线模型对战，根据胜、和、负的结果计算得分——胜利得3分，平手得1分，失败不得分。而OPT三大能力客观题，考察基础能力、中文特性、学术与专业能力，根据题目的得分汇总而来（每个题目的得分/总题目数）。

这两部分的权重分别是60%和40%，这一设计充分考虑到了多轮主观题的能力尤为重要，以此来更好地评估中文大模型的真实综合能力。

3. 题目数量和模型数量

本次使用全新3458道题目，全方位测评国内外最具代表性的20个通用大语言模型。

二、SuperCLUE榜单洞察

根据9月榜单，我们可以发现OpenAI的GPT4模型以83.2的总分位列榜首，表现出卓越的综合性能。而在各项单项能力中，GPT4也均表现出较强的实力，尤其在语言理解与生成、专业技能与知识、AI智能体三个方面，GPT4均位列第一。

根据9月榜单，当前国内模型与国际代表性模型如GPT-4、Claude2和gpt-3.5-turbo之间仍存在一定的差距。例如，在总分上，GPT-4的得分为83.2，而国内得分最高的模型得分为62.75，仍然有较大差距。不过，这并不代表国内模型的性能不佳，相反，一些模型在特定的维度和能力上展现出了优秀的表现。

我们还可以从榜单中看到一些模型在特定领域的出色表现：

1）AI Agent智能体能力方面，商汤SenseChat 3.0的表现也十分突出，紧随GPT4之后位列国内第一；

2）在语言理解与生成能力方面，百川智能的Baichuan2-13B-Chat在大模型中处在国内第一位置；

3）在清华&智谱的ChatGLM2-Pro在大模型安全性方面表现突出，国内大模型位列第一。

4）在专业知识与技能上，国际上代表性模型全面领先。

三、四大能力测评及其结果

1. AI Agent智能体榜单

在本次新增的AI Agent智能体榜单中，OpenAI的GPT4以91.67的总分位列第一，其次是商汤科技的SenseChat 3.0和Anthropic的Claude2。这表明这些模型在工具使用和任务规划两个关键能力上表现优秀，拥有类似贾维斯等科幻电影中人类超级助手的潜力，可以根据需求自主完成任务。