大模型能力评估体系

大模型技术的快速发展，特别是由OpenAI发布的ChatGPT等模型的问世，标志着人工智能进入了一个新的里程碑。据中国科学技术信息研究所的数据，国内具有超过10亿参数规模的模型已达79个，标志着一场规模宏大的“百模大战”。

随着这些模型在自然语言处理、图像识别、自动编程等多个领域显示出的卓越能力，它们正逐渐成为科技界的焦点。但在这场大战中，我们如何评价每个参与者的表现？

随着大模型技术的推进，评测其性能和能力的需求也日益增长，这不仅仅是技术层面的需求，更关系到商业决策和公众认知。10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告，包括新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》、天津大学和信创海河实验室发布的《大模型评测报告》、国际数据公司IDC发布的《AI大模型技术能力评估报告，2023》等。

评测不仅是技术性的比较，也越来越多地被用作营销工具。这种情况下，评测的真实意义有时会被忽视，而且开源和闭源评测之间的选择权衡会带来公正性问题。大模型对评测集的敏感性导致了一些榜单出现了“刷榜”现象。这种情况涉及到使用未公开答案的评测题库进行针对性训练以提高分数。一些榜单为了避免这种现象，选择了“闭源”方式，但这又对评测机构提出了更高的权威性要求。

为了实现更加公正和全面的评测，一些机构采取了过程公开的评测方法。例如，OpenCompass和FlagEval通过开源评测流程或数据集，支持每次评测，提供了大量题目和对模型潜力的评价体系。

大模型的评测通常涉及多个维度，包括模型的通用能力、泛化能力、鲁棒性、跨域性能、多语言能力、解释性和安全性等。评测模式多种多样，如使用通用数据集的选择题评分、GPT-4 更优模型评分、竞技场模式评分、单项能力评分、以及通用测试的场景测试评分等。

评测集可能是公开的，如GLUE和SuperGLUE，也可能是封闭的，如某些专业领域的基准测试。这些评测集针对不同的领域，如GSM8K和MMLU，它们考虑了从人文到社会科学到理工科的综合知识能力。随着主观题目比例的增加，评测方法越来越多地采用了主观题与客观题结合的方式。但主观题的评分标准可能因人而异，加上题量的限制，这些都可能影响评测结果的可靠性和有效性。

常见的大模型评测体系：

以下是一些广泛认可的大模型评测体系介绍：

GLUE和SuperGLUE：这两个基准测试旨在评估模型在理解自然语言的能力。它们包含多种任务，如文本分类、推理、问答和情感分析。GLUE和SuperGLUE基准测试模拟了真实世界的语言处理场景，并成为了衡量模型自然语言理解能力的标准。

GSM8K和MMLU：这些基准测试覆盖了57个不同的学科，从而为大模型提供了一个全面的知识领域评估。GSM8K侧重于数学问题解决，而MMLU则是一个多项选择题集，测试大模型在多学科知识上的理解和推理能力。

BLUE-bench：专注于生物医学领域的基准测试，检验模型在医学问答和相关任务上的性能。

Chatbot Arena：采用了类似国际象棋的Elo评分系统，通过用户投票评估模型的综合表现，尤其强调模型在对话生成任务上的能力。

Adversarial Robustness Benchmarks：通过对抗样本来测试模型在面对恶意输入时的抵抗力，从而评估模型的安全性。

LLM Ethics Benchmarks：伦理基准测试评估大模型在生成内容时是否会违背社会公认的道德和伦理规范，例如在偏见、毒性和诚实性方面的表现。

Zero-shot and Few-shot Learning Benchmarks：测试大模型在没有或只有极少量训练数据的情况下的学习能力，关注模型的适应性和泛化能力。

C-Eval：C-Eval是一个全面的中文基础模型评估套件，它包含了来自不同学科和难度级别的多项选择题，专门评估模型在中文语境下的表现。

MultiMedQA：专注于医学问答的基准测试，考量模型在医学检查、研究和消费者健康问题上的表现。

PromptBench：PromptBench是一个评测大模型提示鲁棒性的基准，它测试模型对于输入干扰的敏感性，评估模型在理解和执行指令时的稳定性。

典型的大模型评测框架示例

以中文通用大模型综合性测评基准（SuperCLUE）为例，是针对中文可用的通用大模型的一个测评基准，它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

Github项目地址：

https://github.com/CLUEbenchmark/SuperCLUE

目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新

以SuperCLUE基础十大能力结构包含四个能力象限，包括语言理解与生成、知识理解与应用、专业能力和环境适应与安全性，进而细化为10项基础能力。

SuperCLUE-Open体系下，针对一些典型的大模型进行评估的结果示例：

大模型评测的未来方向

理论上，功能类似的模型在不同榜单上的排名应当接近，然而现实却是排名结果存在显著差异。这一现象揭示了当前大模型评测领域的一个核心问题：评测标准的不一致性。这些榜单的差异凸显了大模型评测领域的挑战与动态。

针对大模型评测领域的深入分析，微软亚洲研究院贡献了一篇综述性文章《A Survey on Evaluation of Large Language Models》。该综述调研了219篇文献，从评测对象（what to evaluate）、评测领域（where to evaluate）、评测方法（How to evaluate），以及当前面临的挑战等多个方面，对大模型评测进行了全面的梳理和总结。

论文地址：https://arxiv.org/pdf/2307.03109.pdf

开源链接：https://github.com/MLGroupJLU/LLM-eval-survey

另外天津大学自然语言处理实验室最近发布了大模型评测的综述文章。该综述文章共有 111 页，其中正文部分 58 页，引用了 380 余篇参考文献。

· 论文地址：https://arxiv.org/abs/2310.19736

· 论文参考文献详细列表：https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

该综述将整个大模型评测按照评测维度的不同分为了 5 个评测类别：（1）知识和能力评测，（2）对齐评测，（3）安全评测，（4）行业大模型评测，（5）（综合）评测组织。这 5 个评测类别基本囊括了当前大模型评测的主要研究领域。

未来的评测方向正逐渐向设计更全面的评测方法过渡，这些方法旨在深入评估大模型在特定场景下的风险，并探索智能体在多样化环境中的能力与风险。此外，动态评测方法的发展，如定期更新测试样本和引入挑战性更大的开放式问题，将成为评估大模型实际应用能力的重要手段。同时，AI社区也在探讨结合定性和定量分析的混合评测方法，以便更全面地理解大模型的能力和限制。

在多个评测榜单中，不同的评测标准和方法产生了截然不同的结果，凸显了建立公认的、统一的评测标准的必要性。全面考量模型的性能、鲁棒性、安全性和伦理标准，将确保大模型技术的健康发展，并推动其在各行各业的广泛应用，最终造福全人类。

关于大模型评测的思考

在这个数据驱动的时代，众多企业正竞相投入资源以打造行业或者企业定制的大模型，这些模型背后的资源投入和努力都令人瞩目。我们正见证一个充满激动人心的技术革新时刻，很多技术团队在面对大模型的技术迭代时，就像小男孩面对满屋子的乐高积木，兴奋而专注地探索着每一种可能的组合。

但在这场技术竞赛中，企业必须冷静思考，回归到一个基本而关键的问题：我们构建大模型的真正目的是什么？只有建立一个全面的评测体系，我们才能更清晰地认识到大模型竞赛的真正意义，确保我们的努力朝着正确的方向发展。

从个人到企业，从通用到行业，大模型的发展都需要定义一个目标。

通用的大模型评测体系，包括语言，逻辑，人文历史科学地理等通用知识，对客观世界的认知，智商情商，人类价值观测试等。这些测试的目的是为了确保模型不仅能理解和生成人类语言，还要确保其决策和输出符合基本的伦理和价值观标准。

目标：在通用知识评测上超过99%的人类。

行业的大模型评测体系，包含行业的专业知识，考试，面试，场景实测等。这些评测聚焦于模型在特定行业内的应用，如医疗、金融或法律。在这些领域，模型需要展现出对专业知识的深入理解，以及在真实世界场景中准确运用这些知识的能力。例如，在医疗行业中，模型不仅需要理解医学术语，还需要根据医学知识提供合理的诊断和治疗建议。

目标：在专业判断上能超过95%的行业专家。

企业的大模型评测体系，包括企业的历史，组织，价值观，文化，流程，业务，技术，信息系统等。在这一层面，评测的重点是模型是否能理解和融入特定企业的环境。这包括对企业文化的适应、能在企业流程中高效工作，以及处理与企业相关的复杂数据和信息系统。

企业环境中存在的特殊挑战，如数据碎片化、不透明性、关键人物对决策的影响难以预测、组织流动性，以及企业需要快速适应社会环境变化等因素，使得建立一个稳定且有效的评测基准具有一定难度。

目标：90%的业务流程通过AI自动化、智能化。

个人的大模型评测体系中，对个人层面的关注尤为重要，评测的核心不仅是保护个人信息的安全和敏感性，更是评估模型对个人价值观、人生观、记忆和性格特征的理解能力。这种评测的目的在于确定模型是否能够准确地捕捉并反映一个人的独特性，包括其行为和决策偏好。

想象一下，如果大模型能够在多种有限选择题的场景中准确预测个人的选择，这将是一项重大的技术突破。比如在没有绝对正确答案的价值观的判断上，或者在日常生活中，如个人对手机上不同内容的喜好，以及消费习惯和观念的偏好。这样的能力不仅展示了模型在理解复杂人类行为方面的高度适应性，也为个性化服务和决策提供了强有力的支持。

目标：在99%的有限选择题场景中，能够准确匹配个人的选择和偏好。

出自：https://mp.weixin.qq.com/s/23sTJPhs_-UPy2GF2yajAA