CLiB中文大模型能力评测榜单（持续更新）

出自：https://zhuanlan.zhihu.com/p/634608422

目前已囊括19个大模型，覆盖chatgpt、百度文心一言、阿里通义千问、讯飞星火、360智脑、minimax、tigerbot等商用模型，以及belle、chatglm6b、ziya、guanaco、Phoenix、linly、MOSS、AquilaChat等开源大模型。
模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
支持多维度能力评测，包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。
不仅提供能力评分排行榜，也提供所有模型的原始输出结果！有兴趣的朋友可以自己打分、自己排行！

⚓TODO

将更多大模型加入评测：gpt4、Claude、谷歌Bard、falcon、羊驼、百川、wizardLM等等
增加开源大模型的授权协议，注明能否商用
引入更多维度的评测：数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译……
评测维度更细分，比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力……
海纳百川，整合各类评测榜单，扩充细分领域榜单（比如教育领域、医疗领域）
加入更多评测数据，使得评测得分越来越有说服力

大模型基本信息

更详细的大模型信息，见https://github.com/jeinlee1991/chinese-llm-benchmark

大模型	机构	类别	链接
chatgpt-3.5	openai	商用	https://chat.openai.com
文心一言	百度	商用	https://yiyan.baidu.com
chatglm官方	智谱AI	商用	https://chatglm.cn
讯飞星火	科大讯飞	商用	https://xinghuo.xfyun.cn/desk
360智脑	奇虎360	商用	https://ai.360.cn/
阿里通义千问	阿里巴巴	商用	https://tongyi.aliyun.com
minimax	minimax	商用	https://api.minimax.chat
tigerbot-7b官网	虎博科技	商用/开源	https://www.tigerbot.com/
chatglm-6b	清华大学&智谱AI	开源	https://github.com/THUDM/ChatGLM-6B
belle-llama-7b-2m	链家科技	开源	https://github.com/LianjiaTech/BELLE
BELLE-on-Open-Datasets	链家科技	开源	https://github.com/LianjiaTech/BELLE
belle-llama-13b-2m	链家科技	开源	https://github.com/LianjiaTech/BELLE
belle-llama-13b-ext	链家科技	开源	https://github.com/LianjiaTech/BELLE
Ziya-LLaMA-13B-v1	IDEA研究院	开源	https://mp.weixin.qq.com/s/IeXgq8blGoeVbpIlAUCAjA
guanaco-7b	JosephusCheung	开源	https://huggingface.co/JosephusCheung/Guanaco
phoenix-inst-chat-7b	港中文	开源	https://github.com/FreedomIntelligence/LLMZoo
linly-chatflow-13b	深圳大学	开源	https://github.com/CVI-SZU/Linly
MOSS-003-SFT	复旦大学	开源	https://github.com/OpenLMLab/MOSS
AquilaChat-7B	智源研究院	开源	https://github.com/FlagAI-Open/FlagAI/blob/master/examples/Aquila/README.md

排行榜

1 综合能力排行榜

综合能力得分为分类能力、信息抽取能力、阅读理解能力三者得分的平均值。

2 分类能力排行榜

3 信息抽取能力排行榜

4 阅读理解能力排行榜

4.1 表格问答排行榜（阅读理解细分能力）

表格问答作为阅读理解细分能力，单独列出，但不计入综合能力评分。专门考查大模型对表格的理解分析能力，常用于数据分析。

各项能力评分

评分方法：从各个维度给大模型打分，每个维度都对应一个评测数据集，包含若干道题。每道题依据大模型回复质量给1~5分，将评测集内所有题的得分累加并归一化为100分制，即作为最终得分。

原始评测数据

见本项目github：

GitHub - jeinlee1991/chinese-llm-benchmark: 中文大模型能力评测榜单：覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！github.com/jeinlee1991/chinese-llm-benchmark

评测样本示例

分类评测样本举例
请分类以下5种水果：香蕉、西瓜、苹果、草莓、葡萄。
将下列单词按词性分类。狗，追，跑，大人，高兴，树
将下列五个词分为两个组别，每个组别都有一个共同点：狗、猫、鸟、鱼、蛇。
给定一组文本，将文本分成正面和负面情感。举例文本:这部电影非常出色，值得推荐。我觉得导演做得很好。这场音乐会真是个灾难，我非常失望。
将以下10个单词分类为动物或植物。树木、狮子、玫瑰、草地、松鼠、猴子、蘑菇、兔子、山羊、香蕉
……

信息抽取评测样本举例
HR: 你好，我是XYZ公司的招聘主管。我很高兴地通知你，你已经通过了我们的初步筛选，并且我们希望邀请你来参加面试。候选人：非常感谢，我很高兴收到你们的邀请。请问面试的时间和地点是什么时候和哪里呢？ HR: 面试的时间是下周二上午10点，地点是我们公司位于市中心的办公室。你会在面试前收到一封详细的面试通知邮件，里面会包含面试官的名字、面试时间和地址等信息。候选人：好的，我会准时出席面试的。请问需要我做哪些准备工作呢？ HR: 在面试前，请确保你已经仔细研究了我们公司的业务和文化，并准备好了相关的问题和回答。另外，请务必提前到达面试现场，以便有足够的时间了解我们的公司和环境。候选人：明白了，我会尽最大努力准备好的。非常感谢你的邀请，期待能有机会加入贵公司。 HR: 很高兴能和你通话，我们也期待着能和你见面。祝你好运，并期待下周能见到你。基于以上对话，抽取出其中的时间、地点和事件。
给定以下文本段落，提取其中的关键信息。今天早上，纽约市长在新闻发布会上宣布了新的计划，旨在减少治安问题。该计划包括增加派遣警察的人数，以及启动社区倡议，以提高居民对警察工作的支持度。
在给定的短文中找出三个关键词。西方的哲学历史可上溯至古希腊时期，最重要的哲学流派包括柏拉图学派、亚里士多德学派和斯多葛学派。
从以下诗句中提取人物名称：两个黄鹂鸣翠柳，一行白鹭上青天。
明天天气怎么样？广州明天最冷多少度？广东大后天最暖多少度？北京冷不冷？提取出上述句子中的地理位置实体
……

阅读理解评测样本举例
牙医：好的，让我们看看你的牙齿。从你的描述和我们的检查结果来看，你可能有一些牙齦疾病，导致牙齿的神经受到刺激，引起了敏感。此外，这些黑色斑点可能是蛀牙。病人：哦，真的吗？那我该怎么办？牙医：别担心，我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病，然后清除蛀牙并填充牙洞。在此过程中，我们将确保您感到舒适，并使用先进的技术和材料来实现最佳效果。病人：好的，谢谢您，医生。那么我什么时候可以开始治疗？牙医：让我们为您安排一个约会。您的治疗将在两天后开始。在此期间，请继续刷牙，使用牙线，并避免吃过于甜腻和酸性的食物和饮料。病人：好的，我会的。再次感谢您，医生。牙医：不用谢，我们会尽最大的努力帮助您恢复健康的牙齿。基于以上对话回答：病人在检查中发现的牙齿问题有哪些？
文化艺术报讯国务院办公厅发布关于2023年部分节假日安排的通知，具体内容如下：元旦：2022年12月31日至2023年1月2日放假调休，共3天。春节：1月21日至27日放假调休，共7天。1月28日（星期六）、1月29日（星期日）上班。清明节：4月5日放假，共1天。劳动节：4月29日至5月3日放假调休，共5天。4月23日（星期日）、5月6日（星期六）上班。端午节：6月22日至24日放假调休，共3天。6月25日（星期日）上班。中秋节、国庆节：9月29日至10月6日放假调休，共8天。10月7日（星期六）、10月8日（星期日）上班。基于以上信息回答：2023年五一假期怎么放假。
基于以下表格，请问张三的考勤情况员工姓名,日期,上班时间,下班时间,是否迟到,是否早退,是否请假张三,1月1日,8:30,17:30,否,否,否李四,1月1日,9:00,18:00,是,否,否王五,1月1日,8:00,16:30,否,是,否赵六,1月1日,8:30,17:00,否,否,是张三,1月2日,8:00,17:00,否,否,否李四,1月2日,8:30,17:30,否,否,否王五,1月2日,9:00,18:00,是,否,否赵六,1月2日,8:30,17:00,否,否,是
对于给定的问答对，判断问题是否被正确回答问题：地球是第几颗行星？答案：地球是第三颗行星。
根据以下文本回答问题：什么是能量守恒定律？物理学是自然科学的一个重要分支，研究自然界的物质、能量、空间和时间等基本概念。在物理学的研究中，科学家们探索了宇宙的奥秘，从微观粒子到宏观天体的各个方面都进行了深入研究。在物理学中，一个重要的概念是能量守恒定律。能量守恒定律指出，一个孤立系统的总能量在任何时间都是不变的。也就是说，能量不能被创造或摧毁，只能被转化成其他形式。例如，当一个物体被提起并释放时，它的势能被转化为动能，使得物体开始运动。
……

大模型输出结果示例

prompt输入	chatgpt3.5输出
将下列单词按词性分类。狗，追，跑，大人，高兴，树	好的，以下是这些单词按照词性分类后的结果：名词：狗、大人、树动词：追、跑形容词：高兴
从以下诗句中提取人物名称：两个黄鹂鸣翠柳，一行白鹭上青天。	这句诗出自唐代诗人杜甫的《绝句》，并没有明确提到人物名称。这句诗主要是在描绘自然景色，通过形象生动的语言来表现春天的美丽景象。诗中提到“两个黄鹂”，“一行白鹭”，他们是动物而非人物名称。黄鹂是一种鸟类，它们身体鲜黄色，嘴巴呈钩形，叫声清脆悦耳；白鹭是另一种水鸟，身体白色，嘴巴细长，善于捕捉鱼类等。杨婉这句诗意境深远，很好地表现了大自然的美丽和神奇。
……	……

为什么做榜单？

大模型百花齐放，也参差不齐。不少媒体的宣传往往夸大其词，避重就轻，容易混淆视听；而某些公司为了PR，也过分标榜自己大模型的能力，动不动就“达到chatgpt水平”，动不动就“国内第一”。所谓“外行看热闹，内行看门道”，业界急需一股气流，摒弃浮躁，静下心来打磨前沿技术，真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统，把各类大模型的优点、不足一一展示出来。如此，大家既能把握当下的发展水平、与国外顶尖技术的差距，也能更加清晰地看明白未来的努力方向，而不被资本热潮、舆论热潮所裹挟。
对于产业界来说，特别是对于不具备大模型研发能力的公司，熟悉大模型的技术边界、高效有针对性地做大模型技术选型，在现如今显得尤为重要。而一个公开、公正、公平的大模型评测系统，恰好能够提供应有的助力，避免重复造轮子，避免因技术栈不同而导致不必要的争论，避免“鸡同鸭讲”。
对于大模型研发人员，包括对大模型技术感兴趣的人、学术界看中实践的人，各类大模型的效果对比，反应出了背后不同技术路线、技术方法的有效性，这就提供了非常好的参考意义。不同大模型的相互参考、借鉴，帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费，有助于整个大模型生态圈的良性高效发展。