出自:https://zhuanlan.zhihu.com/p/634608422
更详细的大模型信息,见https://github.com/jeinlee1991/chinese-llm-benchmark
综合能力得分为分类能力、信息抽取能力、阅读理解能力三者得分的平均值。
4.1 表格问答排行榜(阅读理解细分能力)
表格问答作为阅读理解细分能力,单独列出,但不计入综合能力评分。 专门考查大模型对表格的理解分析能力,常用于数据分析。
评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。
见本项目github:
CLiB中文大模型能力评测榜单(持续更新)
目前已囊括19个大模型,覆盖chatgpt、百度文心一言、阿里通义千问、讯飞星火、360智脑、minimax、tigerbot等商用模型, 以及belle、chatglm6b、ziya、guanaco、Phoenix、linly、MOSS、AquilaChat等开源大模型。 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。