出自:https://zhuanlan.zhihu.com/p/634608422
更详细的大模型信息,见https://github.com/jeinlee1991/chinese-llm-benchmark
综合能力得分为分类能力、信息抽取能力、阅读理解能力三者得分的平均值。
4.1 表格问答排行榜(阅读理解细分能力)
表格问答作为阅读理解细分能力,单独列出,但不计入综合能力评分。 专门考查大模型对表格的理解分析能力,常用于数据分析。
评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。
见本项目github:
© THE END
转载请联系本网站获得授权
投稿或版权问题请加微信:skillupvip