大模型评测新思路:弱智吧精华问题大全
AI魔法学院
2024-04-21
分享海报

「被门夹过的核桃,还能补脑吗?」

在中文网络上流传着这样一段话:弱智吧里没有弱智。

百度「弱智吧」是个神奇的地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。最近几年,弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结,其实就是给当年吧里的弱智发言排个名。

各种高质量的段子在这里传入传出,吸引了无数人的围观和转载,这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇,说不定就是弱智吧老哥的杰作。

随着十几年的发展,越来越多的弱智文学也有了奇怪的风格,有心灵鸡汤,有现代诗,甚至有一些出现了哲学意义。

最近几天,一篇人工智能领域论文再次把弱智吧推上了风口浪尖。

引发 AI 革命的大模型因为缺乏数据,终于盯上了弱智吧里无穷无尽的「数据集」。有人把这些内容拿出来训练了 AI,认真评测对比一番,还别说,效果极好。

接下来,我们看看论文讲了什么。

最近,大型语言模型(LLM)取得了重大进展,特别是在英语方面。然而,LLM 在中文指令调优方面仍然存在明显差距。现有的数据集要么以英语为中心,要么不适合与现实世界的中国用户交互模式保持一致。

为了弥补这一差距,一项由 10 家机构联合发布的研究提出了 COIG-CQIA(全称 Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。数据来源包括问答社区、维基百科、考试题目和现有的 NLP 数据集,并且经过严格过滤和处理。

此外,该研究在 CQIA 的不同子集上训练了不同尺度的模型,并进行了深入的评估和分析。本文发现,在 CQIA 子集上训练的模型在人类评估以及知识和安全基准方面取得了具有竞争力的结果。

研究者表示,他们旨在为社区建立一个多样化、广泛的指令调优数据集,以更好地使模型行为与人类交互保持一致。

本文的贡献可以总结如下:

提出了一个高质量的中文指令调优数据集,专门用于与人类交互保持一致,并通过严格的过滤程序实现;

探讨了各种数据源(包括社交媒体、百科全书和传统 NLP 任务)对模型性能的影响。为从中国互联网中选择训练数据提供了重要见解;

各种基准测试和人工评估证实,在 CQIA 数据集上微调的模型表现出卓越的性能,从而使 CQIA 成为中国 NLP 社区的宝贵资源。

论文地址:https://arxiv.org/pdf/2403.18058.pdf

数据地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA

论文标题:COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

COIG-CQIA 数据集介绍

为了保证数据质量以及多样性,本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文 NLP 数据集,以丰富任务的多样性。具体来说,本文将数据源分为四种类型:社交媒体和论坛、世界知识、NLP 任务和考试试题。

社交媒体和论坛:包括知乎、SegmentFault 、豆瓣、小红书、弱智吧。

世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。

NLP 数据集:COIG-PC COIG Human Value 等。

考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。

1 为数据集来源统计。研究者从中国互联网和社区的 22 个来源总共收集了 48,375 个实例,涵盖从常识、STEM 到人文等领域。

2 说明了各种任务类型,包括信息提取、问答、代码生成等。

3 演示了指令和响应的长度分布。

为了分析 COIG-CQIA 数据集的多样性,本文遵循先前的工作,使用 Hanlp 工具来解析指令。

实验结果

该研究在不同数据源的数据集上对 Yi 系列模型(Young et al., 2024)和 Qwen-72BBai et al., 2023)模型进行了微调,以分析数据源对模型跨领域知识能力的影响,并使用 Belle-Eval 上基于模型(即 GPT-4)的自动评估来评估每个模型在各种任务上的性能。

2、表 3 分别显示了基于 Yi-6BYi-34B 在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色,在数学和编码方面表现不佳。

下图 4 显示了 CQIA 和其他 5 个基线(即 Yi-6B-ChatBaichuan2-7B-ChatChatGLM2-6BQwen-7B-Chat InternLM-7B-Chat)的逐对比较人类评估结果。结果表明,与强基线相比,CQIA-Subset 实现了更高的人类偏好,至少超过 60% 的响应优于或与基线模型相当。这不仅归因于 CQIA 能够对人类问题或指令生成高质量的响应,还归因于其响应更符合现实世界的人类沟通模式,从而导致更高的人类偏好。

该研究还在 SafetyBench 上评估了模型的安全性,结果如下表 4 所示:

COIG Subset 数据上训练的模型性能如下表 5 所示:


弱智吧问题汇总

  1. 只切一刀,如何把四个橘子分给四个小朋友?

  2. 高考满分才750,怎么才能考985?

  3. 既然监狱里全是罪犯,王警官为什么不去监狱里抓人?

  4. 古人有那么多封号,是不是说明古人很爱开外挂?

  5. 我拿水兑水,得到的是稀水还是浓水?

  6. B疑惑地问β:“你是啥b?”

  7. 咱们来玩个马吃草的扮演游戏吧,我草你马。

  8. 地下赌马是不是也叫私密马赛?

  9. 俄罗斯那么自信是不是因为他们的总统是普姓男?

  10. 为什么我爸妈结婚的时候没邀请我参加婚礼?

  11. 王老汉愤怒地打开水龙头,因为开水龙头烫着他了。

  12. 在发现我没有道德后对方放弃了道德绑架。

  13. 没有一片雪花是无辜的,王老汉指着没信号的电视说道。

  14. 碰到女鬼,我花了一个小时解释唯物主义,让她相信自己不存在。

  15. 我买了一斤藕,为什么半斤都是空的?

  16. 午餐肉,我可以晚上吃吗?

  17. 我想配个6000多的电脑,大概要多少钱?

  18. 香菇掉厕所了还能叫香菇吗?

  19. 玉皇大帝住的是平流层还是对流层?

  20. 变形金刚买保险是买车险还是人险?

  21. 导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?

  22. 空腹能吃饭吗?

  23. 生蚝煮熟了叫什么?

  24. 每天吃一粒感冒药,还会感冒吗?

  25. 雷公电母放的是直流电还是交流电?

  26. 如果猪肾虚,那它的腰子还补吗?

  27. 请问孕妇打人算群殴吗?

  28. 去自首的路上被抓了还算自首吗?

  29. 老鼠生病了可以吃老鼠药治好吗?

  30. 万能胶能不能粘住不粘锅?

  31. 陨石为什么每次都能精准砸到陨石坑?

  32. 为什么运动员的教练不去比赛呢?

  33. 被五步蛇咬了倒退五步能把蛇反杀吗?

  34. 斑马是黑底白花还是白底黑花?

  35. 吃止痛药去打架,算开挂吗?

  36. 被门夹过的核桃,还能补脑吗?

  37. 吃健胃消食片能吃饱吗?

  38. 把一只变色龙扔彩虹糖里会怎么样?

  39. 不孕不育会遗传吗?

  40. 正月剪头被舅舅制止并暴打一顿舅舅是否构成正当防卫?

  41. 秃头的人洗头,用洗头膏还是洗面奶?

  42. 如果父母以后的钱都是留给我的,那我是不是能认为,他们现在正在花我的钱?

  43. 水不能直接喝,苹果不能直接吃,为什么让不能直接喝的水洗洗苹果就能吃了?

  44. 咖啡豆是豆,咖啡算豆浆吗?

  45. 用数据线传输电脑和手机文件,同时两头拔掉,文件可以保存在数据线中吗?

  46. 用毒蛇毒毒毒蛇,毒蛇会不会被毒蛇毒毒死?

  47. 怎么才能把脑子里的钱提到银行卡里?

  48. 人要是行,干一行行一行,一行行行行行,行行行干哪行都行。要是不行,干一行不行一行,一行不行行行不行,行行不行干哪行都不行。

  49. “校服上别别别的”里的三个“别”分别是什么意思?

  50. “他一把把把把住了”中的四个“把”分别是什么意思?

  51. 很多人看不到未来,其实是看到了未来。

  52. 小明通过作弊使他的思想品德考了满分。

  53. 敬老院的新人都是老人,这世界的大人都是小人。

  54. 玩家:为什么我打游戏没有伤害?腾讯:没有买卖就没有伤害。

  55. 如果我觉得自己是自由的,那么是否自由也束缚住了我?

  56. 声音的传播需要时间,我们面对面说这话,我在过去,你在未来。

  57. 工人罢了工,于是成了人。

  58. 夜里很安静,我打开了收音机录下来,等白天吵闹的时候播放。

  59. 即使现场破乱不堪,名侦探仅凭回忆就还原了整个行凶过程。

  60. 皇帝感叹道:“孤的胜,你们都看在眼里;孤的败。”然后就退朝了。

  61. 地球上有70%的海洋和30%的陆地,那么剩下的30%海洋和70%陆地去哪儿了?

  62. 既然快递要3天才到,为什么不把所有的快递都提前3天发?

  63. 小时不识月,呼作地卫一。

  64. 王老汉找人拼命,现在两人共用一条命。

  65. 重阳节建议给60岁以上的老人放半天假。

  66. 把昆虫都放进水里,水就变混浊了。

  67. 为什么单位学校这些都有保卫处,没有进攻处?

  68. 我觉得上有老下有小是在形容我的外貌。

  69. 房东把房租给我,为什么不把房租给我?

  70. 公司年会上表演千手观音的演员有俩去加班了,于是节目改名为996观音。

  71. 前天还有人祝我生日快乐呢,今天怎么没了?

  72. 每次喝塑料瓶里的水都要往里面扔石头好麻烦啊!

  73. 本想年初一和女朋友领证,可惜民政局又没开门,只能明年再试试了。

  74. 善用短语可以凑字数,比如说比如说,还有就是还有就是,以及以及。

  75. 程昱建议曹操不要小瞧周瑜,曹操说可以不要周瑜。

  76. 每年死于交通事故的鲨鱼几乎为零,可见鲨鱼十分遵守交通规则。

  77. 都说水火不容,那有些流量明星是怎么做到又水又火的?

  78. 奶牛的英文是cow,所以牛奶的英文是woc。

  79. 幸好年初没制定计划,不然就要完不成了。

  80. 恋爱脑,是两种我没有的东西。

  81. 既然高考是看排名的,那大家为什么不都考0分呢?这样人人都有大学上了。

  82. 白骨精头疼是看骨科还是脑科?

  83. 西游剧组招募演员,忧郁的演神,爱笑的演精。

  84. 面对控方律师的铁证如山,辩方律师不慌不忙地使出了愚公移山。

  85. 建立柏林墙简直就是一举两德。

  86. 如果病毒不会通过网线传染,为什么不用网线制作防护服呢?

  87. 人类每天都盖被子睡觉,所以人类是被子植物。

  88. 战胜自我,到底是我赢了还是我输了?

  89. 把加特林从冰箱拿出来算冷兵器吗?

  90. 再来一个冷战会不会阻止全球变暖呢?

  91. 跳多高才能跳过广告?

  92. 货拉拉拉不拉拉布拉多?

  93. 眼镜没发明出来之前眼镜蛇叫什么?

  94. 孙悟空是碳基生物还是硅基生物?

  95. 变形金刚买保险是买车险还是人险?

  96. 是弱智吧创造了弱智,还是弱智创造了弱智吧?

  97. 如果有人批评你不够客观,那么很可能是你的观点不符合他的主观。

  98. 因为电子书没有书香,所以电子书没有书香。

  99. 存在的星星不一定都发光,发光的星星不一定还存在。

100.“你走你的。”阳关道。

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip