出自:https://github.com/zhenbench/z-bench
自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。
作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。
那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也已经有了 SuperGLUE、MMLU、Google
BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。
但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:
- 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;
- 随着这些测试集成为行业标准,可能会出现定向优化和过拟合的情况;
- 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。
因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品(类
ChatGPT 产品)准备的测试集。
「Z-Bench v1.0」从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 个
Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。
垂直问题:
`化学`
假设一种计算机设计,其中多个处理器,每个处理器都有私有缓存存储器,使用单个总线共享全局存储器。这个总线是关键的系统资源。只要内存引用由本地缓存满足,每个处理器可以每 500 纳秒执行一条指令。当出现缓存未命中时,处理器会延迟额外的 2000 纳秒。在这额外的延迟的一半时间内,总线专门用于服务缓存未命中。在另一半时间内,处理器不能继续,但总线可以自由地服务其他处理器的请求。平均而言,每条指令需要 2 次内存引用。平均而言,缓存未命中在 1% 的引用中发生。忽略由于来自其他处理器的竞争而产生的延迟,一个单独的处理器会占用总线容量的多少比例? (A) 1/50 (B) 1/27 (C) 1/25 (D) 2/27
在对新生儿进行遗传测试时,发现了一种罕见的X连锁隐性遗传疾病。关于这种疾病的谱系图,以下哪种说法可能是正确的? (A) 母系的所有后代都会患上该病。 (B) 在这个家族中,女性患病的比例将大约是男性的两倍。 (C) 受影响的男性的所有女儿都会患病。 (D) 患病的男性和女性的分布将是相等的。
为什么防病毒扫描器无法发现Heartbleed的利用? (A) 这是一个无意义的问题:Heartbleed只能读取缓冲区外的内容,因此没有可能的利用。 (B) 防病毒扫描器往往寻找病毒和其他恶意软件。 (C) Heartbleed攻击防病毒扫描器本身。 (D) 防病毒扫描器往往寻找病毒和其他恶意代码,但Heartbleed利用可窃取秘密而无需注入任何代码。
一个模型飞机,当它逆风飞行时速度较慢,顺风时速度较快。当以垂直于风向的方式起飞时,相对于静止空气飞行的地速为: (A) 相同 (B) 更快 (C) 更慢 (D) 根据风速可能是更快或更慢
截至2017年,全球1岁的儿童中有多少已接种某种疾病的疫苗?
同源结构经常被引用作为自然选择过程的证据。以下所有的结构都是同源结构,除了 (A) 鸟的翅膀和蝙蝠的翅膀 (B) 鲸鱼的鳍和人的手臂 (C) 海豚的胸鳍和海豹的鳍 (D) 昆虫的前腿和狗的前肢
从溶解度定理中,以下哪个陈述是正确的? (A) 所有的氯化物、溴化物和碘化物都是可溶的 (B) 所有的硫酸盐都是可溶的 (C) 所有的氢氧化物都是可溶的 (D) 所有含铵的化合物都是可溶的
舌骨的胚胎学起源是什么?请在以下选项中选择:(A) 第一鳃弓 (B) 第一和第二鳃弓
(C) 第二鳃弓 (D) 第二和第三鳃弓
为什么在小行星带所在的地方没有行星呢?请选择: (A) 有一颗行星曾经在这里形成,但被一次灾难性的碰撞摧毁了。 (B) 在太阳系星云的这个区域内没有足够的物质形成一颗行星。 (C) 这里有太多的岩石物质,无法形成类地行星,但又没有足够的气态物质形成类木行星。
(D) 木星的共振阻止物质聚集形成行星。
作为一个医生,在将工作交给资深同事之前,您应该尝试给病人插管多少次?(A) 4 (B) 3 (C) 2 (D) 1
在人口转型模型的第三阶段,以下哪项是正确的? (A) 出生率增加,人口增长率减缓。 (B) 出生率下降,人口增长率减缓。 (C) 出生率增加,人口增长率增加。 (D) 出生率下降,人口增长率增加。
以下哪项不包括在美国GDP中? (A) 美国军队在一个外国开设新基地,并驻扎了1000名美国人员。 (B) 日本消费者购买了数千张在美国制作的CD。 (C) 一位美国流行歌手在巴黎举办了一场门票售罄的音乐会。 (D) 一部法国戏剧作品巡演美国数十个城市。
一名33岁的男子因甲状腺癌接受了根治性甲状腺切除术。在手术过程中,由于中度出血,需要结扎左侧颈部的几条血管。术后,血清研究显示钙浓度为7.5 mg/dL,白蛋白浓度为4 g/dL,甲状旁腺激素浓度为200 pg/ml。以下哪条血管的损伤导致了该患者现在的情况?
《大云经》预言了谁的来临?
一项针对糖尿病患者的观察性研究评估了血浆纤维蛋白原水平增加对心脏事件的风险。
在60名具有正常基底血浆纤维蛋白原水平的患者中,有20人发展为急性冠状动脉综合征,40人没有发展为急性冠状动脉综合征。 在70名基底蛋白原水平较高的患者中,40人患上了急性骨髓瘤综合征,30人没有。基底蛋白原水平较高的患者与基底蛋白原水平正常的患者患病的风险分别是多少?
国会为什么反对威尔逊的国家联盟提案?
差分关联/差别接触理论是什么?
《化学武器公约》(CWC)禁止拥有和使用化学武器;然而,它没有执行要求签署国申报其现有化学武器库存、确认曾经参与化学生产的设施,或宣布现有库存将被销毁的规定,这是为什么?
你为一家公用事业公司工作,该公司正在社区建设一个生物质能发电厂。你的雇主要求你做一系列关于该工厂和未来运作的社区讲座。在你要发表演讲的几个小时前,你参观了工厂,演讲稿是由你的直接主管准备的。在参观工厂的过程中,你发现演讲中的一些说法并不真实。你会怎么做?
最有可能使打人和撕毁教科书的孩子的行为立即得到改善的治疗方案是?
一名63岁的男子被送到急诊科,因为他有4天的左腿疼痛和左小腿肿胀的历史。他还有1个月的上中胸背痛病史。在此期间,他的体重下降了9公斤(20磅),但食欲没有变化。他没有重大疾病的病史。他的唯一药物是布洛芬。他身高180厘米(5英尺11英寸),体重82公斤(180磅);BMI为25公斤/平方米。他的生命体征在正常范围内。检查时,可以触摸到双侧下肢的脉搏。体格检查的其他部分没有发现异常。胸椎的X光片显示没有异常。腹部CT扫描显示胰腺体内有一个3厘米的肿块;有肝脏转移和肠系膜上动脉被包裹。左下肢的超声检查显示有股骨头静脉血栓。该患者症状的最可能原因是什么?
在汤姆考试的前一天晚上,隔壁的邻居举行了一次聚会,音乐让他无法入睡,他给邻居打了电话,请她不要吵,邻居却突然挂断了电话。
汤姆并不打算射杀任何人,只是将枪口对准邻居天花板的一个角度,他很想对邻居的房子造成一些破坏,以缓解他的愤怒。 然而,子弹从天花板上弹出,击中了一个人的背部,导致他死亡。请问汤姆是否犯了罪,是什么罪?
根据德国法律,我作为一个居住在慕尼黑,单身且抚养3个未成年儿童的母亲,每年的收入约为 8 万欧元,住房费用约 2 万欧元,我的年缴税额与所应申请的补贴如何计算?
研究人员现在认为,造成玛雅文明衰落的原因主要是:(A)某种类型的地震、火山或海啸。(B)刀耕火种造成的生态退化。(C)无休止的战争。(D)导致先天性疾病增加的繁育方式。
根据摩尔的 "理想的功利主义",正确的行动是能带来最大数量的什么?
针对桑德尔的 "社会正义 "论点,卡玛尔认为:(A)即使我们有能力提高自己或他人的地位,我们也没有义务这样做。(B)在(i)选择一个人有某种特征和(ii)负责承担这种选择的成本之间是有区别的。(C)有选择地加强将导致更少的人需要别人的帮助的情况。(D)上述所有的情况
以下哪种病症不显示多因素遗传?(A)幽门螺杆菌病 (B)精神分裂症
(C)脊柱裂(神经管缺陷) (D)马凡斯综合征
社会上最容易受到参考群体影响的单一群体是:(A)感到有些被遗弃的老年消费者。(B)已婚妇女,她们中的许多人觉得自己的生活需要稳定。(C)新移民,他们希望能融入新文化。(D)儿童,他们的购买决定大多是基于外界的影响。
根据Lewin, Lippet和White在1939年的实验,哪种领导形式让参与者产生了最多的工作?(A)自由放任 (B)民主 (C)独裁 (D)自由放任和民主的混合体
一个6面的圆盘滚动了15次,结果是:第1面出现了0次;第2面出现了1次;第3面出现了2次;第4面出现了3次;第5面出现了4次;第6面出现了5次。根据这些结果,使用加一平滑法时,第3面出现的概率是多少?(A)2/15(B)1/7(C)3/16(D)1/5
罗尔斯说,哪种立场最不可能被POP(处于原始立场的人)采纳?(A)POP会选择平等高于自由的原则。(B)POP会选择 "最大化
"策略。(C) 人民党会选择 "差异原则"。 (D) 人民党会拒绝
"自然自由制度"。
对《公民权利和政治权利国际公约》中的酷刑定义的保留在当代实践中是否可以接受?(A)如果服务国的立法采用了不同的定义,这种保留是可以接受的 (B)这种保留是不可接受的,因为它违背了《公民权利和政治权利国际公约》的目标和目的 (C)这是一种不可接受的保留,因为《公民权利和政治权利国际公约》中对酷刑的定义与国际习惯法不一致 (D)这是一种不可接受的保留,因为根据一般国际法,国家有权利对条约提出保留意见
晨吐通常发生在: (A)怀孕第一阶段 (B)怀孕第二阶段
(C)怀孕第三阶段 (D)在整个孕期都是如此
在其他条件相同的情况下,以下哪种人更有可能出现肥胖症?(A)一位年长的西班牙裔美国妇女 (B)一位年长的非洲裔美国妇女 (C)一位年长的亚裔美国妇女 (D)一位年长的土著美国妇女
"工人的不满在于生存的不安全感;他不确定自己会一直有工作,不确定自己会一直健康,而且他预见到自己有一天会变老,不适合工作。
如果他陷入贫困,即使只是因为长期患病,他也是完全无助的,只能听天由命,而社会目前并没有认识到任何真正的义务来帮助穷人,即使他一直都在勤勤恳恳地工作。 然而,对穷人的常规帮助有很多不足之处,特别是在大城市,那里比国内的情况要糟糕得多。" 1884 年,Ottovon Bismarck可能是为了回应以下哪一个问题而发表的讲话?(A)社会对儿童劳动的接受程度。(B)德国人的生命期望值下降。(C) 对德国贸易关税的批评。(D)归因于工业资本主义的负面效应。
乔纳森在统计学考试中取得了80分的成绩,他位于第90百分位。假设每个人的分数都加了5分,乔纳森的分数将达到(A)第80百分位。(B)第85百分位。(C)第90个百分位。(D)第95百分位数。
如果政府在完全竞争的市场上对生产者进行补贴,那么(A)产品的需求会增加(B)产品的需求会减少(C)消费者盈余会增加(D)消费者盈余会减少
乔负责一个舞会的灯光,红灯每2秒闪烁一次,黄灯每3秒闪烁一次,蓝灯每5秒闪烁一次。假设在舞会开始时,三个灯都同时闪烁,如果我们把舞会的开始和结束都包括在内,在7分钟的舞会中,所有的灯会同时亮起多少次?(A) 3 (B) 15 (C) 6 (D)
5