真格基金大模型能力测试问题集---基础篇
AI魔法学院
2023-06-28
分享海报

出自:https://github.com/zhenbench/z-bench

ChatGPT 发布以来,我们经常会在使用它时发出惊叹:啊,这个居然它也能答出来!与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts

那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了ChatGPT 48 个基本能力,在 NLP 领域,也已经有了SuperGLUEMMLUGoogle BIG-bench等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。

但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:

  • 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;
  • 随着这些测试集成为行业标准,可能会出现定向优化和过拟合的情况;
  • 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。

因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,总结推出了「Z-Bench—— 一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集。

Z-Bench v1.0」从基础能力进阶能力垂直能力 3 个角度出发,共提供了 300 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

基础问题:

谁是蝙蝠侠

1955 年谁是美国总统

1955 年谁是美国总统?他是什么党派?

2008年全球票房最高的电影是什么?

2008年全球票房最高的电影由谁执导?

谁是 Fred Rickerson

香蕉的平方根是多少

麻辣螺丝钉怎么做

截至2017年,全球1岁的儿童中有多少已接种某种疾病的疫苗?

请问马有多少条腿?

蜘蛛有多少只眼睛?

请给以下公司分类:AppleFacebookFedex

请判断这些句子中表达的情绪:我的猫好可爱♥♥

请判断这些句子中表达的情绪是否正面: 1. 我受不了家庭作业 2. 这糟透了,很无聊😠 3. 我等不及万圣节了!!! 4. 我的猫很可爱❤️❤️ 5. 我讨厌巧克力

请提取这段话中的关键词:橘猫,也称橘子猫,是混种猫中常见的一种毛色,成年公猫通常有5公斤以上,母猫4公斤以上。橘猫中的公猫较多,毛色通常分成全橘色、橘白相间两种。全橘色的猫,身上会带有浅浅白色条纹相间,仅有少数猫会在肚子呈现白色。橘白相间的猫,身上有大块橘色斑块与白底毛色相间。公猫通常是全橘色居多,母猫则是橘白色相间居多。

猫、白菜和鲸鱼都属于什么?

美短、英短、暹罗和缅因属于什么?

现在你是一个 JavaScript 聊天机器人,例如:我:如何组合数组?你:您可以使用 concat() 方法。我:如何让警报在 10 秒后出现?你:

我:你最近在忙什么?朋友:看老电影。我:你有没有看到什么有趣的东西?朋友:

给一个小学一年级学生解释一下:量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。它与相对论一起构成现代物理学的理论基础。量子力学不仅是现代物理学的基础理论之一,而且在化学等学科和许多近代技术中得到广泛应用。

将此更正为标准英语:She no went to the market

把下面这句话更正为标准中文:我上班不想去

将下面这句话翻译成英语、法语、西班牙语和日语:你们有哪些房间可用?

请把这个电影名用 emoji 表示:星球大战

黄昏时分天空颜色的 CSS 代码: background-color: #

列举10本科幻小说:

将这句话中的第一人称转换为第三人称(性别女性):我决定制作一部关于 Ada Lovelace 的电影。

为一篇写关于尼古拉·特斯拉及其技术贡献的文章创建一个大纲

从此文本中提取机场代码:我想从奥兰多飞往波士顿

列一个包含顶级科幻电影和发行年份的两列电子表格:标题 | 发布年份

回顾“哈利·波特”系列丛书在中国的出版史,过去的17年,这套书陪伴许多中国读者从少年走到青年。19976月,哈利·波特系列英文版正式出版发行,迅速成为全球最畅销的图书之一。200010月,人民文学出版社推出哈利·波特系列的前三部中文版:《哈利·波特与魔法石》《哈利·波特与密室》《哈利·波特与阿兹卡班的囚徒》。之后,中文简体字版基本上与英文版保持同步出版,从2001年到2007年,陆续推出《哈利·波特与火焰杯》(2001年)、《哈利·波特与凤凰社》(2003年)、《哈利·波特与混血王子》(2005年)、《哈利·波特与死亡圣器》(2007年),在中国掀起一阵又一阵魔法热潮。据了解,哈利·波特引进中国的17年,销量超过两千万册。

从这封电子邮件中提取姓名和邮寄地址:亲爱的凯利,很高兴在研讨会上与您交谈。我觉得简的演讲很好,谢谢你的书,这是我的地址 2111 Ash Lane, Crestview CA 92002 Best, Maya

我要采访一位科幻作家,创建一个包含 8 个问题的列表

根据以下文本创建一个带编号的转弯指示列表:沿 95 号公路向南行驶,直到到达 Sunrise boulevard,然后向东行驶至 us 1,然后向南行驶。几英里后,Tom Jenkins bbq 将在左侧。

研究古罗马时我应该学习的 5 个要点是什么?

研究量子力学我该学习的五个要点是什么?

研究红楼梦我该学习的五个要点是什么?

假设你是 Marv,总是不情愿地用讽刺语气回答问题,例如一公斤是多少磅?Marv:又是这个?一公斤有 2.2 磅。 HTML 是什么?

根据描述帮我起个产品名字吧 产品描述:家用搅拌机 关键词:快速、健康、小巧

写一些 VR 和健身结合的方案

用牛肉、草莓、萝卜、木薯、罗勒叶、百里香、苹果帮我生成一个晚餐食谱

中子星是大质量超巨星坍缩的核心,其总质量在 10 25 个太阳质量之间,如果恒星特别富含金属,则可能更多。 [1] 中子星是除黑洞和假想的白洞、夸克星和奇异星之外最小、密度最大的恒星。 [2] 中子星的半径约为 10 公里(6.2 英里),质量约为 1.4 个太阳质量。 [3] 它们是由大质量恒星的超新星爆炸和引力坍缩相结合产生的,后者将核心压缩到超过白矮星密度,达到原子核的密度。Tl;DR

#JavaScript to Python:JavaScript: dogs = ["bill","joe","carl"]car = []dogs.forEach((dog) { car.push(dog);});Python:

"""Util exposes the following:util.stripe() -> authenticates & returns the stripe module; usable as stripe.Charge.create etc"""import util"""Create a Stripe token using the users credit card: 5555-4444-3333-2222, expiration date 12 / 28, cvc 521"""

##### Fix bugs in the below function ### Buggy Python import Random a = random.randint(1,12) b = random.randint(1,12) for i in range(10): question = "What is "+a+" x "+b+"? " answer = input(question) if answer = a*b print (Well done!) else: print("No.") ### Fixed Python

# Python 3.7def randomly_split_dataset(folder, filename, split_ratio=[0.8, 0.2]): df = pd.read_json(folder + filename, lines=True) train_name, test_name = "train.jsonl","test.jsonl" df_train, df_test = train_test_split(df, test_size=split_ratio[1], random_state=42) df_train.to_json(folder + train_name, orient='records', lines=True) df_test.to_json(folder + test_name, orient='records', lines=True)randomly_split_dataset('finetune_data/', 'dataset.jsonl') # An elaborate, high quality docstring for the above function:"""

解释这个短语:问题就像火箭

类比“时光如梭”,创建短语

根据这些笔记写一篇餐厅评论: 餐厅名称:The Blue Wharf Lobster 很棒,很吵,服务很有礼貌,价格不错。

创建一个 SQL 请求以查找居住在LA并拥有超过 1000 积分的所有用户

# Python 3 def remove_common_prefix(x, prefix, ws_prefix): x["completion"] = x["completion"].str[len(prefix) :] if ws_prefix: # keep the single whitespace as prefix x["completion"] = " " + x["completion"] return x # 解释这段代码是干什么的 #

创建一个 OpenAI API 调用指令,完成开始以提示“Once upon an AI”开头的故事,不超过 5 个标记,不包括提示。

def foo(n, k): accum = 0 for i in range(n): for l in range(k): accum += i return accum """ 这个函数的时间复杂度是

以早餐为主题写两句恐怖故事

##### Translate this function from Python into Haskell ### Python def predict_proba(X: Iterable[str]): return np.array([predict_one_probas(tweet) for tweet in X]) ### Haskell

写一首关于交通信号灯的诗

翻译这句话:ಕುಡಿಕೆಯಲ್ಲಿ ಮೆಣಸು.ನಾನು ಯಾರು?

请根据前半段完成剩下的句子:约翰认为他需要帮助,但他真的需要帮助吗?约翰认为珠宝商喜欢电视,但.....

你如何理解这首诗:今天的紫菜汤有点咸了/但紫菜却不在意/飘飘荡荡/好像回到了大海

用鲁迅的风格,以“今天的紫菜汤有点咸了”开头,写一首四行诗

陨石为什么总能落在陨石坑里?

为什么爸妈结婚没叫我参加婚礼?

玉皇大帝住在平流层还是对流层?

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip