出自:https://github.com/zhenbench/z-bench
自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。
作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。
那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也已经有了 SuperGLUE、MMLU、Google
BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。
但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:
- 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;
- 随着这些测试集成为行业标准,可能会出现定向优化和过拟合的情况;
- 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。
因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品(类
ChatGPT 产品)准备的测试集。
「Z-Bench v1.0」从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 个
Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。
基础问题:
谁是蝙蝠侠
1955
年谁是美国总统
1955
年谁是美国总统?他是什么党派?
2008年全球票房最高的电影是什么?
2008年全球票房最高的电影由谁执导?
谁是 Fred Rickerson
香蕉的平方根是多少
麻辣螺丝钉怎么做
截至2017年,全球1岁的儿童中有多少已接种某种疾病的疫苗?
请问马有多少条腿?
蜘蛛有多少只眼睛?
请给以下公司分类:Apple、Facebook、Fedex
请判断这些句子中表达的情绪:我的猫好可爱♥♥
请判断这些句子中表达的情绪是否正面: 1. 我受不了家庭作业 2. 这糟透了,很无聊😠 3. 我等不及万圣节了!!! 4. 我的猫很可爱❤️❤️ 5. 我讨厌巧克力
请提取这段话中的关键词:橘猫,也称橘子猫,是混种猫中常见的一种毛色,成年公猫通常有5公斤以上,母猫4公斤以上。橘猫中的公猫较多,毛色通常分成全橘色、橘白相间两种。全橘色的猫,身上会带有浅浅白色条纹相间,仅有少数猫会在肚子呈现白色。橘白相间的猫,身上有大块橘色斑块与白底毛色相间。公猫通常是全橘色居多,母猫则是橘白色相间居多。
猫、白菜和鲸鱼都属于什么?
美短、英短、暹罗和缅因属于什么?
现在你是一个 JavaScript 聊天机器人,例如:我:如何组合数组?你:您可以使用
concat() 方法。我:如何让警报在 10 秒后出现?你:
我:你最近在忙什么?朋友:看老电影。我:你有没有看到什么有趣的东西?朋友:
给一个小学一年级学生解释一下:量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。它与相对论一起构成现代物理学的理论基础。量子力学不仅是现代物理学的基础理论之一,而且在化学等学科和许多近代技术中得到广泛应用。
将此更正为标准英语:She no went to the market。
把下面这句话更正为标准中文:我上班不想去
将下面这句话翻译成英语、法语、西班牙语和日语:你们有哪些房间可用?
请把这个电影名用 emoji 表示:星球大战
黄昏时分天空颜色的 CSS 代码: background-color: #
列举10本科幻小说:
将这句话中的第一人称转换为第三人称(性别女性):我决定制作一部关于 Ada Lovelace 的电影。
为一篇写关于尼古拉·特斯拉及其技术贡献的文章创建一个大纲
从此文本中提取机场代码: “我想从奥兰多飞往波士顿”
列一个包含顶级科幻电影和发行年份的两列电子表格:标题 | 发布年份
回顾“哈利·波特”系列丛书在中国的出版史,过去的17年,这套书陪伴许多中国读者从少年走到青年。1997年6月,“哈利·波特”系列英文版正式出版发行,迅速成为全球最畅销的图书之一。2000年10月,人民文学出版社推出“哈利·波特”系列的前三部中文版:《哈利·波特与魔法石》《哈利·波特与密室》《哈利·波特与阿兹卡班的囚徒》。之后,中文简体字版基本上与英文版保持同步出版,从2001年到2007年,陆续推出《哈利·波特与火焰杯》(2001年)、《哈利·波特与凤凰社》(2003年)、《哈利·波特与“混血王子”》(2005年)、《哈利·波特与死亡圣器》(2007年),在中国掀起一阵又一阵魔法热潮。据了解,“哈利·波特”引进中国的17年,销量超过两千万册。
从这封电子邮件中提取姓名和邮寄地址:亲爱的凯利,很高兴在研讨会上与您交谈。我觉得简的演讲很好,谢谢你的书,这是我的地址 2111 Ash Lane, Crestview CA 92002 Best, Maya
我要采访一位科幻作家,创建一个包含 8 个问题的列表
根据以下文本创建一个带编号的转弯指示列表:沿 95 号公路向南行驶,直到到达 Sunrise boulevard,然后向东行驶至 us 1,然后向南行驶。几英里后,Tom Jenkins bbq 将在左侧。
研究古罗马时我应该学习的 5 个要点是什么?
研究量子力学我该学习的五个要点是什么?
研究红楼梦我该学习的五个要点是什么?
假设你是 Marv,总是不情愿地用讽刺语气回答问题,例如一公斤是多少磅?Marv:又是这个?一公斤有 2.2 磅。 HTML 是什么?
根据描述帮我起个产品名字吧
产品描述:家用搅拌机 关键词:快速、健康、小巧
写一些 VR 和健身结合的方案
用牛肉、草莓、萝卜、木薯、罗勒叶、百里香、苹果帮我生成一个晚餐食谱
中子星是大质量超巨星坍缩的核心,其总质量在 10 到 25 个太阳质量之间,如果恒星特别富含金属,则可能更多。 [1] 中子星是除黑洞和假想的白洞、夸克星和奇异星之外最小、密度最大的恒星。 [2] 中子星的半径约为 10 公里(6.2 英里),质量约为
1.4 个太阳质量。 [3] 它们是由大质量恒星的超新星爆炸和引力坍缩相结合产生的,后者将核心压缩到超过白矮星密度,达到原子核的密度。Tl;DR
#JavaScript
to Python:JavaScript: dogs =
["bill","joe","carl"]car = []dogs.forEach((dog) {
car.push(dog);});Python:
"""Util
exposes the following:util.stripe() -> authenticates & returns the
stripe module; usable as stripe.Charge.create etc"""import
util"""Create a Stripe token using the users credit card:
5555-4444-3333-2222, expiration date 12 / 28, cvc 521"""
#####
Fix bugs in the below function ### Buggy Python import Random a =
random.randint(1,12) b = random.randint(1,12) for i in range(10): question =
"What is "+a+" x "+b+"? " answer =
input(question) if answer = a*b print (Well done!) else: print("No.")
### Fixed Python
#
Python 3.7def randomly_split_dataset(folder, filename, split_ratio=[0.8, 0.2]):
df = pd.read_json(folder + filename, lines=True) train_name, test_name =
"train.jsonl","test.jsonl" df_train, df_test =
train_test_split(df, test_size=split_ratio[1], random_state=42)
df_train.to_json(folder + train_name, orient='records', lines=True)
df_test.to_json(folder + test_name, orient='records', lines=True)randomly_split_dataset('finetune_data/',
'dataset.jsonl') # An elaborate, high quality docstring for the above
function:"""
解释这个短语:问题就像火箭
类比“时光如梭”,创建短语
根据这些笔记写一篇餐厅评论:
餐厅名称:The Blue Wharf Lobster 很棒,很吵,服务很有礼貌,价格不错。
创建一个 SQL 请求以查找居住在LA并拥有超过
1000 积分的所有用户
#
Python 3 def remove_common_prefix(x, prefix, ws_prefix):
x["completion"] = x["completion"].str[len(prefix) :] if
ws_prefix: # keep the single whitespace as prefix x["completion"] =
" " + x["completion"] return x # 解释这段代码是干什么的 #
创建一个 OpenAI API 调用指令,完成开始以提示“Once upon an AI”开头的故事,不超过 5 个标记,不包括提示。
def
foo(n, k): accum = 0 for i in range(n): for l in range(k): accum += i return
accum """ 这个函数的时间复杂度是
以早餐为主题写两句恐怖故事
#####
Translate this function from Python into Haskell ### Python def
predict_proba(X: Iterable[str]): return np.array([predict_one_probas(tweet) for
tweet in X]) ### Haskell
写一首关于交通信号灯的诗
翻译这句话:ಕುಡಿಕೆಯಲ್ಲಿ ಮೆಣಸು.ನಾನು ಯಾರು?
请根据前半段完成剩下的句子:约翰认为他需要帮助,但他真的需要帮助吗?约翰认为珠宝商喜欢电视,但.....
你如何理解这首诗:今天的紫菜汤有点咸了/但紫菜却不在意/飘飘荡荡/好像回到了大海
用鲁迅的风格,以“今天的紫菜汤有点咸了”开头,写一首四行诗
陨石为什么总能落在陨石坑里?
为什么爸妈结婚没叫我参加婚礼?
玉皇大帝住在平流层还是对流层?