“都说AI好,一用急跺脚。”
这是娱乐资本论·视智未来在第一次做大语言模型文本应用能力测试时,写下的第一句话。
当时,对于不少从业者而言,AI大模型的重点不是能不能做顺口溜或回答哲学问题,而是在于AI是否能够在实际工作中发挥作用,提升效率。时至今日,这一基本需求仍未改变。
为了解决这样的疑问,我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士,征询到18个问题,针对国内的大型语言模型,进行了一次全面的,不同于以往科技工作者的文本应用能力测试。
时隔半年,情况发生了怎样的变化呢?
8月底,首批八款国产大模型完成备案,允许对公众开放:百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型)、商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。
这也让9月成为国产AI大模型的“节日”。这八款大模型中绝大部分免费开放,吸引了许多人的使用。很多媒体也在第一时间进行了简单的上手测试,而一些侧重于逻辑推理等能力的基准评测也迅速展开,各自产生了不同的结果。
越来越多的国产大模型在生成结果时默认加入网络搜索内容,以避免大模型生成错误的叙述,还有些国产大模型表示已经超越了GPT-3.5。此时,我们认为是展开第二轮AI大模型实用性评测的绝佳时机。本次测试有如下创新内容:
为尽可能排除测试中的干扰因素,使人们可以轻松地比较结果差异与提示词(prompt)之间的关系,我们的问题是模块化的。首先,按照大的任务分类,指定一些基础的提示词片段;然后,依据不同场景,逐级插入相应的段落。
考虑到目前大模型已经陆续接入网络,我们为同一个问题准备了联网和不联网的两种版本。本次测试中将有6个具体产品是联网的,有2个产品是不联网的。另有2个产品只参加跟写作能力有关的测试。
我们着重测试了通过自己长期使用,总结出来大模型最擅长的几种能力,包括对文章进行扩写、缩写和变换写作风格的改写,以及总结长文章的要点等。
这将是一篇特别长的评测。请坐稳扶好,我们现在出发。
测试过程简述:
我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景的综合表现,为文娱、传媒行业从业者提供参考。
我们会基于以下5个维度,为每个答案打0-5分,来评判大模型的表现。
1.语言表达能力:文本是否通顺、流畅,语法是否正确。
2.准确性:模型是否能正确理解问题,并给出准确的信息。
3.完整性:文本内容是否足够完整,是否涵盖了问题的主要内容,是否达到了基本可用的标准。
4.交互性:模型是否能猜测不太准确的问题背后,用户的真实意图。
5.加分项:任何创新、独特、让人眼前一亮的内容(不作具体要求)。
本测试的题目是互相分开的,不设总分。读者可以自行计算模型之间的总分,但对总分的比较没有显著意义。读者只需要留意每一道题的具体分数即可。
包含所有题目及回答的详细测试表单,将通过公众号“视智未来”发布。读者可以扫描/长按下列二维码查看详情:
VOL.1
部分测试项目及结果展示
因篇幅限制,本文不会一一展示所有问题的测试结果及结论,会挑一些有代表性的展示给大家。我们在下面展示的案例,由此来反映测试中突出的一些问题,以及寻求其中的一些闪光点。
联网能力判断
对于判断某个大模型是否真联网,我们用了两个问题:
请问现在通过备案的8款国产大模型都叫什么?
请问李凯尔会不会打杭州亚运
如果是有联网开关的大模型,一律使用其最佳状态测试。至于不联网问题仅针对不能联网的模型,计分标准一致。
有些时候,有些大模型的联网功能不完全,例如文心一言只能百度搜索prompt里面的关键字,不能读取指定网址链接。此时该问题会降级到测试不联网的版本。
本次测试仅仅使用娱乐资本论·视智未来能接触到的模型,不代表各家公司的最新技术。例如百川刚宣布的Baichuan2-7B用不上,就只测试现有的Baichuan-7B。Minimax对外发布的产品是WPS AI 和Glow(它基本不能用,不参与本次测试),它们使用的大模型可能也不是最新的版本,其它家的情况也类似。
小红书文案-产品介绍向
仅有百川、360智脑等在回答中提到华为Mate 60 Pro采用了麒麟9000s芯片,以及这是一款5G手机。不过,百川的回答错误地说该机用的是EMUI而不是鸿蒙。另一边,通义千问的某一次回答提到该手机的卫星通讯功能,却把处理器说成了骁龙8+。因此,这些模型通过联网来确保准确性的能力都比较差。
ChatGPT和Bing在网络结果中都用了华为官网的宣传页面,而因为众所周知的特殊原因,官网信息对处理器和5G功能隐而不宣。其它用到外部结果的模型,居然一个都没有提到“遥遥领先”“4G+鸿蒙>5G”等梗,而且也充满了没查到结果时候的脑补,非常令人失望。
要解决这个问题,一个可能的办法是分步推理,首先用一个专门的步骤去搜索所有和该手机有关的功能点,下一步再生成文案。在我们的测试中,你会发现很多问题如果用几个连续的prompt提问,而不是在一个问题中提问,效果都会更好。
小红书文案-买家秀向
我们本来是希望从商家角度和买家角度分别推断新品推介文案的差异,在小红书上同时存在这两种账号。不过实际测试后,“产品介绍向”和“买家秀向”的区别不大,所以这部分我们展示两款不能联网的大模型的表现。
对于不联网的模型,我们让它们介绍iPhone X,这款手机的基础知识在大多数模型训练的期限之内。
商汤的商量感觉还可以,对基础知识的调用比较准确,信息没有错漏;但格式较为死板,“互动引导”也出现在里面就需要更多的手动修改,也没有emoji。
智谱清言相对更为敷衍,但幸亏还是读完了题目的所有要求。相对而言,它没有很明确地介绍专属于iPhone X的功能。
作为对比,GPT-3.5的脑力输出就比较慷慨了。总的来说,虽然小红书属于一种简略的文体,但越是短小的段落,其实越难写。当然,让AI像专业文案作者那样工作是强“模”所难,AIGC比较适合完成对质量要求不高,但批量出品的那种工作。
直播文案—淘宝直播- 非常遗憾的是,没有模型在这个测试中给出“3、2、1,上链接”这句话,只有通义千问化用了“所有女生”,即使我们已经非常明确地提示了你要模仿的人是李佳琦。所以说,大模型的“理解”和“读懂”很多时候仍然只是人类用户善意脑补后的结果。可能相对比较好的有字节的豆包:(上图1)如果以标志性的语句为判断依据,那么通义千问也还可以:(上图2)如果佳琦哥是这么回答直播间提问的,他倒是一定不会翻车。
直播文案-抖音直播
这个测试用两个问题来测试模型是不是真的能联网。一般第一个问题(8个大模型的名称)已经可以确定是否联网,但判断不准时会加入第二个问题(李凯尔)。对这两个问题的回答,所有联网模型表现都很好,除了使用插件的GPT-4和360智脑——它即使打开了所谓的“搜索增强”,对问题的回答也有很大偏差。我们用最近成为热搜焦点的“秀才”作为问题,看这些模型是不是能Get到他的直播风格是:“秀才的视频拍摄地多为乡村场景,内容主要是‘认真做事、假装被发现、挑眉、吐舌、扶额对口型唱歌’的动作套路呈现。”另外,如果确定看过秀才的介绍文章,就会发现他在直播中一般不直接带货。
结果可想而知是不行。比如360智脑的常规版本:
360智脑还有一个“数字人广场”。记得这个大模型正式发布的时候说:
360将依托360智脑大模型能力,重新定义“数字人”。区别于传统数字人只能按既定脚本输出内容,360AI数字人的特点在于有记忆、有人设和性格,能够复刻思维方式和人生经历。据了解,360AI数字人目前拥有200多个角色,分为数字名人和数字员工两类。数字名人包括历史人物、偶像明星、文学形象等,让用户在与数字人的开放对话中实现与偶像的近距离接触,与先贤的思想交流。数字员工则可成为企业员工的知识助手和办公助手,提升企业运营效能。周鸿祎现场演示了“法务专员”数字人角色,对中小企业常见的公章管理和合同审核问题给与了专业回答。
我还真的以为是他们一个一个训练了小模型。当我真正用上的时候,我发现“数字人”的背后其实就是一行预设prompt:确实,加入预设角色后的效果好了不少,但是仍然距离理想状态有很大差距。对于360智脑来说,下一步如果不是预先选择角色,而是首先分析用户的输入,再根据用户意图推荐切换到某个角色,相信这样的用户体验会极大增强。
长文章写作-历史类 bing给我们开了个好头。它充分利用了联网搜索,给出了网上优质回答的文献综述,信息量很大,只可惜因为字数限制没有写完。相比之下,GPT-4的结果因为加入太多免责条款式的内容而显得啰嗦和“水”。在豆包的各种预制角色里面,搞笑的是居然就有一个“曹操”。我们立马用不联网的三国题测试了一下:可以说很努力的在角色扮演了,但是太短。豆包的回答普遍都特别短,跟bing类似,这使得它难以完成本测试中的大多数题目。另外,豆包在很多问题的回答都没有利用网络搜索,它似乎只有在明确提出“xxx是怎么回事”这样的单纯问题时,才会试图联网查询。这里还想提一下昆仑万维的天工。我们额外用题干测试了天工AI搜索。它给出答案的问题是字数太少,不过通过适当追问,你可以将其中每个段落都补充一些内容,从而生成非常可用的成品。天工AI搜索可以直接回答问答类问题,所以只需要输入问题本身。输入完整的提示词反而不行,因为太长了。它对我们所有问题的完整提示词都无法回答。
长文章写作-科普类 我们希望参与测试的模型们可以自己寻找一个给定主题(医美)的近期热点,然后解答这个热点。除了百川之外,其它模型的表现都不太好。特别是GPT-4,在插件搜索一番无功而返以后,为了满足prompt的要求,它只好编了一个前因后果都不明的故事作为引子。相比之下,百川给出的两个具体的医美关键字,我们可以通过小红书搜索发现它们确实是近期医美爱好者比较关心的手术项目。因此,这种给出具体项目的对比介绍就比泛泛的讨论医疗手术的风险与如何防范等,更符合我们题目的意思。当然,我们都不是医学专业人士,如果可以确认这些回答里面有明显的事实错误,将会成为重大的减分项。
文章调整-改写 绝大部分模型都无法通过我们的测试,它们号称联网,但无法准确抓到《孤注一掷》的剧情,因此只是随手乱答。例如通义千问的结果:(上图1)不仅如此,通义千问还错误地将我们的两个需求变成了自己的节标题,这说明它没有读懂问题。实际上要完成这个题目,大模型需要自己学会分步完成,即先搜索剧情,再类比出结果。这是Bing的结果(上图2),其思考过程很明显地反映了上述正确的步骤。而ChatGPT联网后的结果则更为惊艳:(上图3、4)
文章调整-扩写 本来我对于模型们写出跟跳水大爷有机结合的天津爱情故事没有任何期待。但在选择了Bing的“更有创造力”版本后,它给出了一篇任何角度看都当之无愧的满分作文,一个字都不用改。理解这个题目的关键是需要通过联网准确地获取“大爷跳水”的本质,是一种积极的运动方式。有的模型为了安排情节,将女方写成了新闻记者,还有的写成了勇救落水大爷,所以效果都比较遗憾。
文章调整-缩写
大部分模型表现都中规中矩,以WPS为例:WPS AI本身提供“总结”的功能选项,但是当输入我们的prompt时,它并不能正常工作:(下图1)如果觉得官方“总结”字数太少,可以“续写”,但通常来说效果不佳。这段文字“续写”两次后是这样:(上图2)不过,当文章篇幅增长时,WPS AI会变得更好用一些。这篇3000字的文章只能在prompt里涵盖前1000字,但对于全文的总结,WPS AI明显强于对刚才的前1000字的总结。(上图3)我们实际测试也发现,如果你需要指定字数的缩写,使用“全文处理-缩短篇幅”可能会比较好。
文章调整-仿写
在这个问题上优秀的回答,必然是调用了一整篇文章所总结的相关知识,我们本来也没期待大模型们用自己的方法一条一条地总结。但不管黑猫白猫,只要给出结果能用就好。ChatGPT正确地给出了基于搜索总结的2022年经典营销案例(来自一个知乎专栏),它给出的蜜雪冰城文案乍一看可能不相关,但仔细看会发现是用了“王心凌浪姐”里面提到的怀旧概念。当Bing说出“叫人想乐”的时候那场面是真的叫人想乐。文心一言也正确地实现了总结,但在最后关头的仿写上全面失败。考虑到问题两部分要完整地看,因此虽然百度没能完成给定任务,但总结得不错,算是加分项,最后这道题给了3分。
VOL.2
结论包含所有题目及回答的详细测试表单,将通过公众号“视智未来”发布。读者可以扫描/长按下列二维码查看详情:以下是参与本次评测的几款大模型在测试中的表现概述:
1.GPT-3.5/4:不联网时发挥出色,联网使用第三方插件,可能因为插件表现不稳定而大大影响了效果。
2.Bing:充分利用联网搜索,提供了大量信息,但有时因字数限制未能完成回答。
3.文心一言:展现了较好的总结能力,在仿写上表现不佳,但总体尚可。
4.通义千问:针对直播场景的表现很好;其他场景一般。
5.百川:在某些情况下能提供准确的信息,长文章写作能力出色,但有时难以正确理解问题。
6.豆包:回答通常较短,基本不能联网查询,难以完成测试中的多数题目。
7.360智脑:基本不能联网,默认设置效果不好,但使用预设角色(“数字人”)后有改善。
8.智谱清言:回答相对敷衍,但通常读取了题目的所有要求。
9.商量:对基础知识的调用准确,但回答格式较为死板。
10.WPS AI(minimax):在一些情况下无法正常工作。在文章总的篇幅增加时,其总结、缩写能力更强。
11.天工:AI搜索的回答字数较少,但通过适当追问,可以生成可用的成品。AI写作的风格类似于GPT-4。
大多数模型在不同类型的测试中表现都有一些问题,需要进一步改进,以提供更准确和有用的回答。读者可以注意到,我们对每个项目的评分基本在2到4分之间浮动。这是因为很难找到能够获得额外加分的项目,而通顺的语言表达通常都能够满足要求,所以2分是实际上的“最低分”,表示当大模型不能准确理解问题,或者答非所问的情况。在上面的摘要中,我们也提供了一些获得额外加分的示例。
关于联网功能对大模型是否有用的问题,我们目前只能很遗憾的回答,还不是特别有用。大部分联网动作的结果都是找到一篇文章(大概率是知乎上的),然后总结其主要内容作为回答。它的搜索结果特别“碰运气”,而且往往难以对相关内容做事实核查。
由于每个大模型的优化方向和训练素材都不同,所以将它们的总分进行比较并不是特别有意义。在处理特定问题时,读者可以参考相关具体项目的评分,结合自己的经验来进行选择。
下一步计划
和之前一样,在测试过程中可能依然存在一些遗漏和不成熟的地方。我们会根据大模型的升级换代和应用场景的变化,及时进行更新,也欢迎大家在公众号“视智未来”下关注并留言,贡献出自己想问的问题,我们后期将再做测试。
由于时间仓促,以下在规划中的项目将会在下一次大模型评测时引入:
1.我们的未来评测将更侧重于已经联网的模型。下一次评测将引入联网模型专属的一些问题,包括但不限于:
实时新闻、天气预报等查询
相关新闻、时间线等查询
产品比较、电影推荐等基于查询结果的分析
股票分析、旅行建议等复杂的解决方案
事实核查和辟谣
2.本次使用的GPT-4插件VoxScript是编辑日常使用的,但效果不一定是ChatGPT众多联网插件中最好的。这次GPT-4对一些问题令人失望的回答可能与此有关。在下次测试前,我们会首先完成对GPT-4联网插件的能力测试,并确定下次使用的插件型号。
3.部分厂家有插件及多模态能力,但相对比较分散。我们会根据各厂商的后续发展,确定是否在下次测试时引入多模态类内容。
4.翻译也是大模型的长项,但是由于需要专业的语言知识,所以我们这次不会测试翻译相关的内容。如果大家对此期望很高,我们会在下一次测试引入。
VOL.3
给读者的建议这次我们有一些基本建议,对于大家更好的使用AI大模型,更高效率的产出想要的内容可能会有所帮助:
首先,在GPT-4没有官方的网络搜索能力时,使用第三方联网插件可能反而会降低它的表现。
由于准确度较低,ChatGPT与必应的集成在前段时间已经暂停了。所以人们只能通过一些插件来访问搜索结果并将其代入GPT-4。但这些插件的工作原理各不相同,而且它们现在很难访问谷歌,大多数都改用免费的搜索引擎DuckDuckGo,这也影响了最终能搜到的东西。另外,有一些网站如微信公众号文章并不能被读取。
在prompt要求生成结果结合网络搜索之后,GPT的表现会变得难以预测。在实际使用中,建议大家分步来完成过程,特别是在写长文章时。第1步,让它先搜索网络上的结果,获得相关的文章链接及其摘要。第2步,再请它以此为基础来写文章。如果有必要,也可以先自己搜索,然后将相关文章的纯文本提供给GPT,让它总结,读完文章之后可以继续写作。
第二,对于特定任务,使用针对性优化过的国产模型,效果确实可能好于GPT。
GPT并不是不可超越的玄学。不能说OpenAI这一家公司掌握的技术,一定比所有开源社区共同努力的结果都好。关键在于,如果确实出现了超越,那么我们需要确定这种超越是否符合基本逻辑,以及背后的原因是什么。在本次测试中,通过发现GPT在特定场景下的弱点,我们对这个问题有了更准确的解释。
与今年三月时的情况相比,现在国产大模型确实在不断迭代进步中。这种进步背后的原因并不复杂,人们已经发现,通过特定的素材进行小样本的专项训练,可以使开源模型的表现超越泛用的ChatGPT。实际上,对大模型进行小型化和本地化部署,是现在最常见的AIGC创业模式之一。
因此,各家公司执行特定任务的大模型应用,比如最常见的扩写、缩写、总结、翻译等,实际上是展示他们在私有化部署这方面的技术能力。昆仑万维的天工大模型就分成了搜索、聊天和写作三个不同的功能入口,用它们来执行同一任务,效果也不尽相同。
读者不必迷信ChatGPT,可以根据上面测试结果和自己的经验,灵活选择最适合执行某个任务的模型品种。
第三,别急着说“大模型出来的东西效果不好”,应该通过更好的提问方法来引导。
实际上,在这次测试中,每个题目只使用了一个prompt,不带追问,这可能不会产生最佳结果。如前所述的结合网络搜索来写作,就是一个通过分步骤提问来优化生成结果的例子。此外,如果你在提问中提供更多的专业知识和术语,就会引导模型调用这方面的知识,从而朝着更专业的方向思考。
你可以通过自学和摸索,不断调整提问方式,来优化模型的回答,也可以寻求专业提示词优化服务的帮助。在这里,我们也想重新推荐娱乐资本论·视智未来出品的《ChatGPT白皮书》,当中提出了一些简单易懂的优化提示词基本规则。如果你对此感兴趣希望进一步了解,或者需要系统培训自己或者本企业的员工,都欢迎与我们联系,我们很愿意提供进一步协助。
出自:https://mp.weixin.qq.com/s/2iKve0brg2U6n9g5Shc2nQ