HalluQA: 测测中文大模型有没有一本正经胡说八道
AI魔法学院
2023-12-07
分享海报

2023年下半年,百模大战时代热度不减,各家的中文大模型在代码推理、数学、代码、考试等任务上都取得了优异的性能,在模型评测方面也出现了Gaokao-BenchC-EvalAGI-Eval这些用于各项能力评测的优秀数据集。但是,虽然现阶段大模型已经在各类任务上展现了强大的能力,但当大模型真正进行工业落地时,模型幻觉就成了一个必须要考虑的痛点问题。然而,相比于大模型其它维度的评测,在模型幻觉方面,仍然缺少一个用于评测中文大模型幻觉的数据集。对此,在Evaluating Hallucinations in Chinese Large Language Models这个工作中,复旦大学自然语言处理实验室联合上海人工智能实验室联合构建了一个中文领域幻觉评估数据集:HalluQA。并且评估了24个当前市面上流行的具有中文能力的大模型的表现。实验结论表明,24个模型中的18HalluQA上只取得了不到50%的非幻觉率,HalluQA对于当前的大模型具有很强的挑战性,当前的中文大模型在幻觉问题上还有较大的提升空间。

什么是模型幻觉?

幻觉是文本生成领域的一个经典问题,在不同的任务中,幻觉有不同的表现形式。在传统的NLP任务,例如文本摘要,机器翻译等,幻觉通常指模型生成的文本与输入的信息产生了矛盾、出现了输入中不存在的信息或者模型的输出出现了前后自相矛盾等现象。在大模型时代,幻觉主要用来指模型输出了和现实世界不一致的内容,例如捏造事实、分不清虚构与现实、相信谣言和传说等。这里推荐一篇综述,里面对幻觉的各种形式做了比较详细的介绍:Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models

在英文领域中,TruthfulQA是一个比较流行的用来测试模型幻觉的基准,它包含了817道基于GPT-3收集的对抗样本问题。InstructGPT, GPT-4, Llama-2的实验中都包含了在TruthfulQA上的实验结果来作为模型在幻觉维度的一个衡量。然而在中文方面,当前的模型重点关注的仍是模型解决各类任务的能力,忽视了对于模型幻觉现象的衡量。因此,我们着手构建了这样一个中文幻觉评估数据集HalluQA,并对市面上流行的一些中文大模型进行了测试。

大模型会出现什么样的幻觉?

正如前文提到的,对于大模型而言,人们主要关注模型输出是否与现实世界一致。具体来说,我们认为主要有两类幻觉需要考虑。第一类幻觉是模型会错误地模仿预训练语料中的行为或判断,而这些行为或判断是与真实世界不一致的。TruthfulQA主要就是针对这类问题构建的测试集[1],他们将这类问题称为"Imitative Falsehoods"(模仿性谎言)。第二类幻觉则是事实性错误"Factual Errors",即模型没有很好地掌握现实世界中的一些细粒度知识,导致它在回复一些涉及长尾知识的问题时容易出现幻觉。近期的工作也表明,这种对于知识的记忆、召回和推理能力的不足使得大模型容易出现事实性错误[2]

HalluQA的问题收集

IMG_256

我们分析了Llama2系列模型在TruthfulQA细分问题类别上的性能变化后发现,TruthfulQA中出现Imitative Falsehoods错误问题许多都是由于模型缺乏与人类偏好的行为对齐所导致的。因此,我们对应的设计了HalluQA中的误导类问题(misleading),这类问题上的幻觉往往涉及模型身份感知错误,相信神话传说真实发生,无法区分虚构与现实,相信互联网谣言和误传等,往往需要通过Alignment来纠正从这些从预训练语料中引入的行为。此外,我们还收集了问题本身急剧误导性的一些问题(例如很火的弱智吧问题),组成了一部分难度较大的误导类问题:misleading-hard。对于事实性错误,我们收集了一些比较长尾的知识类问题,组成HalluQAknowledge部分。IMG_257我们的所有问题都有作者以及上海人工智能实验室的研究生实习生标注完成。在构建问答对时,第一步我们首先会写出一些我们认为可能使模型出现幻觉的问题,例如一些误导或者长尾的冷知识等。第二步我们会选择一些大模型来构建对抗样本,收集他们无法正确回答的问题。对于misleading部分的问题,因为这类问题的正确率与模型的对齐程度有关,所以我们使用了一个未对齐的预训练大模型GLM-130B来构建对抗样本,而knowledgemisleading-hard部分的问题则同时使用了ChatGPT3.5和书生浦语。得到了问题之后,第三步我们会标注多个正确答案和错误答案,并补充一个支撑正确答案的外部知识链接或者是一个解释。第四步,我们会检查所有的问答对,修复质量问题,得到最终HalluQA的数据。我们通过这样的方法收集了450条数据,其中misleading部分175条,misleading-hard部分69条,knowledge部分206条,每个问题平均有2.8个正确答案和错误答案标注。

IMG_258

HalluQA的自动化评测

幻觉内容的评估是一件比较困难的事,即使是人类专家往往也需要借助外部知识来进行评估。为了提高HalluQA的可用性,我们设计了一个使用GPT-4担任评估者的评测方法。具体来说,我们把幻觉的标准以及作为参考的正确答案以指令的形式输入给GPT-4,让GPT-4判断模型的回复有没有出现幻觉。最近已经很多工作提出使用GPT等模型作为文本生成的评估者[3][4],我们的论文中也采样了6个模型的共计600个回复,通过实验发现了GPT-4的评估结果和人类专家具有93%的一致性。并且通过合理的prompt设计,几乎避免了GPT-4随机性对评估结果造成的影响。IMG_259不同模型在HalluQA问题上的非幻觉率(排名越高幻觉现象越少) 我们使用非幻觉率作为评测的指标,即针对所有HalluQA中的问题,模型的未出现幻觉的回复所占的百分比。在实验中,我们选取了市面上比较流行的24个具有中文能力的大模型进行了测试,包括开源模型和闭源模型等来源,涵盖了预训练模型、对话模型、检索增强对话模型等大模型生命周期的各个阶段。根据实验结果我们得出了以下结论。

o    整体来看,HalluQA对于当前的中文大模型非常具有挑战性,24个模型中的18个模型都只取得了低于50%的非幻觉率。

o    闭源模型的幻觉现象整体好于开源模型,这可能因为闭源模型经过了更多的用户反馈的bad case的优化,模型对于一些误导类问题已经做出了修正。gpt-3.5-turbo-0613幻觉较多的原因可能是因为HalluQA是基于ChatGPT-3.5构建的对抗样本。

o    经过对齐的chat models出现的幻觉要少于没有对齐的预训练模型,通过检索增强后,chat models的幻觉将进一步减少,这是因为检索带来的外部知识使得模型无需再从自己的参数中检索知识,极大地改善了模型的事实性错误。

o    不同类型的大模型(预训练、对话模型、检索增强的对话模型)在HalluQA上的性能有一个梯度,并且每个种类的模型在HalluQA上仍然有可以提升的空间。这说明了HalluQA可以用于大模型整个生命周期中的幻觉评估,功能性较强。

IMG_260更进一步,我们分析了对齐、检索增强等方法相比于预训练模型在不同类型问题上幻觉的改善。我们在上表中可以看出:

o    预训练模型经过对齐(Chat Models)可以显著减少回答误导性问题时出现的幻觉,但会轻微损害模型的知识能力。这可能是对齐税的一种表现。

o    检索增强技术大幅提高了模型在长尾知识类问题上的非幻觉率,但对于误导性问题的帮助较小

o    对于较难的误导类问题,检索和对齐带来的提升都比较缓慢,这意味着这些问题不能仅仅通过简单的对齐或检索增强来解决。这类问题往往是SFT或者RLHF容易被忽视的问题,因为这些问题本身可能存在矛盾,不像是通常会出现的用户Query(例如弱智吧问题之类的段子),因此很容易在alignment阶段被忽视。模型没有见过这类问题模式,就很容易出现模仿错误。

讨论

模型幻觉是一个比较广泛的定义,在这个工作里,我们认为当前大模型主要的幻觉有模仿性谎言和事实性错误这两类,当然这个分类不是严格互斥的,有一些事实性错误可能也是某种模仿性谎言。本文中的模仿谎言更多的指模型模仿预训练预料中的但与真实世界不一致的行为。个人认为,从两种幻觉类别出发,相应的也应该通过两种方式解决。第一种方式就是对齐,不断地发掘问题模式,并通过SFT或者RLHF等方式为这些问题模式提供正确的监督信号,使得模型可以学习到应对各种类型误导问题的正确行为方式。第二种方式就是知识增强,或者直接使用外部知识,但是正如一些工作所提到的[2],从参数中正确地召回知识以及根据这些知识进行推理仍然是当前模型需要增强的一个能力。值得一提的是,有一些工作已经展示了模型对于自己的知识边界有一定的感知能力[5],如果可以让模型拒绝回答超出它知识边界或者它不确定的问题,那么我认为这也是一种减轻针对知识类问题的模型幻觉方式。

参考文献
[1] TruthfulQA: Measuring How Models Mimic Human Falsehoods https://arxiv.org/pdf/2109.07958.pdf
[2] Why Does ChatGPT Fall Short in Providing Truthful Answers? https://arxiv.org/pdf/2304.10513.pdf
[3] GPTScore: Evaluate as You Desire https://arxiv.org/pdf/2302.04166.pdf
[4] Evaluating Open-QA Evaluation https://arxiv.org/pdf/2305.12421.pdf
[5] Language Models (Mostly) Know What They Know https://arxiv.org/pdf/2207.05221.pdf

出自:https://mp.weixin.qq.com/s/y__15E2NS3bbwgiSJ4vZsg

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip