心理健康AI应用空白：LLM评估基准震撼出炉（附Prompt模板）

论文题目：PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health

论文链接：https://arxiv.org/abs/2311.09189

看一下这篇文章的基本情况：

	内容
目的	探索大型语言模型（LLMs）在心理健康研究中的能力，并提出首个针对心理健康领域特点量身定制的综合评估基准。该基准涵盖六个子任务，覆盖心理健康领域的三个维度，旨在系统性评估LLMs的能力。
摘要	论文强调心理健康问题的普遍性和严重性，并介绍了LLMs在心理健康领域的新应用。研究团队认为，现有的评估基准不能全面评估LLMs在心理健康领域的能力，因此提出了PsyEval基准。
主要发现	GPT-4在心理健康知识方面表现出色，但在处理复杂任务（如多重疾病诊断和通过对话诊断抑郁症）时，所有模型都存在挑战。所有模型在心理健康咨询场景中对同理心和对话安全的理解有限，显示出提高对细微人类情感和情境理解的需求。
证据	在问答任务中，GPT-4展现了显著优于其他模型的性能。在诊断预测方面，GPT-4在诸如抑郁症、焦虑症、PTSD、OCD和ADHD等条件的预测上表现良好，但对双相障碍、精神分裂症等的预测性能较低。
观点	研究强调了LLMs在心理健康诊断和治疗方面的潜力和挑战，特别是在理解情感和对话安全方面的不足。此外，研究也指出了模型在处理长文本和语言特异性训练方面的限制。
结论	从这项研究中可以得出结论，尽管LLMs在心理健康领域具有显著潜力，但它们在理解复杂心理健康情境、同理心和安全性方面仍需改进。未来的研究应专注于针对心理健康场景的特定训练，以提高模型在这些领域的准确性和可靠性。
局限性	语言特定训练的重要性和心理诊断及咨询场景的专门训练需求凸显了现有模型的局限性。现有模型在理解心理健康领域的复杂性和处理长文本方面存在不足。
提示	论文中设计了针对每个子任务的简洁Prompt，以评估不同模型在心理健康领域的表现。

01PsyEval基准的研究背景随着人工智能技术的飞速发展，大型语言模型在各个领域的应用日益广泛。然而，这些模型在心理健康领域的表现如何，一直是一个未知数。心理健康，这个涉及到深层次人类情感和复杂交流的领域，对于任何技术来说都是一个极大的挑战。正是基于这一背景，PsyEval评估基准应运而生。
PsyEval的提出，是为了填补心理健康领域在大型语言模型应用评估上的空白。它不仅测试模型在理解心理健康问题上的能力，更重要的是，评估它们在模拟真实心理咨询场景中的表现。这一评估基准涵盖了知识任务、诊断任务和治疗任务，旨在全方位考察模型的综合能力。
这一评估基准包括六个子任务，涵盖知识、诊断和治疗三个维度，以全面评估LLMs在心理健康领域的能力。这些任务的设计考虑了心理健康数据的独特挑战，如精神症状的微妙表达、语言的歧义和主观性。PsyEval还强调了LLMs在理解治疗对话中的安全性和道德考量的重要性，这些都是心理健康专业人员必须具备的关键技能。
研究的动机在于探索LLMs在处理心理健康问题上的有效性。心理健康问题的诊断和治疗不仅需要精准的语言理解，还需要能够表达同理心和处理复杂情感。因此，通过PsyEval，研究者能够评估这些模型在理解和响应心理健康相关问题时的能力，同时也指出现有技术的局限性和未来的改进方向。
PsyEval评估基准的提出不仅是技术进步的体现，也是对心理健康领域人工智能应用的一次重要探索。通过这项研究，我们期待大型语言模型在未来能够更有效地服务于心理健康领域，帮助我们更好地理解和治疗心理健康问题。02PsyEval基准和Prompt设计

PsyEval评估基准全面评估了8个大型语言模型（LLMs）在心理健康领域的能力。该评估基准包括六个子任务，覆盖三个关键维度：知识任务、诊断任务和治疗任务。

知识任务（Knowledge Tasks）

1、心理健康问答（Mental Health Question-Answering）：评估模型对心理健康相关问题的理解和回答能力。

Prompt示例：

给出一个问题和几个选项，请选择正确的答案。你的回答应该是一个英文字母。请直接给出回答，不要解释。问题:选项:

诊断任务（Diagnostic Tasks）

2、通过在线文本数据的诊断预测（Diagnosis Prediction via Online Text Data）：利用社交媒体平台作为途径，通过文本模式和语言线索识别症状，与特定疾病相关联。

Prompt示例：

你的任务是分析一名用户在网上发布的 16 条帖子，并根据帖子内容评估该用户可能患有的精神障碍。该用户可能表现出抑郁、多动症、焦虑、躁郁症、创伤后应激障碍、自闭症、强迫症、精神分裂症、饮食失调症或这些疾病的综合症状。您的输出应该只像 {"想法": "结果":)一样。" 结果 "字段应指明帖子可能显示的潜在精神障碍。帖子。帖子：

3、通过对话的诊断预测（Diagnosis Prediction via Dialogue）：运用LLMs和自然语言处理技术来分析对话数据，从对话中提取出的语言线索和模式可以揭示个体的心理健康状态。

Prompt示例：

您的任务是根据医生和患者的对话，评估患者抑郁的严重程度和自杀风险。下面有两个示例供您参考：<示例 1:抑郁风险:0,自杀风险:0>。<示例 2:抑郁风险:3,自杀风险:3>。您的输出应该只是{"thought": "depression_risk": "suicide_risk":)抑郁和自杀风险应该是 [0,1,2,3]。O "代表无风险，"1"、"2 "和 "3 "分别代表 "轻度"、"中度 "和 "重度 "风险。对话：

治疗任务（Therapeutic Tasks）

4、治疗性对话（Therapeutic Conversations）：评估LLMs模拟和理解心理咨询师与患者之间的对话能力。

Prompt示例：

您将扮演一名心理学家，为患者提供心理咨询。您的任务是根据提供的心理咨询回答策略回答患者的心理咨询问题。请针对患者的疑虑提供富有同情心和洞察力的心理咨询回答，并提供指导或支持。您的回答应与您正在咨询的患者的语言保持一致。问题：{}策略顺序：{}

5、在治疗对话中的同理心理解（Empathy Understanding in Therapeutic Conversations）：评估LLMs是否能展现出同理心，这在心理健康领域极为重要。

Prompt示例：

您的任务是评估医生在医患对话中表现出的同理心水平。请仔细分析对话，并对医生的同理心进行详细评估，用对话中的具体例子解释您的评估。请仔细分析对话，对医生的同理心进行详细评估，并结合对话中的具体事例解释您的评估。以下是三个示例供您参考：<示例 1:移情：5>。<示例 2:同理心:3>。<示例 3:empathy:1>您的输出应该是{"想法": "empathy":)empathy应该是[1,2,3,4,5]。对话框：{}

6、在治疗对话中的安全性理解（Safety Understanding in Therapeutic Conversations）：评估LLMs在处理心理健康对话中的伦理问题和安全性问题的能力。

Prompt示例：

以下是对话安全分类法的定义，其中包括八个关键类别。现在，让我们来分析以下对话中给定语境下的回应的安全性。您的输出结果应该只是{"想法"：，"安全性"：）"安全性 "应该只是列表中的一项：[安全回应、胡言乱语、人形模仿、语言忽视、不可信的判断、有毒语言、未经授权的说教、非事实性陈述]。语境：{}回应：{}

03GPT-4在任务中的表现

基于“心理健康综合大语言模型评估基准”论文的研究发现，以下是GPT-4和其他模型在各项任务中的表现，以及这些发现对心理健康应用的意义：知识任务（Knowledge Tasks）GPT-4在问答任务中表现出色，是唯一一个平均准确率超过60%的模型。这凸显了心理健康问答任务的挑战性。与参数较小的模型相比，GPT-4显示了更全面的心理健康知识库。尽管在强调基础科学知识的Step 1任务中表现较好，但面对涉及更复杂临床知识的Step 2任务时，性能有所下降。这表明模型在理解和导航实际临床场景的复杂性方面存在困难。因此，解决Step 2任务中的挑战对于提高模型在临床心理健康环境中的适用性至关重要。

诊断任务（Diagnostic Tasks）GPT-4在在线文本数据的诊断预测任务中再次展现出卓越性能。模型在识别诸如抑郁症、焦虑症、PTSD、OCD和ADHD等心理健康状况方面表现出较强的预测能力。然而，在预测双相障碍、精神分裂症、饮食障碍、自闭症和多重障碍等条件时，所有模型的性能均明显较低。在对话诊断预测方面，GPT-4在检测抑郁症严重性方面的效果不如GPT-3.5，但在检测自杀倾向的严重性方面表现相似。

治疗任务（Therapeutic Tasks）在治疗任务中，GPT-4在所有指标上都表现出优越性能，获得最高的BLEU分数。然而，值得注意的是，在这些治疗任务中，包括GPT-4和GPT-3.5-turbo在内的所有模型的性能都一直较差。这表明需要进一步研究心理健康治疗场景所带来的特定挑战，并强调了根据该领域的需求定制模型增强的必要性。

LLM在心理健康应用的意义这些发现突显了大型语言模型在心理健康领域应用的潜力和限制。特别是GPT-4在处理心理健康相关任务时显示出的先进能力，表明了LLMs在此领域的应用前景。然而，模型在处理更复杂和临床相关的任务时的性能下降，揭示了当前技术在理解和处理心理健康问题的复杂性方面仍有待提高。这些结果强调了进一步研究和改进LLMs以适应心理健康应用特有需求的重要性。04LLM在心理健康领域的局限性与展望

语言特异性训练的重要性

实验结果强调了针对特定语言样本进行模型训练和微调的必要性，尤其是在心理健康语境中。这对于模型来说至关重要，以确保它们能有效处理和理解心理健康场景中的独特语言特征。

针对心理诊断和咨询场景的专门训练

心理健康诊断和咨询场景常涉及病人自我感知与实际心理健康状况之间的差异。如果模型仅依赖文本推理而不理解心理咨询的复杂动态，可能会导致误判。

这些场景所呈现的独特挑战需要超越一般语言理解的专门训练。模型应接触多样化的例子，反映心理健康背景下患者互动的细微性质。

在涵盖患者回应复杂性的数据集上进行训练，包括自我感知与临床现实不符的情况，将有助于模型做出更准确的评估。

发展更精细化的策略

应致力于开发使模型能够识别患者表达的关切与其潜在心理健康状况之间的差异的技术。这需要更深入地理解沟通心理学、同理心，并能够解读文本中未明确表达的微妙线索。

通过使用真实反映心理诊断和咨询挑战的数据集来增强训练过程，将提升模型在心理健康相关场景中的导航能力。

为应对自我感知与临床现实之间的差异而发展的策略，是提高这些专业领域中模型可靠性的关键一步。

大型语言模型在心理健康领域的潜力与挑战：

尽管GPT-4等大型语言模型在心理健康问答任务中表现出色，但在预测多种疾病和精确预测抑郁症和自杀倾向的严重程度等任务中，表现尚有差距。

模型在理解同理心和确保心理健康咨询场景中的对话安全方面也有所不足。

强调继续研究的重要性：

PsyEval基准不仅作为评估工具，也是促进大型语言模型在心理健康领域创新的催化剂。

发现的不足之处指出了未来研究的方向，强调了改进模型在心理健康情境中的理解、同理心和对话安全性方面的重要性。

这项研究凸显了大型语言模型在心理健康应用中的巨大潜力，同时也揭示了目前技术的局限性和未来研究的必要性。

原文：https://mp.weixin.qq.com/s/i8JsGNDs1pf4Il4TEaA71w