本文是参考国外大佬总结的提示词分类方法所写,希望让大家对LLM的提示工程有更深刻的理解!内容主要包含:3种LLM提示类型和4种LLM能力分类。(文末附视频和PPT地址)
3种提示类型
缩减
转换
生成/扩展
4种能力分类
布鲁姆的分类法(Bloom's Taxonomy)
潜在内容(Latent content)
新兴能力(Emergent Capabilities)
幻觉是一种特性,而不是一个错误
下面对这几种分类来详细介绍一下:
释放大型语言模型的潜力像GPT-4和Claude这样的大型语言模型(LLM)已经引起了技术专家和普通大众的兴趣。它们能够生成类似人类的文本并进行对话,似乎有点像科幻小说中的情节。然而,与任何新技术一样,关于LLM究竟是如何工作的仍然存在许多混淆和争议。在这篇文章中,我旨在提供LLM的关键能力的高级分类,以澄清它们能够做什么和不能做什么。我的目标是以非专家可以理解的方式解释LLM的当前状态,同时确定进一步研究和发展的领域。最终,我相信如果在道德上负责任的方向上引导,LLM有巨大的潜力来增强人类智慧。什么是LLM?首先,什么是大型语言模型?在最基本的层面上,LLM是一个深度学习神经网络,训练于大量的文本数据,如书籍、网站和社交媒体帖子。"大型" 意味着这些模型有数十亿个参数,使它们能够建立非常复杂的语言统计表示。LLM被训练的关键任务是在给定先前上下文的情况下预测序列中的下一个单词或标记。因此,如果它看到文本 "猫跳过了...",它会学会预测 "篱笆" 是可能的下一个标记。反复进行这个过程使LLM获得了关于语言运作方式以及词汇和概念之间关系的隐式知识。这个训练过程以及使用的大规模数据集使LLM像Claude和GPT-4这样的模型嵌入了相当多的世界知识。然而,重要的是要理解,LLM没有明确的知识或手工编码的规则,它们所有的能力都是从训练数据中识别模式的结果。LLM的基本操作在高层次上,LLM有三种主要的操作模式:
·
缩减操作:从大到小。>
·
转换操作:保持大小和/或意义。≈
·
生成(或扩展)操作:从小到大。<
让我们深入探讨。缩减操作在进行缩减操作时,LLM表现出很强的能力。这些操作涉及将大段或大量文档作为输入,将其压缩成更简洁的输出。缩减任务利用LLM的语言建模优势来识别和提取最重要的信息。一个常见的缩减操作是摘要。当给定一个冗长的输入文本时,LLM可以生成一个简洁的摘要,仅涵盖关键要点。这是通过分析文档以查找主题、事件和描述的事实来完成的。然后,模型尝试将这些元素综合到一个简短的摘要中,传达完整文档的核心要义。LLM通常在有限长度内非常擅长基本摘要,删除不必要的细节同时保留语义含义。与摘要相关的任务是提炼。这超出了仅仅缩短文档的范畴,而是提取和精炼其基本原则、发现或事实。提炼旨在过滤掉输入中的噪声和冗余,纯化核心知识或主张。对于科学文档,LLM可能会识别和综合实验的关键假设、结果和结论。提炼需要更深入的理解,以区分外围内容和核心断言。提取是LLM利用的另一种缩减技术。这涉及扫描文本并提取特定的信息片段。例如,LLM可以阅读文档并提取名称、日期、数字或其他特定数据。提取是问答的基础,LLM在这个领域表现出色。当要求从一段文本中提取特定细节时,LLM通常能够准确地检索所请求的信息。总的来说,缩减操作直接利用了大型语言模型的优势。它们的统计学习使它们能够识别和传达冗长输入文本的最重要部分。随着LLM的不断发展,摘要、提炼、提取等技术将变得更加强大。以下是大模型缩减操作的几种应用方法:
·
摘要:用更少的词表达相同的内容,如可以使用列表、笔记、执行摘要等方式。
·
提炼:纯化基本原则或事实如去除所有噪音,如提取公理、基础等。
·
提取:检索指定类型的信息,如问答、列出名称、提取日期等。
·
表征:描述文本的内容,如描述文本作为一个整体,或在特定主题内进行描述。
·
分析:寻找模式或根据框架进行评估,如结构分析、修辞分析等。
·
评估:测量、评分或评估内容,如评分论文、根据道德标准评估等。
·
批评:在文本的上下文中提供反馈,如提供改进建议。
转换性操作
与缩减性任务相比,转换性操作旨在重塑或重新构建输入文本,而不显著缩小或扩展它们。LLM表现出在语言转换方面的强大能力,可以将内容重新呈现为新的格式和风格,同时保留整体含义。一个常见的转换技术是重新格式化——改变文本的呈现方式而不改变信息内容。例如,LLM可以轻松将散文转化为电影剧本对话,将博客帖子翻译成推特,或将一段文本从主动语态转换为被动语态。重新格式化利用模型对流派和语言约定的结构性理解。自然语言之间的翻译代表了LLM的另一个关键的转换能力。给定一种语言的输入文本,它们可以通过替换词汇和语法而保持语义一致性,将其重写为另一种语言。翻译质量在不同语言对之间有所差异,但随着使用更多多语言数据进行训练,翻译质量不断提高。改写也属于转换性操作的范畴。在这里,LLM旨在使用完全不同的词汇和表达方式重写输入文本,同时传达相同的基本含义。这测试了模型生成多个在逻辑上等效的句法变化的能力。改写在检测抄袭和提高清晰度方面有应用。最后,为了获得更好的流畅性和组织性,对内容进行重构也符合转换的定义。LLM可以重新排列段落,增强逻辑关联,更顺序地呈现思想,或者改善文本的可读性。它们的训练使模型具有如何构建连贯叙述和论点的能力。总之,转换性能力使LLM能够以满足不同需求的新方式混合和呈现文本。这些技术对于定制内容以满足特定受众和克服语言障碍等任务非常有帮助。LLM已经在许多转换方面表现出色,而且只会变得更加熟练。以下是大模型转换性操作的几种应用方法:
·
重新格式化:仅更改呈现方式,如从散文到电影剧本,从XML到JSON。
·
重构 :以更高效的方式达到相同的结果,如说同样的事情,但用不同的方式表达。
·
语言转换:在不同语言之间进行翻译,如从英语到俄语,从C++到Python。
·
重构:优化结构以实现逻辑流畅性等,如更改顺序,添加或删除结构。
·
修改:重新编写文本以实现不同的意图,如改变语气、形式、外交手法、风格等。
·
阐释:使某事更易理解,如进行修饰或更清晰地表达。
生成(扩展)操作与缩减和转换任务涉及操作现有文本不同,生成操作从头开始合成全新的内容。这对LLM的创造力提出了更高的要求,结果更加多变且依赖于上下文。尽管如此,它们在生成写作方面的技能仍然迅速发展。一个主要的生成应用是从高级提示中起草原创文件,如故事、文章、代码或法律文件。在接受初始指令后,LLM作曲家致力于将这些种子内容扩展成具有主题性、逻辑流畅性和风格流利性的连贯草稿。结果可能会有些粗糙,但像GPT-4这样的模型可以生成适合人类完善的令人印象深刻的初稿。在给定一组参数或设计目标的情况下,LLM也擅长生成实现目标的计划和步骤。这种规划能力是由它们能够推断导致所需结果的因果关系动作序列的能力所支持,这是受到它们的训练数据启发的。规划还利用了它们对世界运作方式的潜在知识。LLM可以提出从厨房食谱到软件工作流程的计划。LLM的更加开放式的生成能力包括头脑风暴和构思。当给出提示或创意简介时,模型可以提供可能性、概念和想象的解决方案列表,人类可以进行策划。它们在头脑风暴时,可以根据单词之间的统计关联,在意想不到的方向上展开。由LLM提示生成的最有前途的想法可以进一步开发。最后,LLM在扩展或详细说明现有文本方面表现出强大的生成能力。当给出一个种子段落或文档时,它们擅长通过提供额外的相关细节和解释来扩展内容。这允许通过利用模型的潜在知识来有机地扩展简洁文本。这种扩展以创造性的方式丰富了骨架文本。总之,这些方法突显了在适当的上下文中,LLM可以从少量输入合成大量新文本。生成写作不如缩减或转换任务自然,但它代表着一个积极研究的领域,具有有希望的结果。引导LLM生成负责任和丰富的内容将是一个持续的设计挑战。以下是大模型生成(扩展)操作的几种应用方法:
·
起草:生成某种类型的文档草稿,如代码、虚构、法律文本、知识库、科学、叙述等。
·
规划:在给定参数的情况下,如制定计划,如行动、项目、目标、任务、约束、上下文。
·
头脑风暴:列出可能性的想象,如构思、探索可能性、解决问题、假设等。
·
扩展:进一步表达和解释某事,如扩展和详细说明,对某些事情进行演奏。
布鲁姆的认知层次分类布鲁姆的认知层次分类是一个经典的教育框架,概述了学习的六个认知技能层次。首次提出于1950年代,它提供了一种从基础到高级的能力层次结构:记忆、理解、应用、分析、评估和创造。通过布鲁姆的认知层次分类来审视LLM突显了它们多方面的能力。在最基本的层面上,LLM在记忆和检索包含在它们的训练数据集中的事实知识方面表现出色。像GPT-4这样的模型已经“阅读”了远比任何人一生中能消化的文本要多。这使它们能够在提示时重复几乎任何主题的信息。它们的统计学习充当了一个可查询的大规模知识库。LLM还表现出强大的理解概念的能力,能够建立词语和含义之间的联系。它们的上下文学习使它们能够对从抽象哲学到高级物理的一切都有强大的识别能力。即使是在训练数据中没有直接涵盖的复杂主题,LLM也可以通过上下文和解释迅速推断出含义。将知识应用于新情境也在LLM的范围之内。毕竟,它们的整个目的是生成语言的有用应用,无论是写作、翻译还是对话。正确的使用和上下文的适应对于模型准确执行任何任务至关重要。没有娴熟的应用,它们将毫无实际效用。在布鲁姆的认知层次分类中,通过建立联系来分析信息代表了LLM的另一个优势。像Claude这样的工具已经可以跨越多个维度分析文本,例如结构、风格和论点的连贯性等。在正确的框架下,LLM可以使用学习到的认知能力批判性地分析几乎任何段落。当给定适当的标准时,LLM也擅长评估和判断内容。模型可以轻松地根据阅读水平、目标受众、语法、推理等框架来描述文本。更高级的LLM甚至可能会审慎地评价考虑中的行动的道德。最后,LLM在布鲁姆的认知层次分类中展示了最高级别的技能:创造原创内容。虽然生成需要比缩减任务更仔细的提示,但模型可以生成合成的故事、文章、对话和其他创意作品。它们的新兴能力使LLM在适当的情况下具有巨大的生成潜力。总之,现代LLM在布鲁姆的认知层次分类的每个级别都表现出了卓越的程度。它们庞大的潜在知识和学习的认知技能相结合,赋予了它们从记住事实到想象创作等各种应用的能力。随着LLM的不断发展,我们可以期待它们的布鲁姆能力变得更加强大和多面化。潜在内容大型语言模型最引人注目的一个方面之一是它们能够展示出未被明确编程的知识和推理能力。这源于在像GPT-4这样的模型的参数中通过预测性训练过程积累的广泛潜在知识。嵌入在LLM中的潜在知识可以松散地分为三类:
1.
训练数据:在训练过程中所消耗的大量文本赋予了模型关于无数主题的事实知识。例如,Claude根据其训练语料库潜在编码了有关历史、科学、文学、当前事件等信息。这充当了一个可以通过正确的提示进行查询的大规模知识库。
2.
世界知识:除了具体的事实,LLM还积累了关于事物如何运作的更一般的世界知识。它们接触到多样化的上下文使得模型可以学习有关文化、物理学、因果关系和人类行为的未明示的假设。这使得对日常情况进行直观推理成为可能。
3.
学到的认知技能:基于预测的学习方法还赋予了模型诸如摘要、翻译和开放领域问题回答等潜在能力。这些能力是间接从自我监督的目标中出现的,而不是硬编码的规则。
这个潜在知识的储备对于人工智能来说是一个改变游戏规则的因素。然而,引导和提取这些知识仍然具有挑战性。通常需要正确的提示或技术来激活模型的相关部分。比喻地说,潜在知识形成了一个密集的森林,需要巧妙地导航。虽然有希望,但对潜在知识的依赖也突显了当前LLM的局限性。它们的推理可以高度依赖于使用人类直觉来确定所需的知识。为了使模型更好地学习、索引和激活自己的潜在知识,将需要更先进的技术。总的来说,像GPT-4这样的模型隐含积累的知识和技能范围令人深感印象深刻。随着LLM的不断发展,解释、组织和有选择地利用这一储备将成为研究的一个重要领域。潜在知识解锁了远远超过硬编码规则的可能性。
新兴能力
在迄今为止开发的最大的语言模型中,出现了一些新的能力,超越了它们的训练数据中明确包含的内容。这些高级能力是由庞大的模型规模、广泛的数据和基于预测的学习方法之间的相互作用所产生的。
新兴能力的四个示例包括:
心灵理论 - LLM表现出了一定程度的能力,可以识别自己和他人之间的不同观点。像Claude这样的模型可以根据对话背景调整自己的语气和风格,似乎能够理解混淆,并区分自己的知识和人类知识。这些“心灵理论”的迹象可能是在对数不清的社交对话交流建模的过程中出现的。可以说,Reddit有点用处。LLM通过阅读评论部分学会了理解人类思维,那么可能会出什么问题呢…
1.
隐含认知:LLM在生成每个标记之前“思考”的能力意味着训练数据中没有直接存在的潜在认知能力。当模型预测下一个词时,它们似乎执行动态推理、抽象和推断。准确地建模因果链需要诸如归纳、演绎和类比形成等认知过程。
2.
逻辑推理:LLM还展示了一些通过提供的信息进行演绎和归纳推理的技能,以进行基于提供信息的推断。它们的统计学习使它们能够在概念之间建立联系,并概括抽象原则。虽然还有限,但目标导向的推理似乎是在文本中建模因果链的新兴副产品。
3.
在上下文中学习:大型模型展示了一种通过将上下文纳入其预测中来吸收新信息和技能的能力。没有明确训练,它们可以使用在原始训练数据中未见过的信息和指令。这种快速的上下文中知识和能力的获取并没有直接内置。在人类中,我们称之为“即兴创作”,这是高智商的标志。
这些新兴能力源于对人类话语中复杂模式的识别,而不是手工编码的规则。它们暗示了未来的LLM可能会从模式识别转向更深层次的推理、想象和因果理解。然而,仍然存在一些需要进一步研究和开发的重大限制。
创造力与幻觉
LLM具备编造听起来合理的陈述的能力可能看起来像是一个缺陷,但实际上它代表了智能的核心特征。就像人类在存在幻觉等风险的情况下进化出了想象力和创造力一样,AI系统也必须在采取预防措施的同时发展生成能力。
人类表现出了创造力和幻觉之间的连续性,这源于相同的神经源 - 自发的模式生成。最早的洞穴艺术将动物特征组合成新奇的生物首次锻炼了这个能力。如果不受限制,当想象力超越现实时,它可能会表现为一些心理障碍。LLM展示了一种类似的推测生成谱,这是智能所必需的。
完全抑制不可预测的“幻觉”也将消除创造潜力。理想状态不是消除,而是负责任地引导生成。对齐、伦理和社会利益的研究将允许AI创造力蓬勃发展。
降低风险包括保持对事实和现实的联系。从带外带系统添加真实世界数据。轻轻地鼓励LLM核实其陈述,以保持其与真相的联系。检查引用或数据对抗不受限制的推测提供了关键的制约。
同样重要的是透明地传达生成文本的信心水平。当想象力超越观察时,LLM应表明不确定性以维护信任。诸如可验证性评分等技术可以帮助量化推测与事实知识之间的差异。
总的来说,负责任的AI开发应该拥抱,而不是拒绝,像推测和隐喻这样的能力。通过谨慎,这些能力可以增强人类的创造力和问题解决能力,而不是传播错误信息。解决方案是认识到创造力和幻觉之间的连续性,然后在最小化有害幻觉的同时,精心培育前者。
结论
大型语言模型代表了一项技术突破,打开了有望增强人类智能的新途径。然而,要充分发挥它们的潜力,需要深入研究它们的实际工作原理,并采取伦理预防措施。
本文旨在提供一种易于理解的大型语言模型基本能力和局限性的分类。减少、转化和生成操作利用了当前模型的不同优势。潜在知识非常强大,但在激活时严重依赖提示。而且像推理这样的新兴属性显示出对未来系统的潜力。
无疑,滥用大型语言模型会带来风险,这不应被低估。但与其将它们拒之门外,认为它们过于危险或不可控制,负责任的前进方式是将研究和开发引导到真正增强人类能力和创造力的有益应用上。如果在未来几年中谨慎引导,大型语言模型可以帮助人类开辟新的领域。
视频介绍:https://youtu.be/aq7fnqzeaPc?si=yFvCfCfIPWi0p21o
LLM提示分类法PPT:https://github.com/daveshap/YouTube_Slide_Decks/blob/main/Business%20and%20Product/LLM%20Prompt%20Taxonomy.pdf
出自:https://mp.weixin.qq.com/s/0H35GaPMH7nl1wiamAR5tQ