RAG模型的主要痛点和解决方案

检索增强生成（RAG）模型已经成为一种有前景的方法，通过利用存储在文档中的外部知识来提高生成文本的准确性和相关性。通过检索和条件化相关的上下文文档，RAG模型可以产生比传统语言模型更具事实性、深度和特定性的响应。

然而，像任何新技术一样，RAG模型也有自己的一套挑战，需要解决这些挑战才能发挥其全部潜力。在这篇博客文章中，我将深入探讨RAG模型的主要痛点，并探索解决这些问题的可能解决方案。特别是，我们将关注在检索、条件化、忠实性和安全性等领域出现的核心困难。

对于每一个主要的痛点，我们首先解释背景并描述为什么它构成了问题。然后，我们提出可以帮助缓解或解决这个挑战的具体方法、架构变化和创新。鉴于底层语言模型在RAG模型中所起的关键作用，我们还将讨论语言模型技术的进步如何促进进步。

到最后，你将对RAG模型今天面临的最紧迫的问题以及该领域如何发展以克服这些问题有一个详细的理解。有了这些知识，你将能够构建更先进和负责任的RAG模型。让我们开始吧！

痛点1：低质量的检索

背景：RAG模型严重依赖检索到的上下文文档的质量。如果检索器无法找到相关的、事实性的段落，那么模型在条件化有用的信息和产生准确、深入的响应方面就会受到严重的阻碍。不幸的是，现成的稀疏向量检索器经常在语义匹配和检索质量文档方面遇到困难。

解决方案：

- 通过监督训练信号或模型反馈进行检索器的微调。这可以提高目标领域的相关性。

- 使用像DPR或ANCE这样的模型采用密集的检索器模型，以提高召回率和相关性。

- 尝试使用多向量表示、近似最近邻搜索和最大内积搜索来提高速度，而不损害准确性。

- 级联密集和稀疏的检索器，以结合相关性和速度的优点。

- 对事实性，使用可信度指标对权威、可信的来源进行偏见检索。

- 大型语言模型的作用：大型语言模型的表示学习技术可以显著提高检索器模型的语义匹配和相关性判断。

痛点2：缺乏覆盖

背景：虽然外部知识对于高质量的RAG输出是必不可少的，但即使是最大的语料库也不能完全覆盖用户可能查询的实体和概念。如果没有访问全面的知识源，模型会返回对小众或新兴话题的无知、通用的响应。

解决方案：

- 通过聚合来自不同来源的文档来扩展语料库，以增加覆盖的可能性。

- 实现系统在运行时检测覆盖范围的空白，并回退到传统的语言模型补全。

- 设计模块化的架构，以在不进行全面重新训练的情况下添加/更新知识源。

- 探索从语言模型中自动生成知识以填补未覆盖的领域。

- 大型语言模型的作用：预训练的语言模型提供了广泛的世界知识，可以暂时填补RAG模型所缺乏的空白。他们生成合成文本的能力也可能有助于解决覆盖不足的问题。

痛点3：难以条件化上下文

背景：即使有好的检索，RAG模型经常难以正确地条件化上下文文档并将外部知识融入生成的文本中。如果没有有效的上下文条件化，他们就无法产生具体的、事实性的响应。

解决方案：

- 通过专用的交叉注意力变换器层来加强上下文化。

- 使用自监督目标对语言模型解码器进行预训练，教导它如何整合外部文本。

- 设计提供明确的条件化信号和监督的训练方案。

- 构建模型并行训练，以便处理更长的文档和增强记忆。

- 实现更好的实体引用处理以改善定位。

- 大型语言模型的作用：大型语言模型的自监督预训练赋予了它们像总结这样的技能，这有助于上下文化。

痛点4：幻觉和捏造

背景：由于过度依赖语言模型的先验，RAG模型经常生成看似合理但完全错误或不忠实的声明，而没有在检索的上下文中进行验证。这种幻觉误导了用户。

解决方案：

- 通过训练信号直接最小化幻觉文本的可能性。

- 以编程方式分析输出，以根据与上下文的不匹配自动检测捏造。

- 设计一个验证头网络，以在生成之前明确验证声明。

- 使用可信度指标在检索文档上，以防止在不可靠的来源上进行条件化。

- 通过专注于上下文定位的优化来削弱无条件的语言模型先验。

- 大型语言模型的作用：大型语言模型提供了增加幻觉风险的强大先验。但是，他们的可扩展性使得像基于分类器的幻觉检测这样的创新成为可能。

痛点5：缺乏解释和可解释性

背景：与传统的QA系统不同，RAG模型对他们生成的文本背后的推理没有可见性。他们的响应的解释保持隐式和不透明，而不是显式。这损害了可调试性、信任和负责任的发展。

解决方案：

- 设计模型架构，以显式地跟踪证据和解释作为结构化的链/图。

- 实现辅助头部以预测解释性证据，如显著的片段。

- 在每一步生成时附加有意义的上下文标签以跟踪来源。

- 生成描述推理的自然语言解释，通过引用来源。

- 总结查询和上下文之间的关键语义连接，以证明响应。

- 大型语言模型的作用：大型语言模型

痛点6：安全性和控制风险

背景：通过将文本生成条件化为任意的网络文档，RAG模型可以在其输出中传播有害的、有偏见的或有毒的内容。他们的开放式生成也增加了恶意使用的风险，并缺乏控制。

解决方案：

- 在语料库创建过程中彻底审查文档并实施安全分类器。

- 使用像OPT或GPT-3的分类器框架开发运行时过滤器来捕获不安全的输出。

- 通过输入提示、输出重写和微调方法设计控制方案。

- 通过引导向检索上下文并关注基于地面的输出来限制生成自由度。

- 使用分类器API和外部安全服务实现模块化内容控制。

- 大型语言模型的作用：大型语言模型提供了像分类器微调这样的成熟技术，可以在保持生成质量的同时启用安全防护。

痛点7：推理速度慢

背景：检索与生成的耦合使RAG模型无法匹配标准语言模型的延迟。推理管道缺乏针对需要毫秒级响应的实时应用的优化。

解决方案：

- 优化标记化、编码和检索推理以在生成之前最小化开销。

- 使用像NMSLIB、FAISS或ScaNN这样的库实现高效的近似最近邻索引。

- 利用模型并行性和批量检索+生成来提高管道效率。

- 设计模型蒸馏方法以在最小的质量损失下压缩检索器-生成器组合。

- 尽可能将检索转移到离线以避免运行时瓶颈。

- 大型语言模型的作用：大型语言模型的轻量级、优化的解码器补充了检索器的速度，实现了更快的端到端延迟。

痛点8：难以个性化和定位

背景：在通用语料库上训练的RAG模型缺乏产生针对特定用户需求、上下文和查询的定制响应的能力。他们不能在没有个人理解的情况下解决模糊的信息请求。

解决方案：

- 设计人格上下文记忆来跟踪用户在对话中的个人资料和上下文。

- 在匹配目标用户的标记查询->响应对上微调RAG模型。

- 实施多任务训练以将响应基于先前的对话和用户反馈进行定位。

- 利用元学习开发少量样本个性化技术。

- 设计用户特定的扩展模块来补充检索语料库。

- 大型语言模型的作用：大型语言模型在少量样本学习和记忆上下文的能力使得在新用户的有限数据上进行快速微调以实现个性化成为可能。

痛点9：难以评估质量

背景：可能的基于地面的响应的多样性使得使用自动化指标可靠地评估RAG模型输出的正确性和质量变得具有挑战性。人类评估也缺乏可扩展性。这阻碍了迭代改进。

解决方案：

- 生成带有专家理由的注释测试集以启用标准化评估。

- 基于语义而不是n-gram重叠开发专门的指标。

- 使用针对性的自动评估分别量化关键轴如相关性、连贯性、一致性。

- 设计利用用户反馈信号作为个性化质量判断的在线学习方案。

- 建立围绕注释而不是数字分数的交互式评估界面。

- 大型语言模型的作用：少量和零样本的能力允许利用语言模型排名和现有测试集作为在更昂贵的人工审查之前的初步质量基准。

痛点10：难以保持真实性

背景：没有明确的事实验证机制，RAG模型依赖于预训练的伪模式和不准确的检索上下文，生成听起来合理但是错误的声明。这损害了可信度。

解决方案：

- 开发辅助头部直接从检索上下文预测真实性。

- 启用交互式识别错误声明以通过在线学习改进。

- 将结构化知识库纳入以根据已知的实体和关系对响应进行事实检查。

- 设计置信度估计方法以量化确定性并标记未经验证的声明。

- 实施出处跟踪以将声明的责任归因到来源。

- 尽量减少开放式生成，以便从已验证的上下文中进行提取性总结。

- 虽然大型语言模型在像常识推理和事实验证这样的领域中实现了重大进步，但其范围仍然有限。因此，将检索与结构化知识库和人在环交互配对对于确保开放领域问题回答场景的真实性至关重要。除了迄今为止讨论的挑战外，如果不加以解决，恶意行为者可能会利用RAG模型面临的关键安全漏洞。

痛点11 —— 恶意攻击

背景：对手可以操纵检索到的文档和上下文，以在条件生成中注入有害行为。由于RAG模型隐含地信任检索结果，这种恶意攻击很容易破坏模型的完整性。

解决方案：

- 在语料库创建过程中，对知识源和文档出处进行严格的审计。

- 在将文档纳入语料库之前，使用安全分类器对文档进行净化。

- 通过在检索到的上下文中检测异常值和XAB来发现恶意攻击尝试。

- 多样化知识源，以减少对可能被破坏的知识源的依赖。

痛点12 —— 模型反演

背景：通过分析RAG模型的输出，攻击者可以部分重构训练语料库和检索存储中的敏感文本，违反了隐私和保密的期望。

解决方案：

- 进行正式的隐私分析，以指导语料库的聚合、过滤和分割。

- 通过在训练过程中添加噪声，使用差分隐私技术。

- 限制从敏感的检索上下文生成，以最小化暴露。

痛点13 —— 后门触发器

背景：复杂的RAG模型管道为通过被污染的上下文植入后门提供了新的攻击面，这些上下文被生成器隐含地编码。

解决方案：

- 使用包含伪触发器的陷阱上下文进行严格的测试，以捕获漏洞。

- 使用通用的对抗性触发器检测技术来识别异常。

- 持续监控模型在良性集合上的行为，以检测偏差。

通过承认并防范新兴的安全威胁，我们可以在对手面前培养对RAG技术的信任。我们期待着在这个令人兴奋的领域取得更多的进步，并期待着与您一起探索大型语言模型的未来。我们相信，通过我们的努力，我们可以使RAG模型成为一个更强大、更安全、更有用的工具，为用户提供更好的服务。我们期待着在这个旅程中与您一起前进。

前进的道路

在这次深入的分析中，我们探讨了困扰最先进的RAG模型的主要痛点，包括检索质量、安全性、速度、评估难度等挑战。但对于每一个问题，我们也概述了利用改进的训练目标、模型架构、数据增强技术和优化的推理管道等方法的有前景的解决方案。

此外，我们讨论了正在发生的LLMs的令人兴奋的进步如何提供帮助应对这些挑战的构建块。无监督的预训练范式继续增强像语义搜索、少样本学习、摘要和一致性跟踪等能力，这些能力缓解了现有RAG设计的不足。

然而，要完全解决这些多面的问题，需要超越单独改进语言模型。它需要与信息检索、知识表示、人机交互和机器学习等互补领域进行交叉授粉，以创建下一代RAG模型。

RAG研究的跨学科性质使其独特地定位于推动对话AI的重大进步——结合检索、推理和语言理解。随着研究人员整合解决方案以解决这里识别的最大阻碍，我们离挖掘这项技术的承诺更近了一步。

尽管在实际采用RAG之前，仍有大量的工作需要做以减轻风险和提高可靠性，但这篇博客文章概述了可行的研究方向，给我们带来了乐观的理由。我们希望这次分析能够赋予更有影响力的探索，以实现通过访问人类知识增强的健壮和有益的文本生成。我们期待着在这个令人兴奋的领域取得更多的进步，并期待着与您一起探索大型语言模型的未来。我们相信，通过我们的努力，我们可以使RAG模型成为一个更强大、更安全、更有用的工具，为用户提供更好的服务。我们期待着在这个旅程中与您一起前进。

出自：https://mp.weixin.qq.com/s/TFGRxMOc3ZgD9BM4IPgXiQ