最顶尖的大语言模型人才，只关心这10个挑战

我正目睹一个前所未有的现状：全世界如此众多的顶尖头脑，如今都投入到“使语言模型（LLMs）变得更好”这个大一统的目标中。

在与许多工业界及学术界同仁交谈之后，我试着总结出十个正在蓬勃生长的主要研究方向：
1. 减少和衡量幻觉（编者按：hallucinations，AI的幻觉，即 AI 输出中不正确或无意义的部分，尽管这类输出在句法上是合理的）
2. 优化上下文长度和上下文构建
3. 融入其他数据模态
4. 提高LLMs的速度和降低成本
5. 设计新的模型架构
6. 开发GPU替代方案
7. 提高agent的可用性
8. 改进从人类偏好中学习的能力
9. 提高聊天界面的效率
10. 为非英语语言构建LLMs
其中，前两个方向，即减少“幻觉”和“上下文学习”，可能是当下最火的方向。而我个人对第3项（多模态）、第5项（新架构）和第6项（GPU替代方案）最感兴趣。

01

减少和衡量幻觉
它是指当AI模型编造虚假内容时发生的现象。
对于许多需要创造性的场景，幻觉是一种难以回避的特性。然而，对于大多数其他应用场景，它是一个缺陷。
最近我参加了一个关于LLM的讨论小组，与Dropbox、Langchain、Elastics和Anthropic等公司的人员进行了交流，他们认为，企业大规模采用LLM进行商业生产，最大的障碍就是幻觉问题。
减轻幻觉现象并开发衡量幻觉的指标，是一个蓬勃发展的研究课题，许多初创公司都专注于解决这个问题。
目前也有一些临时的方法可以减少幻觉，比如为提示添加更多的上下文、思维链、自洽性，或者要求模型的输出保持简洁。

以下是可以参考的相关演讲

·Survey of Hallucination in Natural Language Generation (Ji et al., 2022)·How Language Model Hallucinations Can Snowball (Zhang et al., 2023)·A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)·Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)·Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)·SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)
02优化上下文长度和上下文构建
AI面对的绝大多数问题都需要上下文。
例如，如果我们问ChatGPT：“哪家越南餐厅最好？”，所需上下文可能是“在哪里”，因为越南最好的餐厅和美国最好的越南餐厅可能不同。
根据《SituatedQA》（Zhang＆Choi，2021）这篇有趣的论文，相当大比例的信息寻求问题都有依赖于上下文的答案，例如，NQ-Open数据集中就有约占16.5%的问题是这一类问题。
我个人认为，对于企业应用场景来说，这个比例还可能更高。假设一家公司为客户构建了一个聊天机器人，要让这个机器人能够回答任何产品的任何客户问题，那么所需上下文，可能是客户的历史记录或该产品的信息。
因为模型是从提供给它的上下文中“学习”的，这个过程也被称为上下文学习。

对于检索增强生成（RAG，也是LLM行业应用方向的主要方法），上下文长度尤为重要。
RAG可以简单分为两个阶段：
第一阶段：分块（也称为索引）
收集所有要供LLM使用的文档，将这些文档分成可以输入LLM以生成嵌入的块，并将这些嵌入存储在向量数据库中。
第二阶段：查询
当用户发送查询，如“我的保险政策是否可以支付这种药物X”，LLM将此查询转换为嵌入，我们称之为查询嵌入，向量数据库会获取与查询嵌入最相似的块。
图：来自Jerry Liu关于LlamaIndex（2023）的演讲截图
上下文长度越长，我们就可以在上下文中插入更多块。但是，模型可以访问的信息越多，它的回复就会越好吗？

并不总是这样。模型可以使用多少上下文以及该模型将如何高效地使用，是两个不同的问题。与增加模型上下文长度同样重要的，是对上下文更高效的学习，后者也被称之为“提示工程”。
最近一篇广为流传的论文，就是关于模型从索引的开头和结尾比从中间进行信息理解表现要好得多：Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

03融入其他数据模态

在我看来，多模态是如此强大，却又常常被低估。
首先，许多现实的应用场景就需要处理大量多模态数据，如医疗保健、机器人技术、电子商务、零售、游戏、娱乐等。医学预测需要同时使用文本（如医生的笔记、患者的问卷）和图像（如CT、X射线、MRI扫描）；产品数据通常包含图像、视频、描述，甚至是表格数据（如生产日期、重量、颜色）。
其次，多模态承诺能为模型性能带来巨大提升。一个既能理解文本又能理解图像的模型，难道不会比仅能理解文本的模型表现更好吗？基于文本的模型需要大量的文本数据，现在我们确实在担心用于训练基于文本模型的互联网数据会被耗尽。一旦文本用尽，我们就需要利用其他数据模态。

最近有一个应用方向让我感到格外兴奋，那就是，多模态技术可以帮助视障人士浏览互联网和导航现实世界。以下为几项杰出的多模态研究进展：·[CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)·Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)·BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)·KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)·PaLM-E: An embodied multimodal language model (Google, 2023)·LLaVA: Visual Instruction Tuning (Liu et al., 2023)·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
04提高LLMs的速度和降低成本
GPT-3.5于2022年11月末首次推出的时候，很多人对在生产中使用该模型的延迟和成本表示担忧。
如今，GPT-3.5使用造成的延迟/成本分析又有了新的变化。在半年内，整个模型社区找到了一种新方法，能够创建一个在性能方面几乎接近GPT-3.5、但其内存占用不到前者2%的模型。
由此，我的一个观点是：如果你创造出足够优秀的东西，其他人会想尽办法使其变得快速且经济高效。

以下是根据Guanaco论文中报告的数据，该数据对比了Guanaco 7B与ChatGPT GPT-3.5和GPT-4的性能。
需要注意的是，总体而言，这些模型性能都还远非完美。对LLM来说，大幅地提升性能依然非常困难。
记得四年前，当我开始着手撰写《设计机器学习系统》一书中“模型压缩”部分的笔记时，业内主要有四种模型优化/压缩技术：
1.量化：迄今为止最通用的模型优化方法。量化通过使用较少的bits来表示模型的参数来减小模型的大小，例如，不再使用32位来表示浮点数，而只使用16位，甚至4位。
2.知识蒸馏：即训练出一个小模型（学生模型），它能够模仿一个更大的模型或模型集合（教师模型）。
3.低秩分解：它的关键思想是使用低维张量来替代高维张量，以减少参数的数量。例如，可以将一个3x3的张量分解为一个3x1的张量和一个1x3的张量的乘积，从而不再有9个参数，而只有6个参数。
4.剪枝：指通过去除模型中对整体性能贡献较小的权重或连接来减小模型的大小。
这四种技术至今仍然流行。Alpaca是通过知识蒸馏进行训练的，QLoRA则采用了低秩分解和量化的组合方式。

05设计新的模型架构
自2012年的AlexNet以来，我们已经看到许多架构潮起又潮落，包括LSTM、seq2seq等。
与这些架构相比，问世于2017年的Transformer异常稳定，虽然目前尚不清楚这个架构还会流行多久。
要开发一种能够胜过Transformer的新架构并不容易。在过去的6年中，Transformer已经经过了大量的优化，在合适的硬件上，这个模型的规模和效果可以达到让人赞叹的出色效果（PS：Transformer最早是由Google设计成在TPU上快速运行的，后来才在GPU上进行了优化）。
2021年，Chris Ré实验室的研究“Efficiently Modeling Long Sequences with Structured State Spaces” (Gu et al., 2021)，在行业内引发了大量讨论。我不太确定后来发生了什么。但Chris Ré实验室仍在积极开发新架构，他们最近与初创公司Together合作推出了名为Monarch Mixer的架构。
他们的主要思想是，对于现有的Transformer架构，注意力的复杂度与序列长度的平方成正比，MLP的复杂度与模型维度的平方成正比。具有次二次复杂度的架构将更加高效。

我确信许多其他实验室也在探索这个思路，虽然我不知道是否有任何已经公开尝试过的研究。如果您晓得个中进展，欢迎联系我！

06开发GPU替代方案
2012年AlexNet问世以来，GPU一直是深度学习的主要硬件。
事实上，AlexNet之所以受欢迎，其中一个普遍认可的原因是，它是第一篇成功使用GPU训练神经网络的论文。在GPU之前，如果要训练一个与AlexNet相当规模的模型，你需要动用成千上万个CPU，就像在AlexNet之前几个月Google发布的那台服务器一样。
与成千上万个CPU相比，几块GPU对于博士生和研究人员来说更加容易获得，引发了深度学习研究的繁荣。
在过去的十年中，许多公司，无论是大公司还是初创公司，都试图为人工智能创建新的硬件。最值得注意的尝试包括Google的TPU、Graphcore的IPU以及Cerebras。SambaNova也筹集了超过10亿美元来开发新的AI芯片，但似乎已转向成为生成式AI平台。
期间，量子计算也引发了很多期待，其中主要参与者包括：
·IBM的量子处理器
·Google的量子计算机。今年早些时候在《自然》杂志上报告了量子错误降低的重要里程碑。它的量子虚拟机可以通过Google Colab公开访问。
·高校的研究实验室，如MIT量子工程中心、马普量子光学研究所、芝加哥量子交流中心等。
另一个同样令人兴奋的方向是光子芯片。这是我了解最少的方向，如有错误，望指正。
现有芯片使用电力传输数据，这消耗了大量能量，并产生了延迟。光子芯片使用光子传输数据，利用光的速度进行更快、更高效的计算。在这一领域，各种初创公司已筹集了数亿美元，包括Lightmatter（2.7亿美元）、Ayar Labs（2.2亿美元）、Lightelligence（2亿美元以上）和Luminous Computing（1.15亿美元）。
以下是光子矩阵计算三种主要方法的进展时间线，摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).。这三种不同的方法分别是平面光转换（PLC）、马赫-曾德干涉仪（MZI）和波分复用（WDM）。

07提高agent的可用性
agent可以视为能够采取行动的LLMs，例如浏览互联网、发送电子邮件等。与本文中的其他研究方向相比，这可能是最年轻的方向。
由于其新颖性和巨大潜力，人们对agent产生了极大的兴趣。Auto-GPT现在是GitHub上星标数量排名第25的最受欢迎的库。GPT-Engineering也是另一个受欢迎的库。
尽管如此，人们仍然对LLMs是否足够可靠、性能良好、具备一定行动能力存在疑虑。
现在有一个有趣的应用方向，是将agent用于社会研究。一项斯坦福实验表明，一小群生成式agent产生了新兴的社会行为：仅从一个用户指定的想法开始，即一个agent想要举办情人节派对，其他一些agent在接下来的两天内自主传播了派对的邀请，结识了新朋友，相互邀请参加派对...（(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023）。
在这一领域，最值得注意的初创公司可能是Adept，由两位Transformer的合著者（尽管两人都已离开）和一位前OpenAI副总裁创立，迄今已筹集了近5亿美元。去年，他们展示了其开发的agen如何浏览互联网并在Salesforce上添加新账户。我期待看到他们的新演示 🙂。

08提升从人类偏好中学习的能力
RLHF（Reinforcement Learning from Human Preference，从人类偏好中进行强化学习）很酷，但有点繁琐。
我丝毫不意外人们会找到更好的训练LLMs的方法。关于RLHF，有许多开放问题，例如：
·如何在数学上表示人类偏好？
目前，人类偏好是通过比较来确定的：人类标注者确定回答A是否优于回答B。然而，它没有考虑到回答A相对于回答B的优劣程度具体是多少。
·什么是人类偏好？
Anthropic通过三个维度来衡量模型回答的质量：有帮助、诚实和无害。参考论文：Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)。
DeepMind试图生成最能取悦大多数人的回答。参考论文：Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).
另外，我们是想拥有能够表态的AI，还是一个在任何可能引发争议的话题上避而不谈的普通AI？
·“人类”偏好是谁的偏好，考虑到文化、宗教、政治倾向等的差异？
获取足够代表所有潜在用户的训练数据，存在许多挑战。
例如，OpenAI的InstructGPT数据，没有65岁以上的标注者。标注者主要是菲律宾人和孟加拉人。参考论文：InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

近年来，AI社区主导的努力，虽然初衷令人钦佩，但数据偏见依然存在。例如，在OpenAssistant数据集中，222名调查对象中有201名（90.5％）自我报告为男性。Jeremy Howard在Twitter上发表了一系列关于此问题的推文。

09提高聊天界面的效率
有了ChatGPT之后，关于聊天是否适合广泛范围任务的讨论就一直不绝于耳。比如：
·Natural language is the lazy user interface (Austin Z. Henley, 2023)
·Why Chatbots Are Not the Future (Amelia Wattenberger, 2023)
·What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions (Huang et al., 2023)
·AI chat interfaces could become the primary user interface to read documentation (Tom Johnson, 2023)
·Interacting with LLMs with Minimal Chat (Eugene Yan, 2023)

然而，这不是一个新的讨论。在许多国家，尤其是在亚洲，聊天已经作为超级应用程序的界面使用了大约十年时间。Dan Grover在2014年就进行了这个现象的讨论。

这类讨论在2016年再次变得紧俏，很多人的看法是，现有的应用类型已经过时，聊天机器人将是未来。例如下列的研究：
·On chat as interface (Alistair Croll, 2016)
·Is the Chatbot Trend One Big Misunderstanding? (Will Knight, 2016)
·Bots won’t replace apps. Better apps will replace apps (Dan Grover, 2016)
就我个人而言，我喜欢聊天界面，原因如下：
聊天界面是一个每个人（甚至是没有之前接触过计算机或互联网的人）都可以快速学会使用的界面。
2010年代初，我在肯尼亚的一个低收入居民区志愿工作时，我惊讶地发现，那里的每个人都很适应在手机上通过短信进行银行业务。即便那个社区没有人有计算机。
聊天界面通常是易于访问的。如果我们双手忙于其他事情，也可以使用语音而不是文字。
聊天界面还是一种非常强大的界面，用户提出任何请求，它都会做出回应，即使有些回应不是很好。
然而，我认为聊天界面在某些方面可以进行改进：
·一轮内多条消息
目前，我们几乎是假设每次只有一条消息。但我和我的朋友在发短信时，经常需要多条消息才能完成一次聊天，因为我需要插入不同的数据（例如图像、位置、链接），我在之前的消息中忘记了某些内容，或者我只是不想把所有内容都放在一大段落中。
·多模态输入
在多模态应用领域，大部分精力都花在构建更好的模型上，而很少花在构建更好的界面上。以英伟达的NeVA聊天机器人为例。我不是用户体验专家，但我认为这里可能有改进的空间。
P.S. 对不起，NeVA团队，因为我点名批评了你们。尽管如此，你们的工作仍然非常棒！
图：NVIDIA的NeVA界面
·将生成式人工智能融入工作流程
Linus Lee在他的演讲“Generative AI interface beyond chats”中很好地介绍了这一点。例如，如果你想问关于正在处理的图表列的问题，你应该能够只需指向该列并提问。
·编辑和删除消息
编辑或删除用户输入，将如何改变与聊天机器人的对话流程？

10为非英语语言构建LLMs
我们知道，目前以英语为首的LLMs在许多其他语言中的表现都不好，无论是在性能、延迟还是速度方面。
下面是可以参考的相关研究：·ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (Lai et al., 2023)
·All languages are NOT created (tokenized) equal (Yennie Jun, 2023)

一些读者告诉我，出于两个原因，他们认为我不应该在这个方向上进行探讨。
这更多是一个“后勤”问题，而不是一个研究问题。我们已经知道该如何做了。只需要有人投入金钱和精力。
这并不完全正确。大多数语言被认为是低资源语言，例如，与英语或汉语相比，它们拥有的高质量数据要少得多，可能需要不同的技术来训练大型语言模型。
下面是可以参考的相关研究：
·Low-resource Languages: A Review of Past Work and Future Challenges (Magueresse et al., 2020)
·JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agić et al., 2019)
那些更为悲观的人认为，在未来，许多语言将消亡，互联网将由两种语言构成的两个世界：英语和汉语。这种思维方式并不新鲜。有人还记得Esperanto吗？
AI工具（如机器翻译和聊天机器人）对语言学习的影响仍不清楚。它们会帮助人们更快地学习新语言，还是会彻底消除学习新语言的需要？

结论
上文提到的10大挑战，确实有一些问题比其他问题更难。
例如，我认为第10项，为非英语语言构建LLMs，更直接地指向足够的时间和资源。
第1项，减少幻觉，将会更加困难，因为幻觉只是LLMs在进行其概率性任务。
第4项，使LLMs更快更便宜，永远不会达到完全解决的状态。在这个领域已经取得了很多进展，还会有更多进展，但我们永远不会停止改进。
第5项和第6项，新的架构和新的硬件，非常具有挑战性，是不可避免的。由于架构和硬件之间的共生关系，新架构需要针对常见硬件进行优化，而硬件需要支持常见架构。它们可能会由同一家公司解决。
其中，还有一些问题不仅仅可以通过技术知识来解决。例如，第8项，改进从人类偏好中学习，可能更多是一个策略问题，而不是技术问题。
第9项，提高聊天界面的效率，更多是一个用户体验问题。我们需要更多具备非技术背景的人一起合作解决这些问题。

出自：https://mp.weixin.qq.com/s/yeho6iKiRc8fU-JipC4d8w