Meta重磅发布了大语言模型Llama 3,并且发布即开源。可以说,Llama 3是迄今为止最强大的开源大模型。
目前,Meta推出的Llama 3包含8B和70B两种参数规模的版本,还有一个堪比ChatGpt-4级别的400B参数规模的版本正在训练中。
开源社区狂喜,吴恩达更是表示:“Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!”
与此同时,Meta也同步发出了一个长达80多分钟的播客访谈视频。视频中,扎克伯格不仅聊到了Llama 3模型,还聊到了AI技术创新、元宇宙、开源问题等,可谓干货十足。
对此,沃垠AI整理了播客访谈视频中的17条要点,分享给大家:
1、哪怕是最低的8B参数规模的Llama 3模型,其表现和性能也比70B参数规模的Llama 2模型还要好。
2、Llama 3模型已经得到了AMD、AWS、Dell、Intel、NVIDIA和高通提供的硬件平台的支持,并很快在AWS、Databricks、Google
Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上推出。
3、Meta正在积极开发多模态版本的Llama 3模型,也就是能够实现接收文本、图像、视频等不同格式的信息,然后生成输出这些不同格式的内容。
4、Llama 3模型之所以能够成为目前最强大的开源大模型,主要是因为这四大关键要素:模型架构、预训练数据、扩大预训练规模、指令微调。
5、很多时候,当用户使用AI的时候,他们可能并不清楚自己想得到什么,也可能不知道如何提问。所以,Llama 3模型的任务并不仅仅是回答问题,而是需要更全面地思考这个问题。
6、未来,AI大模型的进步不会主要依赖于将上下文或其他信息填充到查询上下文窗口中以提出更复杂的问题,而是可能根据人们的需求,推出拥有不同的记忆存储方式或不同的自定义模型。
7、情感理解也属于AI的一种模态,但目前业内还没有其他人关注这一点。
8、无论是企业还是创作者,人们都不会只和某一个AI智能体产生互动,所以,AI智能体之间的联系和互动也很重要。
9、每个行业、每家企业都希望有一个专属于他们的AI大模型。
10、AI创作者是一个高度互联的群体,他们通过学术会议、开源项目、在线社区等方式相互交流和协作,形成了一个强大的协作网络。在AI技术不断进步的道路上,他们的力量不可小觑。
11、未来,AI大模型的训练可能更倾向于推理生成合成数据的方向,也就AI生成的内容更多会依赖于推理,而非训练。但这目前还是一个有待解决的问题。
12、很多科幻小说中都有这样的情景,即人们创造了AI,然后它开始表现出一些类似于人类的行为。但实际上,AI目前的发展却是和科幻小说中的情景完全不同的,所以扎克伯格也很难预测AI会随着时间推移往什么方向发展,但他认为,任何人都不应该对AI发展有刻板的印象,也就是不应该用条条框框去限制AI应该往什么方向发展。
13、很多人都在思考是否应该开源?也有很多人反对开源。但扎克伯格认为,开源对所有人都有好处,因为如果某个企业拥有的AI大模型性能远远超过了其他所有企业的AI大模型,那这是一个很糟糕的情况,人们会失去一个公平的竞争环境。
14、扎克伯格认为移动生态系统存在一个很糟糕事实是,只有当两家“守门人”公司——苹果和谷歌允许其他公司构建或发布什么功能的时候,他们才能够这样做。
15、目前,Meta基本上已经构建了一个可以处理排名和推荐类型内容推理的定制芯片,但目前Llama模型还不能正在这款芯片上进行训练,至少Llama 4模型是不行的,但Meta已经制定了长期计划,并且正在顺利推进中。
16、现在,AI大模型正在持续推动科学、医疗保健等领域的发展,最终,它将对世界上每一个行业和领域产生影响。
17、在某种程度上,AI可能会在大多数地方超越人类,但这取决于AI大模型的强大程度,并且整个过程也是渐进的,是一个不断添加各种不同功能的过程,就像AGI也不是一蹴而就的。
马克,欢迎你参加播客节目。
嘿,谢谢你的邀请。我非常喜欢你的播客。
哦,谢谢你。你这么说真是太好了。
好的,让我们先谈谈这次采访结束后将发布的版本,告诉我关于模型的事情。告诉我关于Meta.ai的事情。有什么新的东西?它们有什么令人兴奋的地方?
是的,当然。我认为世界上大多数人将看到的主要内容是Meta.ai的新版本。我们正在做的最重要的事情是升级模型。我们正在推出Llama 3。我们既将其作为开源软件提供给开发者社区,现在它还将为Meta.ai提供支持。所以,我相信我们会围绕Llama 3进行大量讨论。
但我认为最重要的是,有了Llama 3,我们现在认为Meta.ai是人们可以免费使用的最智能的AI助手。我们还整合了Google和Bing以获取实时知识。我们将在我们的应用程序中使其更加突出。因此,基本上,在WhatsApp、Instagram、Facebook和Messenger的顶部,你只需使用那里的搜索框即可提出任何问题。
我们添加了许多新的创作功能,我认为这些功能非常酷,人们会喜欢。我认为动画是一个很好的功能。你基本上可以拍摄任何图像并为其制作动画。但我认为人们会发现它非常疯狂的一点是它现在可以如此快速地生成高质量的图像。我不知道你是否有机会玩这个,它实际上在你输入时生成并实时更新。所以你就像输入查询一样,它有点像磨练。而且,好吧,给我看一张牛在田野里的照片,背景是群山。就像一切都很流行。吃澳洲坚果。是的,吃澳洲坚果,喝啤酒。而且就像实时更新图像一样。这很疯狂。
我认为人们会喜欢的。我认为世界上大多数人都会看到这一点。我们正在进行全球推广,但并非一蹴而就,而是从少数几个国家开始,预计在未来几周和几个月内将扩展到更多的国家。我认为这将是一项重大的工作,我非常高兴能将其推向市场。这是MetAI向前迈进的一大步。然而,如果你想深入了解,我认为Llama 3在技术上最为引人入胜。
对于我们的首个版本,我们实际上训练了三个版本,分别是80亿、700亿和4050亿的密集模型,其中4050亿的模型仍在训练中,因此我们今天并未发布。然而,对于80亿和700亿的模型,我对其结果感到非常兴奋。它们在规模方面处于领先地位。我们将发布一篇包含所有基准的博客文章,以便人们可以自行查看。显然,它是开源的,因此人们有机会使用它。
我们有一个新版本的路线图,这些新版本将为现有版本带来多模态性、更多语言性和更大的上下文窗口。然后,我们希望在今年晚些时候推出4050亿的模型,尽管它仍在训练中,但就目前的训练水平而言,它已经达到约85 MMLU。我们预计它将在许多基准测试中拥有领先的基准。因此,我对所有这些都感到非常兴奋。700亿的模型也非常出色,我们今天发布了它。它大约是82 MMLU,在数学和推理方面拥有领先的分数。因此,我认为只要把它交到人们手中,它就会非常疯狂。
有趣的是,这是我第一次听到这样的基准测试,这真是令人印象深刻。
是的,80亿的模型几乎与我们发布的最大版本的Llama2一样强大。因此,最小的Llama 3基本上与最大的Llama2一样强大。
在我们深入研究这些模型之前,我实际上想回到过去。我假设2022年是你开始购买这些H100的时候。你可以告诉我什么时候。是的,你觉得股价正在遭受重创。人们想知道,所有这些资本支出发生了什么?人们没有购买元宇宙。你可能正在用这些资本支出来购买这些H100。那时,你怎么知道要买H100?你怎么知道我们需要GPU?
我想是因为我们想研究信息流推荐,我们陷入了一种情况,我们总是希望有足够的能力来构建一些我们尚无法预见的东西。我们进入了这种境地,需要更多的GPU来训练模型,这对我们的服务来说是一个巨大的进步,我们不再只是对你关注的人、你的朋友和你关注的任何页面的内容进行排名,我们大力推广所谓的无关联内容。基本上,就是来自你未关注的人或页面的内容。因此,现在我们可以向您展示的内容候选语料库已经从数千个扩展到数亿个。因此,基础设施完全不同,我们已经开始着手处理这个问题。我们受到基础设施的限制,必须尽快赶上TikTok的发展速度。
我仔细考虑了一下,然后想到,我们必须确保我们永远不会再遇到这种情况。因此,我们需要购买足够的GPU来完成我们在滚动、内容和信息流排名方面需要做的事情。但我们也需要将其翻一番,因为,再次强调,就像我们的正常原则一样,地平线上总会出现一些我们目前无法看到的东西。
你是否知道这会是人工智能呢?
我们认为这会是与训练大型模型有关的事情。但当时,我认为这可能与内容有关。但我并不确定,这几乎只是模式匹配,经营公司总是有其他事情需要处理。所以我甚至不确定当时我是否深入研究,只是试图让推荐适用于滚动和其他内容。
这对Instagram和Facebook来说是一个很大的解锁,现在能够向人们展示他们感兴趣的内容,这些内容来自他们甚至没有关注的人。但是,回想起来,我认为这最终是一个非常好的决定。
这个决定源于我们之前的落后。所以那时我并不是遥遥领先。实际上,我认为大多数时候我们做出一些最终看起来不错的决定是因为我们之前搞砸了某件事,只是不想重复这个错误。
这可能有些跑题,但我实际上想趁此机会问一下这个问题。我们稍后再回到人工智能的话题。所以你并没有损失10亿美元,但你可能会以某个价格出售,对吗?你有没有在脑子里写下,我认为Facebook当时的实际估值是这个,而他们实际上并没有得到正确的估值?
到了5万亿美元,当然你会选择出售。我真的不知道。我认为其中一些事情只是个人问题。我当时不知道我是否足够老练来做那种分析。
但是我周围的人都在争论,十亿美元到底是多少,这就是我们需要赚取的收入。这就是我们需要达到的规模。而且,这显然是未来很多年的事情。它远远超出了我们当时的水平。而且我不知道,我真的没有足够的财务知识来真正参与这种辩论。
我只是,我想我内心深处相信我们正在做的事情。我做了一些分析。我想,如果我不做这个,我会做什么?我真的很喜欢建造东西。我喜欢帮助人们交流。我喜欢了解人们正在发生的事情以及人与人之间的动态。因此,我在思考,如果我将现有的公司出售,我可能会去创立另一家类似的公司。我对我现在拥有的公司有一种特殊的喜爱。那么,为什么会这样呢?我也不清楚。人们往往会基于自己的信念和价值观来做出重大的决策。实际上,尝试分析并将这些因素联系起来通常是非常困难的。
你已经对Facebook的人工智能进行了长期的研究。现在,它似乎已经成为你们公司的核心。那么,在什么时候,制造AGI或者其他的东西,无论你如何看待这个使命,这成为Meta正在做的事情的关键优先事项了呢?
是的,这已经是一件大事了。
大约10年前,我们创立了FAIR。我们的想法是,在通用智能或人工智能的道路上,无论你想叫它什么,都可以有各种各样的创新,这将改善我们所做的一切。因此,我们并没有把它设想成一种产品,而是更像是一个研究小组。在过去的10年里,它创造了很多不同的东西,基本上改进了我们所有的产品,并推动了该领域的发展,允许该领域的其他人创造一些东西,也改进了我们的产品。因此,我认为这很棒。但显然有很大的变化。
在过去的几年里,随着ChatGPT的出现,围绕图像创建的模型也随之出现。这是一些非常疯狂的东西,我认为它们显然会影响人们与每个应用程序的交互方式。因此,在那时,我们成立了第二个小组,即Gen AI小组,目标是将这些东西引入我们的产品。因此,构建领先的基础模型,为所有这些不同的产品提供动力。
最初,当我们开始这样做时,最初的理论是,嘿,我们做的很多事情都非常社交化。因此,帮助人们与创作者互动,帮助人们与企业互动,以便企业可以销售产品或提供客户支持。或者基本的助手功能,无论是用于我们的应用程序、智能眼镜、VR还是所有这些不同的东西。因此,最初,我们并不完全清楚是否需要完整的AGI才能支持这些用例。但是,通过研究它们,我认为实际上已经很清楚你需要。
所有这些微妙的方式。例如,对于Llama 2,当我们在开发它时,我们没有优先考虑编码。我们没有优先考虑编码的原因是因为人们不会在WhatsApp中向Meta AI询问很多编码问题。
不,他们会。
我不知道。我不确定WhatsApp是否是人们会问很多编码问题的UI。所以,我们好吧,看,就那些……或Facebook或Instagram或那些不同的服务而言。也许是网站,我想是我们正在推出的Meta.ai。
然而,我认为在过去的18个月里,有一个令人惊讶的发现,那就是编码在许多领域都显得至关重要,而不仅仅局限于编码本身,因此,即使人们并未直接向模型提出编码问题,对模型进行编码训练也能帮助它们更严谨地回答问题,推理出许多不同类型的领域。
以Llama 3为例,我们确实专注于使用大量编码来训练它,因为即使人们主要的问题并非关于编码,这种训练方式也能使其在各个方面的表现更加出色。
我认为推理是另一个例子。例如,你可能想要与创作者进行交谈,或者作为一家企业,你可能想要与客户进行互动。这种互动并不仅仅是对方给你发了一条消息,你只是回复,这是一种多步骤的互动,你需要仔细思考,如何实现对方的目标?
很多时候,当客户来的时候,他们可能并不清楚他们在寻找什么,也可能不知道如何提问。所以,人工智能的任务并不仅仅是回答问题。你需要更全面地思考这个问题。这实际上已经变成了一个推理问题,
因此,如果其他人已经解决了推理问题或在推理方面取得了很大进步,而我们只是坐在这里开发一个基本的聊天机器人,那么我们的产品与其他人的产品相比就显得很差劲。
所以,我们最终意识到我们必须解决通用智能问题。我们只是加大了赌注和投资,以确保我们能够做到这一点。
那么,Llama的版本是否能够为用户解决所有这些用例,这个版本是否强大到足以取代这栋楼里的程序员?
我认为所有这些都会随着时间的推移而进步。
但是,如果是Llama 10呢?
我认为这个问题有很多层面。我不确定我们是在取代人,还是在为人们提供工具来做更多的事情。
在Llama 10之后,这栋楼里的程序员的生产力是否会提高10倍?
我希望能提高更多。但是,我并不认为人类存在一个单一的智力门槛,因为人们拥有不同的技能。
在某种程度上,我认为人工智能可能会在大多数方面超越人类,这取决于模型的强大程度。但我认为这是一个渐进的过程。我并不认为AGI(人工通用智能)是一蹴而就的。我认为你基本上是在添加不同的功能。
因此,多模态性是我们现在关注的一个关键问题,最初是照片、图像和文本,但最终是视频。然后,因为我们非常关注元宇宙,所以3D类型的东西很重要。
我非常关注的一种模态,我还没有看到业内其他人关注这一点,那就是情感理解。
人类大脑的大部分都致力于理解人,理解你的表情和情绪。我认为这就像它自己的整个模态,你可以说,好吧,也许它只是视频或图像,但它显然是这两个的非常专业的版本。
所以你基本上想要训练模型专注于所有这些不同的能力,同时还要提高推理能力和记忆能力,我认为这本身就是一个整体。未来我们不会主要依赖于将上下文或其他信息填充到查询上下文窗口中以提出更复杂的问题。我预见到,我们可能会有不同的记忆存储方式或不同的自定义模型,这些模型可能更适合人们的需求。
然而,我并不确定,我只是认为这些都是不同的可能性。显然,我们会根据需要对这些可能性进行扩大或缩小。
我们关注这些问题,因为我们希望,如果你运行的是类似META AI这样的系统,我们就有能力处理,这主要是基于服务器的。但我们也希望它能在智能眼镜上运行,而智能眼镜的空间有限。因此,你需要一个非常高效的系统。
如果你在工业规模上使用智能进行价值数百亿美元,甚至最终价值数千亿美元的推理,那么用例是什么?是模拟吗?是元宇宙中的人工智能吗?我们将如何利用数据中心?我们预计这将改变所有产品。
因此,我认为会有一种META AI通用助理产品。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。因此,这需要大量的推理,也需要大量的计算和其他方式。
我们要做的很大一部分就是与其他人的代理进行互动。无论是企业还是创作者,我认为我的理论主要是,你不会只与一个单一的人工智能互动。因为我认为每个企业都希望有一个代表他们利益的人工智能。他们不会想主要通过一个销售竞争对手产品的人工智能与你互动。
是的,我认为创作者将是一个很大的群体。我们的平台上大约有2亿创作者。他们基本上都有一种模式,他们希望与他们的社区互动,但他们的时间有限。因此,如果你能创造一些东西,让创造者基本上可以拥有人工智能,并以他们想要的方式训练它,并让他们的社区参与进来,我认为这也会非常强大。所以我认为所有这些事情都会有大量的参与。
但这些只是消费者用例。当你想到这样的东西时,我和妻子经营着我们的基金会,一个陈·扎克伯格计划,我们在科学上做了很多事情。显然,我认为很多人工智能工作都会推动科学和医疗保健以及所有这些事情的发展。所以我知道,我认为这最终会影响到产品和经济的每一个领域。
你提到的AI可以为你做一些多步骤的事情。这是一个更大的模型吗?你会制作像Llama4这样的版本,它仍然是70B,但你只需在正确的数据上训练它,它就会非常强大。进展是什么样的?它会扩展吗?它只是大小相同,但像你所说的那样有不同的区分吗?
我不知道我们是否知道答案。所以我认为似乎是一种模式,那就是你有Llama模型,然后你围绕它构建某种其他特定于应用程序的代码,所以其中一些是针对用例的微调,但其中一些只是逻辑,好吧,例如,我们应该如何集成 MetAI,或者它应该如何与 Google 或 Bing 等工具配合使用以带来实时知识。这并不是基本Llama模型的一部分。对于 Llama2,我们设计了一些这样的功能,这些功能更像是手工设计的。然后,我们的目标之一是将更多这样的功能带入 Llama3 的模型本身。
然而,对于 Llama3,随着我们开始更多地研究这些类似代理的行为,我认为其中一些将更加手工设计。然后,我认为我们对 Llama4 的目标将是将更多这样的功能带入模型。因此,我认为在每个阶段,就像沿途的每一步,你都会对未来可能发生的事情有一种感觉。你开始摆弄它并破解它。然后我认为这有助于你磨练你的直觉,了解你想尝试训练到模型本身的下一个版本中的内容,这使得它更加通用,因为很明显,你手工编码的任何东西都可以解锁一些用例,但它本质上是脆弱的和非通用的。
当您说进入模型本身时,您会根据模型本身中想要的东西对其进行训练。但是您所说的进入模型本身是什么意思?
我认为就像我为 Llama2举的例子一样,我们真的……对于
Llama 2,工具的使用非常非常具体。而 Llama 3 有能力……有更好的工具使用,所以我们不必手动编写所有内容以使其使用 Google 进行搜索。它只是可以做到这一点。所以,对于编码和运行代码以及诸如此类的东西也是如此。
一旦你掌握了这种能力,你就会知道,好吧,我们接下来可以做什么?好吧,我不一定想等到 Llama 4 出现后才开始构建这些功能,所以让我们开始破解它。这样你就可以进行大量的手工编码,这会使产品在过渡期内变得更好。但这也有助于展示我们想要尝试构建到模型的下一个版本中的方式。
您对Llama 3社区微调中最让您兴奋的部分是什么?这可能并不是对您最有用的部分,但您会非常喜欢去尝试和玩耍它。他们喜欢在古物上进行微调,那么,您对什么感到兴奋?
我其实并不确定。你可能会对我们可能构建的任何具有价值的具体事物感到惊讶,因此,我认为你可能会得到一个精简版,一个更小的版本。我认为有一件事是……80亿,对于很多用例来说,这个数字可能还不够小,随着时间的推移,我很想看到一个拥有十亿参数的模型,或者二十亿参数的模型,甚至可能是一个五亿参数的模型,看看我们能用它做些什么。
因为当他们开始拥有80亿个参数时,我们的模型基本上就和最大的Llama2模型一样强大了。那么,如果有了10亿个参数,你应该能够做一些有趣的事情,对吗?而且速度更快,这对于分类或者理解用户查询意图并将其提供给最强大的模型以磨练提示等基本任务都非常有利。
所以我不确定,我认为这是社区可能可以帮助我们解决的一个问题。但我们也在考虑自己去提炼其中的一些。但现在,我们正在用GPU训练4050亿参数Llama3。
好的,所以你有所有这些GPU。我记得你说到今年年底会有350,000个。
那是我们的整个舰队。我们建立了24,000个集群,这些集群是我们用于训练大型模型的单个集群。显然,在我们做的很多事情中,很多资源都用于训练,比如Reels模型、Facebook新闻提要和Instagram提要。然后推理对我们来说是一件大事,因为我们服务的用户非常多。因此,由于我们服务的社区规模庞大,我们所需的推理计算与训练的比率可能比大多数其他做这些事情的公司高得多。
是的,他们之前与我分享的材料非常有趣,你们用比训练时计算最优值更多的数据来训练它,因为推理对你们和社区来说都是一件大事,所以有这个东西并在里面放一万亿个Token是有意义的。
是的,是的。我们发现的一个有趣的事情是,即使有700亿个Token,我们也认为它会变得更加饱和。就像我们在大约15万亿个Token上训练它一样。我想我们一开始的预测是它会越来越接近,但即使到了最后,它仍然在学习,对吗?就像我们可能可以给它更多的Token,它会变得更好一些。
但在某个时候,你在经营一家公司,你需要解决这些元推理问题,比如,好吧,我应该如何使用我们的GPU来进一步训练700亿个模型?我们是否应该继续进行下去,以便开始测试Llama 4的假设?因此,我们需要做出这个决定。我认为我们已经做到了。我认为我们在这个700亿的版本中取得了合理的平衡。
未来还会有其他版本,700亿的多模式版本将在下一阶段推出。然而,目前的架构能够处理如此大量的数据,这真是令人着迷。
这确实非常有趣。那么,这对未来的模型意味着什么?你提到Llama 3 8B比Llama2 70B更好吗?
它几乎一样好。我并没有夸大其词,它们在同一个数量级。
但是,这是否意味着Llama 4 70B将与Llama 4050B一样好?
这是一个很好的问题,我认为没有人知道。这是世界上最难规划的事情之一,当你面对的是指数曲线时,它会持续多久?我认为它很可能会继续下去,值得投资100亿或1000多亿美元来建设基础设施,假设如果这种情况持续下去,你将会得到一些真正令人惊叹的东西,这些东西将制造出令人惊叹的产品。
但我认为业内没有人能真正告诉你它肯定会以这种速度继续扩大。一般来说,在历史上,你会在某些时候遇到瓶颈。现在人们投入了如此多的精力,也许这些瓶颈很快就会被打破。但我不知道。我认为这是一个有趣的问题。
如果没有这些瓶颈,世界会是什么样子?假设进步以这种速度继续下去,这似乎是合理的,就像缩小一样。会有不同的瓶颈。所以如果不是训练,那么就是基础设施。
我认为在过去几年的某个时候,我认为存在GPU生产的问题。因此,即使有钱购买GPU的公司也不一定能得到他们想要的数量,因为存在所有这些供应限制。现在我认为供应量正在减少。所以现在我认为你看到很多公司在想,哇,我们应该真的投入大量资金来构建这些东西。
我认为这种情况会持续一段时间。我认为有一个资本问题,比如,好吧,在什么时候投入资本不再值得?但我认为在我们达到这一点之前,你会遇到能源限制。因为我认为还没有人建造过千兆瓦的单一训练集群。然后你会遇到这些最终在世界上变得更慢的事情,比如获得能源许可就像一个受到严格监管的政府职能。
对,所以一方面,你要从软件开始,软件在某种程度上受到监管。它受到的监管比科技界许多人认为的要多,尽管如果你创办一家小公司,情况显然会有所不同。如果你是一家大公司,你可能会感觉不那么受监管。我们只是与人互动,不同的政府和监管机构,我们有很多规则需要遵守,确保我们在世界各地做得很好。毫无疑问,能源行业与我们正在讨论的问题有许多相似之处。如果你要建造大型新发电厂或大型建筑,然后建造穿越其他私人或公共土地的输电线路,这无疑是一个受到严格监管的事情。因此,你需要准备多年的时间。如果我们想建立一个大型设施来供电,我认为那是一个非常长期的项目。
我不知道人们是否会这么做。我不认为这是一件神奇的事情,你获得了一定程度的人工智能,获得了大量资本,然后投入其中。然后突然之间,模型就会变得像它一样,我认为你在这一过程中会遇到不同的瓶颈。
我想问,是否有一个项目,可能与人工智能有关,也可能无关,甚至像 Meta 这样的公司也没有资源来做?比如,如果你的研发预算或资本支出预算是现在的 10 倍,那么你就可以追求它。这个项目可能在你的脑海中,但今天的 Meta,也许你会喜欢,因为你甚至不能为它发行股票或债券。它就像你的预算的 10 倍。
我认为能源是其中的一部分。如果我们能够获得能源来做到这一点,我们可能会建立比现在更大的集群。所以我认为这从根本上来说就是资金瓶颈。比如如果你有一万亿美元,我认为是时候了,
如果你从这个角度来看,但这取决于指数曲线的走向,许多公司正在努力,我认为很多数据中心的功率都在 50 兆瓦或 100 兆瓦左右,或者像一个大数据中心可能达到 150 兆瓦。所以你拿一整个数据中心,把你需要做的所有训练的东西都填满它,然后你就可以构建最大的集群。我认为很多公司都在做这样的事情。
但是当你开始建造一个 300 兆瓦、500 兆瓦或 1 千兆瓦的数据中心时,还没有人建造过一个千兆瓦的数据中心。所以我认为这会发生,这只是时间问题,但不会是明年。我认为其中的一些事情需要花费几年的时间才能完成。
然后问题是,如果你把这个放在一个角度来看,我认为千兆瓦,就像一个有意义的核电站的大小,只用于训练一个模型。亚马逊不是这样做了吗?他们有一个 950 千兆瓦的东西。我不太确定做了什么。你必须问他们,他们做了什么。但它不必在同一个地方,如果分布式训练有效,它可以是分布式的。我认为这是一个大问题。
对,基本上就是它将如何工作。我确实认为,在未来,我们所说的对这些大型模型的训练似乎更有可能沿着推理生成合成数据的路线前进,然后将其输入到模型中。因此,我无法确定这个比例会是多少,但如今,合成数据的生成更多依赖于推理,而非训练。然而,显然如果你的目的是为了训练模型,那么它就成为了更广泛的训练过程的一部分。
我不确定,这是一个待解的问题,即平衡点在哪里,以及它如何发挥作用。
如果是这样,那么Llama-3是否也可能如此?也许在Llama-4等之后,你推出了它,如果有人拥有大量的计算能力,那么他们就可以使用你推出的模型,使这些东西变得更智能。例如,科威特、阿联酋或其他任何拥有大量计算能力的国家,他们实际上可以使用Llama-4来使某些事物变得更智能。
我确实认为会有这样的动态存在。但我也认为,网络架构或模型架构存在根本的限制。
因此,我认为我们用Llama-3架构训练的700亿模型可以变得更好。它可以继续发展。正如我所说,我们认为如果我们继续向它输入更多的数据或再次轮换高价值Token,它就会继续变得更好。
我们已经看到,世界各地的许多人和不同的公司基本上都在使用Llama-2的700亿基础,例如采用该模型架构,然后构建新模型。当你对Llama-3的700亿或Llama-3的405进行代际改进时,情况仍然如此,今天还没有开源的类似产品。这是一个巨大的步骤函数,我认为人们在其基础上能够构建的东西不能无限地从那里发展。我认为在你进入下一个步骤函数之前,可以进行一些优化。
是的。好的,让我们稍微缩小一下具体模型,甚至看一下获得能源批准等所需的多年准备时间。从大局来看,未来几十年,人工智能将会发生什么?它感觉像是另一种技术,如元宇宙或社交,还是感觉像是人类历史进程中完全不同的东西?
我认为它将是非常根本的。我认为它将更像最初计算的创造。
因此,你会得到所有这些新应用程序,就像你得到网络或手机一样,你会觉得人们基本上重新思考了所有这些体验,很多以前不可能的事情现在都成为可能。
我认为这会发生。但我认为这是一种基础创新。在我看来,这更像是从没有电脑的人到有电脑的人。
但我不知道,很难推断出这究竟是如何进行的。我倾向于认为,在宇宙尺度上,显然,它会在几十年内迅速发生。有些人担心,它真的只是在一夜之间从有点聪明变成非常聪明。所有这些物理限制使得这种情况不太可能发生。我真的不认为那会发生。
所以我认为你会有时间去适应一点,但它确实会改变我们的工作方式,并为人们提供所有这些创造性的工具来做不同的事情,是的,我认为它将真正使人们能够做他们更想做的事情,这是我的观点。
好吧,也许不是一夜之间,但你认为在宇宙尺度上,如果你认为人类进化了,然后人工智能出现了,然后他们穿越了银河系,或者可能需要几十年,也许需要一个世纪,但就像现在历史上正在发生的事情一样,这是不是宏伟的计划?
尽管存在其他技术,例如计算机,甚至像火这样的发明,但我认为人工智能的出现与人类进化的重要性相当。
这个问题我觉得很复杂。我认为人们喜欢研究人类历史,他们基本上认为人类在某些方面是非常独特的,然后开始接受这样一个事实,即人类并不像我们想象的那样独特,但实际上,人类仍然具有很多特殊之处。是的,就像我们曾经认为地球是宇宙的中心一样。事实证明并非如此,但人类仍然是非常了不起的,而且我们也是非常独特的。
我认为人们存在另一种偏见,那就是他们认为智能在某种程度上与生命有着根本的联系。但实际上,我们并不清楚这是否真的如此。
人们可能会认为,我们对于意识或生命的定义并不足够清晰,无法完全探究这一点。但我知道有很多科幻小说都描述了这样的情景,即你创造了智能,然后它开始表现出所有这些类似人类的行为。但实际上,我认为所有这些东西的当前形态,至少在某种程度上,它们正在朝着一个方向发展,即智能可以与意识和行动等东西完全分离,我认为这只是让它成为一个非常有价值的工具。所以我不知道。很明显,很难预测这些东西随着时间的推移会朝什么方向发展,这就是为什么我认为任何人都不应该教条地认为他们计划如何开发它或他们计划做什么。
我认为你应该关注每个版本,我们显然非常支持开源。是的。但我还没有承诺我们会发布我们所做的每一件事。但基本上,我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。
但如果在某个时候,某样东西的能力发生了一些质的变化,我们觉得开源是不负责任的,那么我们就不会开源。但我不知道。这一切都很难预测。
什么是质变,比如一个具体的事物,你正在训练 Llama4,你已经看到了这一点,即不确定是否要开源它。
从抽象的角度回答这个问题有点困难,因为任何产品都可能表现出负面行为,只要你能减轻它的影响,那就没问题了, 所以,社交媒体有一些不好的地方,我们会努力减轻,Llama2 也有一些不好的地方,我们花了很多时间试图确保它不会帮助人们实施暴力行为或类似的事情。
这并不意味着它是一种自主或智能的代理。这只是意味着它对世界了解很多,它可以回答一系列我们认为对它来说没有帮助的问题。所以我不知道。我认为问题不是它会表现出什么行为,而是在它表现出这些行为之后,我们无法减轻什么。
好坏参半的方式太多了,很难一一列举。如果你看看我们在社交媒体上遇到的各种危害,就会发现人们所做的有害事情有 18
或 19 类。我们基本上已经建立了人工智能系统,试图识别人们正在做的事情,并尽可能确保这种情况不会发生在我们的网络上。
所以,是的,我认为随着时间的推移,你可以将其分解成更多的分类法。我认为这也是我们花时间研究的事情,因为我们想确保我们理解这一点。在我看来,如果未来人工智能系统没有得到广泛部署,而且不是每个人都能使用它们,我会感到失望。同时,我也希望能更深入地了解缓解措施。因为如果缓解只是微调,那么开放权重的全部意义就在于你可以去除微调,而微调往往只是这些能力的表面现象。
如果这就像在 Slack 上与生物学研究人员交谈,我认为模型与此相去甚远。现在,它们就像谷歌搜索。但我可以向他们展示我的培养皿,他们可以解释,这就是你的天花样本没有生长的原因。这就是需要改变的地方。你如何缓解这种情况?因为有人可以在那里微调它,
我认为很多人基本上会使用现成的模型。而一些基本上不诚实的人会试图去除所有不好的东西。所以我认为这是一个问题。另一方面,这也是我如此支持开源的原因之一,我确实认为未来人工智能的集中化可能会像人工智能的广泛传播一样危险。
我认为很多人都在思考这样的问题:如果我们能做这些事情,那么让它们广泛使用是否不好?我认为另一个版本是,如果一个机构拥有的人工智能比其他机构的人工智能强大得多,那可能也很糟糕。
我想到的一个安全类比是,并不只是人工智能,很多不同的东西都有安全漏洞。如果你能回到一年或两年前,那不是人工智能。就像你只是比现在多了一两年的安全漏洞知识。
这几乎就像任何系统一样容易被黑客入侵,因此,相信一个非常聪明的人工智能可能能够识别一些漏洞,并且基本上像人类一样,有可能回到一两年前并破坏所有这些系统,这并不是太牵强。那么,我们作为一个社会应该如何应对这个问题呢?
开源软件是解决这个问题的一个重要部分,它使得当对软件进行改进时,它不会仅仅局限于一家公司的产品,而是可以广泛部署到许多不同的系统中,无论是银行、医院还是政府系统。而且,随着软件的强化,每个人都可以喜欢,这是因为更多的人可以看到它,更多的人可以攻击它。而且这些东西的工作原理是有标准的。世界有可能在短时间内共同升级。在一个人工智能被广泛部署的世界中,随着时间的推移,它会逐渐变得更加强大,所有不同的系统都会受到控制。在我看来,这种情况比一个人工智能更集中的世界要健康得多。
然而,这其中也存在风险。这是一种风险,但人们很少讨论它。有一种风险,那就是,如果人工智能系统做了坏事怎么办?我更担心的是,如果有一些你不信任的人,无论他们在哪里,如果他们拥有超强的人工智能,无论是其他政府,还是我们国家的对手,或者你不信任的公司,或者其他什么。我认为这可能是一个更大的风险。
他们可能会利用这种超强的人工智能推翻我们的政府,因为他们拥有别人没有的武器,这可能会造成很多混乱。我认为直觉是,这些东西最终会变得非常重要,而且对经济、安全和其他方面都有价值。我不知道,我只是觉得,如果你不信任的人或你的对手得到了更强大的东西,那么我认为这可能是一个问题。
我认为缓解这种情况的最佳方法可能是拥有优秀的开源人工智能,使其成为标准。在很多方面,它可以成为领导者。这样一来,它就确保了这是一个更加公平和平衡的竞争环境。是的,这对我来说似乎是可行的。如果成功的话,那将是我喜欢的未来。
我想从机制上理解,如果有人要用人工智能系统制造混乱,世界上还有其他开源系统这一事实如何防止这种情况发生,比如有人带着生物武器来袭?是不是我们会在世界其他地方进行大量研发,以便快速研制出疫苗?发生了什么?
如果你以计算机为例,我刚才谈到的安全问题,我认为一个人工智能较弱的人试图入侵一个受人工智能较强保护的系统,成功率会更低。所以,这就像……我们怎么知道世界上的一切都是这样?
不,我不知道世界上的一切都是这样。我想,这是其中之一……生物武器是我认为最担心这个问题的人关注的领域之一。而且,我认为考虑这一点很有意义。
我认为有一些缓解措施,你可以尝试不将某些知识训练到模型中,有不同的事情。但是,这是某种程度的。如果你遇到了一个足够糟糕的演员,而你没有其他人工智能可以平衡他们,了解正在发生的事情和威胁,那么,这可能是一个风险。所以我认为这是我们需要注意的事情之一。
嗯。在这些系统的部署中,你能看到什么吗?你观察到,就像你在训练 Llama4 一样,它好像在骗你,因为它以为你没有注意到什么?你会想,哇,这是怎么回事?
这可能不太可能发生在 Llama4 测试系统中。
但你能想象到这样的事情吗?你会真正担心欺骗性吗?如果有数十亿份东西在野外传播?
确实,我并不认为这一定是……目前,我们看到了许多幻觉。是的,确实如此。因此,我认为我们需要更深入地探讨。我认为如何区分幻觉和欺骗是一个有趣的问题。但是,是的,我认为存在许多风险和需要考虑的事项。
另一方面,也存在许多……在经营我们的公司时,我试图至少在我认为的长期理论风险和我认为当前存在的相当现实的风险之间找到平衡。
因此,当你提到欺骗时,我最担心的是人们利用它制造错误信息,然后将其灌输到我们的网络或其他网络中。因此,我们主要通过建立比对抗系统更智能的人工智能系统来打击大量此类有害内容。
这在某种程度上也反映了我的理论,如果你观察人们通过社交网络造成的或试图造成的各种伤害,你会发现有些伤害并不是非常具有对抗性的。例如,我认为仇恨言论并不是非常具有对抗性的,因为人们并没有变得更善于种族主义。然而,如果你这样认为,我认为人工智能在这些问题上通常比人类更快地变得更加复杂。
因此,我们双方都存在问题。就像人们做坏事一样,无论他们是试图煽动暴力还是其他什么。但我们也有很多误报,因此,我们基本上审查了我们不应该审查的内容,我认为这让很多人感到恼火是可以理解的。因此,我认为拥有一个在这方面越来越精确的人工智能,随着时间的推移,这将是一件好事。
但让我再举一个例子,就像民族国家试图干涉选举。他们绝对拥有尖端技术,而且每年都在进步。因此,我们阻止了一些技术,他们学习了我们的做法,然后使用不同的技术来对付我们。这不像是有人试图说刻薄的话,他们基本上有一个目标,他们很老练,他们拥有很多技术。在这种情况下,我仍然认为,让我们的人工智能系统以比他们的更快的速度发展和成熟,这是一场军备竞赛,但我认为我们至少目前赢得了这场军备竞赛。
我不知道,我认为那是,但这就像我花时间思考的很多东西,比如,好吧,无论是
Llama4 还是 Llama5 或 Llama6,是的,我们都需要考虑我们正在观察什么行为。
我认为你们将其开源的部分原因是还有很多人也在研究这个问题。
所以,是的,我们想看看其他人在观察什么,我们在观察什么,我们可以减轻什么。然后我们会评估是否可以将其开源。但我认为在可预见的未来,我对我们能够做到这一点持乐观态度。
在短期内,我不想忽视人们今天试图使用这些模型的实际坏事,即使它们不是存在的,但它们就像我们熟悉的和运行我们的服务的相当严重的日常危害。实际上,我认为这也是我们必须花费大量时间的事情。
实际上我发现合成数据的事情真的很奇怪。我实际上感兴趣的是为什么你不像当前的模型那样思考,为什么一遍又一遍地进行合成数据可能会有渐近线是有道理的。如果他们变得更聪明,并采用我在论文或博客文章中提到的那种技术,这些技术将在发布当天被广泛应用,它将引领正确的思维链条。为什么这不会形成一个循环呢?
当然,这不会在一夜之间发生,而是需要经过数月甚至数年的训练。可能会使用更智能的模型,它会变得更聪明,产生更好的输出,然后再变得更聪明,如此循环。我认为这是在模型架构的参数范围内可以实现的。
在某种程度上,我并不确定,我认为就像今天的80亿参数模型一样,我并不认为你能够像最先进的数千亿参数模型那样好,这些模型将新的研究融入到架构本身中。但这些模型也会是开源的,但我认为这取决于我们刚才讨论的所有问题。
我们希望情况会是这样。然而,在每个阶段,就像你在开发软件时,你可以用软件做很多事情,但在某种程度上,你会受到运行它的芯片的限制,所以总是会有不同的物理限制。模型的大小会受到你可以获得和用于推理的能量的限制。所以我同时非常乐观地认为这些东西会继续快速改进。
我比有些人更谨慎,我只是认为失控的情况不太可能发生。我认为保持选择的开放是有意义的。我们面临的未知事物太多了。有一种情况是,保持权力平衡真的很重要。你不想开源架构,因为中国可以用它来赶上美国的人工智能。就像有一场智力爆炸。他们喜欢赢得胜利。很多事情似乎都是可能的。就像保持你的选择开放一样,考虑所有的选择似乎是合理的。
是的,我们来谈谈其他事情。好的,元宇宙。你最想进入人类历史上的哪个时期?公元前10万年到现在。你只是想看看它是什么样子。它必须是过去吗?
嗯?它必须是过去吗?
哦,是的,它必须是过去。
我不知道。我有我感兴趣的时期。我对美国历史和古典历史非常感兴趣。我对科学史也很感兴趣。所以我实际上认为看到并试图更多地了解一些重大进步是如何产生的。我们所拥有的只是关于其中某些内容的有限的文字。
我不确定元宇宙是否会让你这样做。因为我们无法,很难回到过去,去回忆那些我们没有记录的事情。但是,我实际上不确定回到过去对他们来说是否是一件重要的事情。我认为这对于历史课之类的东西来说会很酷。
但是,这可能不是我对元宇宙最兴奋的用例。我认为最重要的是无论你身在何处,都能感受到与人同在的能力。我认为这将是一项非常棒的事情。在我们进行的人工智能对话中,许多讨论都是关于物理限制的,这些限制是所有这些讨论的基础,如果你想要进行创新,技术的一个教训就是你应该尽可能地将事物从物理约束领域转移到软件中。因为软件的构建和发展要容易得多。此外,你可以让它更加民主化,因为并非每个人都有能力拥有一个数据中心。然而,许多人可以编写代码,获取开源代码并对其进行修改。
元宇宙版本能够实现真实的数字存在,这将是一个巨大的区别。它使人们感觉他们不必为了很多事情而亲自在一起。现在,我认为亲自在一起会更好。所以,这些事情并非二元的。它并不意味着,好吧,现在,你不需要再这样做了。但是,总的来说,我认为这对于社交、与人建立联系、工作来说都非常强大。对于我不知道的部分行业、医学,对于很多事情来说。
我想回到你在谈话开始时说的一件事,你没有以10亿美元的价格出售公司。还有,比如元宇宙,你知道我们会这样做,即使市场为此而打击你。然后我真的很好奇,比如,这种优势的来源是什么?你说,哦,价值观。我有这种直觉。但是,每个人都这么说,比如,如果你必须说一些对你来说很特别的话呢?是什么,你会如何表达它?比如,你为什么如此相信元宇宙?
我认为那些是不同的问题。
所以,什么东西能给我带来那种力量?我想我们已经讨论了很多事情。所以,我真的很喜欢建造东西。我特别喜欢围绕人们如何交流以及了解人们如何表达自己和人们如何工作来构建事物。我上大学的时候,学的是计算机科学和心理学。我认为这个行业里还有很多人学的是计算机科学,所以,对我来说,这一直是这两件事的交集。但我认为这也是一种非常深层的驱动力。
我不知道该如何解释,但我只是觉得,从本质上讲,如果我不创造新的东西,我就做错了。所以即使我们在制定商业案例,比如在人工智能上投资一千亿美元,或者在元宇宙上投入巨额资金。是的,我们有计划,我认为这些计划非常明确,如果我们的东西有效,那将是一项很好的投资。但你不能从一开始就知道。而且,人们有各种各样的争论,无论是与顾问还是不同的人。好吧,你怎么能,你怎么有足够的信心去做这件事?
好吧,当我停止尝试建造新事物的那一天,我就完了。我要去别的地方建造新事物。我从根本上无法经营某件事或经营自己的生活,也无法尝试建造我认为有趣的新事物。对我来说,这甚至都不构成一个问题。我们是否会尝试去创造下一个新事物?我无法不去尝试。在我生活的各个方面,都是如此。就像我们建造了这个,就像我的家人在考艾岛上建造了这个牧场,我只是设计了所有这些建筑。我有时会想,我们开始养牛了,我想,好吧,我想养出世界上最好的牛。那么,我们该如何设计它呢?这样我们就可以弄清楚,然后构建和调用我们需要的东西,尝试这样做。所以,我不知道,这就是我。那么,问题的另一部分是什么呢?
我不确定,但我实际上对其他事情很好奇……
19岁的马克读了很多古代和古典作品,包括高中和大学期间。你从中学到了什么重要的一课?不仅仅是你发现的有趣的东西,而且像……到你19岁的时候,你消耗的Token并不多。其中很多都是关于经典的。显然,这在某种程度上很重要。
我不知道,这是个好问题。
我认为真正有趣的事情之一是……所以,当奥古斯都第一次当上皇帝时,他试图建立和平。当时并没有真正的和平概念。人们对和平的理解是……这是敌人不可避免地再次攻击你之间的暂时时间。所以你得到了短暂的休息。他有这样一种观点,看,我们想改变经济……而不是如此唯利是图和军国主义……实际上是这种正和的东西。在当时,这是一个非常创新的想法。
我不确定,但我认为其中包含了一些非常基本的元素。这就像是当时人们能够想象的极限,是一种合理的工作方式。我想回到这个话题,这适用于元宇宙和人工智能。但是,许多投资者和其他人却无法理解我们为什么要开源。这就像开源一样,这只是你暂时拥有事物的时间。但实际上,我认为这就像科技领域的一种深刻理念。实际上,它创造了许多赢家。
我不确定,我不想过分强调这个比喻。我确实认为,有很多时候,你可以像建造模型一样去构建事物。人们甚至无法理解这对他们来说是一件有价值的事情,或者是一个合理的世界状态。实际上有比人们想象的更多合理的事情。这非常有趣,我可以告诉你我当时的想法吗?
当然,你可能已经从中找到了答案,这可能完全不对。这些人中有些人非常年轻,他们在帝国中扮演着非常重要的角色。就像凯撒·奥古斯都,到他19岁时,他实际上已经非常了不起,他是罗马政坛最杰出的人物之一。他领导着战争并组建了第二个三头执政联盟。我想知道你是否喜欢这样的例子,一个19岁的孩子会说,我真的可以做到。我认为这是一个有趣的例子,两者都来自历史,包括美国历史。
我最喜欢的名言之一是毕加索的这句话:“所有的孩子都是艺术家,挑战在于你长大后如何保持艺术家的身份?”基本上,因为当你年轻的时候,你更容易产生疯狂的想法。你的生活中存在着所有这些与创新者困境的类比,以及你的公司或你所建立的任何东西。所以,你在你的轨迹上有点早期,更容易转变并接受新的想法,而不会破坏你对不同事物做出的其他承诺。
我不确定,但我认为这是经营公司的一个有趣的部分,你如何保持活力?回到开源投资者,100亿美元的模式,假设它是完全安全的,你已经做了这些评估。与此不同,评估人员还可以对模型进行微调。你希望未来的模型也能如此吗?
你会开源100亿美元的模型吗?
只要它对我们有帮助,那么是的。
但会吗?100亿美元的研发费用现在开源了吗?
我想,这是一个问题,随着时间的推移,我们也必须对此进行评估。我们在开源软件方面有着悠久的历史,但我们不倾向于开源我们的产品,我们不会将Instagram的代码开源。我们采用了大量的基础设施,并将其开源。在我们的历史上,最大的项目可能就是开放计算项目,我们将所有的服务器、网络交换机和数据中心的设计开源。这个项目最终证明非常有价值,因为虽然很多人都可以设计服务器,但现在行业已经对我们的设计进行了标准化。这意味着供应链基本上都是围绕我们的设计建立的。随着数量的增加,对每个人来说都更便宜了,为我们节省了数十亿美元。这是不是很棒?
我认为开源可以通过多种方式帮助我们。首先,如果人们能找到更便宜的运行模型的方法,我们将在所有这些事情上花费数百亿甚至一千亿美元或更多。因此,如果我们能更有效地做到这一点,比如提高10%,我们将节省数十亿或数百亿美元。这本身可能就值很多钱,特别是如果有其他竞争模型。我们的东西并不是在放弃某种疯狂的优势。
你问我是否认为训练将被商品化。我认为有很多方法可以实现这一点,这只是其中之一。另一个是商品化意味着它会变得非常便宜,因为有很多选择。这可能朝另一个方向发展,即质量改进。
你提到了微调,对吗?就像现在,你能对其他主流模型进行微调的能力非常有限。也有一些选择,但通常不适用于最大的模型。因此,我认为能够做到这一点,能够做不同的应用程序特定的事情或用例特定的事情,或将它们构建到特定的工具链中,不仅可以实现更高效的开发,还可以实现质量上不同的事情。
我想给你一个类比。我认为移动生态系统普遍糟糕的一件事是,有两家守门人公司,苹果和谷歌,它们可以告诉你允许构建什么。在我们的历史上有很多次,有经济版本,我们建造了一些东西,他们就要拿走你一大笔钱。但还有定性版本,这实际上让我更心烦意乱。很多时候,当我们发布或想要发布新功能时,苹果却说,不行,你不会发布这个功能。我当时想,这太糟糕了。
所以问题是,我们是否已经为这样的人工智能世界做好了准备,在那里,你将得到少数几家运行这些封闭模型的公司,这些公司将控制 API,因此将能够告诉你可以构建什么?首先,我可以说,我们自己去建立一个模型,以确保我们不会处于那种境地,这是值得的。比如,我不希望其他任何公司告诉我们可以构建什么。但从开源的角度来看,我认为很多开发人员也不希望这些公司告诉他们可以构建什么。
所以问题是,围绕这个构建的生态系统是什么?什么是有趣的新事物?这对我们的产品有多大改善?我知道有很多情况下,如果这最终成为我们的数据库或缓存系统或架构,我们将从社区获得宝贵的贡献,这将使我们的产品更好。然后,我们所进行的特定应用程序的工作仍然具有如此大的差异性,以至于它实际上并不重要,对吗?
我们将能够继续做我们所做的事情。我们将从所有系统中受益。无论是我们自己的还是社区的,都会因为它是开源的而变得更好。然而,也存在一个可能的世界,模型最终可能会成为产品本身。在这种情况下,我认为是否开源就成了一个更为复杂的经济计算,因为这样做在很大程度上就是将自己商品化。但从我目前所看到的情况来看,我们似乎还没有达到那个水平。
您是否希望通过将模型授权给云提供商来获得可观的收入?他们必须向您支付费用才能真正提供该模型吗?
我们希望有这样的安排,但我不知道它会有多重要。我们有这个……这基本上是我们对Llama的许可证。在很多方面,这是一个非常宽松的开源许可证,只是我们对使用它的最大公司有一个限制。这就是我们设置这个限制的原因。我们并不是想阻止他们使用它。我们只是希望他们来和我们谈谈,因为如果他们只是拿走我们建造的东西并转售它并从中赚钱,那么好吧,如果你是像微软、Azure或亚马逊这样的公司,那么是的,如果你要转售该模型,那么我们应该从中获得一些收入份额。所以在你这样做之前先来和我们谈谈。这就是事情的发展方式。
所以对于Llama 2,我们基本上与所有这些主要的云公司都有交易,Llama2作为所有这些云上的托管服务提供。随着我们发布越来越大的模型,这会成为一件大事。这不是我们的主要工作,但我认为如果这些公司要销售我们的模型,我们应该以某种方式分享其中的好处。
是的。关于其他开源危险,我认为你关于权力平衡的观点确实合理,而且由于我们拥有更好的协调技术等,你可以消除潜在的危害。我希望Meta有某种框架。其他实验室也有这种框架,他们说,如果我们看到这个具体的东西,那么开源甚至部署都行不通。只是把它写下来,这样公司就可以做好准备。人们对它有期望等等。是的。我认为这是生存风险方面的一个公平观点。
现在,我们更关注我们今天看到的风险类型,这些风险更多是内容风险。我们有底线,我们不希望模型基本上做一些帮助人们实施暴力或欺诈或以不同方式伤害人们的事情。
因此,在实践中,对于今天的模型,我想下一代,甚至可能是下一代,我认为虽然谈论生存风险在智力上可能更有趣,我实际上认为,真正需要付出更多精力来减轻的危害是,有人会采用模型,用今天的参数和我们今天看到的更平凡的危害类型来伤害他人。比如人们互相欺诈,诸如此类。所以我不想忽视这一点。我认为我们有责任确保我们在这方面做得很好。
是的,Meta是一家大公司,你可以同时处理这两件事。
是的。
关于开源,我非常好奇,你是否认为像 PyTorch、React、Open Compute 这样的开源项目对世界的影响甚至超过了 Meta 在社交媒体方面的影响。我曾与使用这些服务的人进行过交谈,他们认为这是可能的,因为互联网的很大一部分都在运行这些项目。
这是一个有趣的问题。我认为几乎一半的世界都在使用我们的产品。这是一个很好的观点。因此,我认为很难超越它。但我认为开源作为一种新的构建事物的方式确实非常强大。
是的,这是可能的。它可能就是这些项目之一,我不确定,比如贝尔实验室,他们正在研究晶体管,因为他们想要实现长途通话。他们成功了。最终,他们实现了长途通话,这给他们带来了真正的利润。
如果你问他们,五到十年后,他们发明的最有用的东西是什么?他们可能会回答,我们实现了长途通话,现在所有人都在打长途电话。但如果你问 100 年后,答案可能就不同了。所以我认为我们正在建造的很多东西都是如此。
就像现实实验室、一些人工智能的项目、一些开源的项目,我认为具体的产品在不断发展,有时候来来去去。但我认为人类的进步是持续的,这是我们所有人都能做的很酷的一部分。
Llama 模型什么时候会在你自己的定制芯片上进行训练?
很快,不是Llama 4。我们的方法是,首先,我们基本上构建了可以处理排名和推荐类型内容推理的定制芯片。所以卷轴、新闻提要、广告,这些都消耗了大量的 GPU。但是当我们能够将其转移到我们自己的芯片上时,我们现在能够使用更昂贵的
NVIDIA GPU 进行训练。所以在某个时候,我们希望有自己的芯片,我们可以用它来先训练一些简单的东西,然后最终训练这些非常大的模型。但与此同时,我想说这个项目进展得相当顺利。我们正在有条不紊地推出这项计划,并制定了长期路线图。
最后一个问题。这完全出乎意料:如果您成为 Google+ 的首席执行官,您能让它发挥作用吗?
Google Plus?哦。好吧,我不知道。我不知道。这是一个非常困难的反事实。
好的,那么真正的最后一个问题是,当 Gemini 推出时,办公室里有人有没有可能说XXX?
不,我认为我们现在更温和了。
很酷。太棒了,马克。
是的,我不知道。这是个好问题。我不知道。问题是 Google+ 没有首席执行官。它就像公司内部的一个部门。
我认为你之前问过,什么是最稀缺的商品。我实际上认为对于大多数公司来说,它都是这种规模,至少它是重点,就像当你刚成立一家公司时,你可能会受到更多资金的限制。您可能只是在探索一个想法,而且可能并没有所有的资源。我认为在某个时刻,你会跨越一些门槛,你所做的事情的性质将决定你在构建多个项目时,如何在它们之间创造更多的价值。然而,你会变得更加受限,无法控制如何顺利进行。总会有一些情况,组织中会发生一些随机的、令人惊喜的事情,这些事情我甚至都无法预知。
这是一件好事。但我认为总的来说,组织的能力在很大程度上受到首席执行官和管理团队能够监督和管理的内容的限制。我认为这一直是我们关注的重点。我想引用本·霍洛维茨的话,我们应该把主要的事情放在首位,并尽量专注于你的关键优先事项。
非常好,非常感谢。马克,你做得太棒了。
播客访谈视频(B站地址):
https://b23.tv/tp6ZtBb
Llama 3模型网页版:
https://www.meta.ai/
Llama 3模型(8B、70B两种参数规模的版本)下载:
https://llama.meta.com/llama-downloads/
GitHub项目地址:
https://github.com/meta-llama/llama3
出自:https://mp.weixin.qq.com/s/xNkOPsvjeoiPI0uVWOhCGA