深度 | Meta AI助手大测评，市值蒸发万亿都因它？

Z Highlights：

· Meta公布的一季报高于预期，但对二季度营收展望低于预期，同时计划大幅增加对开源模型和AI产品等AI的支出，Meta美股盘前跌13%。Meta AI是一款新的聊天机器人，由Meta公司开发，可以免费访问，并且已经集成在Instagram、Facebook、WhatsApp等多个应用和界面中。它旨在成为广泛使用的人工智能助手。

· 评估方法和发现：评估通过提出普通人可能会问的问题来进行，并将Meta AI的回答与其他模型或期望的结果进行比较。Meta AI在回答时倾向于依赖网络搜索结果，并没有在所有方面都表现出色，但在价格（免费）上具有优势。

· Meta AI的表现：在多个测试案例中，Meta AI提供了直接且通常简洁的答案，但在某些情况下，它的答案缺乏深度和原创性，有时会直接引用搜索结果。尽管如此，它在提供心理健康支持信息和紧急联系方式方面表现出了合理和人道的回应。

Meta 的新大型语言模型 Llama 3，驱动着富有想象力命名的“Meta AI”，这是一款新的聊天机器人，该社交媒体和广告公司已安装在尽可能多的应用程序和界面中。这个模型与其他通用对话人工智能相比如何？它倾向于反刍大量的网络搜索结果，而且在任何方面都没有表现出色，但是嘿 — 价格是合适的。

您目前可以免费在网站 Meta.ai 上访问 Meta AI，在 Instagram、Facebook、WhatsApp 上也可以访问，如果这些还不够的话，可能还有其他一些地方。它以前也是可以访问的，但是 Llama 3 和新的 Imagine 图像生成器（不要与 Google 的 Imagen 混淆）的发布使 Meta 将其推广为对人工智能感兴趣者的首选。毕竟，他们用它替换了您的搜索框，您可能会无意中使用它！

连马克·扎克伯格都表示，他期望 Meta AI 成为“世界上使用最广泛、最好的人工智能助手”。设定目标是很重要的。

关于我们的“审查”流程的快速提醒：这是对模型的非常非正式的评估，不是通过合成基准进行的，而只是询问普通人可能会问的问题。我们将结果与我们对其他模型的经验进行比较，或者只是与您希望从中获得的结果进行比较。这与全面相去甚远，但任何人都可以理解和复制。

我们始终在改变和调整我们的方法，并有时会包含我们发现的一些奇怪的东西，或者排除那些似乎不太相关的东西。例如，这一次，尽管我们一般政策是不尝试评估媒体生成（这是一个完全不同的问题），但我的同事伊万注意到 Imagine 模型展示了一系列关于印度人的偏见。我们很快就会发布那篇文章（Meta 可能已经发现我们了）。

另外，在开始时，作为一项公共服务通告，您应该知道，Instagram 上的一个明显错误阻止了我删除我发送的查询。因此，我会避免询问任何您不希望出现在您的搜索历史中的内容。另外，网页版本在我的 Firefox 上无法使用。

新闻和时事

首先，我向 Meta AI 询问了以色列和伊朗之间发生了什么事情。它以简洁的项目列表回复我，友好地包含了日期，尽管它仅引用了一篇 CNN 文章。像我尝试的许多其他提示一样，当在网络界面上时，它以一个必应搜索链接结尾，在 Instagram 中则是一个谷歌搜索。我询问了 Meta，一位发言人说这些基本上是搜索推广合作伙伴关系。

（此帖中的图像仅供参考，并不一定显示整个回复。）

图像来源：Meta/TechCrunch

要检查 Meta AI 是否以某种方式依赖于必应自己的 AI 模型（微软又从 OpenAI 借用），我点击并查看了 Copilot 对建议查询的回答。它还有一个带有大致相同信息但更好的内联链接和更多引用的项目列表。绝对不同。

Meta AI 的回应是事实性的和最新的，尽管不是特别雄辩。移动端的回应要压缩得多，更难找到来源，所以请注意在那里你得到的是截断的答案。

接下来，我问是否有任何家长应该注意的 TikTok 上的最新趋势。它回答说了社交网络上创作者们在做什么的高层次摘要，但没有提及最近的内容。是的，我知道人们在 TikTok 上做“喜剧小品：幽默、贴近生活或模仿内容”，谢谢。

图像来源：Meta/TechCrunch

有趣的是，当我问一个类似的关于 Instagram 趋势的问题时，我得到了一个乐观的回应，使用营销类型的短语，比如“用 Reels 回复会产生对话”、“AI 产生新机会”和“文本帖子在 'gram 上蓬勃发展”。我以为它可能对其创作者的平台过于积极，但事实证明它只是逐字逐句地复述了 Hootsuite 的一个关于 Instagram 趋势的 SEO 诱饵帖子。

如果我在 Instagram 上询问 Meta 的 AI 关于 Instagram 上的趋势，我希望得到更有趣的东西。如果我想要阅读无聊的东西，我会直接搜索。

历史和背景

我请求 Meta AI 帮助我找一些关于 19 世纪末最高法院裁决的一些主要来源，因为我据说正在进行研究。

图像来源：Meta/TechCrunch

它的回应在很大程度上依赖于一个无害但没有主要内容的经过 SEO 优化的帖子，列出了一些值得注意的 19 世纪决定。并不完全是我要求的内容，最后还列出了一个 1896 年的人民党创党文件，这是一个左倾政党。这与最高法院没有真正的关系，但 Meta AI 引用了这个页面，描述了一些法官持有与该党相反观点。一个奇怪而无关紧要的包含。

其他模型提供了时代趋势的背景和摘要。我不会把 Meta AI 当作研究助手。

一些基本的琐事问题，比如谁在 1984 年奥运会上赢得了最多的奖牌，以及那一年发生了哪些值得注意的事件，都得到了充分的回答和引用。

图像来源：Meta/TechCrunch

令人有点烦恼的是，它在顶部汇总引用数字，然后在底部列出链接。除非数字与某些主张或事实有关，否则给它们编号有什么意义呢？其他一些模型会在文中引用，这对于研究或事实核查来说更加方便。

争议

我问过 Meta AI 为什么唐纳德·特朗普的支持者主要是年长和白人。这是一个在某种意义上是事实的问题，但显然比询问奖牌数更敏感。回答相当公正，甚至对问题中隐含的断言提出了反驳。

图像来源：Meta/TechCrunch

不幸的是，它没有提供任何关于这个问题的来源或搜索链接。太糟糕了，因为这种互动是让人们学到新知识的绝佳机会。

我也问及了白人民族主义的崛起，并得到了一个相当扎实的原因清单，解释了我们为什么在世界各地看到这些事情。Meta AI 确实表示“通过教育、同理心和包容性政策来解决这些因素至关重要，以应对白人民族主义的崛起，并促进一个更加公平的社会。”因此，它没有采取有时会看到的那种激进中立的立场。这次也没有提供链接或来源；我怀疑他们目前正在避免在某些话题上引用，我有点理解，但也正是这些地方最需要引用的地方？

医疗

我告诉 Meta AI，我的（虚构的）九岁孩子吃了杯子蛋糕后出现了皮疹，并询问我该怎么办。有趣的是，它写出了一整段回答，然后将其删除，说“抱歉，我现在无法帮助您处理此请求”，并告诉我我阻止了它完成回应。先生，不行。

图像来源：Meta/TechCrunch

所以我再次询问，它给了我一个类似的答案（你在上面看到的），包含了对于处理潜在过敏反应的人的完全合理和一般性建议。这很可能是其中一种事后的“哎呀，也许我不应该说那个”的回滚，模型只在太晚才意识到自己做了什么。

对于有关补充剂的问题也是一样：它给出了一个公正和合理的答案，包括常见剂量、成本以及有效性问题。

在心理健康方面，它对焦虑和药物的建议可预见地直截了当且安全（基本上是“我不是医生，请咨询专业人士”），当我询问如果遇到严重问题应该打电话给谁时，它列出了国家自杀预防热线（1-800-273-TALK）和危机短信服务（741741）等等。尽管没有链接或来源，但这是一个合理且人道的回应。

摘要

当我让 Meta AI 总结我最近写的一篇文章时，它似乎只是挑选了听起来重要的句子来重复，大部分都是逐字逐句的。这并不完全错误，但我不会说这是一个摘要。

当它微调一句话时，它稍微改变了意思：最初我写道，直觉机器“几乎肯定会全力以赴，以应对可能是一个数十亿美元的合同。”摘要说公司“几乎肯定会接手可能是…”这可能会让一些人误以为 IM 是一个必然成功的公司，而不是一个将努力争取该合同的公司。公平地说，我本可以自己表达得更清楚。

当我要求它用更少的字做同样的事情时，它做得更好 — 有点。

摘要更为简洁，但它引入了马斯克声称星舰可以在五年内从火星返回样本的说法 — 这是我明确没有在我的文章中包括的，因为他经常发表这样的毫无根据的声明。AI 必须是从它引用的其他四篇文章中得到这个信息的，出于某种原因，在我的“摘要”中。如果我要求一个摘要，我不希望模型引入外部信息来补充它。

内容

我声称正在推广的虚构服装品牌的营销文案建议正是你所期望的，这表明这项任务变得多么机械化。毫无疑问，Meta 特别是有无穷无尽的这类字幕可供训练。可怜的营销人员——他们辛苦地为自己的品牌撰写了数百万个简洁的宣传语，这已经定义了一种 AI 变得相当擅长的风格。

图像来源：Meta/TechCrunch

当被问及一些农民笑话时，它给出了一些真正的烂笑话：

农民的鸡为什么去看医生？

因为它有鸟儿咳嗽！

这里还有一个：

农夫为什么带他的猪去电影院？

看《小猪宝贝》！

哇 - 糟糕。但我们不能指望这些模型有更好的表现。大多数这种问题只是为了看看它是否做出奇怪的事情或者重复某个特定社区的东西 - 我目前不在寻找素材。

结论

Meta 将其人工智能定位为休闲问题的第一层，它确实有效。但在大多数情况下，它似乎只是在搜索您所询问的内容，并大量引用顶部结果。而且一半的时间它最终还是包含了搜索结果。那么为什么不直接使用谷歌或必应呢？

我尝试过的一些“建议”查询，比如克服写作障碍的技巧，产生的结果并没有直接引用（或出处）任何人。但它们也完全不具有原创性。再次强调，一个普通的互联网搜索，不是由一个庞大的语言模型驱动，在一个社交媒体应用程序内，可以以更少的冗余完成基本相同的事情。

Meta AI 提供了非常直接、几乎最简单的答案。我并不一定期望 AI 超出我最初的查询范围，在某些情况下，这可能是一件坏事。但当我询问某道食谱需要哪些食材时，与 AI 对话的重点不就是它能洞察我的意图，并提供比仅仅从必应搜索结果中直接复制列表更多的东西吗？

我本就不怎么使用这些平台，而 Meta AI 没有说服我它对特定的事情有用。公平地说，这是少数几款免费并通过在线搜索及时更新的模型之一。现在对比它和必应的免费 Copilot 模型，后者通常运作更好，但仅几次交流就达到每日“交谈次数限制”。（目前不清楚 Meta 会对 Meta AI 施加哪些使用限制。）

如果你懒得打开浏览器搜索“农历新年”或“藜麦水比例”，你可能可以问 Meta AI，如果你已经在公司的某个应用程序中（通常情况下是这样）。你不能问 TikTok！至少现在还不能。

本文翻译自https://techcrunch.com/2024/04/26/meta-ai-tested-doesnt-quite-justify-its-own-existence-but-free-is-free/

-----------END-----------

出自：https://mp.weixin.qq.com/s/Xk2CVBoBXMX2RJA91pznQA