本文会从
微软、OpenAI 和 百度 这几家相对完整的产品线来做一些讨论分析。
0、前言
0.1、为什么要与
基座LLM小公司的文章分开
巨头公司跟单纯的基座LLM公司有很多本质的不同,例如:
对于巨头来说,没有“该选择做哪些而不做另一些”的问题,答案肯定是“我都要”,问题在于:要以何种顺序?内部让谁来做?如何与公司其他业务进行协同?如何内部评价每一步的ROI?等等
巨头虽然有很多的资源,但管理成本是也同样是较高的,同时速度也很重要,所以短期会略倾向于能够更加充分发挥大部队协作的方案。能“水平快速拓展复制”,就不要搞“复杂的内部组织/产品逐步演化”。
我并没有大企业的顶层管理经验,谈不上对巨头管理方式的本质洞察。抛上述几点仅仅是让读者管中窥豹,了解为什么要单独讨论巨头。
对于巨头公司的战略规划来说,肯定99%能被想到的战略都已经在内部被提出过了,问题只在于哪些方案能被呈报核心决策团队,以及他们最后又选择了哪种战略。我以个人之力远远谈不上能够预判他们的战略走向。
0.2、信息来源
由于精力因素我对大公司的产品发布关注也没有那么紧,可能会遗漏不少内容。本文仅就我知道的部分做一些讨论,如果重要的信息被我遗漏,请读者评论和批评。
海外暂时只参考了微软+OpenAI发布的产品。剩下海外还有大量的2C产品可以做交叉评论,但由于我暂时还没有搞定这块的信息调研,也脱离了本文的限定的范围,所以本文无法包含这部分内容。
百度10月发布会称作“百度世界大会2023”,有全程回放,我建议所有关注AIGC应用层的读者都去看一下其中发布了哪些产品功能。(可以用一些语音识别工具从整个回放中找到需要的产品段落来看。)至少我觉得这是国内巨头中,走的相对靠前的。虽然很多互联网人很看不起百度的产品力,但我觉不可否认的是百度做的挺快的,虽然说长期来说某些产品类别胜出的不见得是百度,但它至少是第一个去做的,成功的给后来者打个样。
1、微软和OpenAI的产品回顾
由于这两家的产品不是很能够放入到后面的分解框架中,以及考虑到按时间顺序回顾会更自然,所以将其单独列出。
1.1、微软的Copilot系产品
先看先发的微软的产品布局,微软的所有AI智能助手都叫做Copilot。并不是狭义上理解的那种在具体场景给选择建议的类Github Copilot方式,而是更类似于之前吹的NLUI的感觉,只不过并不止于UI。
【MS.1】Github Copilot
Github Copilot是这一轮LLM应用中大概最早的成功产品,比ChatGPT本身都要早。但它并不是2C的,而是面向程序员这种专业内容生产者的。
现在来看,Github Copilot能够成功其实是充分发挥了LLM的优势:
LLM善于记住和使用大量信息,而程序员开发时候经常需要的就是查文档查方案。
是“狭义Copilot”的最佳场景。在程序员输入时候,直接给出建议的方案,程序员可以快速选择采纳、切换方案或者无视。可以几乎无损地提升开发效率。
程序员在开发的时候容易进入某种视角的误区,Github Copilot可以起到结对编程的作用,提醒程序员发现他所没有注意到的地方。
LLM是第一个能够高质量地为特定场景生成行级代码甚至函数级代码的技术方案,在这之前做不到。
这些因素加在一起,这产品想不成功都难。更别说当时有OpenAI的强力LLM加持,且没有竞品。
很可惜,包括我在内的大部分人在当时并未认识到这些。
【MS.2】New Bing Chat
它是最早发布的非简单chatbot的领域特化2C产品,发布之初的产品设计成熟度很高。我再说一次,它发布之后打磨了1个月左右时候的成熟度就算放在现在也应该是让LLM应用层开发者把它作为理想的,更别说它在半年之前就已经做到了。很可惜不少团队都还不理解它的优秀设计。
就算是发布到现在这么久了,我觉得很多产品的产品设计和策略设计也都应该向它学习,所以我在9月还专门分交互和策略实现两个方面分别写了文章来讲它:
LLM-native应用中复杂慢速策略的UI交互设计 【2023Q3】
谈目前 知识库问答系统的最佳实践 【2023.9】
不过New Bing目前看起来还是主要针对于搜索场景的助手,而非通用助手。虽然New
Bing Chat的一些产品设计是在朝着通用的方向去的,但似乎Windows Copilot和未来的App端Copilot才是更适合的入口。
【MS.3】Windows Copilot
Windows Copilot是基于Win11的,在2023.10才推送给普通用户。由于监管限制目前并没有在国内和欧洲开放,但可以通过一些方式激活其功能。这使得很多人还并没有用过这个产品。
在AIGC时代我很少推荐产品,但Win11的Copilot是我推荐的少数之一。所有Windows用户都应该升级到Win11,并且启用该功能,肯定是值得的。考虑到它是免费的,就更应该尝试了。而且Windows Copilot支持的功能仍然在快速增加,最近刚刚支持了DALL-E 3的画图功能。
目前Windows Copilot和New Bing Chat在功能上打通是比较多的,搜索场景下不少会从Windows Copilot直接跳转到New Bing Chat。
【MS.4】Office Copilot
Office Copilot也是个很多人没有用上的产品。它的主要能力是Office云存储上的知识库检索和文档辅助撰写,以及公司内的一些办公协作,本质上不完全是一个2C的产品,更多应该定位于企业内部效率提升。
1.2、OpenAI的ChatGPT
从2C产品的角度来说,ChatGPT之前的发展是比较慢的,更多像是一个技术原型和新feature试验场。
虽然开始做了插件生态,但截至目前为止,整个插件市场就好像一个完全没有产品视角的工程开发做出来的东西一样。
Advanced data analysis(前code interpreter)算是一个产品角度上入门的特性了,但无奈易用性和可靠性方面仍然不够好。从code interpreter改名叫advanced data analysis其实就是结果的可靠性方面达不到coding的要求,所以只能叫数据分析了。
Browse with Bing模式则像是一个简易Agent的技术demo,而不像是一个智能搜索产品。
【OA.1】ChatGPT默认模式(+图像输入能力)
其实ChatGPT默认模式的能力比较简单,没有搜索增强,也没有太多有用的插件支持。
但作为单纯的对话chatbot,由于gpt-3.5-turbo和gpt-4超强的模型能力,让这个单纯的产品都变得很有价值。
在2023.9月底增加了读图能力之后,这个模式终于看起来不再像是一个简单的LLM技术demo了。
【OA.2】ChatGPT Voice
按照OpenAI的说法,Voice能力只是简单地在ChatGPT模式上使用了语音识别和一个高质量的TTS。
语音识别能力早就在App上有了,但一直都被大家当成是一种快速输入文字的方式。而Voice附带的TTS能力则彻底让人体会到了什么是量变引发质变。比较生硬的TTS我们现在都已经很熟悉,但Voice真的让很多人都觉得这可以当作是与一个真人在沟通。
Voice这个产品形态真的让人感受到了陪伴类产品,以及高质量语音交互UI的巨大价值。
【9.29】ChatGPT
Voice能力及对LLM应用层产品设计的影响 快报
【OA.3】DALL-E 3 模式
ChatGPT的DALL-E 3模式其实并不是一个Midjourney的类似物,仔细观察,它包含如下特点:
DALL-E 3模型下可以普通的进行chatbot对话,只是它也可以调用画图功能。
当画图时,是先生成4个不同的细化风格的prompt,分别进行画图。
画图结果会再进行审查,过滤掉有问题的图。
其实是一个多环节的流程,而非单次文生图调用。这么做当然产品效果更好,这值得所有内容生成类产品学习。
2、巨头的产品布局(以百度为例)
目前国内相对来看,百度的AI原生产品发布是较全的,也公开的提了要把所有产品都用AI重做一遍,战略上已经移向此处。
以下按大类来汇总介绍下本次百度发布会所发布的产品功能。
2.1、2C个人助手
也见过一些团队试图做通用领域的2C产品,但目前看起来只有巨头拿出的产品才算是相对靠谱一点,但也仍然受到其自身产品历史的限制。百度在这方面的产品包括:
【BD.2C.1】ChatBot+搜索
百度是国内比较早的合并做ChatBot和搜索功能的巨头了,看产品UI是对标ChatGPT+New Bing Chat。国内智能搜索产品另外似乎只有昆仑万维,但昆仑万维距离通用场景2C助手还有很不少的距离。
作为一站式的通用场景知识服务助手,ChatBot+搜索应该是无法割裂的。Window Copilot 在这方面也是类似的思路:一站式的知识服务。而先发的New Bing Chat似乎由于产品前期的一些问题或者是服务免费用户过高的成本,暂时还是没有认真做ChatBot这块。
百度目前也做了图片输入、语音识别,并做了一个弱化的语音朗读功能。
【BD.2C.2】2C的虚拟专家顾问
百度发布会上提了一个数字医生功能,用于对C端用户提供用药咨询等。
虽然百度自己并未大肆宣传该类形态,但我对此评价很高。这其实就是“服务型2B虚拟员工”的2C版本。我在 虚拟员工类产品 的实现方式思考 【2023.9】 一文中就提到:用户需要的不是一个知识库技术产品和一些函数工具,而是需要一个能够解决他问题的服务。不少用户不知道如何有效地使用知识库产品、甚至连如何获取对应知识的文档都是卡点。单纯的交付一个技术方案无法解决大部分用户问题,在通用的场景下应该把产品做到位,把信息搜索、知识库整理、辅助工具开发、全流程策略效果调优都做完,直接交付给用户一个可用的虚拟员工/专家产品。客户需要的不是钻头和学习如何使用钻头,客户需要的只是墙上的钻孔。
同样的逻辑不止在2B的通用岗位领域,在2C也是存在的,这次百度提出的用药咨询就是例子。沿着这个角度考虑其实还有一些通用需求,例如:初级法律咨询、初级心理咨询、LBS信息指导、产品比较分析、读书助手等等。
【BD.2C.3】百度地图
百度地图其实类似于前面提到的LBS信息指导,不过是基于百度地图原有产品能力发展的。以及百度地图集成了叫车等等其他功能,不是一个单纯的虚拟专家顾问角色。
【BD.2C.4】第三方插件生态
百度提到了两个与其他企业合作的插件性产品:AI阅读助手、乘机助手。但我并没找到这些产品的入口,所以没法体验评价。
但作为通用领域的2C AI产品,它必然是一个新的用户流量入口,原有的各种服务必然需要接入这些“新的Siri”,前一代Siri未完成的新流量入口目标将由本代智能助手继续努力。
【BD.2C.5】智能硬件类
百度还提到了硬件相关的一些产品:
车上智能交互
家中智能语音交互的不可移动机器人(音箱?)
智能教育硬件
由于我个人的偏好问题,对此方面没有太多兴趣,也不做评论。
2.2、2C 个人知识库 和 内容生产
2.1节更多像是一个生活助手和顾问,除此之外还有一些个人生产力类的场景。由于现在机器人还做不到普及,所以必然只是信息世界中的内容生产和内容管理。百度在这方面有两个产品:
百度文库,支持文字内容创作、包括PPT
百度网盘,个人知识库产品,支持多模态
对于个人的知识库产品,特别是支持多模态这点让人眼前一亮。其实之前手机的相册检索已经有了这个的一些雏形,但确实到百度网盘这个的状态才让我更愿意将其成为个人知识库产品。
百度网盘确实有着很天然的用户数据优势,都不用用户上传,而是平台直接支持。要说问题的话,我希望能够设定一个可以被智能检索和分析的范围,甚至是设立不同几个子检索集合,毕竟不是网盘上的多有内容都适合随时被用来做智能搜索和问答。
2.3、2B 的企业内部智能助手
百度在这方面推出了两个通用产品:
【BD.2B.1】GBI 生成式商业智能产品
可以看成是现在LLM应用层内Text2SQL产品的更完善版本。其实我觉得百度GBI的宣传视频已经比较接近于这个方面的理想状态了,建议相关从业者都去看一下。
分析是一个交互性的工作,所以会是个类似狭义Copilot的感觉。不要针对于一次就准确完成用户的复杂请求,在交互上应该致力于帮助用户更好的思考分析问题,理解复杂的查询过程和数据。
智能BI产品和智能知识库检索产品其实是要合并的,在数据库内构建查询SQL其实也需要文档中包含的信息。文档提供了数据的元数据、数据库提供实时数据。
如果综合智能BI产品(以下简称为GBI)无法理解某个概念,或者不知道某个信息,那用户可以通过快速撰写/输入一个相关领域的文档到内部文档系统中,来在分钟级内提升GBI的返回结果质量,这才是大家期望的。
GBI类产品虽然工程浩大,但也并非没有实现思路。更大的问题大概在于在企业客户落地时候,如何对接其内部纷繁复杂、非常个性化的内部系统。落地成本比GBI产品本身开发成本都高是不奇怪的事情。
【BD.2B.2】内部系统智能助手
例如百度这次发布的“如流”。这类产品能力包括文档信息和其他内部系统信息获取,内部功能调用等等,也包括内部IM、会议上信息的智能化提取等等。
实际上这类产品是“GBI类产品的非数据库版本”,本质上没有太多的区别,只是针对场景有些不同。这两者长期上也会融合,变成企业内部的通用智能助手。
2.4、2B 的专业领域生产力工具
百度在这方面提到了两个产品:
【BD.2B.3】百度营销 轻舸
包括智能分析、营销内容的多模态自动生成(包括图片、文案、数字人形象和视频等)。
【BD.2B.4】内部使用的Github Copilot类似物
这个功能的基本版本不难做,现在似乎所有大厂都做了。
不过针对于中小公司的产品似乎还没有看到推出。
3、结语
上面这个分组是我在本文写作之时,第三遍浏览百度发布会全流程并做了笔记之后才做出来的。虽然不是什么复杂的思考,但确实感觉重新整理了一下之后才感觉方向更加清晰。我不知道百度内部是否有这样的分类整理,但百度至少以自己的方式把这些方向都铺上了,对得起大公司的战略分析人力资源投入。
本文一方面是敦促自己思考一下这个方面,同时也希望能给各个生态位中的读者一些更容易理解的框架。(让大家更卷一点吧)
出自:https://mp.weixin.qq.com/s/P5SK6qL1eS7DTzMT6dJEYw
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。
客服请加微信:skillupvip