深入调研,真实体验!
2万字、47张图标、对6大模型进行了测评和体验
本文注重产品使用感受、实际应用场景与效果测评
让您轻松掌握各大模型的优劣与特色
助您全面理解各大模型的真实表现
快来看看吧
一、引言
1.1 调研目的与意义
2023年之后,国内外多个大模型的相继发布和升级,进一步推动了全球AI竞赛的白热化,并对社会各行业产生深远影响。
中国的大模型包括百度的文心一言(ERNIE系列)、阿里云的通义千问、Minimax系列模型、科大讯飞的讯飞星火以及美国OpenAI研发的ChatGPT等。这些模型凭借其强大的语言理解和生成能力,在文本创作、智能问答、知识检索、商业文案生成等诸多场景中展现出了巨大潜力。
本次调研旨在为企业选择一款合适的大模型产品,其目的和意义如下:
了解市场上的大模型产品及其供应商,分析各家产品的优缺点和适用场景。评估各家大模型产品的性能指标,为企业提供参考依据。了解大模型产品的部署、接入成本和定制化开发等技术支持和服务,确保企业能够顺利实施和应用。
通过调研,为公司推荐适合的大模型产品,提高AI产品稳定性和效果表现。
1.2 调研背景与现状
目前我们正在合作的AI,以及我们正在使用的的大模型产品。从实践的角度来看,都存在产品稳定性不够、产品效果不佳,以及供应商服务响应不太及时的问题。
经过团队的沟通,现需要调研新的大模型产品,以寻找现有的产品的替换品或补充品,已保证的稳定运行,及高质量的输出表现。
AI的服务问题示例:
时间
|
问题
|
佐证图
|
2024-1-2
|
模型返回结果none
|
略
|
2023-12-13
|
产品功能和体验问题、报错码问题
|
略
|
2023-12-1
|
训练中断
|
略
|
2023-11-28
|
训练中断
|
略
|
2023-11-24
|
服务器部署的问题
|
略
|
2023-11-7
|
API报错
|
略
|
2023-11-1
|
AI输出效果问题
|
略
|
2023-10-31
|
Token计算异常
|
略
|
2023-10-26
|
输入长度异常报错、API调用报错
|
略
|
2023-10-25
|
服务部稳定,服务超时时常发生
|
略
|
2023-10-18
|
训练体验问题、训练卡顿、无训练日志
|
略
|
2023-9-27
|
输出结果不理想、回答一半就结束了
|
略
|
2023-9-13
|
异常回答、数据返回卡顿
|
略
|
1.3 调研范围与限制
1、调研范围
l主要集中在国内的大模型厂商,以及openAI的接口测试能力。因为政策原因,对其他更多的外国厂商不进行调研和测试。
l调研的版本,仅限于当前厂商能提供的对外开放的版本,大概率是最新版。
l调研的维度:主要选取和对比各家大模型的优劣势、产品性能、擅长领域、接入方式、使用成本、是否支持微调等。
2、调研限制
l因为篇幅和个人能力有限,对大模型的技术原理、训练方法、模型架构不做深入的研究和分析,感兴趣的伙伴,可以寻找其他更加专业的作者的文章阅读。
l调研主要是通过产品和用户视角进行,比较注重上层表现效果,调研内容仅供参考。
l调研的主要方式是通过官网产品的C端体验进行,形式非权威且不正式,调研思路仅提供一种可能性启发,结果仅供参考。
二、企业需求分析
2.1 接入大模型的主要原因分析
1.提高生产效率:通过大模型技术,企业可以自动化处理大量数据,提高生产效率,降低成本。例如:
(1) 舆情项目的文章分析和分类处理
(2) 智能写作
(3) 自动撰写新闻稿
2.提升客户体验:大模型技术可以帮助企业更好地理解客户需求,提供更加个性化的服务和产品,提升客户体验。例如:
(1) *文章阅读和AI解读
(2) *产业的数据分析
(3) *网的资讯自动化、机器人化等
3.创新业务模式:大模型技术可以推动企业创新业务模式,为企业创造新的增长点。例如:
(1) 针对*产业的相关资讯的智能化咨询
(2) 相关资讯智能推荐
(3) *产业专业内容、数据解读、研报解读等
2.2接入大模型的产品需求
l应用场景:自然语言处理、文章分析、内容识别和分类、智能推荐、数据分析
l功能需求:自然语言对话、智能摘要、文章解读、文档阅读、推荐算法、行业模型微调
l性能需求:
1.如响应速度快,有专属的客服团队,日常工作中能及时响应;
2.并发处理能力稍强,大于30QPS;
3.稳定性要好,系统故障和奔溃率要低于0.05%;
4.安全性要强,符合国内的政策法规,经过备案,对敏感词有过滤,对用户输入有识别和违禁词的拦截;
5.支持可扩展性,支持微调。
l成本预算:年成本不高于120w
l服务与支持:考察供应商的售后服务体系,包括技术支持、培训服务、升级维护等。
l技术路线与未来发展:考虑产品是否符合行业发展趋势,能否满足企业未来一段时间内的发展需求。
2.3 大模型选型原则与标准
基于以上需求,*在选择大模型产品时应该遵循以下原则与标准:
1.性能:产品的性能要稳定可靠,能够高效地处理大量数据,满足企业的业务需求。
2.易用性:产品的操作要简单易懂,不需要过多的技术门槛,方便企业快速上手。
3.可扩展性:产品要具有良好的可扩展性,能够随着企业业务的发展而不断升级和优化。
4.成本:产品的价格要合理,同时要考虑其性价比,避免不必要的浪费。
5.技术支持与服务:产品提供商要具备完善的技术支持和服务体系,能够及时解决企业遇到的问题。
三、大模型产品概述
3.1 大模型技术的发展历程
大模型技术,也称为深度学习模型,其发展历程可以追溯到2006年,当时深度学习的概念被提出,并在语音识别、图像处理等领域开始得到应用。随着数据的不断积累和计算能力的提升,深度学习模型逐渐从传统的神经网络演变为更复杂的结构,如卷积神经网络(CNN)、循环神经网络(RNN)和Transformer等。
其中,Transformer结构在大模型中得到了广泛应用,尤其是在自然语言处理领域。随着预训练语言模型的出现,如GPT系列和BERT等,大模型在自然语言处理任务中取得了显著成果,推动了人工智能技术的进一步发展。
通俗地解释就是:如果电脑是个孩子,那么大模型技术就是他的大脑。一开始,这个孩子不太聪明,后来他通过不断学习,变得越来越聪明。大模型技术就是这样,它通过大量数据的学习,变得越来越“聪明”。这个技术的发展经历了很长时间,现在已经被广泛应用于各种领域。
3.2 竞争格局与主要参与者
大模型的竞争格局日趋激烈,全球范围内,众多企业、初创公司和研究机构都在积极投入和研发大模型技术。
3.2.1国内主要大模型企业
1. 百度:
百度在人工智能领域有着深厚积累,其研发的大模型包括“文心一言”(ERNIE系列),这是一个预训练语言模型,具有强大的自然语言理解和生成能力。百度利用该模型在搜索、信息流推荐、广告投放、智能写作、对话系统等场景中实现智能化升级,为用户提供更精准和个性化的服务。
2. 阿里巴巴:
阿里巴巴推出的是“通义千问”大模型,这是基于阿里云构建的大型预训练模型,在电商、金融、物流等多个业务场景发挥了重要作用。例如,它能够优化商品推荐算法,提升客服效率,辅助决策分析,并在文本生成、问答交互等方面提供强大的技术支持。
3. 腾讯:
腾讯在AI领域的布局也十分积极,尽管混元大模型还在内测阶段,但预计会在游戏开发、内容生成、社交网络、在线娱乐等多个方面发挥重要作用,以提升用户体验并增强腾讯产品和服务的竞争力。
4. 华为:
华为研发了盘古大模型系列,旨在通过先进的深度学习技术推动云计算、物联网、智能终端等领域的技术创新。盘古大模型可应用于华为云服务,赋能行业解决方案,同时也在华为自家的智能手机、智能家居等智能硬件设备上提供了更加智能的功能。
5. 字节跳动:
字节跳动虽然没有公开具体的大模型名称,但在自然语言处理和推荐系统等领域有深厚的积累和技术实力。其旗下的抖音、今日头条等平台依赖于高度智能的算法和模型,推测正在内部研发或应用大模型来提升内容理解与个性化推荐效果。
6. 京东:
京东的言犀大模型是专为其电商平台定制的人工智能模型,尤其擅长在智能客服、智能营销和智能供应链管理等方面发挥作用。通过言犀,京东可以高效地处理用户咨询、精准推荐商品以及优化运营策略。
7. 科大讯飞:
科大讯飞作为中国语音识别和人工智能行业的领军企业之一,推出了星火大模型,这是一种认知智能大模型,集成了多种自然语言处理和机器学习技术。星火大模型在教育、医疗、政务、司法等行业应用场景中广泛使用,尤其是在智能语音合成、语音识别、语义理解和知识图谱构建等方面表现突出。
8. 360集团:
360集团依托自身在搜索引擎和网络安全领域的优势,推出了360GPT大模型。这款大模型不仅强化了360搜索引擎的智能化程度,还在网络安全防护、威胁情报分析、智能硬件协同等方面展现出强大的功能,有助于提升整体的互联网安全水平及用户体验。
3.2.2 国外主要大模型企业
1.谷歌:拥有LaMDA、PaLM等大模型,并在搜索、广告、自然语言处理等领域有广泛应用。
2.微软:推出了Azure OpenAI服务,集成了GPT系列等大模型,并在云服务、办公软件等领域有所应用。
3.亚马逊:拥有自己的大模型技术,并在电商、云服务、智能音响等领域有所应用,但尚未公开具体的大模型名称。
4.Meta:在自然语言处理和图像处理等领域有所布局,推出了LLaMA等大模型。
5.苹果:虽然苹果尚未公开具体的大模型技术,但其在Siri、Face ID等方面已有所应用。
3.2.3 初创公司和研究机构
当然,以下是您提到的国外主要大模型企业的详细情况:
1. 谷歌:
谷歌在人工智能领域处于全球领先地位,其研发的大模型包括LaMDA(Language Model for Dialogue Applications)和PaLM(Pathways Language
Model)。LaMDA是专为对话交互设计的大型语言模型,旨在提供更自然、有深度的人机对话体验;而PaLM则是一个超大规模的语言模型,具有极强的推理能力和泛化能力,在搜索、广告相关性预测、智能助手响应生成等方面发挥关键作用。
2. 微软:
微软通过与OpenAI合作,将GPT系列大模型集成到了Azure云服务中,为企业客户提供强大的自然语言处理能力。例如,Azure OpenAI服务使得用户能够方便地调用GPT-3等先进的预训练模型来开发聊天机器人、文本生成工具以及增强办公软件如Office 365中的智能功能。
3. 亚马逊:
亚马逊作为电商和云计算巨头,虽然尚未公开特定的大模型名称,但无疑在其业务中有应用自研或整合的大模型技术。这些技术可能体现在个性化推荐系统、客户服务机器人、Alexa智能语音助手等领域,利用大模型提高用户体验和服务效率。
4. Meta(前身为Facebook):
Meta在人工智能领域的探索广泛且深入,已推出了LLaMA(Large Language
Models at Meta)等大模型,主要用于自然语言处理任务,同时也涉足图像处理、跨模态学习等前沿领域。此类大模型的应用场景涵盖社交网络内容理解与推荐、AR/VR虚拟世界互动、元宇宙建设等多个方面。
5. 苹果:
苹果公司虽未正式对外宣布具体的大模型技术细节,但在其产品和服务中广泛应用了深度学习和人工智能技术。例如,Siri语音助手背后的自然语言理解和语音合成技术、Face ID面部识别系统中的机器学习算法等,都体现了苹果在先进模型上的研发投入。尽管如此,推测苹果内部正在积极研发或使用定制化的大型模型以提升旗下产品的智能化水平。
3.2.4 国内大模型初创公司
1、云从科技:专注于人脸识别和自然语言处理领域,开发了多款大模型应用。
作为一家人工智能领军企业,云从科技主要聚焦在计算机视觉和自然语言处理领域。其核心技术包括人脸识别、图像识别、语音语义理解等,并基于这些技术开发了多款大模型应用,广泛应用于金融、安防、交通、商业等多个行业场景,如智慧银行、智慧城市等。
2、达闼科技:专注于云端机器人技术,开发了多款大模型应用。
达闼科技以云端机器人技术为核心,通过构建智能云脑和智能终端的架构,研发了针对服务机器人的大模型应用。他们致力于将人工智能与机器人技术相结合,打造具备复杂环境感知、决策规划及自主行动能力的智能机器人解决方案。
3、思必驰:专注于智能语音交互技术,开发了多款大模型应用。
思必驰是一家专注于智能语音交互技术的企业,为各类智能硬件和软件提供全链路语音交互解决方案。其研发的大模型应用在语音识别、语音合成、语义理解等方面具有先进的性能,被广泛应用在智能家居、智能车载、智能客服等领域。
4、深言科技:专注于自然语言处理和智能推荐技术,开发了多款大模型应用。
深言科技专攻于自然语言处理以及智能推荐技术,他们的大模型产品可进行深度语义理解和用户行为分析,用于智能对话系统、个性化内容推荐等方面,提升用户体验并助力企业智能化升级。
5、云知声:专注于语音识别和自然语言处理技术,开发了多款大模型应用。
云知声是国内领先的智能语音技术服务商,特别是在语音识别和自然语言处理方面有深厚的技术积累。它们开发的大模型应用在智能家居控制、医疗、教育等行业得到广泛应用,旨在实现“听见·看见·认知·思考”的AI能力。
6、明略科技:专注于数据分析和管理领域,开发了多款大模型应用。
明略科技着重于数据分析和知识图谱构建,结合大数据技术和大模型算法,为企业级客户提供智能决策支持和数据驱动的运营管理方案。其大模型应用有助于挖掘海量数据中的价值信息,优化业务流程和提高决策效率。
7、格灵深瞳:专注于计算机视觉和深度学习技术,开发了多款大模型应用。
格灵深瞳深耕计算机视觉和深度学习技术,其大模型应用主要用于视频内容分析、行为识别、物体检测等场景,在公共安全、城市管理、零售业、体育赛事分析等多个行业中实现了智能化监控和管理。
8、商汤科技:专注于计算机视觉和人工智能领域,开发了多款大模型应用。
商汤科技是全球领先的人工智能平台公司,尤其在计算机视觉和深度学习方面拥有顶尖实力。它们不仅开发了一系列基于大模型的应用,如图像识别、视频分析、增强现实等,还将其技术广泛应用于智能手机、自动驾驶、智慧城市、娱乐影视、教育健康等多个领域。
3.2.5 国外大模型初创公司
1、Scale AI:
Scale AI是一家以人工智能数据标注和训练为核心业务的公司,为自动驾驶、国防、电子商务等领域的机器学习模型提供高质量的数据集。他们开发的大模型应用和服务极大地加速了AI模型的训练过程,通过精细标注的数据有效提升了模型性能。
2、Hugging Face:
Hugging Face是一家在自然语言处理(NLP)领域极具影响力的公司,他们运营着一个开放源码社区,并推出了Transformers库,其中包含了大量的预训练模型,如BERT、GPT系列等,使得开发者能够轻松地利用这些大模型进行二次训练或直接应用于文本生成、问答系统、语义分析等各种场景。
3、Domino Data Lab:
Domino Data Lab提供了一个企业级的数据科学平台,致力于简化并加速从数据准备到模型部署的整个机器学习生命周期。该平台支持大规模数据处理、模型训练以及版本控制,让数据科学家能够高效地开发和管理包括大模型在内的各类机器学习项目。
4、DataRobot:
DataRobot提供自动化机器学习解决方案,帮助企业用户快速构建和优化预测性模型。其平台允许用户无需编码或深度理解算法即可训练各种复杂的大模型,尤其擅长于预测分析和决策制定,在金融、零售、医疗等行业有广泛应用。
5、Feast (Feast Feature
Store):
Feast是一个开源的特征存储系统,虽然它不直接提供大模型的应用,但作为机器学习工程的重要组成部分,它对特征工程有着关键作用。Feast帮助团队管理和共享用于训练大模型的特征数据,从而改善模型效果和协作效率。
6、Invenia Data Science:
Invenia主要聚焦在复杂系统的建模与预测上,尤其是能源市场。他们的工作结合了高级数据科学和机器学习技术,尽管可能不直接对外提供大模型服务,但内部研发的模型通常规模庞大且复杂,用于解决电力市场的供需预测和其他复杂问题。
7、FloydHub:
FloydHub是面向机器学习和深度学习研究者的云端服务平台,提供GPU资源,支持用户方便快捷地在云端进行大模型训练。用户可以通过简单的命令行工具或API将代码上传至云端环境,从而实现计算资源的弹性扩展,大大降低了模型训练门槛。
8、FastAI:
FastAI 是一个专注于使深度学习易于使用的开源库和教育项目,它构建于PyTorch之上,简化了大模型的训练流程。FastAI 提供了一系列工具和框架,使得即便是初学者也能快速搭建和训练高性能的计算机视觉和自然语言处理模型,并将其部署到生产环境中。
请注意,以上列举的初创公司并非全部,还有许多其他的大模型初创公司在不同领域进行着创新和应用。同时,随着技术的不断发展和市场的不断变化,这些初创公司的竞争格局也可能会发生变化。
3.3 产品类型与特点分析
大模型产品按照应用场景和功能可以分为多种类型,如:
1.自然语言处理大模型
2.计算机视觉大模型
3.语音识别大模型等
这些产品在模型结构、参数规模、训练方法等方面存在差异,具有各自的特点和优势。其中,自然语言处理大模型是目前应用最广泛的类型之一,其特点是通过海量数据训练得到丰富的语义信息和语言知识,能够实现自然语言理解、生成以及文本分类等任务。计算机视觉大模型则注重图像特征的提取和分类,广泛应用于人脸识别、目标检测等领域。语音识别大模型则注重语音信号的处理和识别,能够实现语音转文字、语音合成等功能。
大模型产品的特点是具有高度灵活性和可扩展性,能够根据不同场景和需求进行定制化开发和应用。同时,大模型产品的应用也需要相应的数据资源和计算能力支持,因此在实际应用中需要考虑数据隐私和安全等方面的问题。此外,由于大模型产品的技术门槛较高,需要专业的人才和技术支持服务。因此,企业在选择大模型产品时需要综合考虑产品的性能、易用性、可扩展性以及技术支持和服务质量等因素。
四、大模型产品对比分析
4.1 分析对象选取
在大模型调研和分析的对象选择上,主要考虑已备案、开放商用、有完备的API接入部署方式的国内的大模型产品。
1、第一批通过备案的大模型 l
l百度文心大模型
l百川大模型
lMinimax大模型
l阿里通义大模型
l智谱AI大模型
2、第二批通过备案的大模型 l
l讯飞星火大模型
3、国外大模型 l
lOpenAI
lGoogle
Gemini
第一批通过备案的大模型
|
l 百度文心大模型
l 百川大模型
l Minimax大模型
l 阿里通义大模型
l 智谱AI大模型
|
第二批通过备案的大模型
|
l 讯飞星火大模型
|
国外大模型
|
l OpenAI
l Google Gemini
|
4.2 百度·文心大模型
4.2.1模型定位分析
大模型产品介绍:https://wenxin.baidu.com/
大模型的能力:
1.通用大模型
2.多模态
3.行业级应用
4.AI应用场景全覆盖
5.多类AI工具配合使用
NLP大模型:面向语言理解、语言生成等NLP场景,具备超强语言理解能力以及对话生成、文学创作等能力。创新性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化。
在文心大模型的基础上,有独立的应用场景大模型可供选择和单独采购使用,例如:
1、对话PLATO-XL
2、搜索ERNIE-Search
3、跨语言ERNIE-M
4、代码ERNIE-Code
除了大语言模型,还有视觉模型、跨模态模型、生物计算模型等。在这里,可以考虑一下自家企业的产品和应用场景是否涉及并需要这些模型能力。
4.2.2 产品体验和测评
4.2.3 接入方式
文心大模型4.0已正式发布,个人和企业客户可通过百度智能云千帆大模型平台接入使用。
网址:https://cloud.baidu.com/product/wenxinworkshop
4.2.4 分析小结
1、模型性能好,多工具使用,AI产品矩阵比较全面;
2、接入成本较高,可通过API计入or 私有云部署(价格比较贵);
3、 针对目前XXX的产品需求和应用场景,主要可以使用百度的文心大模型的NLP大模型;
4、在未来的文档分析和归类应用上,可以考虑跨模态的ERNIE-Layout模型,主要作用是文档分类、信息抽取、文档问答等。
5、百度在互联网产品上,利用大模型,以产品为切入点做了一些落地应用。例如:百度搜索助手、文库助手、网盘助手、浏览器助手、AI图片助手、百家号创作助手等。
4.3 百川大模型
4.3.1 模型定位分析
大模型产品介绍:https://www.baichuan-ai.com/home
最新的Baichuan2-Turbo大模型版本的能力:
1.搜索增强
2.开放API
3.中英双语
Baichuan2 Turbo大模型,融合长上下文窗口和搜索增强,实现大模型与领域知识、全网知识的全新链接。支持PDF、Word等多种文档上传及网址输入,信息获取及时、全面,输出结果准确、专业。
产品优势
4.支持搜索增强+企业知识库(限时免费!)
5.实现互联网实时信息+企业完整知识的融合
6.能将足够多的知识加载到192k上下文窗口
7.解决大部分定制化场景
4.3.2 产品体验和测评
4.3.3 接入方式
百川全新开放Baichuan2-Turbo系列API,支持搜索增强和 192K长窗口,新增 百川搜索增强知识库, 通过多项创新精准理解用户意图,召回更加准确。同时上线API体验中心,欢迎您使用。
网址:https://platform.baichuan-ai.com/playground?sceneId=14
4.3.4 分析小结
通过对百川大模型的分析,结合XXX目前的AI产品应用场景,可取之处是:
1、文档读取提炼能力,是已有的服务,接入可使用。
2、企业知识库功能比较完备,可以借鉴和使用。
3、长文本的输入是一个优势。
4、新闻摘要、投资研究分析、办公提效、公文写作、文档翻译,这些工具已经设计并开发好了,可以借鉴和使用,有比较好的表现。
5、输入网址,可以读取内容。
6、总结:性能强,技术好,系统生态和产品矩阵欠缺,初创公司,服务不一定能跟上。
4.4 MINIMAX大模型
4.4.1 模型定位分析
大模型产品介绍:https://api.minimax.chat/
MiniMax开放平台提供基于自然语言交互的文本生成能力(文本大模型)、语音生成能力(语音大模型)和长记忆检索、知识库检索等能力,赋能开发者完成所在行业的AI场景创新。
·文本大模型(Chat
Completion、Chat
Completion Pro):基于自然语言交互的文本生成能力接口;
·语音大模型(T2A、T2A pro、T2A large):基于自然语言交互生成能力的文字转语音接口;
·向量(Embeddings):文本转化为高维向量接口,可实现如长记忆检索、知识库检索等能力;
·知识库(Retrieval):支持高效检索文档信息,准确回答专业问题,为大模型补充专业领域知识。
除了标准的API接口,我们提供定制模型微调。支持构造定制数据集对预训练模型进行微调、支持多样化微调,还支持云端私有化等多种交付方式。
4.4.2 产品体验和测评
文本体验中心
语音体验中心
4.4.3 接入方式
4.4.4 分析小结
通过对百川大模型的分析,结合XXX目前的AI产品应用场景,可取之处是:
1、文本大模型没什么特色和亮点,收费比百度贵;
2、语音大模型,可以考虑接入,对资讯文章进行语音播报,但是收费比较贵,一篇500字左右的文章语音播放费用,大概是3~5元。
4.5 阿里通义大模型
4.5.1 模型定位分析
1、大模型产品介绍:https://tongyi.aliyun.com/
2、大模型的通用能力:
3、垂直领域模型:
基座模型已升级到2.0版本。
开发并上线了基于通义千问的8个垂直领域模型。
4.5.2 产品体验和测评
提问体验和测评
4.5.3 接入方式
4.5.4 分析小结
1、模型通用能力强,对用户语言理解好,回答较充分;
2、行业垂类模型做得好,产品矩阵好,可作为工具模型接入“通义点金”等产品;
3、产品设计能力强,体系化值得借鉴;
4、图片解析能力一般;
5、文档解读能力强;
4.6 智谱大模型
4.6.1 模型定位分析
大模型产品介绍:https://www.zhipuai.cn/
大模型的能力:
基于千亿基座模型 GLM-130B,注入代码预训练,通过有监督微调等技术实现人类意图对齐,具备问答、多轮对话、代码生成功能的中英双语大模型。
4.6.2 产品体验和测评
4.6.3 接入方式
4.6.4 分析小结
1、接入的价格比较低,通用能力还OK;
2、技术实力比较好。
4.7 讯飞星火大模型
4.7.1 模型定位分析
大模型产品介绍:
https://xinghuo.xfyun.cn/?ch=bdtg_xh_kw612&bd_vid=10136413666023107181
大模型的能力:
新一代认知智能大模型,拥有跨领域知识和语言理解能力,能够基于自然对话方式理解与执行任务
4.7.2 产品体验和测评
4.7.3 大模型原生应用产品体验
4.7.4 接入方式
4.7.4 分析小结
1、模型性能好,多工具使用,AI产品矩阵比较全面;
2、文本回答好、图片解析精准,有情感;
3、产品生态强,有多个原生应用可接入,落地应用做得好;
4、【讯飞智文】这个产品有很好的借鉴作用,可考虑在实际应用场景中进行落地。
4.8 OpenAI chatGPT-Turbo大模型
定位
ChatGPT-Turbo被设计为提供高效、快速和准确的自然语言处理服务,它适用于多种场景,如智能客服、自然语言生成、文本摘要等。
能力
该模型具备强大的语言理解和生成能力,能够理解和处理各种复杂的语言结构和含义,并根据用户输入的上下文生成相应的回复或文本。它还能够处理多种语言,包括英语、中文等,使得跨语言交流更加便捷。
特点
ChatGPT-Turbo采用了先进的深度学习技术和大规模语料库进行训练,从而使其具备了高度的泛化能力和鲁棒性。此外,该模型还支持微调,可以根据特定任务或领域的数据进行进一步的优化,提高其在特定场景下的性能。
价格
名为“gpt-3.5-turbo”的模型,其价格为0.002美元/每1000 tokens
4.9 Google Gemini大模型
Google Gemini大模型是Google推出的一款多模态大模型,它的定位、能力、特点和价格可以从以下几个方面进行分析:
定位
Google Gemini大模型被定位为能够同时处理文本、图像、音频、视频和代码五种类型信息的人工智能模型,旨在提供全面的多模态处理能力,支持广泛的自然语言处理和多媒体任务。它可以应用于搜索、广告、Chrome等服务中,也可以用于开发者和企业客户的各种应用场景中。
能力
1、多模态处理能力:Gemini大模型具备同时处理文本、图像、音频、视频和代码五种类型信息的能力,可以实现不同模态之间的转换和理解。
2、自然语言处理能力:Gemini在自然语言处理方面表现出色,包括文本分类、情感分析、问答系统等任务,同时支持多种主流编程语言的高质量代码生成。
3、强大的推理能力:Gemini能够在短时间内通读大量论文并进行总结,展现出了强大的复杂推理能力。
特点
1、原生多模态:与之前的多模态AI模型不同,Gemini是原生支持多模态能力的AI模型,从一开始就在不同模态上进行预训练,能更高效地使用AI模型的算力。
2、安全性评估:Gemini在发布时经过了全面的安全性评估,以确保其在实际应用中的安全性和稳定性。
3、可扩展性:Gemini具有三个不同体量的模型,可以根据不同任务需求进行选择和扩展。
价格
关于Google
Gemini大模型的具体价格,目前尚未有公开信息。考虑到Google通常将其AI技术通过Google Cloud AI平台提供服务,预计其价格会根据使用量、模型大小和所需计算资源等因素进行计费。具体价格需要参考Google Cloud的官方定价页面或联系销售代表获取。
整体而言,该大模型的英文效果不错,不支持中文。
4.10对比分析总结
1、百度文心大模型
l优势:语言大模型技术领先,中文处理能力强,有丰富的应用场景和生态。
l劣势:对硬件要求较高,部署和运维成本较高。
l产品性能:高性能的自然语言处理能力。
l擅长领域:语言生成、语言理解、机器翻译等。
l接入方式:API接入,支持多种编程语言。
l使用成本:中等。
2、百川大模型
l优势:模型规模大,能够处理大规模的文本数据和复杂场景。
l劣势部署和运维成本较高,对硬件资源要求严格。
l产品性能:高性能的自然语言处理和文本生成能力。
l擅长领域:文本摘要、内容生成等。
l接入方式:API接入,支持多种编程语言。
l使用成本:中等。
3、Minimax
l优势:技术实力雄厚,致力于开发AI解决方案,具有广泛的应用场景和生态。
l劣势:对硬件要求较高,部署和运维成本较高。
l产品性能:高性能的自然语言处理能力。
l擅长领域:语言生成、语言理解、机器翻译等。
l接入方式:API接入,支持多种编程语言。
l使用成本:中等。
4、阿里通义
l优势:有着强大的云计算基础设施,大模型定制化程度高,性能稳定。
l劣势:与外部生态的连接不够丰富,应用场景有限。
l产品性能:高性能的自然语言处理和图像处理能力。
l擅长领域:智能客服、智能推荐等。
l接入方式:API接入,支持多种编程语言。
l使用成本:中等。
5、讯飞星火
l优势:语音识别与生成技术领先,语音大模型应用广泛。
l劣势:语言大模型技术相对较弱,对文本长度和领域有一定的限制。
l产品性能:高性能的语音识别和生成能力。
l擅长领域:语音交互、语音转换等。
l接入方式:API接入,支持多种编程语言。
l使用成本:较高。
6、OpenAI
l优势:在自然语言处理领域具有很高的声誉和技术实力,有广泛的应用场景和生态。
l劣势:对硬件要求较高,部署和运维成本较高。
l产品性能:高性能的自然语言处理能力。
l擅长领域:语言生成、语言理解、机器翻译等。
l接入方式:API接入,支持多种编程语言。
l使用成本:较高。
五、大模型横向对比测试
5.1翻译文章功能测试
5.1.1专家审核结果
邀请行业知名英文编辑老师查看翻译质量的结论
看了4家翻译,每家都有错。具体问题如下:
1)专有公司名都是错的,都是按照字面翻。这是非特别训练的数据的基本共同问题。
2)文字的基本语法是正确的。
但是不能达到专业新闻写作的提供解释性内容的要求。特别是百川的好些。
3)4个翻译中,百川大模型中准确性最高,百度文心和讯飞星火并列。最差是OpenAI,把“盛美上海”译为中芯国际的“SMIC”。
文中涉及的公司名,标准处理如下:
中科共芯 (刚注册,还没有官网,用汉语拼音可以)
盛美上海 ACM
Research
拓荆科技 Picotech
中科飞测 Skyverse
微导纳米 Leadmicro
5.2通用问题测试
以下是10个通用的问题,它们覆盖了不同的主题和领域,旨在帮助您测试大模型的语言能力:
这些问题旨在评估大模型在不同主题和领域内的知识理解、分析能力和语言表达水平。通过这些问题,您可以对大模型的语言能力进行全面而有效的测试。
问题1:什么是人工智能?请简述其发展历程和当前应用领域。
测试结果如下:
问题2:环境保护对于可持续发展为何重要?请谈谈您的看法。
测试结果如下:
问题3:描述一下互联网如何改变了我们的生活方式和工作方式?
测试结果如下:
问题4:在全球化背景下,不同文化间的交流与融合有哪些积极作用?
测试结果如下:
问题5:请谈谈您对健康和健康生活方式的理解,以及它们对个人和社会的重要性。
测试结果如下:
问题6:教育对于个人成长和社会发展有何重要性?您认为教育的未来趋势是什么?
测试结果如下:
问题7:科技进步如何影响我们的日常生活?请举例说明。
测试结果如下:
问题8:旅行可以带来哪些好处?请谈谈您最喜欢的旅行经历及其对您的影响。
测试结果如下:
1.百川、MINIMAX、千问比较雷同
2.百度和讯飞的回答风格比较类似
3.OpenAI的是最全面,并且最智能的,知道自己是虚拟助手。
问题9:您如何看待社交媒体在现代社会中的角色?它有哪些正面和负面影响?
测试结果如下:
问题10:请描述一下您对未来世界的展望,包括科技、环境、社会等方面的发展趋势。
测试结果如下:
5.3 测试结果小结
横向对比回答,在每个问题上的表现,表现比较好的打钩√,表现稍微差一些的不标识。
大模型
|
问题1
|
问题2
|
问题3
|
问题4
|
问题5
|
问题6
|
问题7
|
问题8
|
问题9
|
问题10
|
汇总
|
百度文心
|
|
√
|
√
|
√
|
√
|
|
√
|
|
√
|
√
|
8
|
百川
|
|
√
|
|
√
|
|
|
√
|
|
|
|
3
|
MINIMAX
|
|
√
|
|
√
|
|
|
√
|
√
|
√
|
|
5
|
通义千问
|
√
|
√
|
√
|
√
|
|
√
|
√
|
|
√
|
√
|
8
|
讯飞星火
|
|
|
√
|
√
|
|
|
|
|
|
|
2
|
Open AI
|
√
|
√
|
√
|
√
|
√ +1
|
√
|
√
|
√
|
√
|
√
|
10
|
小结:
1、通用问题是AI生成的。
2、测评打分主要是从回答的丰富度、完整等、深度,以及连接输出的稳定性上进行考察。
3、整体而言,Open AI的效果确实比国内大模型的表现要好一些。
4、国内大模型,在通用能力的语言理解和表达上,以百度文心和通义千问效果最佳。
5、讯飞星火的得分比较低,主要是因为在同一个问题上,回答的结构性,输出的文字内容丰富度不够其他家好,但是整体给出的回答也是不错的。
6、结果只是相对而言,掺杂着作者的主观感受,仅供参考。
5.4专业机构测评结果参考
SuperCLUE总排行榜(2023年12月)
可参考
SuperCLUE十大基础能力排行榜(2023年12月)
可参考
分析小结:
1、在计算、逻辑与推理、代码、语言理解和收取、生成与创作、上下文对话、角色扮演、工具使用、传统安全等领域,GPT4-Turbo是表现最好的,其次是国内的文心一言4.0,千问等;
2、知识与百科,国内的大模型表现比较好。
六、调研总结对比
6.1 大模型的分类及主要应用场景
目前国内主流使用的是大语言模型、CV视觉模型,以及一些行业应用的垂类模型。
语言生成应用场景
|
图片生成应用场景
|
行业应用
|
自然语言生成
机器翻译
对话系统
文本生成与摘要
知识问答
情感分析
智能写作
智能广告
自动编程与代码生成
个性化推荐
智能办公工具
智能助手
内容审核与过滤
语音交互的升级
文本匹配与推荐
舆情监控与分析
跨语言应用
|
图片解读
文生图
文改图
图生图
文生视频
|
客户服务
教育和培训
电商领域
法律咨询
金融领域
智能政务
智慧交通
智慧城市
智能家居
生物信息
医疗健康
智能制造
游戏开发
虚拟助手
自动驾驶
机器人
|
6.2 大语言模型的应用分类
自然语言生成
|
对话系统
智能问答
知识问答
智能客服
|
商业分析
|
产业顾问
投资分析报告
商业模型分析(PEST、SWOT、7S、4P、rfm、AARRR、SCP)
|
智能创作
|
标题创作
文章创作
社交文案(SEO、小红书、知乎、公众号)
写作改进(扩写、续写、改写、缩写、润色)
|
文档解读
|
文章理解
总结摘要
提炼核心论点
文档内容问答
多篇文档总结和对比分析
|
创意助手
|
故事创作
头脑风暴
视频脚本
剧本创作
诗词创作
活动方案
|
编程辅助
|
代码生成
代码纠错
代码理解
辅助编程
|
办公效率
|
邮件撰写
制定规则制度
工作计划撰写
会议摘要
撰写发言稿
写文案
写报告
写通知
写总结
word文档助手
自动生成PPT大纲
自动生成PPT模版
自动生成表格和公式
|
数据分析
|
数据收集
图表生成(折线图、曲线图、)
数据分析(对比、找规律、)
|
情感分析
|
情感交流
人物对话
角色扮演
热门问答
|
6.3 能力对比
分类
|
应用
|
百度文心
|
百川
|
MINIMAX
|
通义
|
星火
|
智谱
|
OpenAI
|
通用能力
|
自然语言生成
|
√+1
|
√
|
√
|
√+1
|
√+1
|
√
|
√
|
语言翻译
|
√
|
√
|
|
|
|
√
|
√
|
商业分析
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
智能创作
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
文档解读
|
√
|
√+1
|
|
√
|
√
|
|
√
|
创意助手
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
编程辅助
|
√
|
√
|
|
√
|
√
|
√
|
√
|
办公效率
|
√
|
√
|
√
|
√
|
√
|
|
√
|
数据分析
|
√
|
√
|
|
√
|
√
|
√
|
√
|
情感分析
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
行业服务
|
求职招聘
|
√
|
|
|
|
√
|
|
|
教育和培训
|
√
|
√
|
√
|
|
√+1
|
|
|
电商领域
|
|
|
|
|
|
|
|
金融领域
|
|
√
|
|
√
|
|
|
|
法律咨询
|
√
|
√
|
|
√+1
|
√
|
|
|
智能政务
|
√
|
|
|
|
|
|
|
智慧交通
|
|
|
|
|
|
|
|
智慧城市
|
|
|
|
|
|
|
|
智能家居
|
|
|
|
|
|
|
|
生物信息
|
√
|
|
|
|
|
|
|
医疗健康
|
|
√
|
|
√
|
√
|
|
|
智能制造
|
|
|
|
|
|
|
|
游戏开发
|
|
|
|
|
|
|
|
虚拟助手
|
√
|
|
|
|
|
√
|
|
自动驾驶
|
√
|
|
|
|
|
|
|
机器人
|
|
|
|
|
|
|
|
6.4 价格对比
七、大模型选型建议
7.1选择一家供应商的方案
1、如果是“API接入”的方式,取通用能力,首选效果好的百川大模型、其次是百度文心大模型、阿里通义大模型;
2、如果是“API接入+微调+服务器”的方式,取生态好,有云服务的厂商,首选:百度文心大模型、阿里通义大模型;
3、如果是“API接入+微调+服务器+行业落地应用+AI工具”的方式,取通用能力强、生态好、产品矩阵丰富、有云服务的厂商、行业落地产品有实际案例的,首选:阿里通义大模型、百度文心大模型、其次讯飞星火大模型;
综合来看,考虑企业的实际情况,最有可能选择的供应商:阿里通义大模型、百度文心大模型。
7.2 多家供应商并用的方案
1、通用大模型,可选:百度文心大模型、阿里通义大模型、百川大模型、讯飞星火大模型
2、行业落地垂类模型,可选:阿里通义大模型
3、更多AI工具接入,可选:讯飞星火大模型
综合来看,可采用API的方式接入:百度文心大模型、阿里通义大模型、讯飞星火大模型,局部AI能力购买百度或讯飞。
放弃微调,采用百度、阿里的垂类模型定制功能,可能成本更低一些。
7.3 低成本提效的方案
如果成本考虑优先、又希望效果比较,在目前用户量和影响力还比较好的情况下,可采取:
1、通用能力接openAI 的ChatGPT3.5或ChatGPT4.0的模型。前提是合法合规。
2、放弃微调,购买定制开发垂类模型。
3、定向开发AI行业属性应用工具
八、小结
本文调研的过程有其限制性,随着时间的推移,大模型技术在不断更新迭代,调研结果仅供参考交流使用。
在调研过程中受益最大的是本人自己,整体对各家大模型产品和效果进行了横向比较和测试。通过实际试用和体验,对国内大模型有了比较全面的了解。
出自:https://mp.weixin.qq.com/s/vOdNdwinJTrSVA_pOeqqaA