AI魔法学院客服
BaiChuan百川
百川大模型是由百川智能公司推出的一款大语言模型。该模型可以与人类进行自然交流、解答问题、协助创作,旨在帮助大众轻松、普惠的获得世界知识和专业服务。
 2023-11-21
收藏 复制地址分享海报



百川大模型是由百川智能公司推出的一款大语言模型。该模型可以与人类进行自然交流、解答问题、协助创作,旨在帮助大众轻松、普惠的获得世界知识和专业服务。

百川智能首次公开了训练过程的全部参数模型,为学术界进行预训练微调和强化操作提供便捷,加速学术成果的获取。这是我国首次开放训练过程。

此外,百川智能还与鹏城实验室合作,共同探索大模型的训练和应用,合作研发基于国产算力的128K长窗口大模型鹏城-百川·脑海33B”

2023831日,百川智能宣布其大模型通过《生成式人工智能服务管理暂行办法》备案,向公众开放。920日,百川智能的大模型API上线。

百川智能团队还开源了其大模型Baichuan-13B,包括预训练底座模型Baichuan-13B-Basechat对齐模型Baichuan-13B-Chat,这是国内首个开源的大模型,对于推动大模型技术的进步具有重要意义。

目前,百川大模型的最新版本为baichuan2,共提供三个主要模型供对外服务:

(1)   Baichuan2-53B

Baichuan2-53B是在Baichuan-53B的基础上进行了全面的升级。它不仅在数学和逻辑推理能力上有了显著的提升,还通过高质量数据体系和搜索增强极大降低了模型幻觉。

Baichuan2-53B大模型融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。

此外,Baichuan2-53B大模型还展示了在商业文案创作(邮件撰写、公司命名、营销文案生成)、文学创作(故事续写、诗词创作)、中文理解(语义识别、成语含义、诗词分析)等多种任务场景下的能力。

(2)   Baichuan2-13B

Baichuan2-13B是在Baichuan-13B的基础上进行了全面的升级,该模型开源可商用、支持多语言,支持4K上下文长度。它在中文任务上表现优秀,被广泛认为是在开源大模型中表现最优秀的之一。

Baichuan2-13B模型采用了ALiBi技术,这种技术可以减少需要训练的embedding,从而稍微加快训练速度,减小模型参数。在更长的token上推理时,ALiBi的表现相比于之前的方法更稳定。

据官方公布的基准测试数据,Baichuan2-13B相比上一代13B模型,在数学能力、代码能力、安全能力、逻辑推理能力、语义理解能力上均有显著提升。

(3)   Baichuan2-7B

Baichuan2-7B是在Baichuan-7B的基础上进行了全面的升级,同样该模型开源可商用、支持多语言,支持4K上下文长度。它是一款基于Transformer架构的模型,但在一些方面做出了小改动,例如位置编码采用了RoPE,激活函数则采用了SwiGLU

Baichuan2-7B模型是在2.6万亿令牌上进行训练的,比Baichuan 1的数据集大了一倍多。在像MMLUCMMLUC-Eval等一般基准上,Baichuan 2-7B的性能比Baichuan 1-7B提高了近30%

此外,Baichuan2-7B模型已经在ModelScope社区开源,包括预训练模型和对话模型两个版本。

Baichuan2系列模型相比于一代性能有大幅提升:

百川智能开放了开发者中心,开通 API 账号,完成实名认证和充值,即可实现程序对接,让应用快速拥有领先的自然语言理解能力。其特点如下:

(1)   多元场景:支持多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学与逻辑推理等多元化场景。

(2)   安全合规:通过《生成式人工智能服务管理暂行办法》备案,给客户提供安全合规的服务。

(3)   简单易用:接口设计简洁明了、易于理解且兼容性好,使用门槛低,新手也能快速上手。

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
0 评论