BaiChuan百川 简介
百川大模型是由百川智能公司推出的一款大语言模型。该模型可以与人类进行自然交流、解答问题、协助创作,旨在帮助大众轻松、普惠的获得世界知识和专业服务。
百川智能首次公开了训练过程的全部参数模型,为学术界进行预训练微调和强化操作提供便捷,加速学术成果的获取。这是我国首次开放训练过程。
此外,百川智能还与鹏城实验室合作,共同探索大模型的训练和应用,合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。
2023年8月31日,百川智能宣布其大模型通过《生成式人工智能服务管理暂行办法》备案,向公众开放。9月20日,百川智能的大模型API上线。
百川智能团队还开源了其大模型Baichuan-13B,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,这是国内首个开源的大模型,对于推动大模型技术的进步具有重要意义。
目前,百川大模型的最新版本为baichuan2,共提供三个主要模型供对外服务:
(1)
Baichuan2-53B
Baichuan2-53B是在Baichuan-53B的基础上进行了全面的升级。它不仅在数学和逻辑推理能力上有了显著的提升,还通过高质量数据体系和搜索增强极大降低了模型幻觉。
Baichuan2-53B大模型融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。
此外,Baichuan2-53B大模型还展示了在商业文案创作(邮件撰写、公司命名、营销文案生成)、文学创作(故事续写、诗词创作)、中文理解(语义识别、成语含义、诗词分析)等多种任务场景下的能力。
(2)
Baichuan2-13B
Baichuan2-13B是在Baichuan-13B的基础上进行了全面的升级,该模型开源可商用、支持多语言,支持4K上下文长度。它在中文任务上表现优秀,被广泛认为是在开源大模型中表现最优秀的之一。
Baichuan2-13B模型采用了ALiBi技术,这种技术可以减少需要训练的embedding,从而稍微加快训练速度,减小模型参数。在更长的token上推理时,ALiBi的表现相比于之前的方法更稳定。
据官方公布的基准测试数据,Baichuan2-13B相比上一代13B模型,在数学能力、代码能力、安全能力、逻辑推理能力、语义理解能力上均有显著提升。
(3)
Baichuan2-7B
Baichuan2-7B是在Baichuan-7B的基础上进行了全面的升级,同样该模型开源可商用、支持多语言,支持4K上下文长度。它是一款基于Transformer架构的模型,但在一些方面做出了小改动,例如位置编码采用了RoPE,激活函数则采用了SwiGLU。
Baichuan2-7B模型是在2.6万亿令牌上进行训练的,比Baichuan 1的数据集大了一倍多。在像MMLU、CMMLU和C-Eval等一般基准上,Baichuan 2-7B的性能比Baichuan 1-7B提高了近30%。
此外,Baichuan2-7B模型已经在ModelScope社区开源,包括预训练模型和对话模型两个版本。
Baichuan2系列模型相比于一代性能有大幅提升:
百川智能开放了开发者中心,开通 API 账号,完成实名认证和充值,即可实现程序对接,让应用快速拥有领先的自然语言理解能力。其特点如下:
(1)
多元场景:支持多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学与逻辑推理等多元化场景。
(2)
安全合规:通过《生成式人工智能服务管理暂行办法》备案,给客户提供安全合规的服务。
(3)
简单易用:接口设计简洁明了、易于理解且兼容性好,使用门槛低,新手也能快速上手。