BaiChuan百川

BaiChuan百川百川大模型是由百川智能公司推出的一款大语言模型。该模型可以与人类进行自然交流、解答问题、协助创作，旨在帮助大众轻松、普惠的获得世界知识和专业服务。

大模型开源训练

阅读量 4653 收藏

BaiChuan百川简介

百川大模型是由百川智能公司推出的一款大语言模型。该模型可以与人类进行自然交流、解答问题、协助创作，旨在帮助大众轻松、普惠的获得世界知识和专业服务。

百川智能首次公开了训练过程的全部参数模型，为学术界进行预训练微调和强化操作提供便捷，加速学术成果的获取。这是我国首次开放训练过程。

此外，百川智能还与鹏城实验室合作，共同探索大模型的训练和应用，合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。

2023年8月31日，百川智能宣布其大模型通过《生成式人工智能服务管理暂行办法》备案，向公众开放。9月20日，百川智能的大模型API上线。

百川智能团队还开源了其大模型Baichuan-13B，包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat，这是国内首个开源的大模型，对于推动大模型技术的进步具有重要意义。

目前，百川大模型的最新版本为baichuan2，共提供三个主要模型供对外服务：

（1） Baichuan2-53B

Baichuan2-53B是在Baichuan-53B的基础上进行了全面的升级。它不仅在数学和逻辑推理能力上有了显著的提升，还通过高质量数据体系和搜索增强极大降低了模型幻觉。

Baichuan2-53B大模型融合了意图理解、信息检索以及强化学习技术，结合有监督微调与人类意图对齐，在知识问答、文本创作领域表现突出。

此外，Baichuan2-53B大模型还展示了在商业文案创作（邮件撰写、公司命名、营销文案生成）、文学创作（故事续写、诗词创作）、中文理解（语义识别、成语含义、诗词分析）等多种任务场景下的能力。

（2） Baichuan2-13B

Baichuan2-13B是在Baichuan-13B的基础上进行了全面的升级，该模型开源可商用、支持多语言，支持4K上下文长度。它在中文任务上表现优秀，被广泛认为是在开源大模型中表现最优秀的之一。

Baichuan2-13B模型采用了ALiBi技术，这种技术可以减少需要训练的embedding，从而稍微加快训练速度，减小模型参数。在更长的token上推理时，ALiBi的表现相比于之前的方法更稳定。

据官方公布的基准测试数据，Baichuan2-13B相比上一代13B模型，在数学能力、代码能力、安全能力、逻辑推理能力、语义理解能力上均有显著提升。

（3） Baichuan2-7B

Baichuan2-7B是在Baichuan-7B的基础上进行了全面的升级，同样该模型开源可商用、支持多语言，支持4K上下文长度。它是一款基于Transformer架构的模型，但在一些方面做出了小改动，例如位置编码采用了RoPE，激活函数则采用了SwiGLU。

Baichuan2-7B模型是在2.6万亿令牌上进行训练的，比Baichuan 1的数据集大了一倍多。在像MMLU、CMMLU和C-Eval等一般基准上，Baichuan 2-7B的性能比Baichuan 1-7B提高了近30%。

此外，Baichuan2-7B模型已经在ModelScope社区开源，包括预训练模型和对话模型两个版本。

Baichuan2系列模型相比于一代性能有大幅提升：

百川智能开放了开发者中心，开通 API 账号，完成实名认证和充值，即可实现程序对接，让应用快速拥有领先的自然语言理解能力。其特点如下：

（1）多元场景：支持多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学与逻辑推理等多元化场景。

（2）安全合规：通过《生成式人工智能服务管理暂行办法》备案，给客户提供安全合规的服务。

（3）简单易用：接口设计简洁明了、易于理解且兼容性好，使用门槛低，新手也能快速上手。