AI魔法学院客服
距离人人可编程更近一步!蚂蚁发布开源代码大模型CodeFuse
 2023-09-10
复制地址分享海报

蚂蚁集团近期推出了名为CodeFuse的开源代码大模型,旨在提高软件开发的效率和准确性。



CodeFuse模型能够根据开发者的输入,提供智能建议和实时支持,包括自动生成代码、添加注释、生成测试用例以及修复和优化代码等功能。

不论是初学者还是有经验的开发者,CodeFuse都能显著提升编程的效率和准确性,助力实现人人可编程、可创新的目标。



CodeFuse基于蚂蚁集团的基础大模型开发而成,在最近的代码补全评测中取得了优异的成绩,达到了74.4%的得分,超过了GPT-4和WizardCoder-34B的表现。蚂蚁集团已经开源了CodeFuse的代码框架和模型,并在HuggingFace等平台上提供下载。

CodeFuse的代码框架采用自研的多任务微调(MFT)框架,支持代码生成、代码翻译、测试用例生成、错误修复等多个任务的微调。MFT框架充分利用多任务之间的信息互补,通过创新的损失函数设计解决了不同任务之间收敛困难和不平衡的问题。

相较于单任务微调(SFT),MFT框架取得了更好的效果。此外,框架还应用了创新的微调数据打包技术,将微调速度提升了约8倍,并采用多重部署优化技术,使推理速度提高了约2倍。

CodeFuse模型包括CodeFuse13B-4K和CodeFuse-CodeLlaMa34B-MFT两个大模型。在模型训练过程中,CodeFuse采用了程序分析校验技术,对高质量的代码数据进行筛选,并构建了代码领域专用字典,有效降低了平均代码长度。

蚂蚁集团早在2022年成立了代码智能生成专项,并于今年6月开始内测CodeFuse,用于真实的开发环境,帮助开发者进行低门槛编程,例如使用自然语言编写H5小游戏和快速开发支付宝小程序等。

CodeFuse的应用场景包括开发助手、IDE插件和数据分析器等,已在蚂蚁集团内部的研发流程中逐步得到验证。

此外,蚂蚁集团还在外滩大会上发布了工业级金融大模型,并计划推出面向消费者的智能金融助理“支小宝2.0”以及面向金融行业专家的智能业务助手“支小助1.0”。这展示了蚂蚁集团在大模型领域从技术到行业应用的全面布局和进展。


CodeFuse 项目地址

https://huggingface.co/codefuse-ai

CodeFuse 简介

CodeFuse-13B是基于GPT-NeoX框架训练的13B参数代码生成模型,能够处理4096个字符的代码序列。该模型在1000B Token的代码、中文、英文数据数据集上进行预训练,覆盖超过40种编程语言。为了进一步提升生成代码的效果和质量,该模型还在CodeFuse-Evol-instruction-66k数据集上进行了微调,使得该模型能够生成更加准确、高效、符合要求的代码。在HumanEval评测集上Pass@1达到37.1%(采用BeamSearch解码,其中BeamSize=3)。

部署要求

  • python 3.8及以上版本

  • pytorch 1.12及以上版本,推荐2.0及以上版本

  • transformers 4.24.0及以上版本

  • 建议使用CUDA 11.4及以上(GPU用户、flash-attention用户等需考虑此选项)

快速使用

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("CodeFuse-13B")model = AutoModelForCausalLM.from_pretrained("CodeFuse-13B", torch_dtype="auto", device_map="auto")
input_ids = encode("def quick_sort(array):\n", return_tensors="pt")output_ids = model.generate(input_ids, max_new_tokens=200, num_beams=3, num_return_sequences=1, repetition_penalty=1.2)
print(tokenizer.decode(output_idss[0]))