3172
收藏
OpenDataLab 简介
上海人工智能实验室旗下开放数据平台,主办单位上海人工智能实验室。
OpenDataLab浦数 人工智能开放数据平台,是上海人工智能实验室在WAIC 2022科学前沿全体会议上发布“OpenXLab浦源”人工智能开源开放体系的核心项目之一。
OpenDataLab作为人工智能数据领域的探路者和开源数据社区的倡导者,围绕大模型数据开展多项前沿技术探索,构建面向大模型研发全流程的数据平台及大模型时代数据管理体系。
全新的OpenDataLab浦数人工智能开放数据平台汇聚了海量的数据资源,包括覆盖800多种任务类型的3,000多个数据集,并提供便捷检索和快速下载服务。OpenDataLab还和OpenXLab的各个开源算法体系紧密衔接,通过一个简单的命令行工具,即可实现一键部署、开箱即用。
2023年7月6日,上海人工智能实验室(上海AI实验室)发布全新升级的“书生通用大模型体系”。在数据环节,通过OpenDataLab开放了包含30多种模态的5,500公开数据集,其中在自然语言方面开放了超过10,000亿token的高质量语料。 上海人工智能实验室(上海AI实验室)于8月14日宣布开源发布“书生·万卷” 1.0多模态预训练语料。据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。