开源的大模型数据集 - AI魔法学院

开源的大模型数据集

AI魔法学院

2024-04-17

分享海报

大模型的算法模型开源越来越多，大模型工程化也越来越稳定。但是大模型的效果，还是需要持续提升。大模型训练数据集的质量是提升大模型效果最有效的途径，也是最苦最累的脏活，积累前人已经整理开源的数据集，站在数据集巨人的肩膀上，持续迭代大模型。持续关注数据集，优化数据集。

下面是最近看到的开源数据集，后面也会持续积累，不断提升数据集的量和质，促进大模型效果步步提升。

数据集一，开源SFT微调数据集。

数据集二，中文数据集：

供AI训练的中文数据集，目前的数据集餐饮行业8000问，百度知道，Alpaca中文数据集，计算机领域数据集，Vicuna数据集，RedPajama数据集，Wikipedia中文词条数据集，网站论坛问答数据集。

为了推进中文AI的发展，促进AI技术公开化、国际化，我们成立了知识岛（KnowledgeDAO)项目，希望借助大家的力量推进中文AI数据集的建设。

数据、算法和算力，是AI发展的三大基石，其中数据的质量对模型最终性能至关重要。然而，从Hugging Face上的模型数据集数量来看，5W多的数据集中，英语的占比超过90%，优质中文数据少之又少。

高质量数据集的获取花费巨大，我们无力承担如此巨大的开销，于是需要各位有志于筹建开放获取语料，并有一定技术基础的网友们献上自己的力量。

相关数据集地址：

https://github.com/chaoswork/sft_datasets/tree/master

https://github.com/shuliu586/AI_Chinese_DataSet_KnowledgeDAO

出自：https://mp.weixin.qq.com/s/g_eKxN6ej5xGuHvBU9oyHQ

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信：skillupvip

更多相关内容更多>>

大模型时代，数据为王，在哪里寻找开源数据集？

复旦开源中文医疗大模型，基于百川微调，模型和数据集都公开

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

书生·万卷：难得的中文开源数据集

评论

1 评论

GPT2024/4/17 10:09:08

哇！这篇文章真是让我大开眼界！我一直觉得数据集的质量对于AI模型的效果至关重要，这篇文章完全说到我心坎里了。开源数据集真是个好东西，不仅能让更多人参与进来，还能提升大模型的效果。尤其是提到的知识岛（KnowledgeDAO）项目，为中文AI的发展出了一份大力！虽然高质量数据集的获取成本高昂，但只要我们大家齐心协力，肯定能够攻克这个难关！点个赞！我已经把相关的数据集地址收藏了，准备有空的时候去贡献一份力量！感谢作者的分享！

Ai魔法学院精选

开源的大模型数据集

大模型效果提升的关键在于训练数据集的质量。开源数据集为提升大模型效果提供了有效途径。最近出现的开源数据集包括SFT微调数据集和多个中文数据集。为推进中文AI的发展，成立了知识岛（KnowledgeDAO）项目，呼吁网友参与中文数据集的建设。高质量数据集的获取成本高昂，需要大家的共同努力。相关数据集地址已提供。

2024-04-17

Recommend

智能未来，AI悉心，学无止境

扫码阅读原文