文章列表-AI魔法学院

文章列表

使用自己的数据训练清华ChatGLM2-6B 模型

可以参考官方示例制作自己的数据集：官方ADGEN数据集示例是根据输入（content）生成一段广告词（summary）。

ChatGLM2-6B

开源的大模型数据集

大模型训练数据集的质量是提升大模型效果最有效的途径，也是最苦最累的脏活，积累前人已经整理开源的数据集，站在数据集巨人的肩膀上，持续迭代大模型。

开源模型数据集

大模型时代，数据为王，在哪里寻找开源数据集？

大模型时代，数据为王，在哪里寻找开源数据集？

开源数据训练

【揭秘】BELLE大模型：一个集合训练、数据、模型、APP的超级神器，让每个人都能拥有自己的“大模型”！

为此，BELLE 项目会持续开放指令训练数据、相关模型、训练代码、应用场景等，也会持续评估不同训练数据、训练算法等对模型表现的影响。

训练大模型 belle

三个大模型（ChatGPT,文心一言,Baichuan-13B)，帮我生成中医《本草纲目》的训练数据

比如，原文是李时珍的《本草纲目》，格式是这样的：观察数据后，我们发现，本草纲目里都是一个症状对应一个药方，很容易找到规律。

大模型

8个常用中文OCR数据集，附下载链接

该数据集由两部分构成：训练集、测试集。

OCR

书生·万卷：难得的中文开源数据集

搞大模型训练，最重要的就是高质量的数据集。

大模型

领域大模型LLM训练Trick

问题一：进行领域大模型预训练应用哪些数据集比较好？

垂直训练大模型

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一，远超知乎豆瓣小红书

离大谱了，弱智吧登上正经AI论文，还成了最好的中文训练数据？？

弱智吧训练数据集

如何修复GPT幻觉、及评估数据集的挑战

3、为什么LLM会产生幻觉我喜欢本文中的概念：当我们压缩训练数据时，模型将不可避免地产生幻觉。

大模型

大模型评测新思路：弱智吧精华问题大全

有人把这些内容拿出来训练了 AI，认真评测对比一番，还别说，效果极好。

弱智吧训练数据集

大语言模型微调：定制自己的微调数据集

在这些因素中，采用预训练并使用自己的数据集来微调是一个相对简单易行的方案。

大模型

领域大模型-训练Trick&落地思考

现有大模型在预训练过程中都会加入书籍、论文等数据，那么在领域预训练时这两种数据其实也是必不可少的，主要是因为这些数据的数据质量较高、领域强相关、知识覆盖率（密度）大，可以让模型更适应考试。

垂直训练大模型

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。

大模型

如何使用 Megatron-LM 训练语言模型

数据加载 Megatron-LM 带有一个高效的 DataLoader，其中数据在训练前被 tokenize 和 shuffle。

开源模型

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1