首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 请以“续航”为题目,写一篇议论文
· AI生成PPT不靠谱?那是你方法没用对
· 用ChatGPT写论文prompt大全
· 基于大模型(LLM)的Agent 应用开发
· RAG——使用检索增强生成构建特定行业的大型语言模型
· 社区供稿|GPT-4 与国产模型,大!横!评!
· 6个最佳开源TTS引擎
· XX来信: 智能体设计模式2:Reflection
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· 一文彻底搞懂多模态 - 多模态推理
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
ChatGLM
使用自己的
数
据
训
练
清华ChatGLM2-6B 模型
可以参考官方示例制作自己的
数
据
集
: 官方ADGEN
数
据
集
示例是根
据
输入(content)生成一段广告词(summary)。
ChatGLM2-6B
大模型
开源的大模型
数
据
集
大模型
训
练
数
据
集
的质量是提升大模型效果最有效的途径,也是最苦最累的脏活,积累前人已经整理开源的
数
据
集
,站在
数
据
集
巨人的肩膀上,持续迭代大模型。
开源模型
数据集
大模型
大模型时代,
数
据
为王,在哪里寻找开源
数
据
集
?
大模型时代,
数
据
为王,在哪里寻找开源
数
据
集
?
开源数据
训练
大模型
【揭秘】BELLE大模型:一个
集
合
训
练
、
数
据
、模型、APP的超级神器,让每个人都能拥有自己的“大模型”!
为此,BELLE 项目会持续开放指令
训
练
数
据
、相关模型、
训
练
代码、应用场景等,也会持续评估不同
训
练
数
据
、
训
练
算法等对模型表现的影响。
训练
大模型
belle
ChatGPT
三个大模型(ChatGPT,文心一言,Baichuan-13B),帮我生成中医《本草纲目》的
训
练
数
据
比如,原文是李时珍的《本草纲目》,格式是这样的: 观察
数
据
后,我们发现,本草纲目里都是一个症状对应一个药方,很容易找到规律。
大模型
下载
8个常用中文OCR
数
据
集
,附下载链接
该
数
据
集
由两部分构成:
训
练
集
、测试
集
。
OCR
开源
书生·万卷:难得的中文开源
数
据
集
搞大模型
训
练
,最重要的就是高质量的
数
据
集
。
大模型
知乎
弱智吧竟成最佳中文AI
训
练
数
据
?!中科院等:8项测试第一,远超知乎豆瓣小红书
离大谱了,弱智吧登上正经AI论文,还成了最好的中文
训
练
数
据
??
弱智吧
训练数据集
大模型
领域大模型LLM
训
练
Trick
问题一:进行领域大模型预
训
练
应用哪些
数
据
集
比较好?
垂直
训练
大模型
如何修复GPT幻觉、及评估
数
据
集
的挑战
3、为什么LLM会产生幻觉 我喜欢本文中的概念:当我们压缩
训
练
数
据
时,模型将不可避免地产生幻觉。
大模型
大模型
大模型评测新思路:弱智吧精华问题大全
有人把这些内容拿出来
训
练
了 AI,认真评测对比一番,还别说,效果极好。
弱智吧
训练数据集
微调
大语言模型微调:定制自己的微调
数
据
集
在这些因素中,采用预
训
练
并使用自己的
数
据
集
来微调是一个相对简单易行的方案。
大模型
大模型
领域大模型-
训
练
Trick&落地思考
现有大模型在预
训
练
过程中都会加入书籍、论文等
数
据
,那么在领域预
训
练
时这两种
数
据
其实也是必不可少的,主要是因为这些
数
据
的
数
据
质量较高、领域强相关、知识覆盖率(密度)大,可以让模型更适应考试。
垂直
训练
大模型
大模型
大规模中文开源
数
据
集
发布!2TB、几十亿条可商用的中文
数
据
集
书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了!
随着近年来GPT-3、ChatGPT等大模型的兴起,高质量的
数
据
集
在模型
训
练
中扮演着越来越重要的角色。
大模型
如何使用 Megatron-LM
训
练
语言模型
数
据
加载 Megatron-LM 带有一个高效的 DataLoader,其中
数
据
在
训
练
前被 tokenize 和 shuffle。
开源模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100