首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 【ComfyUI】爽玩必备,6大插件汇总推荐 !
· 请以“续航”为题目,写一篇议论文
· 最透彻的大模型PPO原理和源码解读
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 造梦师手记:足控专属AI大模型,完美的少女
· 微调大型语言模型-核心思想和方法介绍
· 大模型中的Top-k、Top-p、Temperature详细含义及解释
· 聊聊AI产品做算法备案这件事
· 造梦师手记:C站首推的动漫模型竟然是十八禁?
· 聊天大模型的输出速度应该是多少?单张显卡最多可以支持多少个人同时聊天?来自贾扬清最新的讨论~
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
RAG
检索增强生成(RAG)有什么好的优化方案
比如可用LLaVA-
7b
生成图片摘要,Chroma作为向量数据库,Nomic's GPT4All作为开源嵌入模型,多向量检索器,Ollama.ai中的LLaMA2-13b-chat用于生成应答[11]。
RAG
检索增强生成
大模型
GitHub狂飙3万star的LLM公开资料 - 大模型入门教程
使用DPO对 Mistral-
7b
进行 fine-tuning:文章,colab Quantization 1.
LLM
大模型
GitHub
开源
无显卡+纯本地跑Qwen1.5版模型!0基础闭眼部署指南!适用绝大部分开源模型!llama2+Mistral+Zephyr通杀!
而且一下更新了:0.5B, 1.8B, 4B,
7B
, 14B, 72B 6个尺寸版本!
Qwen1.5
开源模型
大模型
领域大模型-训练Trick&落地思考
而以目前各厂(ChatGLM、BaiChuan、Qwen、Llama)抢占开源社区占比的架势,感觉会有很多
7B
、13B级别模型开源。
垂直
训练
大模型
大模型
使用大模型自动回复小红书/抖音/快手评论:通过RAG 优化LLMs实现
我们可以对 Mistral-
7b
-Instruct 进行了微调,以使用 QLoRA 来回应 YouTube 评论。
RAG
大模型
自动回复
大模型
国产大模型与全球最强大模型大比拼:语义理解、数学推理同台竞技,究竟谁更厉害
而国产模型中阿里巴巴的千问大模型Qwen-
7B
和智谱AI的ChatGLM-12B也进入了前10,分别是第九和第十。
大模型
大模型
大模型检索增强生成RAG的优化
比如可用LLaVA-
7b
生成图片摘要,Chroma作为向量数据库,Nomic's GPT4All作为开源嵌入模型,多向量检索器,Ollama.ai中的LLaMA2-13b-chat用于生成应答[11]。
RAG
检索增强
大模型
工具
HAI-Chat:高效且轻量的一键式 RLHF 训练工具
对于一个
7B
大小的模型在双机16张 A100 上执行,Safe-RLHF 完整训练完成需要耗时 36 小时,而 HAI-Chat 只需 3 小时即可完成。
HAI-Chat
RLHF
Prompt
prompt必须知道的26条军规
prompt的创新突破 来自于阿拉伯联合酋长国阿布扎比的大学的学者[1],在LLaMA-1/2(
7B
、13B和70B)、GPT-3.5/4上进行了大量实验,提出26条prompt军规,
prompt
大模型
大模型
大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免
本文还进行了多项实验,包括 GPT-3-350M(附录 A.2)和 Llama-
7B
(附录 A.4),结果表明,模型都遭受了逆转诅咒。
大模型
大模型
回望做大模型一年后的感悟
前一类现在大家基本上都是2T左右token起,也有3、4T token的数量级的,这类工作即使训练
7B
的模型也需要几百万的代价,训练30几B的模型更是数千万的成本。
大模型
感悟
大模型
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
极限情况下,用Llama2
7B
甚至能实现750 token/S。
Groq
大模型
大模型
真超越了GPT?国产大模型实用场景横评②
例如百川刚宣布的Baichuan2-
7B
用不上,就只测试现有的Baichuan-
7B
。
大模型
大模型
【揭秘】BELLE大模型:一个集合训练、数据、模型、APP的超级神器,让每个人都能拥有自己的“大模型”!
LLaMA-13B + LoRA (2M) 代表使用 LLaMA-13B 作为基础模型和 LoRA 训练方法,在 2M 指令数据上进行训练的模型;而 LLaMA-
7B
+ FT (2M) 代表了一个使用全参数微调进行训练的模型
训练
大模型
belle
微软
微软Phi-3、Mixtral 8x22B等小模型过拟合,三分之二存在数据污染
更有趣的是,过拟合程度最高的模型(Math-Shepherd-Mistral-
7B
-RL (Yu et al. [2023]))的每个字符对数似然值相对较低(Math Shepherd 使用合成数据在流程级数据上训练奖励模型
过拟合
小模型
<
1
2
3
4
5
6
7
8
>
1
2
4
5
6
7
8
9
100