首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 第一性原理以及第一性原理是怎么帮马斯克成为首富的
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· AI声音克隆 | 最全最简教程(权威版)
· ComfyUI官方使用手册【官网直译+关键补充】
· Coze多智能体(Multi-Agents)模式体验!
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· Stable Diffusion 30分钟打造AI 写真照片生成器|海马体照相馆这次真的要木得了
· 从第一性原理看大模型Agent技术
· 精通百种语言的翻译AI来了!Meta推出,免费、开源!
· 6个最佳开源TTS引擎
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
预训练对话大模型深度解读
基于人类反馈的强化学习(RLHF) 从人类反馈中学习 通过人来的偏好训练奖励模型,使用
PPO
算法优化策略模型(即生成模型) 将模型的输出结果对齐至人类偏好
Agent
聊聊我对AI Agents技术的一些看法
▲强化学习范式 区别于更加擅长于做“感知”的传统深度学习的方法,Agent 的重心其实更加落子于“行动”也就是“决策”之上,尽管强化学习领域以
PPO
为代表的策略梯度方法在游戏的许多领域取得了亮眼的成绩
AI
Agents
大模型
文心一言
揭秘Baichuan 3超越GPT-4的中文实力!文心一言、GLM 4.0也甘拜下风?全方位对比测试大揭秘!
但百川智能在这基础上更进一步,他们自研的高效
PPO
训练框架和创新的数据生成方式,让强化学习在大模型上发挥出了前所未有的潜力。
Baichuan
3
大模型
大模型
中文通用大模型最全汇总
由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过
PPO
大模型
开源模型
大模型
万字长文,AI大模型的应用实践总结
数学领域大模型 · chatglm-maths:基于chatglm-6b微调/LORA/
PPO
/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算
大模型
微调
大语言模型综述<演进,技术路线,区别,微调,实践,潜在问题与讨论>
一个问题 + 一条好回答样例 + 一条差回答样例
PPO
(强化学习)的数据格式?
大模型
开源
最新最全的开源中文大语言模型列表
chatglm-maths: 地址:https://github.com/yongzhuo/chatglm-maths 简介:基于chatglm-6b微调/LORA/
PPO
大模型
开源
Chinese-LLM开源中文大语言模型合集
数学 chatglm-maths: 地址:https://github.com/yongzhuo/chatglm-maths 简介:基于chatglm-6b微调/LORA/
PPO
/推理的数学题解题大模型
大模型
中文
万字长文-大语言模型指令调优综述
使用近端策略优化(
PPO
)(Schulman et al., 2017)方法更新参数,这是一种策略梯度强化学习方法。
大语言模型
大模型
从零开始了解AI大模型 - 技术篇:万字深度好文人话说大模型技术
(3) 借助反馈模型,采用强化学习算法
PPO
训练语言模型。
大模型
<
1
2
>
1
2
4
5
6
7
8
9
100