首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· Stable Diffusion|提示词高阶用法(二)双人同图
· 复旦开源中文医疗大模型,基于百川微调,模型和数据集都公开
· Suno音乐新手指南(手把手完整版教程)
· 必看!阿里通义千问完整技术报告
· clone-voice:一键克隆声音,开源AI技术让声音创作更便捷、更个性化
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· OmniVision - 968M:小巧精悍的视觉语言模型,释放多模态边缘计算强大潜能
· MCP服务介绍及应用场景报告-来自Manus
· 理解 o3 及其技术分析
· 腾讯悄悄开源混元版「Sora」,这就是开源领域的No.1。
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
预训练对话大模型深度解读
基于人类反馈的强化学习(RLHF) 从人类反馈中学习 通过人来的偏好训练奖励模型,使用
PPO
算法优化策略模型(即生成模型) 将模型的输出结果对齐至人类偏好
通义千问
必看!阿里通义千问完整技术报告
这个过程涉及训练一个奖励模型,并使用近端策略优化(
PPO
)(Schulman等人,2017)进行策略训练。
大型语言模型
报告
Agent
聊聊我对AI Agents技术的一些看法
▲强化学习范式 区别于更加擅长于做“感知”的传统深度学习的方法,Agent 的重心其实更加落子于“行动”也就是“决策”之上,尽管强化学习领域以
PPO
为代表的策略梯度方法在游戏的许多领域取得了亮眼的成绩
AI
Agents
大模型
文心一言
揭秘Baichuan 3超越GPT-4的中文实力!文心一言、GLM 4.0也甘拜下风?全方位对比测试大揭秘!
但百川智能在这基础上更进一步,他们自研的高效
PPO
训练框架和创新的数据生成方式,让强化学习在大模型上发挥出了前所未有的潜力。
Baichuan
3
大模型
大模型
中文通用大模型最全汇总
由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过
PPO
大模型
开源模型
大模型
万字长文,AI大模型的应用实践总结
数学领域大模型 · chatglm-maths:基于chatglm-6b微调/LORA/
PPO
/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算
大模型
微调
大语言模型综述<演进,技术路线,区别,微调,实践,潜在问题与讨论>
一个问题 + 一条好回答样例 + 一条差回答样例
PPO
(强化学习)的数据格式?
大模型
开源
最新最全的开源中文大语言模型列表
chatglm-maths: 地址:https://github.com/yongzhuo/chatglm-maths 简介:基于chatglm-6b微调/LORA/
PPO
大模型
开源
Chinese-LLM开源中文大语言模型合集
数学 chatglm-maths: 地址:https://github.com/yongzhuo/chatglm-maths 简介:基于chatglm-6b微调/LORA/
PPO
/推理的数学题解题大模型
大模型
中文
万字长文-大语言模型指令调优综述
使用近端策略优化(
PPO
)(Schulman et al., 2017)方法更新参数,这是一种策略梯度强化学习方法。
大语言模型
大模型
从零开始了解AI大模型 - 技术篇:万字深度好文人话说大模型技术
(3) 借助反馈模型,采用强化学习算法
PPO
训练语言模型。
大模型
<
1
2
>
1
2
4
5
6
7
8
9
100