文章列表-AI魔法学院

文章列表

预训练对话大模型深度解读

基于人类反馈的强化学习（RLHF）从人类反馈中学习通过人来的偏好训练奖励模型，使用PPO算法优化策略模型（即生成模型）将模型的输出结果对齐至人类偏好

必看！阿里通义千问完整技术报告

这个过程涉及训练一个奖励模型，并使用近端策略优化（PPO）（Schulman等人，2017）进行策略训练。

大型语言模型报告

聊聊我对AI Agents技术的一些看法

▲强化学习范式区别于更加擅长于做“感知”的传统深度学习的方法，Agent 的重心其实更加落子于“行动”也就是“决策”之上，尽管强化学习领域以 PPO 为代表的策略梯度方法在游戏的许多领域取得了亮眼的成绩

AI Agents 大模型

揭秘Baichuan 3超越GPT-4的中文实力！文心一言、GLM 4.0也甘拜下风？全方位对比测试大揭秘！

但百川智能在这基础上更进一步，他们自研的高效PPO训练框架和创新的数据生成方式，让强化学习在大模型上发挥出了前所未有的潜力。

Baichuan 3 大模型

中文通用大模型最全汇总

由百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练，在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果，发布包含有7B、13B的Base和经过PPO

大模型开源模型

万字长文，AI大模型的应用实践总结

数学领域大模型 · chatglm-maths：基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算

大模型

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

一个问题 + 一条好回答样例 + 一条差回答样例 PPO（强化学习）的数据格式？

大模型

最新最全的开源中文大语言模型列表

chatglm-maths：地址：https://github.com/yongzhuo/chatglm-maths 简介：基于chatglm-6b微调/LORA/PPO

大模型

Chinese-LLM开源中文大语言模型合集

数学 chatglm-maths：地址：https://github.com/yongzhuo/chatglm-maths 简介：基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型

大模型中文

万字长文-大语言模型指令调优综述

使用近端策略优化(PPO)(Schulman et al.， 2017)方法更新参数，这是一种策略梯度强化学习方法。

大语言模型

从零开始了解AI大模型 - 技术篇：万字深度好文人话说大模型技术

(3) 借助反馈模型，采用强化学习算法PPO训练语言模型。

大模型

<12>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1