文章列表-AI魔法学院

文章列表

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

Phi-2是一个基础模型，它没有通过人类反馈的强化学习（RLHF）进行对齐，也没有经过微调。

小语言模型

最顶尖的大语言模型人才，只关心这10个挑战

08提升从人类偏好中学习的能力 RLHF（Reinforcement Learning from Human Preference，从人类偏好中进行强化学习）很酷，但有点繁琐。

大语言模型

再超Transformer！Google| 提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

当考虑其他语言应用，如基于人类反馈的强化学习（RLHF）或评分语言模型输出（如 AlphaCode 中所做的）时，这个属性是有吸引力的，因为能够在给定时间内输出大量 token 是一个吸引人的特性。

transformer 训练

从零开始了解AI大模型 - 概念篇：一文带你走进大模型世界

RLHF（Reinforcement Learning from Human Feedback）是一种涉及多个模型和不同训练阶段的复杂概念，用于优化语言模型的强化学习方式，依据人类反馈来进行训练。

大模型

LLM native策略的内部状态是否应该结构化【2023Q3】

当然这个拆分并不是完全任意的，从前面的讨论我们就知道了一个标准：每步的结果最好应该是可以被人工精确标注的，或者是可以通过RLHF所需要的方式标注的。

大模型

大模型时代 AI 技术在金融行业的创新应用

为了更好地服务基础模型层，我们搭建了一套大模型工具链，其中包括提示词管理、多种 PEFT 微调方法的集成以及一键式 RLHF。

大模型金融

开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

调整后的版本使用监督微调（SFT）和带有人类反馈的强化学习（RLHF）来适应人类对有用性和安全性的偏好。

开源模型

摆脱 OpenAI 依赖，8 分钟教你用开源生态构建全栈 AI 应用

Llama 2系列模型是一组GPT-like (也被称作自回归Transformer 模型)大语言模型，Llama 2-Chat 针对聊天对话场景进行了微调，采用了监督微调（SFT）和人类反馈强化学习（RLHF

开源模型

AIGC沸腾200多天后，投资人达成三大共识

这还没有将数据收集、RLHF等成本囊括进来。

大模型

中文通用大模型最全汇总

该模型基于 Bloom 结构的70 亿参数模型，支持中英双语，上下文窗口长度为 2048，同时还开源了基于RLHF训练的模型以及全人工标注的16.9K中文偏好数据集。

大模型开源模型

RAG 2.0，终于把RAG做对了！

与标准的RAG相比，预训练、微调以及从人类反馈中学习强化学习（RLHF），所有这些是标准LLM训练的基本组成部分，都是从头开始执行的，包括大型语言模型和检索器（向量数据库）。

RAG 大语言模型

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

甚至有人发现，Q-Learning竟然和ChatGPT成功秘诀之一的RLHF，有着千丝万缕的联系！

OpenAI 大模型

Yann LeCun杨立昆最新观点：AGI不存在

他指出，像 RLHF 这样根据人类偏好、针对特定任务改进现有LLM的技术效率低下。

AGI 大语言模型观点

大模型下半场，关于Agent的几个疑问

RLHF也是一种环境，一种极度简单的环境。

大模型

基于大模型（LLM）的Agent 应用开发

当配置正确时，Agent可以自动与其他代理进行多次对话，或者在某些对话轮次中请求人工输入，从而通过人工反馈形成RLHF。

大模型 Agent

<1 2 345 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1