首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI高手都在用的10个提示词prompt网站,建议收藏!
· 大模型业务应用中数据准备的要求、难点及解决思路
· 一文搞定 ComfyUI SDXL1.0 完整流程
· Prompt小技巧(18):万能Prompt
· 比 Roop 和 Reactor 更像!IP Adapter 新模型为任何人做写真
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 大模型狂飙两年后,“六小龙”开始做减法
· Examful.ai
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· AI音乐热潮下,“神曲工作室”率先失业
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
微软
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
Phi-2是一个基础模型,它没有通过人类反馈的强化学习(
RLHF
)进行对齐,也没有经过微调。
小语言模型
最顶尖的大语言模型人才,只关心这10个挑战
08提升从人类偏好中学习的能力
RLHF
(Reinforcement Learning from Human Preference,从人类偏好中进行强化学习)很酷,但有点繁琐。
大语言模型
Google
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
当考虑其他语言应用,如基于人类反馈的强化学习(
RLHF
)或评分语言模型输出(如 AlphaCode 中所做的)时,这个属性是有吸引力的,因为能够在给定时间内输出大量 token 是一个吸引人的特性。
transformer
训练
大模型
从零开始了解AI大模型 - 概念篇:一文带你走进大模型世界
RLHF
(Reinforcement Learning from Human Feedback)是一种涉及多个模型和不同训练阶段的复杂概念,用于优化语言模型的强化学习方式,依据人类反馈来进行训练。
大模型
LLM
LLM native策略的内部状态是否应该结构化 【2023Q3】
当然这个拆分并不是完全任意的,从前面的讨论我们就知道了一个标准:每步的结果最好应该是可以被人工精确标注的,或者是可以通过
RLHF
所需要的方式标注的。
大模型
大模型
大模型时代 AI 技术在金融行业的创新应用
为了更好地服务基础模型层,我们搭建了一套大模型工具链,其中包括提示词管理、多种 PEFT 微调方法的集成以及一键式
RLHF
。
大模型
金融
大模型
开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略
调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(
RLHF
)来适应人类对有用性和安全性的偏好。
开源模型
开源
摆脱 OpenAI 依赖,8 分钟教你用开源生态构建全栈 AI 应用
Llama 2系列模型是一组GPT-like (也被称作自回归Transformer 模型)大语言模型,Llama 2-Chat 针对聊天对话场景进行了微调,采用了监督微调(SFT)和人类反馈强化学习(
RLHF
开源模型
AIGC
AIGC沸腾200多天后,投资人达成三大共识
这还没有将数据收集、
RLHF
等成本囊括进来。
大模型
大模型
中文通用大模型最全汇总
该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于
RLHF
训练的模型以及全人工标注的16.9K中文偏好数据集。
大模型
开源模型
RAG
RAG 2.0,终于把RAG做对了!
与标准的RAG相比,预训练、微调以及从人类反馈中学习强化学习(
RLHF
),所有这些是标准LLM训练的基本组成部分,都是从头开始执行的,包括大型语言模型和检索器(向量数据库)。
RAG
大语言模型
OpenAI
马斯克怒告OpenAI案解密:Ilya看到了什么?125万亿参数Q*细节曝光,53页PDF全网疯转
甚至有人发现,Q-Learning竟然和ChatGPT成功秘诀之一的
RLHF
,有着千丝万缕的联系!
OpenAI
大模型
AGI
Yann LeCun杨立昆最新观点:AGI不存在
他指出,像
RLHF
这样根据人类偏好、针对特定任务改进现有LLM的技术效率低下。
AGI
大语言模型
观点
大模型
大模型下半场,关于Agent的几个疑问
RLHF
也是一种环境,一种极度简单的环境。
大模型
大模型
基于大模型(LLM)的Agent 应用开发
当配置正确时 ,Agent可以自动与其他代理进行多次对话,或者在某些对话轮次中请求人工输入,从而通过人工反馈形成
RLHF
。
大模型
Agent
<
1
2
3
4
5
>
1
2
4
5
6
7
8
9
100