文章列表-AI魔法学院

文章列表

深度洞察：人工智能体(AI Agent)2024年重要发展趋势指南

自我改进的AI智能体：有多种方法可以改进LLM响应-少量提示、微调、RAG、RLHF-但这些改进通常需要手动实施组件。

AI Agent 人工智能

「长文」可能是目前最全的LangChain AI资源库之一

a69d2a5e9cfae3676a6d3a0f9a1e4c850c0d3e7654dddf343c6e86280db279c0/687 代理商 •CollosalAI Chat[61]: 使用RLHF

工作

如何构建基于大模型的App

nbsp; 文本嵌入模型用于语义搜索和生成向量嵌入 · · 微调模型以在特定任务上获得更好的性能 · · 指令微调模型可以充当的助手，例如RLHF

构建大模型App

AI产品经理视角：如何构建人工智能产品

该技术也称为人类反馈强化学习 (RLHF)。

大模型产品经理

语义检索系统[全]：基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索

· 核心竞争力 ChatGPT受到关注的重要原因是引入新技术**RLHF (Reinforcement Learning with Human Feedback，即基于人类反馈的强化学习)。

开源模型

最新最全的开源中文大语言模型列表

hiyouga/LLaMA-Efficient-Tuning 简介：该项目提供了易于使用的基于PEFT的LLaMA微调框架，实现了包括全参数，LoRA，QLoRA等的预训练，指令微调和RLHF

大模型

九问中国大模型掌门人，万字长文详解大模型进度趋势

目前大家已经在推进很多模型对齐技术的工作，包括通过 RLHF 这些方法，如果这部分技术想寻求突破，有两点很重要。

大模型详解

AI Agent的千亿美金问题：如何重构10亿知识工作职业，掀起软件生产革命？

目前强化学习还只在 LLM 的 RLHF 阶段出现，在 agent 领域引入 RL 的思想可能能帮助 AI Agent 有进一步的突破。

大模型 AI编程

微软研究团队：Sora核心技术及未来机会研究报告-中英对照版

在大语言模型的研究领域里，结合了强化学习和直接人类反馈的“以人类反馈为导向的强化学习”(RLHF)方法 [127, 128] 已被广泛采用来实现模型对齐。

sora 论文

微软对 Sora 进行了逆向工程分析，揭秘 Sora 的秘密

在大语言模型的研究领域里，结合了强化学习和直接人类反馈的“以人类反馈为导向的强化学习”(RLHF)方法 [127, 128] 已被广泛采用来实现模型对齐。

Sora 微软

<1 2 3 45>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1