文章列表-AI魔法学院

文章列表

清华&面壁开源新一代主动Agent交互范式！让AI从被命令到主动帮助

GPT-4o 在闭源模型中脱颖而出，对于开源模型，基于 Qwen2-7B 微调的结果取得最好成果。

Agent 大模型

比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

极限情况下，用Llama2 7B甚至能实现750 token/S。

Groq 大模型

真超越了GPT？国产大模型实用场景横评②

例如百川刚宣布的Baichuan2-7B用不上，就只测试现有的Baichuan-7B。

大模型

【揭秘】BELLE大模型：一个集合训练、数据、模型、APP的超级神器，让每个人都能拥有自己的“大模型”！

LLaMA-13B + LoRA (2M) 代表使用 LLaMA-13B 作为基础模型和 LoRA 训练方法，在 2M 指令数据上进行训练的模型；而 LLaMA-7B + FT (2M) 代表了一个使用全参数微调进行训练的模型

训练大模型 belle

大语言模型微调：定制自己的微调数据集

Alpaca-52k是一个开源的遵循指令的，最初用来微调LLaMA模型以得到Alpaca-7B模型的数据集，包含了52000条指令数据。

大模型

微软Phi-3、Mixtral 8x22B等小模型过拟合，三分之二存在数据污染

更有趣的是，过拟合程度最高的模型（Math-Shepherd-Mistral-7B-RL (Yu et al. [2023])）的每个字符对数似然值相对较低（Math Shepherd 使用合成数据在流程级数据上训练奖励模型

过拟合小模型

LangChain Agent 原理解析

有人希望通过一些开源的 LLM 来实现 ReAct Agent，但实际开发过程中会发现开源低参数（比如一些 6B、7B 的 LLM）的 LLM 对于提示词的理解会非常差，根本不会按照提示词模板的格式来输出

大模型

大模型时代-行业落地的再思考

很多人认为行业大模型是用一个7B/13B的模型架构完全用领域数据训练一个模型，因为参数量达到了“大”的标准，数据完全用的是行业数据，就称作行业大模型了。

大模型

最顶尖的大语言模型人才，只关心这10个挑战

以下是根据Guanaco论文中报告的数据，该数据对比了Guanaco 7B与ChatGPT GPT-3.5和GPT-4的性能。

大语言模型

谈谈LLM在推荐域的渗透，探索推荐新范式

大模型一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、

大模型

大模型套壳祛魅：质疑套壳，理解套壳

一位 AI 公司的研发人员告诉「甲子光年」，自研预训练模型的优势在于扩展能力比较强，「如果基于开源，都是有版本限制的，比如 Llama 2 只有 7B、13B、70B 三个版本，再多就没有了，想再搞大规模一点

大模型套壳

如何用大语言模型构建一个知识问答系统

Alpaca[6] 是在 Meta 提出的 LLaMA 7B 模型基础上微调的结果。

知识库

「长文」可能是目前最全的LangChain AI资源库之一

63]: 使用Langchain和OpenAI（Vercel / Nextjs）的AI agent [64]•Local GPT[65]: 基于私人GPT，使用Vicuna-7B

工作

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

5.RETRO · 属性：7B 参数 · 论文地址：https://arxiv.org/pdf/2112.04426.pdf · 发布详情：DeepMind

Transformer

投资人逃离大模型

最先的响应者包括百度的文心一言、360智能大模型1.0、智谱AI ChatGLM，后续跟进者包括商汤日日新、阿里巴巴通义千问、昆仑万维天工、讯飞星火认知、百川智能Baichuan-7B……根据彼时发布的算法备案

大模型

<1 2 3 4 5 6 789 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1