文章列表-AI魔法学院

文章列表

大模型+人形机器人，是不是下一个风口？

随着ChatGPT以前所未有的速度火出圈，大模型也迅速从过去的遥不可及走到了我们身边。从今天开始，元碳院将开始解读大模型，依旧保持硬核且专业。今天是第三十八期，机器人与大模型的结合或许是全新的道路，是遍布荆棘又开满鲜花的道路。

大模型 2023-08-27

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

通义千问开源第二波！8月25日消息，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型 2023-08-27

清华系17人，撑起中国大模型创业半壁江山

在如火如荼开展的AI大模型竞赛中，清华学子可谓“抢尽”了风头，除了王慧文、王小川等互联网“老炮”高调入场外，还有多位清华学院派教授、清华毕业生躬身入局。据智东西不完全统计，近期活跃的AI大模型创企中，拥有清华背景的创始人至少有17位，涉及11家企业。清华系创业团队俨然正撑起国内AI大模型创业浪潮的半壁江山。

大模型 2023-08-27

【大模型微调】 Llama 2 ：对话模型的全过程微调

该项工作的作者提出 Llama 2 模型：这是经过一系列预训练和微调的大语言模型 (LLM)，其参数规模从 7B 亿到 70B 不等。作者针对对话应用场景对这些模型进行了预训练和微调，所得到的模型被称为 Llama 2-Chat。经过人工评估，该模型在实用性和安全性方面表现得较好，有可能作为封闭源模型的可行替代品。

大模型 2023-08-26

万字长文，AI大模型的应用实践总结

以ChatGPT为代表的大模型悄然加速了时代的变革，你是否对此感到举手无措呢。本文详细整理了探索大模型相关技术，主要涉及AI集群、AI集群通信、大模型训练（参数高效微调）、大模型推理加速、大模型评估等内容，希望能够帮助大家快速了解大模型，尽早适应时代的变化。

大模型 2023-08-26

基于LLM+向量库的文档对话痛点及解决方案

痛点：文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失笔者之前采用了Longchain的文档切分工具，发现不能问题。笔者做了一些探索，希望与大家共同探讨

开源模型 2023-08-24

没有思考过 Embedding，不足以谈 AI

这篇文章中，我并不试图去解释ChatGPT的一切，而是将从原理出发，思考计算机理解语言的关键要素，这些思考落到了一个具体的切入点 —— embedding —— 一个第一眼难以理解但极为关键的东西。

开源模型 2023-08-24

AI知识库总是不准？教你无脑用GPT整理结构化数据集...

随着LLM的蓬勃发展，企业、个人知识库越来越火。但是随之而来的，也是两个问题：

GPT 2023-08-24

快手大模型出炉！【快意】来袭！

「快意」大模型（KwaiYii）是由快手AI团队从零到一独立自主研发的一系列大规模语言模型（Large Language Model，LLM），当前包含了多种参数规模的模型，并覆盖了预训练模型（KwaiYii-Base)、对话模型（KwaiYii-Chat)。这里面我们介绍13B规模的系列模型KwaiYii-13B。

开源模型 2023-08-24

LLM应用架构之检索增强（RAG）的缘起与架构介绍

当前，随着大模型应用落地需求不断增加，越来越多的人在寻找搭建LLM应用的最佳模式，而这种模式就如同当年web开发中MVC架构一样，能够很好地指导开发者正确高效地开发应用。目前，在LLM开发领域，有RAG，MRKL，Re-Act，Plan-Execute等模式越来越多被人提及和应用，那么它们是什么，怎么产生的，解决什么问题，这一切都要从大模型内在基因谈起。

LLM 2023-08-23

如何使用 Megatron-LM 训练语言模型

在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。我们通常需要将模型分布在多个设备上，并使用许多优化技术以实现稳定高效的训练。Hugging Face :hugs: Accelerate 2 的创建是为了支持跨 GPU 和 TPU 的分布式训练，并使其能够非常容易的集成到训练代码中。:hugs: Transformers 3 还支持使用 Trainer API 来训练，其在 PyTorch 中提供功能完整的训练接口，甚至不需要自己编写训练的代码。

开源模型 2023-08-23

图解大模型训练之：张量模型并行(TP)，Megatron-LM

今天我们将要介绍最重要，也是目前基于Transformer做大模型预训练最基本的并行范式：来自NVIDIA的张量模型并行(TP)。它的基本思想就是把模型的参数纵向切开，放到不同的GPU上进行独立计算，然后再做聚合。

开源模型 2023-08-23

开源打败闭源？Meta即将推出开源代码生成平台Code Llama，剑指OpenAI Codex

据报道，Meta 公司正准备发布新软件，能够帮助开发人员自动生成编码代码，将直接挑战 OpenAI、谷歌等其他厂商提供的同类专有方案。据科技外媒 The Information 援引消息人士的说法，Meta 的代码生成 AI 模型“Code Llama”为开源项目，最快可能在本周推出。

开源模型 2023-08-23

清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4是全能战士，超越所有模型

大语言模型（Large Language Models, LLM)最核心的能力是对语言的处理，具备良好的意图识别和文本生成能力让 LLM 超越了之前的模型，有了巨大的实用价值。但是，现实问题涉及了许多超越LLM外的能力，比如为用户提供实时数据分析和可视化结果、为软件开发提供一条龙服务等。

GPT-4 2023-08-23

大模型应用实践：用LLaMA 2.0, FAISS and LangChain实现基于自由知识问答

在这篇文章中，我将分享如何使用Llama-2 -7b-chat模型和LangChain框架以及FAISS库执行类似于聊天机器人的问答任务。

开源模型 2023-08-23

<...81 82 83 848586 87 88 89 90 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1