文章列表-AI魔法学院

文章列表

垂直领域大模型的思考

所以基于llama做的中文适配不如纯中文训练的baichuan 在中文任务上效果好。

垂直领域大模型

点评：六大向量数据库

LlamaIndex: LlamaIndex是一个基于向量的数据库引擎，由Llama Labs开发。

向量数据库

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

还有人开启大赞特赞模式：现在在开源领域，Qwen比Llama还值得期待了。

Qwen2.5 开源模型

「长文」可能是目前最全的LangChain AI资源库之一

•开源LLM清单[252]: 一份可供商业使用的开源LLM清单•Awesome LLM[253]: Awesome-LLM: 一个精心策划的大型语言模型资源清单•LLaMA

工作

清华、面壁智能发布：主动式Agent 2.0

模型训练：使用人类标注的数据训练LLaMA-3.1-8B-Instruct模型，并与几个基线模型进行比较，以展示其优越性

Agent 2.0 大模型

揭秘DeepSeek:一个更极致的中国技术理想主义故事

「暗涌」：在这之前，大部分中国公司都会直接copy这一代的 Llama结构去做应用，为什么你们会从模型结构切入？

DeepSeek 大模型

GGUF格式详解

; 'llama

GGUF 大模型

再超Transformer！Google| 提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

Griffin-7B 和 Griffin-14B 的性能与 Llama-2 相当，尽管训练的 tokens 数量只有后者的 1/7。

transformer 训练

大语言模型微调：定制自己的微调数据集

Alpaca-52k是一个开源的遵循指令的，最初用来微调LLaMA模型以得到Alpaca-7B模型的数据集，包含了52000条指令数据。

大模型

人手一个编程助手！北大最强代码大模型CodeShell-7B开源，性能霸榜，IDE插件全开源

在更小规模的各种基座架构上进行大量预训练实验后，CodeShell架构设计最终融合了StarCoder和Llama两者的核心特性。

开源模型 AI编程

基于本地知识的问答机器人langchain-ChatGLM

背景 ChatGPT火了后，各种大语言模型（LLM）模型相继被发布，完全开源的有ChatGLM、BLOOM、LLaMA等。

langchain

AIGC沸腾200多天后，投资人达成三大共识

7月19日，Facebook的母公司Meta推出Llama 2大模型，将免费用于研究和商业用途，被称为最强GPT-4平替开源。

大模型

Yi技术报告细节分享

模型采用Transformer-Decoder结构，采用llama的代码实现，修改如下： o 注意力机制：Yi-6B和34B版本均采用Grouped-Query Attention

Yi模型大模型

深度 | Meta AI助手大测评，市值蒸发万亿都因它？

Meta 的新大型语言模型 Llama 3，驱动着富有想象力命名的“Meta AI”，这是一款新的聊天机器人，该社交媒体和广告公司已安装在尽可能多的应用程序和界面中。

Meta AI 测评

大模型训练工程那些事

假设使用 1024 张 A100 训练 Llama 65B，采用 ZeRO2 + TP8 + DP 128 + FlashAttention2 分布式策略，Batch 设为 4M tokens。

训练工程大模型

<...3 4 5 6 789 10 11 12 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1