文章列表-AI魔法学院

文章列表

如何使用 Megatron-LM 训练语言模型

Megatron-LM 4 是研究人员用于预训练大型 Transformer 模型的另一个流行工具，它是 NVIDIA 应用深度学习研究团队开发的一个强大框架。

开源模型

【ChatGPT有点热】浅聊Temperature参数对大语言模型的推理能力的影响

从Transformer的代码来看， Temperature sampling的实现也确实是比较简单的，当然这里和OpenAI接口的区别是，不能设置为0，最大值可以超过2。

大语言模型 chatGPT

大模型高效微调：🤗 PEFT 使用案例

这些学习向量被注入到典型的基于Transformer架构中的注意力和前馈模块中。

大模型

鹅厂版AI笔记悄悄上线，微信公众号优质内容秒变专属知识库，实测在此

比如让它扩写一下“非Transformer架构”，效果belike。

ima copilot 搜索

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

96块A100练了14天 Phi-2 是一个基于 Transformer 的模型，使用1.4T个tokens进行训练（包括用于NLP和编码的合成数据集和Web数据集）。

小语言模型

Stable Diffusion

硬核解读Stable Diffusion（系列一）

encoder来对输入text提取text embeddings，具体的是采用目前OpenAI所开源的最大CLIP模型：clip-vit-large-patch14，这个CLIP的text encoder是一个transformer

StableDiffusion 文生图

百万token上下文窗口也杀不死向量数据库？CPU笑了

有网友便列举了长上下文窗口的四大通病（四个V）： § Velocity（速度）：基于Transformer的大型模型，在检索长上下文时要想达到亚秒级的速度响应仍然具有挑战性。

向量数据库大模型 cpu

大模型+人形机器人，是不是下一个风口？

月底时谷歌DeepMind推出的Robotics Transformer 2（RT-2），继续在同一方向深入研究。

大模型

从零开始学习大模型-第一章-大模型简介

这个选择依赖于你的具体需求，比如文本任务可能会选择BERT或GPT系列，图像任务可能会选择ResNet或Vision Transformer等。

大模型从零开始

Openai 异步客户端接入国产大模型 Kimi

Moonshot AI 的核心团队曾参与开发Transformer XL、RoPE等关键算法，并且在大模型领域有着深厚的技术积累。

Kimi Chat 大模型

必看！阿里通义千问完整技术报告

2.3 架构 QWEN采用了一种修改过的Transformer架构。

大型语言模型报告

Chinese-LLM开源中文大语言模型合集

它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。

大模型中文

玩一玩阿里通义千问开源版，Win11 RTX3060本地安装记录

官方介绍： Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。

大模型

大模型应用的10种架构模式

在训练大型语言模型（LLM）时，我们可以利用一些资源和软件包，如DeepSpeed，以及Hugging Face的Transformer库。

大模型架构

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

答：Bert 的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。

大模型

<...5 6 7 8 91011 12 13 14 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1