文章列表-AI魔法学院

文章列表

OpenAI开源大模型调测工具Transformer Debugger：可以在训练大模型之前理解模型的运行情况并干预

例如，我们可以利用它来探讨“为什么面对同一个输入提示，模型会选择输出Token A而不是Token B？”

大模型调试工具

Stable Diffusion

Stable Diffusion教程：提示词

需要注意 Stable Diffusion 的提示词数量是有限制的，限制的单位是Token，有时翻译成词元，一般1个单词就是1个Token（标点符号也会计入Token数量），但是如果 Stable Diffusion

提示词 SD 绘画

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

这个卷积步骤有助于调节视频 Token 序列的长度，确保至少182个 Token ，最多546个 Token 。

Baichuan-Omni 多模态大模型

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

下面展示了token的KV缓存对GPU内存的占用情况。

Decoder-Decoder YOCO 架构

如何估计大模型所需要的显存大小？HuggingFace发布Model Memory Calculator，一键计算大模型显存需求

接下来先在本地输入自己的HuggingFace的密钥，首先需要在页面生成token：https://huggingface.co/settings/tokens 然后复制token后，运行如下命令配置

大模型

DeepSeek V3刷屏，550万元2000张卡做出的开源模型，和OpenAI几亿烧出来的一样好

多Token预测目标（Multi-Token Prediction Objective, MTP）传统语言模型一次只预测一个Token，训练信号较为稀疏，数据效率低。

DeepSeek V3 开源模型

CMU华人打破大模型黑盒，Llama 2撒谎被一眼看穿！脑电波惨遭曝光，LLM矩阵全破解

遮蔽语言建模（MLM）目标在只是编码模型中使用，以及在解码器模型中使用的下一个token预测目标，都是令token级预测任务。

大模型

大模型外挂知识库优化-大模型辅助向量召回

每生成固定的n个token就召回一次。

大模型

全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类

Haiku可以在不到3秒时间，阅读一个包含图表和图形的信息和数据密集型的研究论文（大约10k token）。

claude 大模型

最透彻的大模型PPO原理和源码解读

再回想一下gpt模型做推理的过程：每个时刻只产生一个token，即token是一个一个蹦出来的，先有上一个token，再有下一个token。

PPO 大模型源码解读

4种通过LLM进行文本知识图谱的构建方法对比介绍

提示也非常简洁(约41个token)，不会占用太多的字符。

知识图谱大模型

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

例如，在大约十亿参数的预算下，OpenELM的准确率较OLMo提升了2.36%，且预训练所需的Token数量减少了一半。

OpenELM 大模型

人手一个编程助手！北大最强代码大模型CodeShell-7B开源，性能霸榜，IDE插件全开源

CodeShell：性能最强的7B代码基座大模型 CodeShell构建了高效的数据治理体系，通过冷启动预训练5000亿Token，代码生成性能超过了CodeLlama-7B与StarCoder-7B

开源模型 AI编程

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。

minicpm 面壁

开源大模型王座易主！谷歌Gemma杀入场，笔记本可跑，可商用

模型训练的上下文长度为 8192 个 token。

开源模型 Gemma

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1