文章列表-AI魔法学院

文章列表

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

Lexical Retrieval：给定一个文本，获取语言模型最后一层上所有位置的隐状态，每个位置对应原始文本中的一个token，依次将每个位置的隐状态通过一个全连接层+Relu函数得到该token的权重

BGE M3-Embedding 多语音检索

【一步一步引导】从零详细地梳理一个完整的 LLM 训练流程

可以看到，「编码」两个字能够被正常切成 2 个字，但「待」却被切成了 3 个 token，这里的每个 token 就是 1 个 unicode 编码。

大模型训练

OpenAI视频模型Sora的推理生成成本多高？

其中， N 为模型参数量大小， D 为训练数据量大小： LLM 每 token 需要的计算量是 6 倍的模型大小基于一些"众所周知"的消息： GPT-4 是一个

Sora 推理算力

性能超出预期！神秘的国产大模型 Kimi 开放 API

这就引出了下一个话题——Token 利用率。

Kimi Chat 大模型 API

【语音识别】OpenAI语音力作Whisper

模型结构（融入了多任务：多语种的语音识别，语音翻译，语音语言识别，声音活动检测）模型有5个版本，参数量、支持语言、显存和速度如下：其中，token

语音转文字 whisper

万字长文震撼来袭！揭秘Transformer——吐血解读自注意力机制的革命性突破

token的键向量的点积，并经过softmax归一化得到注意力权重，再将这些权重应用于值向量进行加权求和，从而生成每个token的自注意力输出表示。

Transformer 大模型

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

作者用一个 ID 提取器来生产有区分度的 ID token，并设计了一个以频率感知的细节提取器来获取细节图作为补充。

Anydoor 文生图

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

它在编码器中使用 1536 个 token，在解码器中使用 768 个 token。

Transformer

什么是BERT？

token。

embedding

大模型文本生成——解码策略（Top-k & Top-p & Temperature）

为了生成输出文本，我们需要让模型逐个预测每个 token ，直到达到一个终止条件（如一个标点符号或一个最大长度）。

大模型

大模型训练为什么用A100不用4090

对于每个输入的 prompt，在计算第一个 token 输出的时候，每个 token 的 attention 肯定是都要从头计算。

大模型

大模型中的Top-k、Top-p、Temperature详细含义及解释

有几种方法（也称为解码策略）用于选择输出token，其中两种主要方法是 top-k 采样和 top-p 采样。

大模型

Meta无限长文本大模型来了：参数仅7B，已开源

在与 LLAMA2 的直接比较中，MEGALODON 在 70 亿参数和 2 万亿训练 token 的规模上取得了比 Transformer 更好的效率。

Meta 长文本大模型

RAG 领域的新宠：为什么 AI 圈都在谈论 Jina ColBERT？

AI 在 Hugging Face 上推出的 Jina-ColBERT 模型引起了 AI 圈子里不小的轰动，尤其是在 Twitter/X 上，大家都在讨论它能处理高达 8192 Token

rag 大模型

再超Transformer！Google| 提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

为了计算 token 概率，应用了最后的线性层，然后是 softmax。

transformer 训练

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1