首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· MCP服务介绍及应用场景报告-来自Manus
· Fooocus,webui,comfyui优缺点
· 还在手写Prompt?这几大网站让你秒找大模型提示词!
· 自己电脑上跑大语言模型(LLM)要多少内存?
· 2024!深入了解 大语言模型(LLM)微调方法(总结)
· YOO简历
· Midjourney AI绘画美女提示词分享三
· stable diffusion如何确保每张图的面部一致?
· Stable Diffusion使用Roop插件一键换脸教程
· AI换脸工具:facefusion使用心得
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
微软
BGE M3-Embedding:智源最新发布的text embedding模型,多语言检索效果超过微软跟openai
Lexical Retrieval:给定一个文本,获取语言模型最后一层上所有位置的隐状态,每个位置对应原始文本中的一个
token
,依次将每个位置的隐状态通过一个全连接层+Relu函数得到该
token
的权重
BGE
M3-Embedding
多语音检索
LLM
【一步一步引导】从零详细地梳理一个完整的 LLM 训练流程
可以看到,「编码」两个字能够被正常切成 2 个字, 但「待」却被切成了 3 个
token
,这里的每个
token
就是 1 个 unicode 编码。
大模型
训练
Sora
OpenAI视频模型Sora的推理生成成本多高?
其中, N 为模型参数量大小, D 为训练数据量大小: LLM 每
token
需要的计算量是 6 倍的模型大小 基于一些"众所周知"的消息: GPT-4 是一个
Sora
推理
算力
大模型
性能超出预期!神秘的国产大模型 Kimi 开放 API
这就引出了下一个话题——
Token
利用率。
Kimi
Chat
大模型
API
OpenAI
【语音识别】OpenAI语音力作Whisper
模型结构(融入了多任务:多语种的语音识别,语音翻译,语音语言识别,声音活动检测) 模型有5个版本,参数量、支持语言、显存和速度如下: 其中,
token
语音转文字
whisper
Transformer
万字长文震撼来袭!揭秘Transformer——吐血解读自注意力机制的革命性突破
token
的键向量的点积,并经过softmax归一化得到注意力权重,再将这些权重应用于值向量进行加权求和,从而生成每个
token
的自注意力输出表示。
Transformer
大模型
再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
作者用一个 ID 提取器来生产有区分度的 ID
token
,并设计了一个以频率感知的细节提取器来获取细节图作为补充。
Anydoor
文生图
Transformer
Transformer速查宝典:模型、架构、训练方法的论文都在这里了
它在编码器中使用 1536 个
token
,在解码器中使用 768 个
token
。
Transformer
什么是BERT?
token
。
embedding
大模型
大模型文本生成——解码策略(Top-k & Top-p & Temperature)
为了生成输出文本,我们需要让模型逐个预测每个
token
,直到达到一个终止条件(如一个标点符号或一个最大长度)。
大模型
大模型
大模型训练为什么用A100不用4090
对于每个输入的 prompt,在计算第一个
token
输出的时候,每个
token
的 attention 肯定是都要从头计算。
大模型
大模型
大模型中的Top-k、Top-p、Temperature详细含义及解释
有几种方法(也称为解码策略)用于选择输出
token
,其中两种主要方法是 top-k 采样和 top-p 采样。
大模型
大模型
Meta无限长文本大模型来了:参数仅7B,已开源
在与 LLAMA2 的直接比较中,MEGALODON 在 70 亿参数和 2 万亿训练
token
的规模上取得了比 Transformer 更好的效率。
Meta
长文本
大模型
RAG
RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?
AI 在 Hugging Face 上推出的 Jina-ColBERT 模型引起了 AI 圈子里不小的轰动,尤其是在 Twitter/X 上,大家都在讨论它能处理高达 8192
Token
rag
大模型
Google
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
为了计算
token
概率,应用了最后的线性层,然后是 softmax。
transformer
训练
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100