首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 从第一性原理看大模型Agent技术
· Coze多智能体(Multi-Agents)模式体验!
· 大模型评测新思路:弱智吧精华问题大全
· ComfyUI官方使用手册【官网直译+关键补充】
· 还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了
· 通俗解读大模型微调(Fine Tuning)
· SD入门教程四:图生图基础用法
· 阿里的AI一键换衣(AnyDoor)工具来了
· 国产视频制作之光-可灵:提示词大全整理
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
从零开始了解AI大模型 - 概念篇:一文带你走进大模型世界
2018年6月,openAI发布了第一代GPT(Generative Pre-Training),基于Transformer
Decoder
的改进,有效地证明了在自然语言处理领域使用预训练+微调方法的有效性
大模型
大模型
苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源
OpenELM 采用了
decoder
-only的架构,并遵循最新的大语言模型(LLM)的设计,包括: 1.
OpenELM
大模型
什么是BERT?
而BERT利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer一般被称为Transformer
decoder
,其每一个token(符号)只会attend到目前往左的
embedding
Transformer
ViTPose+:迈向通用身体姿态估计的视觉Transformer基础模型
2.2 简单性和扩展性 表1 使用不同
decoder
的ViTPose在MS COCO的性能对比 为了验证ViTPose的简单性和可扩展性,研究者使用了不同的解码器和不同尺寸的编码器
ViTPose+
Transformer
身体姿态
大模型
中文通用大模型最全汇总
XVERSE-13B 地址:https://github.com/xverse-ai/XVERSE-13B 简介:由深圳元象科技自主研发的支持多语言的大语言模型,使用主流
Decoder
-only
大模型
开源模型
大模型
什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?
当然,GPT大模型的预训练和微调,从实现方式来讲是没有什么差别的,都是
decoder
only的语言模型训练并更新参数,如果样本集小,没有大量的篇章文档数据,我认为只进行微调也能注入知识的,不必太纠结预训练
大模型
Stable Diffusion
硬核解读Stable Diffusion(系列三)
Stability AI公司还开源了两个加强版的autoencoder:ft-EMA和ft-MSE(前者使用L1 loss后者使用MSE loss),前面已经说过,它们是在LAION数据集继续finetune
decoder
Stable
Diffusion
文生图
大模型
中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生
具体来看,在模型结构设计上,团队采用解码器架构(
decoder
-only)并改进旋转位置编码(RoPE),再结合自适应插值的NTK-aware + LogN算法,大幅提高了模型的外推能力,使其支持超长上下文
开源大模型
电信
Stable Diffusion
Stable Diffusion教程:提示词
然后把这组向量投递给一个图片生成器( Image Information Creator),图片生成器根据向量的值来构建出相应语义的图片信息,这些信息还不是我们常见的图片格式,然后还需要 Image
Decoder
提示词
SD
绘画
Deepseek-V2技术报告解读!全网最细!
在经过embedding层后,与Deepseek-MoE保持一致,首先会经过一个共享的大
Decoder
层进行第一层计算,这层模型的attention计算设定与后续59层基本一致,唯一区别是这一层的mlp
Deepseek-V2
大模型
大模型
微调、训练大模型概念介绍及论文笔记:Tuning系列论文笔记
评估的任务 table-to-text任务:语言模型GPT-2 摘要任务:BART模型 GPT类的自回归模型上采用[PREFIX, x, y], T5类的encoder-
decoder
训练
微调
Sora
OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析
We also train a corresponding
decoder
model that maps generated latents back to pixel space.
sora
openai
视频生成
大模型
图解大模型训练之:张量模型并行(TP),Megatron-LM
nbsp;Φ=b∗s∗h 三、Self-Attention层 现在,我们来看稍微复杂一点的self-attention层切割方式(Transformer中Encode和
Decoder
开源模型
LLM
【一步一步引导】从零详细地梳理一个完整的 LLM 训练流程
模型结构 为了加快模型的训练速度,通常会在
decoder
模型中加入一些 tricks 来缩短模型训练周期。
大模型
训练
开源
国内外开源大语言模型一览表
At this point most of
decoder
architectures and encoder-
decoder
architectures are supported.
大模型
<
1
2
3
4
>
1
2
4
5
6
7
8
9
100