首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 第一性原理以及第一性原理是怎么帮马斯克成为首富的
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 从第一性原理看大模型Agent技术
· ComfyUI官方使用手册【官网直译+关键补充】
· 芯片拼接技术:英伟达新核弹,站在苹果的肩膀上
· AI声音克隆 | 最全最简教程(权威版)
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· 生成式AI与大语言模型的区别
· 自己电脑上跑大语言模型(LLM)要多少内存?
· 深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
“大模型+机器人”的现状和未来,重磅综述报告来了!
2、视觉
Transformer
模型:如ViT、Swin
Transformer
等,主要应用于计算机视觉任务。
论文
机器人
Prompt
如何看待大型语言模型的Prompt
自注意力是
Transformer
架构中最重要的单一组件。
prompt
大语言模型
大模型
中文原生文生图大模型来了!腾讯混元推出,Sora 同架构
升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With
Transformer
),这也是Sora和 Stable Diffusion 3 的同款架构和关键技术,是一种基于
文生图
混元
腾讯
大模型
重磅来袭!Llama中文社区开源预训练中文版Atom-7B大模型
| 训练过程 ⭐支持更长上下文的模型结构 基于当前最优秀的开源模型 Llama2,使用主流 Decoder-only 的标准
Transformer
网络结构,支持
大模型
大模型
最新大模型面经+感受,4家大厂offer!
介绍下对
transformer
的了解,网络结构相比于lstm有什么不同?
大模型
面试
大模型
九问中国大模型掌门人,万字长文详解大模型进度趋势
问
Transformer
未来将如何演进?
大模型
详解
大模型
视频大模型训练相关词条解释
Sora采用Diffusion
Transformer
(DiT)架构进行训练。
视频生成
sora
词条
LLM
让AI记住你说的话、让AI给你生成几十万字的小说!StreamingLLM 让无限长token成为可能
,它可以让任何基于
Transformer
的语言模型(LLM)处理无限长度的文本,而不需要任何微调或额外的训练。
StreamingLLM
写作
Sora
Sora物理悖谬的几何解释
相关性与因果律的矛盾 ChatGPT将语句分解成令牌,然后用
Transformer
学习在上下文中令牌间连接的概率分布。
Sora
解释
Sora
微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
在技术层面,Sora 的核心是一种预先训练好的扩散式
Transformer
[4]。
sora
论文
免训练!单图秒级别生成AI写真,人像生成进入无需训练的单阶段时代
FACT 整个框架如下图所示: 为了更全面地提取人脸的细节信息,FACT 采用了在海量人脸数据上预训练的基于
Transformer
架构的人脸特征提取器
FaceChain
FACT
文生图
语音
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
transformers库基于
Transformer
模型架构,这是一种用于处理序列数据的深度学习模型。
Whisper
语音优化
Meta
学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转
Nougat 基于
Transformer
模型构建而成,可以轻松的将 PDF 文档转换为 MultiMarkdown,扫描版的 PDF 也能转换,让人头疼的数学公式也不在话下。
大模型
大模型
万字长文,AI大模型的应用实践总结
对于以
Transformer
、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题,在单机多卡或者多机多卡进行模型训练
大模型
大模型
大模型微调方法总结
每个 Adapter 模块由两个前馈子层组成,第一个前馈子层将
Transformer
块的输出作为输入,将原始输入维度 d 投影到 m,通过控制 m 的大小来限制 Adapter 模块的参数量,通常情况下
开源模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100