首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI换脸工具:facefusion使用心得
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 投资人逃离大模型
· 最透彻的大模型PPO原理和源码解读
· LangChain 完整指南:使用大语言模型构建强大的应用程序
· 主流向量数据库一览
· 用ChatGPT写论文prompt大全
· Stable Diffusion|提示词高阶用法(二)双人同图
· Qwen7b微调保姆级教程
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
最顶尖的大语言模型人才,只关心这10个挑战
与这些架构相比,问世于2017年的
Transformer
异常稳定,虽然目前尚不清楚这个架构还会流行多久。
大语言模型
大模型
大模型的研究新方向:混合专家模型(MoE)
为了实现大模型的高效训练和推理,有的是从模型底层下手,比如直接改变底层模型架构,将原来的
Transformer
架构改成近期新出的基于状态空间模型(SSM)的mamba架构;有的是在预训练微调方法上下手,
MoE
大模型
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型
卷积神经网络(CNNs)用于提取语音和文本的局部特征,循环神经网络(RNNs)和长短期记忆网络(LSTMs)擅长处理序列数据,而
Transformer
模型则以其强大的并行计算能力和长距离依赖捕捉能力,在模型中发挥着重要作用
Westlake
-
Omni
语音
大规模训练系列之技术挑战
NLP 领域的大规模训练发展快速,从 BERT 到 GPT-3,再到 Switch
Transformer
,无论是模型大小还是计算资源占用都在疾速增长。
开源模型
开源
开源大语言模型完整列表
Transformer
-XL
Transformer
-XL 是以中文为核心的预训练语言生成模型,参数规模为 29 亿,目前可支持包括文章生成、智能作诗、评论 / 摘要生成等主流 NLG 任务。
开源模型
大语言模型
Sora
深度|万字访谈!Open AI Sora作者,亲自揭秘Sora原理,Sora能带我们通往AGI吗?
这些内容被转化成了一种通用的Token语言,并在这些不同类型的Token上训练大型的
Transformer
模型,从而形成了一种通用的文本数据模型。
Sora
原理
开源
国内外开源大语言模型一览表
基于
Transformer
结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。
大模型
开源
研究人员开源中文文本嵌入模型,填补中文向量文本检索领域的空白
由于 GPT 使用的
Transformer
模型的自身特性,导致模型只能从固定长度的上下文中生成文本。
GPT
Sora
探索Sora的魔法世界:功能展示、原理解析、未来市场影响大猜想!
Sora采用Diffusion
Transformer
(DiT)架构进行训练。
视频生成
sora
基于Ollama本地部署Llama3指南!
模型架构 Llama 3 是一个自回归语言模型(an auto-regressive language),它使用优化的
transformer
架构。
LLama3
ollama
大模型
GitHub狂飙3万star的LLM公开资料 - 大模型入门教程
2.1 LLM 架构 虽然不需要深入了解
Transformer
架构,但了解其输入(token)和输出(logits)是很重要的。
LLM
大模型
GitHub
金融
金融行业的AIGC应用
中,详细介绍了ChatGPT的提示工程和选股使用指南;广发金工的《
Transformer
架构下的量价选股策略:ChatGPT 核心算法应用于量化投资》,利用的是ChatGPT模型的核心算法——
Transformer
金融
大模型
Sora
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
架构的选择方面,可灵整体框架采用了类Sora的DiT结构,用
Transformer
代替了传统扩散模型中基于卷积网络的U-Net。
可灵
快手
文生视频
Sora
微软对 Sora 进行了逆向工程分析,揭秘 Sora 的秘密
在技术层面,Sora 的核心是一种预先训练好的扩散式
Transformer
[4]。
Sora
微软
大模型
深度对比丨探索LLM(大模型)部署服务的七大框架差异
· · 使用flash-attention(和v2)和Paged Attention优化
Transformer
代码进行推理。
大模型
<
...
2
3
4
5
6
7
8
9
10
11
...
>
1
2
4
5
6
7
8
9
100