文章列表-AI魔法学院

文章列表

通往AGI之路，提示词入门

OpenAI's GPT (generative pre-trained transformer) models have been trained to understand natural

AGI 提示词

大规模训练系列之技术挑战

NLP 领域的大规模训练发展快速，从 BERT 到 GPT-3，再到 Switch Transformer，无论是模型大小还是计算资源占用都在疾速增长。

开源模型

开源大语言模型完整列表

Transformer-XL Transformer-XL 是以中文为核心的预训练语言生成模型，参数规模为 29 亿，目前可支持包括文章生成、智能作诗、评论 / 摘要生成等主流 NLG 任务。

开源模型大语言模型

开源大模型王座易主！谷歌Gemma杀入场，笔记本可跑，可商用

模型架构 Gemma 模型架构基于 Transformer 解码器，表 1 总结了该架构的核心参数。

开源模型 Gemma

最顶尖的大语言模型人才，只关心这10个挑战

与这些架构相比，问世于2017年的Transformer异常稳定，虽然目前尚不清楚这个架构还会流行多久。

大语言模型

大模型的研究新方向：混合专家模型（MoE）

为了实现大模型的高效训练和推理，有的是从模型底层下手，比如直接改变底层模型架构，将原来的Transformer架构改成近期新出的基于状态空间模型（SSM）的mamba架构；有的是在预训练微调方法上下手，

MoE 大模型

和大模型相关的一些术语（持续更新中）

GPT的全称，是Generative Pre-Trained Transformer（生成式预训练转换器）是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。

大模型人工智能

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

卷积神经网络（CNNs）用于提取语音和文本的局部特征，循环神经网络（RNNs）和长短期记忆网络（LSTMs）擅长处理序列数据，而Transformer模型则以其强大的并行计算能力和长距离依赖捕捉能力，在模型中发挥着重要作用

Westlake -Omni 语音

研究人员开源中文文本嵌入模型，填补中文向量文本检索领域的空白

由于 GPT 使用的 Transformer 模型的自身特性，导致模型只能从固定长度的上下文中生成文本。

GPT

基于Ollama本地部署Llama3指南！

模型架构 Llama 3 是一个自回归语言模型（an auto-regressive language），它使用优化的 transformer 架构。

LLama3 ollama

深度｜万字访谈！Open AI Sora作者，亲自揭秘Sora原理，Sora能带我们通往AGI吗？

这些内容被转化成了一种通用的Token语言，并在这些不同类型的Token上训练大型的Transformer模型，从而形成了一种通用的文本数据模型。

Sora 原理

金融行业的AIGC应用

中，详细介绍了ChatGPT的提示工程和选股使用指南；广发金工的《Transformer架构下的量价选股策略：ChatGPT 核心算法应用于量化投资》，利用的是ChatGPT模型的核心算法——Transformer

金融大模型

国内外开源大语言模型一览表

基于 Transformer 结构，在大约1.2万亿 tokens 上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。

大模型

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

Sora采用Diffusion Transformer (DiT)架构进行训练。

视频生成 sora

微软对 Sora 进行了逆向工程分析，揭秘 Sora 的秘密

在技术层面，Sora 的核心是一种预先训练好的扩散式 Transformer [4]。

Sora 微软

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1