文章列表-AI魔法学院

文章列表

MCI-GRU：在真实金融交易中验证有效的股票价格预测模型

2.3 注意力机制与Transformer 注意力机制最早在自然语言处理领域得到了广泛应用，尤其是在Transformer模型中发挥了关键作用。

MCI-GRU 股票大模型

Sora物理悖谬的几何解释

相关性与因果律的矛盾 ChatGPT将语句分解成令牌，然后用Transformer学习在上下文中令牌间连接的概率分布。

Sora 解释

微软研究团队：Sora核心技术及未来机会研究报告-中英对照版

在技术层面，Sora 的核心是一种预先训练好的扩散式 Transformer [4]。

sora 论文

万字长文，AI大模型的应用实践总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

大模型

学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

Nougat 基于 Transformer 模型构建而成，可以轻松的将 PDF 文档转换为 MultiMarkdown，扫描版的 PDF 也能转换，让人头疼的数学公式也不在话下。

大模型

从零开始学习大模型-第二章-大模型学习路线

大模型入门知识模型概览：了解当前主流的大模型，如GPT系列、BERT、Transformer等，学习它们的基本架构和工作原理。

大模型学习

深入探秘：百川7B大模型的训练代码解析，揭秘巨无霸语言模型背后的奥秘

先说下大模型的理论：大模型的底座模型就是多层的transformer，由于是因果语言建模，它只用了transformer的decoder模块。

大模型

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

transformers库基于Transformer模型架构，这是一种用于处理序列数据的深度学习模型。

Whisper 语音优化

大模型微调方法总结

每个 Adapter 模块由两个前馈子层组成，第一个前馈子层将 Transformer 块的输出作为输入，将原始输入维度 d 投影到 m，通过控制 m 的大小来限制 Adapter 模块的参数量，通常情况下

开源模型

AI扫盲指南！什么是大模型？什么是GPT？什么prompt？什么是大模型参数？LLaMA2-70b中70b是什么？

GPT是Generative Pre-trained Transformer的缩写，是一种基于深度学习的文本生成模型。

大模型

Stability AI开源上新：3D生成引入视频扩散模型

具体到架构方面，SV3D包含以下关键组成部分： § UNet：SV3D是在SVD的基础上构建的，包含一个多层UNet，其中每一层都有一系列残差块（包括3D卷积层）和两个分别处理空间和时间信息的Transformer

sv3d 建模

预训练对话大模型深度解读

Large两个版本： Base：对话数680万，数据来源于7900万微博数据 Large：1200万，数据来源于7900万微博数据及650万开源对话数据目前人工测评结果优于原始Transformer

通俗解读大模型微调(Fine Tuning)

根据我们在《揭密Transformer：大模型背后的硬核技术》一文中介绍的大模型背后的Transformer模型，Prompt Tuning是发生在Embedding这个环节的。

大模型微调

中学生能看懂：Sora 原理解读

通过预先训练好的转换器（Transformer模型），Sora能够识别每个补丁的内容，并根据给定的文本提示进行相应的修改。

Sora 原理

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

•技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visual patch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion

sora openai 视频生成

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1