文章列表-AI魔法学院

文章列表

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

2.1 LLM 架构虽然不需要深入了解Transformer架构，但了解其输入（token）和输出（logits）是很重要的。

LLM 大模型 GitHub

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

架构的选择方面，可灵整体框架采用了类Sora的DiT结构，用Transformer代替了传统扩散模型中基于卷积网络的U-Net。

可灵快手文生视频

8月份最火的 5 个 GitHub 项目

Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。

下载

通往 AGI 之路：走进大语言模型

一、认识 ChatGPT ChatGPT 的全称是 Chat Generative Pre-trained Transformer，中文翻译过来就是基于生成式预训练变化的聊天模型，是 OpenAI 公司在

AGI ChatGPT 大语言模型

深度对比丨探索LLM（大模型）部署服务的七大框架差异

· · 使用flash-attention（和v2）和Paged Attention优化 Transformer 代码进行推理。

大模型

史上最好的中文大预言模型出现了！！！

测试问答：详述LLM和GPT区别（这里面就胡说了，LLM和GPT都是基于transformer……） Kimi Chat，可以联网以及文档解析。

Kimi Chat 大模型

中文通用大模型最全汇总

它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。

大模型开源模型

RAG 2.0，终于把RAG做对了！

更好的商业案例，或死亡今天，由于Transformer无法压缩上下文，更长的序列不仅意味着成本呈二次方增长（序列增加2倍意味着计算量增加4倍，或者序列增加3倍意味着计算成本增加

RAG 大语言模型

没有思考过 Embedding，不足以谈 AI

在 transformer 中，最后的输出是一个概率分布，表示每一个词匹配这一“模糊”向量的概率。

开源模型

10个具有代表性的AI-Agents，将如何改变互联网/重塑Web3

Tranformer Agents Transformer Agents是hungging Face推出的一个AI-Agents系统，尽管当前功能还不咋滴，但是必须保持关注的关键原因在于

开源模型

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

音频编码器的初始化基于Whisper-large-v2模型，这是一个包含两个卷积下采样层作为起始层的32层Transformer模型。

大模型语音

大模型训练为什么用A100不用4090

一共 3 次乘法，3 次加法，不管 Transformer 多复杂，矩阵计算就是这么简单，其他的向量计算、softmax 之类的都不是占算力的主要因素，估算的时候可以忽略。

大模型

【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision

cifar100.classes[index]:>16s}: {100 * value.item():.2f}%") 3.3 Training （1）text encoder 作者统一采用GPT-2里的Transformer

OpenAI 自然语言监督

来自Microsoft Build 2023：大语言模型是如何被训练出来的

核心是基于transformer架构，利用大量的无标注数据来训练模型对下一个token的预测，这也是整个大模型阶段最消耗时间和算力的地方。

大模型

一文讲明白什么是预训练、微调和上下文学习

Transformer 架构：预训练通常采用基于 Transformer 的架构，因为这种架构擅长捕获远程依赖关系和上下文信息。

大模型训练

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1