文章列表-AI魔法学院

文章列表

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

8x7B 模型只是在 Transformer 的前馈 (FeedForward) 块数量上增加了八倍，并且共享了注意力机制 (attention) 的参数，使得总参数数维持在 467 亿。

开源模型 Mixtral 8x7B

一位芯片投资人的十年复盘：谁是中国的英伟达｜AI光年

nbsp; 前阵子美国 AI 芯片公司 Groq发布了新的芯片，国内很多AI芯片公司也已经在规划设计，如何更好的支持transformer

AI光年芯片投资

开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

meta-llama/Llama-2-13b-hf meta-llama/Llama-2-70b-hf 输入：仅输入文本输出：仅生成文本模型架构：Llama 2 是一种使用优化的 Transformer

开源模型

个人从零预训练1B LLM心路历程

最开始应群友建议，我尝试了下训练recurrent gemma结构的模型，只不过它的pytorch实现训练效率太差了，和训transformer结构相比慢了几十倍，遂放弃，gemma是google

LLM 训练

最新最全的开源中文大语言模型列表

它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。

大模型

基于大模型（LLM）的Agent 应用开发

Transformers Agent：Transformers Agent 是一个建立在Transformer存储库上的实验性自然语言API。

大模型 Agent

RLHF 在 Text2SQL 领域中的探索

· 之前听一个大学教授的讲座，有个观点很有意思：Open AI 做大模型为什么比谷歌强，因为包括 transformer 在内的一些创新模型大多是谷歌研究的，那为什么 Open

Text2SQL RLHF

一个充满多智能体的数字社会正在浮现，商业的底层逻辑已进入重构倒计时

关键词：GPT-in-the-loop，LLM-in-the-loop，多智能体系统（MAS），自适应，Generative pre-trained transformer（GPT）。

大模型

AI领域的agent是什么意思？

它是短暂且有限的，因为它受到Transformer的上下文窗口长度的限制。

大模型

一文带你认识ELMo

缺点使用LSTM提取特征，而LSTM提取特征的能力弱于Transformer 使用向量拼接方式融合上下文特征，这种方式获取的上下文信息效果不如想象中好训练时间长，这也是RNN的本质导致的

embedding

大模型压缩首篇综述来啦~

ZeroQuant [Yao等，2022]将硬件友好的量化方案、逐层知识蒸馏和优化的量化支持整合在一起，将Transformer-based模型的权重和激活精度减少到最小的INT8，并且对准确性几乎没有影响

大模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

BERT的模型结构基于Transformer，它由多个编码器层组成。

Bert-vits 语音

2万字大模型调研：横向对比文心一言、百川、Minimax、通义千问、讯飞星火、ChatGPT

随着数据的不断积累和计算能力的提升，深度学习模型逐渐从传统的神经网络演变为更复杂的结构，如卷积神经网络（CNN）、循环神经网络（RNN）和Transformer等。

大模型调研

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

当今AI领域大多数主要技术都源20世纪50年代的基础研究，并结合了一些工程解决方案，如「反向传播算法」和「Transformer模型」。

OpenAI 大模型

揭秘DeepSeek:一个更极致的中国技术理想主义故事

「暗涌」: transformer诞生在谷歌的AI Lab，ChatGPT诞生在OpenAI,你觉得大公司的AILab 和一个创业公司对于创新产生的价值有什么不同？

DeepSeek 大模型

<...5 6 7 8 9 10 111213 14 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1