文章列表-AI魔法学院

文章列表

震撼！AI语言模型突破瓶颈，26个提示词原则引领GPT-4响应质量飙升57.7%！你的模型还在等什么？

而GPT-1，作为先驱者，用Transformer架构和无监督学习打开了新世界的大门。

语言模型提示词 GPT-4

总结！大模型微调（Tuning）的常见方法

Full-finetuning 更新所有参数的方式不同，该方法是在输入 token 之前构造一段任务相关的 virtual tokens 作为 Prefix，然后训练的时候只更新 Prefix 部分的参数，而 Transformer

微调大模型

公司如何使用ChatGPT进行内容营销？

要掌握ChatGPT的功能，必须深入研究驱动其内容生成能力的架构框架和算法：转化器架构和算法：ChatGPT的基础是Transformer架构，它采用了自我关注机制来处理和生成文本。

大模型

AI进化的新纪元：AI AIgents时代（1/9）——什么是Agent？

GPT = generative pre-trained transformer，也就是生成式预训练转换器，这是驱动大型语言模型（LLM）如 ChatGPT 的核心机器学习模型架构。

大模型

Fastwhisper + Pyannote 实现 ASR + 说话者识别

whisper多一点一、faster-whisper简单介绍 faster-whisper是使用CTranslate2对OpenAI的Whisper模型的重新实现，CTranslate2是一个用于Transformer

faster-whisper 语者识别 ASR

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

基于Transformer的语言模型训练成本之所以昂贵，主要是因为最优化的后向梯度下降过程中的内存需要是模型参数量的最多16倍以上！

开源模型

你真的会写 Prompt ? 剖析 RAG 应用中的指代消解

GPT-3 (Generative Pre-trained Transformer 3) is a state-of-the-art

Prompt 大语言模型 RAG

一个产品经理的大模型观察、反思与预测

Representations from Transformers / 双向编码器表征模型） 2018年：OpenAI GPT（Generative Pre-trained Transformer

工作

AI大模型LLM可以帮助企业做什么？

2020 年，OpenAI 在Google 研究团队提出的技术架构Transformer 和多头注意力机制的基础上，推出了 GPT-3 模型，其在文本生成任务上的能力令人印象深刻

大模型

RAG与Long-Context之争—没必要争

RAG是靠检索系统来进行相关内容过滤，一般采用ES、向量匹配等方法，可以理解计算量较小，也就是文本之间交互较少；而Long-Context相当于用户Query与文本交互时，利用了整个大模型参数，即通过Transformer

RAG Long-Context 大模型

【语音识别】OpenAI语音力作Whisper

三、模型模型结构是encoder-decoder transformer，中间attention模块前后有残差链接，encoder用的是self attention，decoder用的是

语音转文字 whisper

baichuan2 有什么好的深挖论文中涉及的知识点

在下面的章节中，将详细介绍对 vanilla Transformer 架构和训练方法所做的详细修改。

大模型

玩一玩阿里通义千问开源版，Win11 RTX3060本地安装记录！

官方介绍： Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。

通义千问

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

这里的prior模型是一个基于transformer decoder架构的扩散模型（下图中第一列），其采用CLIP text encoder来编码文本。

Kandinsky-3 文生图开源模型

回望做大模型一年后的感悟

架构说了模型是基于transformer架构，做了三个常用的改进，分别是pre-norm，SwiGlue和RoPE。

大模型感悟

<...5 6 7 8910 11 12 13 14 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1