首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI换脸工具:facefusion使用心得
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 投资人逃离大模型
· 最透彻的大模型PPO原理和源码解读
· LangChain 完整指南:使用大语言模型构建强大的应用程序
· 主流向量数据库一览
· 用ChatGPT写论文prompt大全
· Stable Diffusion|提示词高阶用法(二)双人同图
· Qwen7b微调保姆级教程
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Agent
AI进化的新纪元:AI AIgents时代(1/9)——什么是Agent?
GPT = generative pre-trained
transformer
,也就是生成式预训练转换器,这是驱动大型语言模型(LLM)如 ChatGPT 的核心机器学习模型架构。
大模型
Fastwhisper + Pyannote 实现 ASR + 说话者识别
whisper多一点 一、faster-whisper简单介绍 faster-whisper是使用CTranslate2对OpenAI的Whisper模型的重新实现,CTranslate2是一个用于
Transformer
faster-whisper
语者识别
ASR
开源
[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了!QLoRA技术可能是AI转折点!
基于
Transformer
的语言模型训练成本之所以昂贵,主要是因为最优化的后向梯度下降过程中的内存需要是模型参数量的最多16倍以上!
开源模型
RAG
你真的会写 Prompt ? 剖析 RAG 应用中的指代消解
GPT-3 (Generative Pre-trained
Transformer
3) is a state-of-the-art
Prompt
大语言模型
RAG
大模型
一个产品经理的大模型观察、反思与预测
Representations from Transformers / 双向编码器表征模型) 2018年:OpenAI GPT(Generative Pre-trained
Transformer
工作
大模型
AI大模型LLM可以帮助企业做什么?
2020 年,OpenAI 在Google 研究团队提出的技术架构
Transformer
和多头注意力机制的基础上,推出了 GPT-3 模型,其在文本生成任务上的能力令人印象深刻
大模型
RAG
RAG与Long-Context之争—没必要争
RAG是靠检索系统来进行相关内容过滤,一般采用ES、向量匹配等方法,可以理解计算量较小,也就是文本之间交互较少;而Long-Context相当于用户Query与文本交互时,利用了整个大模型参数,即通过
Transformer
RAG
Long-Context
大模型
baichuan2 有什么好的 深挖论文中涉及的知识点
在下面的章节中,将详细介绍对 vanilla
Transformer
架构和训练方法所做的详细修改。
大模型
OpenAI
【语音识别】OpenAI语音力作Whisper
三、模型 模型结构是encoder-decoder
transformer
,中间attention模块前后有残差链接,encoder用的是self attention,decoder用的是
语音转文字
whisper
开源
玩一玩阿里通义千问开源版,Win11 RTX3060本地安装记录!
官方介绍: Qwen-7B是基于
Transformer
的大语言模型, 在超大规模的预训练数据上进行训练得到。
通义千问
开源
俄罗斯人开源了最大的文生图模型:参数量12B,比SDXL大了3倍多!
这里的prior模型是一个基于
transformer
decoder架构的扩散模型(下图中第一列),其采用CLIP text encoder来编码文本。
Kandinsky-3
文生图
开源模型
大模型
回望做大模型一年后的感悟
架构说了模型是基于
transformer
架构,做了三个常用的改进,分别是pre-norm,SwiGlue和RoPE。
大模型
感悟
如何使用 Megatron-LM 训练语言模型
Megatron-LM 4 是研究人员用于预训练大型
Transformer
模型的另一个流行工具,它是 NVIDIA 应用深度学习研究团队开发的一个强大框架。
开源模型
ChatGPT
【ChatGPT有点热】浅聊Temperature参数对大语言模型的推理能力的影响
从
Transformer
的代码来看, Temperature sampling的实现也确实是比较简单的, 当然这里和OpenAI接口的区别是,不能设置为0,最大值可以超过2。
大语言模型
chatGPT
大模型
大模型高效微调:🤗 PEFT 使用案例
这些学习向量被注入到典型的基于
Transformer
架构中的注意力和前馈模块中。
大模型
<
...
5
6
7
8
9
10
11
12
13
14
>
1
2
4
5
6
7
8
9
100