首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
· 理解 o3 及其技术分析
· 深度体验3天后,我把腾讯这款copilot锁进了程序坞
· 使用知识图谱提高RAG的能力,减少大模型幻觉
· AI写作:一步到位,如何用 AI 生成整篇文章?做自媒体必看!
· 掌握这10个AI 工具用1小时完成别人1周的工作
· Stable Diffusion 30种采样器全解!
· 基于 OpenAI Whisper 模型的实时语音转文字工具
· 弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
如何使用 Megatron-LM 训练语言模型
Megatron-LM 4 是研究人员用于预训练大型
Transformer
模型的另一个流行工具,它是 NVIDIA 应用深度学习研究团队开发的一个强大框架。
开源模型
ChatGPT
【ChatGPT有点热】浅聊Temperature参数对大语言模型的推理能力的影响
从
Transformer
的代码来看, Temperature sampling的实现也确实是比较简单的, 当然这里和OpenAI接口的区别是,不能设置为0,最大值可以超过2。
大语言模型
chatGPT
大模型
大模型高效微调:🤗 PEFT 使用案例
这些学习向量被注入到典型的基于
Transformer
架构中的注意力和前馈模块中。
大模型
鹅厂版AI笔记悄悄上线,微信公众号优质内容秒变专属知识库,实测在此
比如让它扩写一下“非
Transformer
架构”,效果belike。
ima
copilot
搜索
微软
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
96块A100练了14天 Phi-2 是一个基于
Transformer
的模型,使用1.4T个tokens进行训练(包括用于NLP和编码的合成数据集和Web数据集)。
小语言模型
Stable Diffusion
硬核解读Stable Diffusion(系列一)
encoder来对输入text提取text embeddings,具体的是采用目前OpenAI所开源的最大CLIP模型:clip-vit-large-patch14,这个CLIP的text encoder是一个
transformer
StableDiffusion
文生图
数据库
百万token上下文窗口也杀不死向量数据库?CPU笑了
有网友便列举了长上下文窗口的四大通病(四个V): § Velocity(速度):基于
Transformer
的大型模型,在检索长上下文时要想达到亚秒级的速度响应仍然具有挑战性。
向量数据库
大模型
cpu
大模型
大模型+人形机器人,是不是下一个风口?
月底时谷歌DeepMind推出的Robotics
Transformer
2(RT-2),继续在同一方向深入研究。
大模型
大模型
从零开始学习大模型-第一章-大模型简介
这个选择依赖于你的具体需求,比如文本任务可能会选择BERT或GPT系列,图像任务可能会选择ResNet或Vision
Transformer
等。
大模型
从零开始
大模型
Openai 异步客户端接入国产大模型 Kimi
Moonshot AI 的核心团队曾参与开发
Transformer
XL、RoPE等关键算法,并且在大模型领域有着深厚的技术积累。
Kimi
Chat
大模型
通义千问
必看!阿里通义千问完整技术报告
2.3 架构 QWEN采用了一种修改过的
Transformer
架构。
大型语言模型
报告
开源
Chinese-LLM开源中文大语言模型合集
它采用
Transformer
自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。
大模型
中文
开源
玩一玩阿里通义千问开源版,Win11 RTX3060本地安装记录
官方介绍: Qwen-7B是基于
Transformer
的大语言模型, 在超大规模的预训练数据上进行训练得到。
大模型
大模型
大模型应用的10种架构模式
在训练大型语言模型(LLM)时,我们可以利用一些资源和软件包,如DeepSpeed,以及Hugging Face的
Transformer
库。
大模型
架构
大模型
什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?
答:Bert 的模型由多层双向的
Transformer
编码器组成,由12层组成,768隐藏单元,12个head,总参数量110M,约1.15亿参数量。
大模型
<
...
5
6
7
8
9
10
11
12
13
14
>
1
2
4
5
6
7
8
9
100