首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
· 理解 o3 及其技术分析
· 深度体验3天后,我把腾讯这款copilot锁进了程序坞
· 使用知识图谱提高RAG的能力,减少大模型幻觉
· AI写作:一步到位,如何用 AI 生成整篇文章?做自媒体必看!
· 掌握这10个AI 工具用1小时完成别人1周的工作
· Stable Diffusion 30种采样器全解!
· 基于 OpenAI Whisper 模型的实时语音转文字工具
· 弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
GitHub狂飙3万star的LLM公开资料 - 大模型入门教程
2.1 LLM 架构 虽然不需要深入了解
Transformer
架构,但了解其输入(token)和输出(logits)是很重要的。
LLM
大模型
GitHub
Sora
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
架构的选择方面,可灵整体框架采用了类Sora的DiT结构,用
Transformer
代替了传统扩散模型中基于卷积网络的U-Net。
可灵
快手
文生视频
Github
8月份最火的 5 个 GitHub 项目
Qwen-7B是基于
Transformer
的大语言模型, 在超大规模的预训练数据上进行训练得到。
下载
AGI
通往 AGI 之路:走进大语言模型
一、认识 ChatGPT ChatGPT 的全称是 Chat Generative Pre-trained
Transformer
,中文翻译过来就是基于生成式预训练变化的聊天模型,是 OpenAI 公司在
AGI
ChatGPT
大语言模型
大模型
深度对比丨探索LLM(大模型)部署服务的七大框架差异
· · 使用flash-attention(和v2)和Paged Attention优化
Transformer
代码进行推理。
大模型
史上最好的中文大预言模型出现了!!!
测试问答:详述LLM和GPT区别 (这里面就胡说了,LLM和GPT都是基于
transformer
……) Kimi Chat,可以联网以及文档解析。
Kimi
Chat
大模型
大模型
中文通用大模型最全汇总
它采用
Transformer
自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。
大模型
开源模型
RAG
RAG 2.0,终于把RAG做对了!
更好的商业案例,或死亡 今天,由于
Transformer
无法压缩上下文,更长的序列不仅意味着成本呈二次方增长(序列增加2倍意味着计算量增加4倍,或者序列增加3倍意味着计算成本增加
RAG
大语言模型
没有思考过 Embedding,不足以谈 AI
在
transformer
中,最后的输出是一个概率分布,表示每一个词匹配这一“模糊”向量的概率。
开源模型
Agent
10个具有代表性的AI-Agents,将如何改变互联网/重塑Web3
Tranformer Agents
Transformer
Agents是hungging Face推出的一个AI-Agents系统,尽管当前功能还不咋滴,但是必须保持关注的关键原因在于
开源模型
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
音频编码器的初始化基于Whisper-large-v2模型 ,这是一个包含两个卷积下采样层作为起始层的32层
Transformer
模型。
大模型
语音
大模型
大模型训练为什么用A100不用4090
一共 3 次乘法,3 次加法,不管
Transformer
多复杂,矩阵计算就是这么简单,其他的向量计算、softmax 之类的都不是占算力的主要因素,估算的时候可以忽略。
大模型
【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision
cifar100.classes[index]:>16s}: {100 * value.item():.2f}%") 3.3 Training (1)text encoder 作者统一采用GPT-2里的
Transformer
OpenAI
自然语言监督
Microsoft
来自Microsoft Build 2023:大语言模型是如何被训练出来的
核心是基于
transformer
架构,利用大量的无标注数据来训练模型对下一个token的预测,这也是整个大模型阶段最消耗时间和算力的地方。
大模型
微调
一文讲明白什么是预训练、微调和上下文学习
Transformer
架构:预训练通常采用基于
Transformer
的架构,因为这种架构擅长捕获远程依赖关系和上下文信息。
大模型
训练
<
...
3
4
5
6
7
8
9
10
11
12
...
>
1
2
4
5
6
7
8
9
100