首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI创作 |如何通过GPT进行漫画视频的故事改写
· 第3期 SDXL和SD的10大区别!你知道几个?
· 姚班天才开发《完蛋!我被大模型包围了》游戏爆火,一日用户过万挤爆服务器
· 你的下一个浏览器,可以是豆包电脑版!
· DeepMusic发布“和弦派”2.0:重塑AI音乐创作范式,赋予创作者全方位掌控
· Prompt屠龙术-少样本示例
· 揭秘DeepSeek:一个更极致的中国技术理想主义故事
· 豆包MarsCode——免费AI编程助手
· 100个最强Ai实用工具精讲 - 拒绝焦虑拥抱Ai
· 实测:本地跑llama3:70B需要什么配置
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计
aiXcoder团队透露 ,未来提供企业服务时,可以让多个7B模型形成
MoE
架构,组合成为一套解决方案来完成企业定制化服务。
aiXcoder-7B
大模型
大模型
元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入
ensp; 商业合作 微信添加:lixing_lixing 元象持续打造国内开源标杆,在国内最早开源最大参数65B、全球最早开源最长上下文256K以及国际前沿的
MoE
XVERSE-V
多模态大模型
开源
Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来
8B版本在这些任务上超越了Mistral和Gemma,70B版本则战胜了Gemini Pro和
MoE
架构的Mixtral,分别斩获相应规模的SOTA。
meta
llama3
大模型
大模型微调经验汇总---LLM finetuning 踩坑经验之谈
MoE
- 稀疏门控制 的专家混合层,最近爆出 GPT4 是由8个220B 的模型组合。
大模型
人工智能
大模型
llm-action:让天下没有难学的大模型
配套代码 HuggingFace PEFT LLM分布式训练并行技术 近年来,随着Transformer、
MOE
大模型
LLM
Sora
OpenAI视频模型Sora的推理生成成本多高?
, N 为模型参数量大小, D 为训练数据量大小: LLM 每 token 需要的计算量是 6 倍的模型大小 基于一些"众所周知"的消息: GPT-4 是一个
MoE
Sora
推理
算力
开源
46.6k星星!最强开源AI集合系统,一键部署全网AI工具都能直接用,UI简直是视觉盛宴!
Minimax:集成Minimax模型,包括
MoE
模型abab6。
AI开源
集合
李彦宏偏爱小模型|AI光年
开发者大会上分享了基于大模型开发AI原生应用的三个思路: 一、未来大型的AI原生应用基本都是
MoE
李彦宏
小模型
开源
Falcon 180B 开源影响了谁?
就像令蒋磊疑惑的一点是,为什么到了现在还没有出现
MoE
的Llama。
大模型
大模型
万字长文,AI大模型的应用实践总结
对于以Transformer、
MOE
结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题,在单机多卡或者多机多卡进行模型训练
大模型
QWen1.5: 卓越模型之路
模型在一系列基础及扩展能力上进行了详尽评估,包括如语言理解、代码、推理等在内的基础能力,多语言能力,人类偏好对齐能力,智能体能力,检索增强生成能力(RAG)等,对比对象也增加了热门的Mixtral
MoE
Qwen1.5
开源模型
大模型
投资人逃离大模型
其推出的“Step系列”通用大模型,让业内人士眼前一亮,其Step-2万亿参数
MoE
语言大模型,更是国内首家发布。
大模型
大模型
大模型训练工程那些事
为了跟上这种节奏就不得不紧锣密鼓地进行 算力的扩展(构建 4k 集群,万卡集群) 探索更高效的模型训练方式(比如
MoE
训练) 展示模型的差异化能力(超长上下文的效果
训练工程
大模型
大模型
大模型套壳祛魅:质疑套壳,理解套壳
他预测,未来大模型算法研究必然朝着 Infra 的方向去探索:稀疏化(Sparse Attention、 Sparse GEMM /
MoE
) 将会是 2024 年学术界与工业界的主战场。
大模型
套壳
揭秘DeepSeek:一个更极致的中国技术理想主义故事
「暗涌」:你觉得AGI还要多久实现,发布DeepSeek V2前,你们发布过代码生成和数学的模型,也从dense模型切换到了
MOE
,所以你们的AGI路线图有哪些坐标?
DeepSeek
大模型
<
1
2
3
>
1
2
4
5
6
7
8
9
100