首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 超详细的 Stable Diffusion ComfyUI 基础教程(三):Refiner 细化流程
· 大模型压缩首篇综述来啦~
· ComfyUI官方使用手册【官网直译+关键补充】
· 从Langchain到ReAct,在大模型时代下全新的应用开发核心
· 说真的,学会用SD做电商图,你才是真的入了门
· 通义听悟
· 自动优化Prompt:Automatic Prompt Engineering的3种方法
· 备案通过且面向公众开放的国产精品大模型汇总,附访问链接
· AI帮你DIY新年祝福海报,拜年必备神器!
· BGE M3-Embedding:智源最新发布的text embedding模型,多语言检索效果超过微软跟openai
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
垂直领域大模型的思考
所以基于
llama
做的中文适配 不如 纯中文训练的baichuan 在中文任务上效果好。
垂直领域
大模型
「长文」可能是目前最全的LangChain AI资源库之一
•开源LLM清单[252]: 一份可供商业使用的开源LLM清单•Awesome LLM[253]: Awesome-LLM: 一个精心策划的大型语言模型资源清单•
LLaMA
工作
RAG
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
还有人开启大赞特赞模式:现在在开源领域,Qwen比
Llama
还值得期待了。
Qwen2.5
开源模型
数据库
点评:六大向量数据库
LlamaIndex: LlamaIndex是一个基于向量的数据库引擎,由
Llama
Labs开发。
向量数据库
揭秘DeepSeek:一个更极致的中国技术理想主义故事
「暗涌」:在这之前,大部分中国公司都会直接copy这一代的
Llama
结构去做应用,为什么你们会从模型结构切入?
DeepSeek
大模型
清华
清华、面壁智能发布:主动式Agent 2.0
模型训练:使用人类标注的数据训练
LLaMA
-3.1-8B-Instruct模型,并与几个基线模型进行比较,以展示其优越性
Agent
2.0
大模型
Google
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
Griffin-7B 和 Griffin-14B 的性能与
Llama
-2 相当,尽管训练的 tokens 数量只有后者的 1/7。
transformer
训练
GGUF格式详解
; '
llama
GGUF
大模型
微调
大语言模型微调:定制自己的微调数据集
Alpaca-52k是一个开源的遵循指令的,最初用来微调
LLaMA
模型以得到Alpaca-7B模型的数据集,包含了52000条指令数据。
大模型
大模型
人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源
在更小规模的各种基座架构上进行大量预训练实验后,CodeShell架构设计最终融合了StarCoder和
Llama
两者的核心特性。
开源模型
AI编程
ChatGLM
基于本地知识的问答机器人langchain-ChatGLM
背景 ChatGPT火了后,各种大语言模型(LLM)模型相继被发布,完全开源的有ChatGLM、BLOOM、
LLaMA
等。
langchain
AIGC
AIGC沸腾200多天后,投资人达成三大共识
7月19日,Facebook的母公司Meta推出
Llama
2大模型,将免费用于研究和商业用途,被称为最强GPT-4平替开源。
大模型
Meta
深度 | Meta AI助手大测评,市值蒸发万亿都因它?
Meta 的新大型语言模型
Llama
3,驱动着富有想象力命名的“Meta AI”,这是一款新的聊天机器人,该社交媒体和广告公司已安装在尽可能多的应用程序和界面中。
Meta
AI
测评
Yi技术报告细节分享
模型采用Transformer-Decoder结构,采用
llama
的代码实现,修改如下: o 注意力机制:Yi-6B和34B版本均采用Grouped-Query Attention
Yi模型
大模型
大模型
大模型训练工程那些事
假设使用 1024 张 A100 训练
Llama
65B,采用 ZeRO2 + TP8 + DP 128 + FlashAttention2 分布式策略,Batch 设为 4M tokens。
训练工程
大模型
<
...
3
4
5
6
7
8
9
10
11
12
>
1
2
4
5
6
7
8
9
100