首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 开源!数字人资源大集合!
· 达摩院SPACE对话大模型:知识注入与知识利用
· Stable Diffusion高精度换脸
· 最透彻的大模型PPO原理和源码解读
· 国内厂商语音识别与Whisper评测:现状与概况对比
· 一文读懂AIGC产业链:AIGC的前世今生和未来展望
· 【全文翻译】微软166页论文解读 GPT-4V:多模态大模型的黎明
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 比真人还像真人!字节跳动PersonaTalk的黑科技有多强大?
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
垂直领域大模型的思考
所以基于
llama
做的中文适配 不如 纯中文训练的baichuan 在中文任务上效果好。
垂直领域
大模型
「长文」可能是目前最全的LangChain AI资源库之一
•开源LLM清单[252]: 一份可供商业使用的开源LLM清单•Awesome LLM[253]: Awesome-LLM: 一个精心策划的大型语言模型资源清单•
LLaMA
工作
RAG
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
还有人开启大赞特赞模式:现在在开源领域,Qwen比
Llama
还值得期待了。
Qwen2.5
开源模型
数据库
点评:六大向量数据库
LlamaIndex: LlamaIndex是一个基于向量的数据库引擎,由
Llama
Labs开发。
向量数据库
清华
清华、面壁智能发布:主动式Agent 2.0
模型训练:使用人类标注的数据训练
LLaMA
-3.1-8B-Instruct模型,并与几个基线模型进行比较,以展示其优越性
Agent
2.0
大模型
揭秘DeepSeek:一个更极致的中国技术理想主义故事
「暗涌」:在这之前,大部分中国公司都会直接copy这一代的
Llama
结构去做应用,为什么你们会从模型结构切入?
DeepSeek
大模型
Google
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
Griffin-7B 和 Griffin-14B 的性能与
Llama
-2 相当,尽管训练的 tokens 数量只有后者的 1/7。
transformer
训练
GGUF格式详解
; '
llama
GGUF
大模型
微调
大语言模型微调:定制自己的微调数据集
Alpaca-52k是一个开源的遵循指令的,最初用来微调
LLaMA
模型以得到Alpaca-7B模型的数据集,包含了52000条指令数据。
大模型
大模型
人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源
在更小规模的各种基座架构上进行大量预训练实验后,CodeShell架构设计最终融合了StarCoder和
Llama
两者的核心特性。
开源模型
AI编程
ChatGLM
基于本地知识的问答机器人langchain-ChatGLM
背景 ChatGPT火了后,各种大语言模型(LLM)模型相继被发布,完全开源的有ChatGLM、BLOOM、
LLaMA
等。
langchain
AIGC
AIGC沸腾200多天后,投资人达成三大共识
7月19日,Facebook的母公司Meta推出
Llama
2大模型,将免费用于研究和商业用途,被称为最强GPT-4平替开源。
大模型
Meta
深度 | Meta AI助手大测评,市值蒸发万亿都因它?
Meta 的新大型语言模型
Llama
3,驱动着富有想象力命名的“Meta AI”,这是一款新的聊天机器人,该社交媒体和广告公司已安装在尽可能多的应用程序和界面中。
Meta
AI
测评
Yi技术报告细节分享
模型采用Transformer-Decoder结构,采用
llama
的代码实现,修改如下: o 注意力机制:Yi-6B和34B版本均采用Grouped-Query Attention
Yi模型
大模型
大模型
大模型训练工程那些事
假设使用 1024 张 A100 训练
Llama
65B,采用 ZeRO2 + TP8 + DP 128 + FlashAttention2 分布式策略,Batch 设为 4M tokens。
训练工程
大模型
<
...
3
4
5
6
7
8
9
10
11
12
>
1
2
4
5
6
7
8
9
100