首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· Stable Diffusion|提示词高阶用法(二)双人同图
· 复旦开源中文医疗大模型,基于百川微调,模型和数据集都公开
· Suno音乐新手指南(手把手完整版教程)
· 必看!阿里通义千问完整技术报告
· clone-voice:一键克隆声音,开源AI技术让声音创作更便捷、更个性化
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· OmniVision - 968M:小巧精悍的视觉语言模型,释放多模态边缘计算强大潜能
· MCP服务介绍及应用场景报告-来自Manus
· 理解 o3 及其技术分析
· 腾讯悄悄开源混元版「Sora」,这就是开源领域的No.1。
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
微调
大语言模型综述<演进,技术路线,区别,微调,实践,潜在问题与讨论>
优化这种virtual token的挑战:经过预训练的
LM
的词嵌入已经变得高度离散,如果随机初始化virtual token,容易优化到局部最优值;这些virtual token理论是应该有相关关联的,
大模型
OpenAI
来自OpenAI应用研究主管关于Agent的万字长文-AI Agents介绍
幻觉的定义为LLM遇到了一系列连续的相同动作,这些动作导致
LM
在环境中观察到了相同的结果。
Agent
开源
只需四步就能构建自己的Agent!达摩院新开源框架小白也能用
除此之外,他们还提出了新的工具指令微调训练方法:Weighted
LM
,通过对工具指令调用部分token进行loss加权,提升开源大模型工具指令调用能力。
大模型
LLM
2023年LLM如何入门?请看这篇综述!
语言模型
LM
在过去的二十年中被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。
大模型
人工智能
人工智能大语言模型微调技术:SFT 、LoRA 、Freeze 监督微调方法
(n)]表示当前时刻所有层输出向量的拼接,hi(j)是时刻i的第j层 Transformer 的输出,于是自回归语言模型计算每一时刻的输出hi即: $hi=
LM
大模型
微调
微软
微软Phi-3、Mixtral 8x22B等小模型过拟合,三分之二存在数据污染
为了避免 GSM1k 数据集的数据污染问题,Scale AI 目前不会公开发布该数据集,但将开源 GSM1k 评估框架,该框架基于 EleutherAI 的
LM
Evaluation
过拟合
小模型
开源
新测试基准发布,最强开源Llama 3尴尬了
Arena-Hard GitHub: https://github.com/
lm
-sys/arena-hard Arena-Hard HuggingFace: https://huggingface.co
Llama
3
大模型
开源
大模型
GitHub狂飙3万star的LLM公开资料 - 大模型入门教程
您可以直接在Hugging Face Spaces中运行它们中的一些,或者在像
LM
Studio这样的应用程序中下载并在本地运行,或者通过llama.cpp或Ollama的CLI运行。
LLM
大模型
GitHub
大模型
总结!大模型微调(Tuning)的常见方法
o o • 预训练的方式:
LM
Adaptation 的方式效果好,但是当模型达到一定规模,差异又几乎没有了。
微调
大模型
开源
开源新标杆,千问Qwen2系列模型发布,全面超越LLama3
AutoAWQ、Neural Compressor) 部署(vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVino、TGI) 本地运行(MLX、Llama.cpp、Ollama、
LM
qwen
千问
开源
微软
微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行
在
LM
Eval Harness的多个下游任务上,YOCO与Transformer模型OpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1T
Decoder-Decoder
YOCO
架构
大模型
发现一个好东西,一键本地运行各种大模型!包括最新的Qwen1.5
比如这叫
LM
Studio的软件。
Qwen1.5
大模型
大模型
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
监督微调 谷歌根据基于
LM
的并行评估结果来选择自己的混合数据,以进行监督微调。
开源模型
Gemma
大模型
大模型推理能力增强方法总结
一般来说,思维应该足够小,以便
LM
能生成多样化的样本,但思维又应该足够大,以便
LM
可以评估其解决问题的前景。
推理能力
大模型
开源
9.4k Star!MemGPT:伯克利大学最新开源、将LLM作为操作系统、无限上下文记忆、服务化部署自定义Agent
MemGPT 还支持与 llama.cpp、vLLM、Ollama、
LM
Studio 等开源模型整合、以及与 AutoGen 等 MultiAgent 框架进行结合使用。
MemGPT
大语言模型
<
1
2
3
4
>
1
2
4
5
6
7
8
9
100