文章列表-AI魔法学院

文章列表

垂直领域大模型的思考

继续预训练重要的一步通过继续预训练能给通用的大模型注入领域知识，领域内的专业词能更充分的学习。

垂直领域大模型

图片拖拽神器DragGAN介绍及官方安装文档说明

拖放图像编辑是一项功能强大的技术，它涉及训练生成模型来根据用户提供的指令转换图像。

开源

Qwen7b微调保姆级教程

我们构造了一个修改大模型自我认知的3轮对话的玩具数据集，使用QLoRA算法，只需要5分钟的训练时间，就可以完成微调，并成功修改了LLM模型的自我认知(以Qwen7b-Chat为例)。

Qwen7b 大模型

人工智能大语言模型微调技术：SFT 、LoRA 、Freeze 监督微调方法

在目标数据集上训练目标模型时，将从头训练到输出层，其余层的参数都基于源模型的参数微调得到。

大模型微调

4秒惊艳！Stable Cascade AI绘画神器，设计师和普通用户的无限创意新选择

任何人都可以在Stability的GitHub页面上找到用于微调、ControlNet和LoRA训练的脚本，进一步挖掘这个全新架构的潜力。

文生图绘画

如何使用ChatGPT进行写作

同所有工具一样，ChatGPT 需要明确的指导，通过与 ChatGPT 的对话，不断训练ChatGPT，便能使ChatGPT了解你的风格。

ChatGPT 写作

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

此外，由于反馈序列中有许多常用词，为了避免模型在训练过程中依赖于这些词，CoH 在训练期间随机屏蔽了 0%-5% 的历史 token。

agent

NEFTune：在Embedding中加入噪⾳提⾼指令微调效果！

这表明，通过AlpacaEval的评估，使⽤NEFT进⾏训练显著提⾼了对话能⼒和回答质量。

NEFTune 大语言模型

大模型的研究新方向：混合专家模型（MoE）

为了实现大模型的高效训练和推理，有的是从模型底层下手，比如直接改变底层模型架构，将原来的Transformer架构改成近期新出的基于状态空间模型（SSM）的mamba架构；有的是在预训练微调方法上下手，

MoE 大模型

如何估计大模型所需要的显存大小？HuggingFace发布Model Memory Calculator，一键计算大模型显存需求

此前，DataLearner曾经从理论上给出了大模型显存需求的估算逻辑，详细说明了大模型在预训练阶段、微调阶段和推理阶段所需的显存资源估计（参考：需要多少GPU显存才能运行预训练大语言模型？

大模型

万字长文，AI大模型的应用实践总结

具体的模型训练（预训练）方法可参考Hugingface Transformers的样例，SFT（指令精调）方法可参考Alpaca的训练代码。

大模型

更强的小型LLM：Zephyr-7B

该模型由 Hugging Face 创建，实际上是在公共数据集上训练的 Mistral-7B 的微调版本，但也通过知识蒸馏技术进行了优化。

Zephyr-7B 大语言模型

图像作为prompt#IP-Adapter

IP-Adapter是图像提示适配器，用于预训练的文本到图像扩散模型，以实现使用图像提示生成图像的能力。

prompt IP-Adapter 文生图

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

这篇文章我们简单介绍一下Kandinsky-3的模型结构、训练策略以及模型生成效果。

Kandinsky-3 文生图开源模型

GGUF格式详解

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。

GGUF 大模型

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1