文章列表-AI魔法学院

文章列表

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

· 高效处理与模型大小的优化：Mixtral 8x7B 特别强调处理效率，在进行推理时每个 Token 只需调用两位“专家”，这样既保证了运算速度，又没有牺牲性能。

开源模型 Mixtral 8x7B

LLM大模型推理输出生成方式总结

(no_repeat_ngram_size=6即代表:6-gram不出现2次) 限制采样Trick Temperature 方式：通过温度，控制每个字的概率分布曲线。

大模型

[Midjourney]人物镜头拍摄视角大全

正面拍摄是一种基本的、最常用的拍摄角度。

视图视角构图

大模型中的Top-k、Top-p、Temperature详细含义及解释

更改 top-k 参数设置模型在输出每个token时从中抽样的候选列表的大小。

大模型

AI里的大模型，你了解么

大模型的优势如下： 1、精确度更高，表现更好。

人工智能

它来了！SDXL + ControlNet 终于强强联合！

因此，如果你真的很想玩转 SDXL 模型，我还是建议你开始学习使用 ComfyUI 的使用方法，这会大大要提高 SDXL 的运行速度，也能降低对电脑的性能要求。

SDXL

微调、训练大模型概念介绍及论文笔记：Tuning系列论文笔记

Large Language Models Encode Clinical Knowledge 指令提示微调 IPT的建模示意图 Lora微调前人研究发现模型是过参数化的，存在更小的内在维度

训练微调

大模型应用实践：用LLaMA 2.0, FAISS and LangChain实现基于自由知识问答

它有三种不同的模型大小（即7B、13B和70B），与Llama 1模型相比有显著改进，包括在40%更多的tokens上进行训练，具有更长的上下文长度（4k tokens ��

开源模型

再也不用担心 AI 图片脸崩手崩了

模型越小，处理速度越快，代价就是精度更低。

ADetailer 安装文生图

【万字长文】LLaMA, ChatGLM, BLOOM的参数高效微调实践

FFN通常有两个权重矩阵，先将向量从维度d升维到中间维度4d，再从4d降维到d。

大模型微调训练

Stable Diffusion

硬核解读Stable Diffusion（系列一）

论文进一步将不同的autoencoder在扩散模型上进行实验，在ImageNet数据集上训练同样的步数（2M steps），其训练过程的生成质量如下所示，可以看到过小的（比如1和2）下收敛速度慢，此时图像的感知压缩率较小

StableDiffusion 文生图

LangChain Agent 原理解析

Agent 可以是自主的，具备一定程度的智能和自适应性，以便在不同的情境中执行任务。

大模型

图解大模型训练之：张量模型并行(TP)，Megatron-LM

其中： · b：batch_size，表示批量大小 · s：sequence_length，表示输入序列的长度 · h：hidden_size，表示每个token向量的维度

开源模型

大规模训练系列之技术挑战

更多的 featuremap 意味着更强的学习能力，因此对比相同结构的小模型，大模型有着更好的精度。

开源模型

再超Transformer！Google| 提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

与全局注意力相比，循环块的主要优势在于它们使用固定的状态大小来总结序列，而 MQA 的 KV 缓存大小则与序列长度成正比增长。

transformer 训练

<...23 24 25 262728 29 30 31 32 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1