文章列表-AI魔法学院

文章列表

大规模训练系列之技术挑战

variances) = **16P** MS_FP32 = 16P(FP32的参数、动量、梯度、variances) = **16P** # SGD下，MS_FP32_ResNeSt269 = 0.1

开源模型

大模型实践总结

P-tuning的方法，P-Tuning v2方法在多层加入了Prompts tokens作为输入，带来两个方面的好处：带来更多可学习的参数（从P-tuning和Prompt Tuning的0.1%

大模型训练

2024，智谱如何更快？

比如价格，GLM-4升级后，API调用价格维持0.1元/千tokens不变，这已经是行业内较低水平。

GPT-4 大语言模型

最透彻的大模型PPO原理和源码解读

其中表示最后一个时刻）：但在deepspeed-chat的RLHF实践中，对做了另一种设计： · ：常量，可以理解成是一个控制比例的缩放因子，在deepspeed-chat中默认设为0.1

PPO 大模型源码解读

baichuan2 有什么好的深挖论文中涉及的知识点

我们使用权重衰减（weight decay）和 0.1，并将梯度范数剪裁到 0.5。

大模型

微调、训练大模型概念介绍及论文笔记：Tuning系列论文笔记

Insertion Form：采取并行结构的Adapter并且设计成multi-head的形式； Modified Representation：将0.1%的参数分配到multi-head结构的attn

训练微调

LangChain + ChatGLM2-6B 搭建私域专属知识库

ChatGLM2-6B 环境已经有了，接下来开始模型微调，这里我们使用官方的 P-Tuning v2 对 ChatGLM2-6B 模型进行参数微调，P-Tuning v2 将需要微调的参数量减少到原来的 0.1%

知识库

60分钟吃掉ChatGLM2-6b微调范例~

inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1

开源模型

人工智能大语言模型微调技术：SFT 、LoRA 、Freeze 监督微调方法

P-tuning v2 微调方法仅精调 0.1% 参数量（固定 LM 参数），在各个参数规模语言模型上，均取得和 Fine-tuning 相比肩的性能，解决了 P-tuning v1 在参数量不够多的模型中微调效果很差的问题

大模型微调

总结！大模型微调（Tuning）的常见方法

实验表明，仅精调0.1%参数量，在330M到10B不同参数规模LM模型上，均取得和Fine-tuning相比肩的性能。

微调大模型

使用自己的数据训练清华ChatGLM2-6B 模型

P-Tuning v2 将需要微调的参数量减少到原来的 0.1%，再通过模型量化、Gradient Checkpoint 等方法，最低只需要 7GB 显存即可运行。

ChatGLM2-6B

【2023.10】看目前巨头的AI原生产品布局

0、前言 0.1、为什么要与基座LLM小公司的文章分开巨头公司跟单纯的基座LLM公司有很多本质的不同，例如：对于巨头来说，没有“该选择做哪些而不做另一些”的问题，答案肯定是“我都要”，问题在于

大模型产品

万字长文，AI大模型的应用实践总结

带来更多可学习的参数（从P-tuning和Prompt Tuning的0.1%增加到0.1%-3%），同时也足够参数高效。

大模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

ensp; "kernel_size": 3, "p_dropout": 0.1

Bert-vits 语音

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

gt;word\_embedding=word\_embedding∗α+word\_embedding.detach()∗(1−α) 其中，alpha为0.1

大模型

<1 234 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1