��ģ��<�ݽ��·�ߣ��΢��ʵ��Ǳ��>

ģ��	ѵ��	ѵ��	ģ�Ͳ��	�ʱ��С
LLaMA	��Ӣ��Ϊ��ϵ��պ��	1T/1.4T tokens	7B��13B��33B��65B	32000
ChatGLM-6B	��Ӣ˫���Ӣ�ı��Ϊ1:1	1T tokens	6B	130528
Bloom	46��Ȼ��Ժ�13�ֱ��ԣ��	350B tokens	560M��1.1B��1.7B��3B��7.1B��176B	250880

ģ��	ģ�ͽṹ	λ�ñ��	����	layer norm
LLaMA	Casual decoder	RoPE	SwiGLU	Pre RMS Norm
ChatGLM-6B	Prefix decoder	RoPE	GeGLU	Post Deep Norm
Bloom	Casual decoder	ALiBi	GeLU	Pre Layer Norm

LLama

LLaMA[2]��Meta��Ĵ��ģ�͡�ѵ��Ӣ��Ϊ��ϵ��⻹��GitHub�Ĵ��ݡ�ѵ��Ӣ��Ϊ��к��ģ��ѵ��ݶ��ǿ�Դ�ģ��ִ�֮��Լ��1400B��tokens��

��ģ�Ͳ����LLaMAģ��7B��13B��33B��65B��ĸ��ͬ��ģ��ģ�Ͱ汾��7B��13B�汾ʹ��1T��tokens��ѵ��33B��65B�İ汾ʹ��1.4T��tokens��ѵ��[3]֤��ڸ��ѵ��Ԥ��£��ʹ��ģ�Ͳ��ֻҪ��Ԥѵ��ݴ�С��ѵ��ʱ��ѵ��tokens��Դﵽ��ԭʼ��Сģ�͵�Ч��Ϊ�Աȣ�280B��Gopherģ��ֻѵ��300B��tokens��176B��BLOOMģ��ֻѵ��350B��tokens��GLM-130Bֻѵ��400B��tokens��LLaMAģ��ѵ��1T/1.4T��tokens��ѵ��ӽ��ȻLLaMA-13Bģ�Ͳ��ֻ��GPT3�Ĳ��1/10��ڴ󲿷��Ч��GPT3��

ģ�ͽṹ�ϣ��GPT��ͬ��LLaMA��causal decoder-only��transformerģ�ͽṹ��ģ��ϸ��ϣ��¼��Ķ��

Pre-layer-normalization [�ο�GPT3]. Ϊ��ѵ��ȶ��ԣ�LLaMA ��ÿ�� transformer �Ӳ��й�һ��ʹ�� RMSNorm ��ֻ�о��û�о�ֵu��һ��Pre-normalization ��Zhang��Sennrich��2019��롣
SwiGLU ���� [�ο�PaLM]. û�в��ReLU����ǲ��SwiGLU����FFNͨ��Ȩ�ؾ��Ƚ��ά��d��ά��м�ά��4d��ٴ�4d��ά��d��ʹ��SwiGLU����FFN��һ��Ȩ�ؾ��󣬹��Ȩ�ؾ��Ϊ�˱��ֲ��һ�£��м�ά�Ȳ��\frac{2}{3}\cdot d ��4d.
λ�ñ��룺Rotary Embeddings [�ο�GPTNeo]. ģ�͵��벻��ʹ�� positional embeddings��ÿһ�� positional embeddings (RoPE)��RoPE ��Su��ˣ�2021��롣
ʹ��AdamW�Ż��ʹ��cosine learning rate schedule��
ʹ��ͷע��Чʵ��ڴ�ʹ�ú��ʱ�䡣��ʵ�ֿ��xformers�ҵ�

��һЩ��LLaMA��Ĵ�ģ�ͣ�

Alpaca��˹̹��ѧ��52k��Ӣ��ָ��ѭ��ݼ��΢��7B��ģ��LLaMA��
Vicuna��ݴ�ѧ��У��ShareGPT�ռ��û��Ի��ϣ�΢��13B��ģ��LLaMA��
baize��100k��ChatGPT��ϣ��LLaMAͨ��LoRA΢��õ��ģ�͡�
StableLM��Stability AI��LLaMA��΢��õ��ģ�͡�
BELLE��ҽ�ʹ��ChatGPT��ݣ��LLaMA��ָ��΢��Ľ��Ż��

�ʱ��չ��Chinese LLaMa

�ʱ��ı�Ҫ���� LLaMAԭģ�͵Ĵʱ��С��32000��tokenizer��Ҫ��Ӣ��Ͻ��ѵ��ģ��ϺͶ��Ч��ȽϲLLaMA��Ч��һ��LLaMAģ��Ӣ��Ϊ��ϵ��Ͻ��ѵ��ģ�ѵ��ϲ��ģ��һ��棬��tokenizer�йأ��ʱ��ģС��ܽ�һ��з�Ϊ��token��Ч�ʵͣ�ģ��ѧϰ�Ѷȴ�LLaMA�ʱ��ֻ��˺��ٵ��ַ��ڶ��ı��зִ�ʱ��Ὣ��зֵظ��飬��Ҫ��token��ܱ�ʾһ��֣��Ч�ʺܵ͡��չ��Ĵʱ��󣬵��ڱ��з�Ϊ1��token��һ��ֱ��з�Ϊ��token��⣬��ı��Ч�ʡ�

��չ�ʱ����[6]��չ�ʱ��token��ӵ��ʱ��У��ı��Ч�ʣ��巽ʽ��¡�

��ʹ��Sentence Pieceѵ��һ��tokenizer��ʹ��20000��Ĵʻ㡣Ȼ��tokenizer��ԭʼ�� LLaMA tokenizer�ϲ��ͨ��϶��ߵĴʻ��ջ��һ��ϲ��tokenizer��ΪChinese LLaMA tokenizer��ʱ��СΪ49953��
Ϊ��Ӧ�µ�tokenizer��transformerģ�͵�embedding�� V*h ��չ�� V'*h ��¼��token��ӵ�ԭʼembedding��ĩβ��ȷ��ԭʼ�ʱ��embedding��Ӱ�졣��Ӧ��Ҳ��Ҫ��ģ�
��Ͻ�һ��Ԥѵ��͹̶�transformer��ģ�Ͳ��ֻѵ��embedding��ѧϰ�¼��token�Ĵ��ʾ��ͬʱ��С��ԭģ�͵ĸ��š�
��ָ��΢��׶Σ��Էſ�ȫ��ģ�Ͳ��ѵ��

SwiGLU��

Swish����f

$(x) = x \cdot s i g m o d (�� x)$

��ǳ��߿�ѵ��

Swish��Կ��ǽ��Ժ��ReLU��֮��ƽ��.

GELU����

GELU��˹��Ե�Ԫ��һ��ǳ��Ⱥ��ʽ�ļ����RELU�ı��֡��16�� Gaussian Error Linear Units (GELUs) ��GPT-2��BERT��RoBERTa��ALBERT ��NLPģ��á��в��GELU�ľ�ȷ��ʽ��Ⱥ��Ľ��ʽ��£�

RELU��Dropout��ķ��û��ʲô�Ƚ��ӹ�ķ��ߺ϶�Ϊһ�أ��򻯷��棬Dropout��񾭵�Ԫ��0��0��Zoneout��RNN�ĵ�Ԫ��1��߾��ǽ��˷��Ӳ�Ŭ��ֲ��m ~ Bernoulli(p)��p��ָ��ȷ��Ĳ��ʾȡ1�ĸ��ʡ�

Ȼ����ѵ��Ͳ��ʱʹ�÷�ʽ��ȫ��ͬ��Ҫ��ȷ��Ե��ֱ�Ӷ��x��m��Dropout��ͬ��Dropout�ڲ��ʱ��0��ڸ��ʷֲ��ѧ��ȷ��ֵ��˿��Ը�Ϊ��E[mx]=xE[m]��ϲ�Ŭ��ֲ��ֵp=E[m]��

��ϣ��p�ܹ��x�Ĳ�ͬ��ͬ��x��Сʱ�Խϴ��ʽ��0�� Ԫ��ͨ��̬�ֲ��ڼ��Batch Normalization��У���p��̬�ֲ��ۻ��ֲ��

��̬�ֲ��ۻ��ֲ��sigmoid��ơ�

GELU��

$g (x) = x \cdot p = x �� (x)$

�� $�� (x)$ ��̫�ֲ��ۼƺ��

��ѧ�У����Ҳ��֮Ϊ��˹������

erf(x) �� tanh(x) �ȽϽӽ�

�ڴ��ʵ��п��ý��ƺ��erf(x)��ĸ��£�

$��$ ��SIGMOD����

��ܶ��Ѿ��о�ȷ��erf��㺯��ˣ��ֱ��ʹ�ã��ο��£�

# BERT��GPT-2 �ľ�ʽ GELU ʵ��
def gelu(x):
    return x * 0.5 * (1 + tf.tanh(np.sqrt(2/np.pi)*(x+0.044715*tf.pow(x,3))))
# ʹ��erf������ GELU ʵ��
def gelu(x):
    cdf = 0.5 * (1.0 + tf.erf(x / tf.sqrt(2.0)))
    return x * cdf

GELU vs Swish

GELU �� Swish ����x �� (��x)��ĺ��ʽ��ʷǳ��һ��ǹ̶�ϵ�� 1.702��һ��ǿɱ�ϵ�� £��ǿ�ѵ��Ĳ��Ҳ��ͨ��ȷ��ĳ��ߵ�ʵ��Ӧ�ñ��Ҳ����

GLU��Gated Linear Unit)

ԲȦ��λ��

�ڹ�ʽ�У��ͨ��м��g(x)=xW��ſز��ʹ��Sigmoid��ҽ��ӳ�䵽0��1֮��ķ�Χ��ʾÿ��Ԫ�ر��ĸ��ʡ�Ȼ�󣬽��x��ſغ��Ԫ��ˣ�� ⊗ ��õ��յ��

GLUͨ��ſػ��ƶ��аѿأ��Attentionһ��ɿ��Ƕ��Ҫ��ѡ��ǲ��ͨ�ü����ķ��ԣ����򴫲��ݶ�ʱ��ͨ����ResNet�в��еļӺͲ��ݶȣ��ܹ��ݶ��ʧ��⡣

Ϊʲô��Ա��sigmoid �� LSTM��ʹ�õ� gated tanh unit (GTU) ��ݶȣ�

GEGL

��GLU�ļ����

��GLU�е�sigmoid�滻ΪGELU��ʽ��£��bias��д��

GLU��W��V��ѧϰ�Ĳ��

GEGLUҲ��W��V��ѧϰ�Ĳ��GELU�滻SIGMOD

SwiGLU

��PaLM��ʹ��SwiGLU����
��FFN�У��FC->����->FC�У�һ�㶨��£�

��T5��û��ʹ��ƫ��Ҳ��ǣ�

ͬ��ɵã�

��ϼ����+δʹ��ƫ��+GLU�͵õ��

��PaLM�еļ����ˣ�Ч��Ҳ�ǲ��ģ�

PALM

��SwiGLU���� MLP �м伤���SwiGLU���� MLP �м伤���Ϊ��׼ ReLU��GELU �� Swish ��ȣ��GLU Variants Improve Transformer��ᵽ��SwiGLU �ѱ�֤��ģ��Ч��
��Parallel Layers��ÿ�� Transformer �ṹ�еġ��С��ʽ�� GPT-J-6B ��һ��ʹ�õ��Ǳ�׼��л��ʽ��й�ʽʹ��ģѵ��ٶ��˴�Լ 15%��ʵ��ʾ�� 8B ��ģ��Ч��½��С�� 62B ��û��ģ��Ч��½��
Multi-Query Attention��ÿ��ͷ��/ֵ��ӳ�䣬��key��͡�value��ͶӰ�� [1, h]��query��Ա�ͶӰ��״ [k, h]��ֲ��ģ��ѵ��ٶ�û��Ӱ�죬��Իع��ʱ��Ч��ʡ�˳ɱ��
ʹ��RoPE embeddings��ʹ�õĲ��Ǿ��Ի��λ��Ƕ�룬��RoPE��Ϊ RoPE Ƕ��ڳ��ı��Ͼ��и��õ�� 
��Shared Input-Output Embeddings:��embedding��ǹ��ģ��word2vec��W��W'

ChatGLM-6B

ChatGLM-6B��廪��ѧ��֧��Ӣ˫��ʴ�ĶԻ��ģ�͡�ChatGLM-6B��GLM-130B[4]��ͬ��ģ�ͽṹ��ֹ��2022��7�£�GLM-130Bֻѵ��400B��tokens��Ӣ�ı��Ϊ1:1��ChatGLM-6B��ʹ��˸��ѵ��ݣ��1T��tokens��ѵ��ֻ��ĺ�Ӣ�ģ��Ӣ�ı��Ϊ1:1��

ģ�ͽṹ�ϣ�ChatGLM-6B��prefix decoder-only��transformerģ�Ϳ�ܣ��ϲ��˫��ע��ƣ��ϲ��õ��ע��ơ��ģ��ϸ��ϣ��¼��Ķ��

embedding��ݶ�� Ϊ��ѵ��ȶ��ԣ��С��Embedding��ݶȡ��
$= word\_embedding * �� + word\_embedding . d e t a c h () * (1 - ��)$ ��У�alphaΪ0.1��detach��Ƿ��һ��µ�tensor��Ӽ��ͼ�з��ݶȣ��ݶ��Ч��൱�ڰ�Embedding��ݶ��С��10��
Layer Normalization��˳��Ͳв��ӱ��У��POST Normal��Deep Normal
$�� d e e p N o r m = L a y e r N o r m (x * �� + f (x)) ��$ ��f(x)��attention��FFN��൱��в��׼��
��ʼ��FFN,V_p,O_p��Xavier��w,gain=\beta��
��Q_p,k_p��Xavier��w,gain=1)
��Ԥ��ĵ��Բ㣻
��GEGLU���� ��ͨ��FFN��ʹ��ſص�Ԫ��GLU��һ��Ȩ�ؾ��󣬹��Ȩ�ؾ��Ϊ�˱��ֲ��һ�£��м�ά�Ȳ�� $\frac{8}{3} d$ ��4d.
λ�ñ����ȥ��˾��λ�ñ��룬��תλ�ñ��RoPE
ѵ��Ŀ����ChatGLM-6B��ѵ���Իع��ı����ڲ��causal decoder-only�ṹ�Ĵ��ģ�ͣ��prefix decoder-only�ṹ��ChatGLM-6B��һ��ƣ�ѵ��Ч�ʵ͡�causal decoder�ṹ��е�token�ϼ��ʧ��prefix decoderֻ��ϼ��ʧ��ϵ��ʧ��ͬ��ѵ��tokens��£�prefix decoderҪ��causal decoder��Ч����Ϊѵ��ʵ��õ��tokens��Ҫ��١��⣬ChatGPT�ĳɹ��Ѿ�֤��causal decoder�ṹ�Ĵ��ģ�Ϳ��Ի�÷ǳ��õ�few-shot��zero-shot��ͨ��ָ��΢��Խ�һ��ģ�͵��prefix decoder�ṹ�Ĵ��ģ��ܷ��൱��few-shot��zero-shot��ȱ��㹻��֤��
ѵ��ʱ��һ��ĵ��Mask��Ա�� һ��ʱ��ֳɶ��Tokens��Ȼ��Լ��Ʋ��Լ�
tokenizer��tokenizer��ChatGLM��25GB��Ӣ˫��ѵ��SentencePiece��Ϊtokenizer��ʱ��СΪ130528��

��һЩ��ChatGLM��Ĵ�ģ��Ӧ�ã�

langchain-ChatGLM�� langchain �� ChatGLM Ӧ�ã�ʵ�ֻ��ڿ��չ֪ʶ��ʴ�
�Ŵ��ģ�͵��ƽ̨�� ChatGLM-6B ʵ�� ChatPDF ��ܡ�

BLOOM

BLOOM[5]ϵ��ģ��BigScience�Ŷ�ѵ��Ĵ��ģ�͡�ѵ��ݰ��Ӣ���ġ������ȹ�46��ԣ��⻹��13�ֱ��ԡ�1.5TB��ȥ�غ��ϴ��ı��ת��Ϊ350B��tokens��ѵ��ݵ��Էֲ��ͼ��ʾ��Կ��ռ��Ϊ16.2%��

��ģ�Ͳ����BLOOMģ��560M��1.1B��1.7B��3B��7.1B��176B�⼸��ͬ��ģ��ģ�͡�BLOOMZϵ��ģ��xP3��ݼ��΢��õ��ģ��Ƽ��Ӣ��ʾ�ĳ��BLOOMZ-MTϵ��ģ��xP3mt��ݼ��΢��õ��ģ��Ƽ��ڷ�Ӣ��ʾ�ĳ��

ģ�ͽṹ�ϣ��GPT��ͬ��BLOOM��causal decoder-only��transformerģ�ͽṹ��ģ��ϸ��ϣ��¼��Ķ��

ʹ�� ALiBi λ��Ƕ�룬��ݼ��Ͳ�ѯ�ľ��ֱ��˥��ע��ԭʼ�� Transformer �� Rotary Ƕ��ȣ��Դ��ѵ��͸��õ��ܡ�ALiBi��ڴ�Ƕ��λ��Ƕ�룻�෴��ʹ��ɱ��ĳͷ��ƫ��ѯ��ע��֡�
Embedding Layer Norm �ڵ�һ��Ƕ��֮��ʹ�ã��Ա��ѵ��ȶ��
layer normalization��Ϊ��ѵ��ȶ��ԣ�û��ʹ�ô�ͳ��post layer norm��ʹ��pre layer Norm��
������GeLU����
��tokenizer��BLOOM�ڶ��ʹ��Byte Pair Encoding(BPE)�㷨��ѵ��õ�tokenizer��ʱ��СΪ250880��ʹ�� 25 ��ǵĴʻ��ʹ��ֽڼ� BPE��ǻ��Զ��δ֪��
ȫ��Ӳ㣺

��ѵ��Ŀ���ϣ�BLOOM��ѵ��Ŀ��ģ�ͣ��е��ȥԤ��һ��ʡ�

��һЩ��BLOOM��Ĵ�ģ��Ӧ�ã�

��ԯ: ��ģ�ͣ��С��BLOOM-176B�Ļ��ͨ��ͽ��Ե�Ԥѵ��΢��
BELLE: ��ҽ�ʹ��ChatGPT��ݣ��BLOOMZ-7B1-mt��ָ��΢��

tokenizer�Ƚ�

��ϼ��ģ�͵�tokenizer�Ĵʱ��С��ͬ��ͬһ��ı��ķִʽ��ͬ�Ľ��news_commentary��6.9��Ӣ��ƽ��Ͻ��зִʴ��Աȷִʽ��ͷִʺ�ʱ��¡��ƽ��token��ʾ��tokenizer�ִʺ�ÿ��ַ��Ӧ��ƽ��token��

ģ��	�ʱ��С	��ƽ��token��	Ӣ��ƽ��token��	��Ĵ��ʱ��(s)	Ӣ�Ĵ��ʱ��(s)
LLaMA	32000	1.45	0.25	12.60	19.40
Chinese LLaMA	49953	0.62	0.249	8.65	19.12
ChatGLM-6B	130528	0.55	0.19	15.91	20.84
Bloom	250880	0.53	0.22	9.87	15.60

�ӽ��

LLaMA�Ĵʱ��С�ģ�LLaMA��Ӣ��ϵ�ƽ��token��ģ��ζ��LLaMA��Ӣ�ķִʶ��Ƚ����Ƚ�ϸ��ȡ��ƽ��token��ߴ�1.45��ζ��LLaMA��ʻὫ��ַ��з�Ϊ2��ϵ�token��
Chinese LLaMA��չ�ʱ��ƽ��token��ͣ��Ὣһ��ֻ��з�Ϊһ��token��ı��Ч�ʡ�
ChatGLM-6B��ƽ��Ӣ�ķִ�Ч��õ�tokenizer��ڴʱ��Ƚϴ��Ĵ��ʱ��Ҳ��ӡ�
BLOOM��Ȼ�Ǵʱ��ģ��Ƕ��ֵģ��Ӣ��Ϸִ�Ч��ChatGLM-6B��൱��Ҫע��ǣ�BLOOM��tokenizer��transformers��BloomTokenizerFastʵ�֣��ִ��ٶȸ��졣

��ϣ��ֱ�۶ԱȲ�ͬtokenizer�ķִʽ��ж��β��⹳��ȡ��ɽ��ʮ�ݡ��16�֡��tokenizer�ķִʽ��£�

LLaMA�ִ�Ϊ24��token��Unicode��뼶��BPE��

[ '��', '<0xE5>', '<0x84>', '<0xBF>', '��',

'��', '<0xE5>', '<0xB8>', '<0xA6>', '<0xE5>', '<0x90>', '<0xB4>', '<0xE9>', '<0x92>', '<0xA9>',

 '��', '��', 'ȡ', '��', 'ɽ', '��', 'ʮ', '��', '��']

Chinese LLaMA�ִ�Ϊ14��token��

[ '��', '��', '��', '��', '��', '��', '��',

 '��', '��ȡ', '��', 'ɽ', '��ʮ', '��', '��']

ChatGLM-6B�ִ�Ϊ11��token��

[ '�ж�', '�β�', '��', '��', '��', ',', '��ȡ', '��ɽ', '��ʮ', '��', '��']

Bloom�ִ�Ϊ13��token��

['��', '��', '�β�', '��', '��', '��', '��', '��ȡ', '��', 'ɽ', '��ʮ', '��', '��']

��꽷��⣬��ά�ҷ�ޥƏ��ĳ��Ϊ15�֡��tokenizer�ķִʽ��£�

LLaMA�ִ�Ϊ37��token��

[ '<0xE6>', '<0x9D>', '<0x82>', '<0xE7>', '<0x94>', '<0xB3>',

 '<0xE6>', '<0xA4>', '<0x92>', '��', '<0xE8>', '<0x8F>', '<0x8C>',

'<0xE6>', '<0xA1>', '<0x82>', '<0xE5>', '<0x85>', '<0xAE>', '��',

 '<0xE5>', '<0xB2>', '<0x82>', '<0xE7>', '<0xBB>', '<0xB4>', '<0xE7>',

 '<0xBA>', '<0xAB>', '��', '<0xE8>', '<0x95>', '<0x99>', '<0xE8>', '<0x8C>',

'<0x9D>', '��']

Chinese LLaMA�ִ�Ϊ17��token��

[ '��', '��', '��', '��', '��', '��', '��', '��', '��', 'ά', '��', '��', 'ޥ',

'<0xE8>', '<0x8C>', '<0x9D>', '��']

ChatGLM-6B�ִ�Ϊ17��token��

[ '��', '��', '��', '��', '��', '��', '��', ',', '��', 'ά', '��', '��', 'ޥ',

 '<0xE8>', '<0x8C>', '<0x9D>', '��']

Bloom�ִ�Ϊ17��token��

['��', '��', '��', '��', '��', '��', '��', '��', '��', 'ά', '��', 'ޥ', '��']

��ӿ��Կ��LLaMA�ʱ��а��˼��ַ��֡��Ҳ��з�Ϊ��3��token��Chinese LLaMA��ChatGLM-6B��Bloom�Ĵʱ��򸲸��˴󲿷��ĳ��֣��Ҳ��һЩ��ĳ��ôʣ��綼�ѡ��ȡ��з�Ϊ��һ��token��һЩ��Ƨ�ʣ��硰Ə��Ҳ��з�Ϊ2-3��token��ܵ��˵��LLaMAͨ��Ὣһ��ĺ��з�Ϊ2��ϵ�token��ı��Ч�ʵͣ�Chinese LLaMA��ChatGLM-6B��Bloom��ķִʵı��Ч��ߡ�

Layer Normalization

��ͼ��ʾ��layer normalization��λ�ò�ͬ��Է�Ϊpost layer norm��pre layer norm��

post layer norm��ԭʼ��transformer�У�layer normalization�Ƿ��ڲв��֮��ģ��Ϊpost LN��ʹ��Post LN��transformerģ��׳��ѵ��ȶ��⡣��ͼ��ʾ��post LN��transformer��ļ���ݶȷ��ѵ��Ĳ��ȶ��ԡ�

pre layer norm��ı�layer normalization��λ�ã���ڲв��ӵĹ����self-attention��FFN��֮ǰ��Ϊ��Pre LN��ͼ��ʾ��Pre layer norm��ÿ��transformer��ݶȷ��ȣ��ѵ��ȶ��ԡ��post LN��ʹ��pre LN��transformerѵ��ȶ��Ի��ѵ��ȶ��⡣��ȱ��pre LN��ܻ��΢Ӱ��transformerģ�͵�� ��ģ�͵�һ��ս����ѵ��ȶ����Ϊ��ѵ��ȶ��ԣ�GPT3��PaLM��BLOOM��OPT�ȴ��ģ�Ͷ��pre layer norm��

layer normalization��Ҫ��ƽ�Ʋ��Ժ��Ų���� [8]��Ϊlayer normalizationȡ�óɹ��Ҫ��Ų��ԣ��ƽ�Ʋ��ԡ��ˣ�ȥ��˼��е�ƽ�ƣ�ֻ��ţ��˼򻯣��RMS Norm��Root Mean Square Layer Normalization��norm��

layer normalization�ļ��̣�

RMS��̣�

��layer normalization��RMS normȥ��˼��ֵ��ƽ�ƵĲ��֣��ٶȸ��죬Ч��൱��Gopher��LLaMA��T5�ȴ��ģ�Ͷ��RMS norm��

[9]��Deep Norm��Ի��ⱬըʽģ�͸��µ��⣬��ģ�͸��ڳ��ʹ��ģ��ѵ��̸��ȶ��أ�Deep Norm��ִ��Layer Norm֮ǰ��up-scale�˲в��ӣ�\alpha>1��⣬�ڳ�ʼ��׶�down-scale��ģ�Ͳ��(\beta<1)��ChatGLM-6B��˻��Deep Norm��post LN��

����

ÿ��transformer��Ϊself attention��FFN��֡�FFNͨ��Ƚ��ά��d��ά��м�ά��4d��ٴ�4d��ά��d��FFN�ļ��㹫ʽ��£�

��У�f()Ϊ��Լ����㷺ʹ�õļ����gelu(Gaussian Error Linear Unit)��swish��swish��һ��ſؼ����

geluҲ��һ��ͨ��ſػ��Ƶ��ֵ�ļ����swish��ƣ��tanh�� \sigma��ơ�

[10]��ſ��ε�ԪGLU��Gated Linear Units��FFNֻ��Ȩ�ؾ��ʹ��GLU��FFN��һ��Ȩ�ؾ��󣬼��ʽ�е�V��Ȩ�ؾ��󣬻��˸��õ�ģ��ܡ�

ʹ��gelu����GLU��㹫ʽΪ��

ʹ��swish����GLU��㹫ʽΪ��

λ�ñ��

��transformerģ�ͣ�λ�ñ��Ǳز��ٵġ��Ϊattentionģ��޷��׽��˳��ģ��޷��ֲ�ͬλ�õ�token��λ�ñ��Ϊ��λ�ñ��λ�ñ��롣

��ֱ�ӵķ�ʽ��ѵ��ʽλ�ñ����λ�ñ��뵱��ѵ��ѵ��һ��λ�ñ��GPT3�Ͳ��ַ�ʽ��ѵ��ʽλ�ñ��ȱ��û����ѵ��ʱ��г��Ϊ2048��ƶ�ʱ��ֻ�ܴ��Ϊ2048��У��Ⱦ��޷��ˡ�

��[11]����תλ�ñ��RoPE��ѵ��ʽ��λ�ñ��token embedding�ϣ��תλ�ñ��RoPE��ÿ��transformer��self-attention�飬�ڼ��Q/K֮����תλ�ñ��Q/K����ټ��attention score����תλ�ñ��ͨ��Ա��ķ�ʽʵ��λ�ñ��룬��õ����ֵ��һ��ǣ�RoPE��ѵ����LLaMA��GLM-130B��PaLM�ȴ��ģ�;Ͳ��תλ�ñ��RoPE��

ALiBi��Attention with Linear Biases��[12]Ҳ��ÿ��transformer��self-attention�飬��ͼ��ʾ��ڼ��attention score��ֱ��Ϊattention score��һ��Ԥ��õ�ƫ�þ��ƫ�þ��Ԥ��õģ��̶��ģ��ѵ��ƫ�ø��q��k��Ծ��ͷ�attention score��Ծ��Խ�󣬳ͷ��Խ��൱��token�ľ��ԽԶ��໥��׾�ԽС��ALiBiλ�ñ��õ��ԡ�BLOOM�Ͳ��λ�ñ��롣

��Ч��΢�� PEFT

��Ŵ��ģ�͵Ĳ��Խ��Խ�󣬽��д�ģ�͵�ȫ��΢��ɱ��ܸߡ��߳ɱ��Ҫ��Ӳ��ԴҪ��ߣ��Դ�ռ�öࣻѵ��ٶ��ʱ��洢�ɱ��ߡ��Ч��΢��parameter-efficient finetuning techniques��PEFT��΢��ģ��ʱֻѵ��һС��ֲ��ѵ��ȫ��ģ�Ͳ��Ч��΢��¼��ŵ㣺

�Դ�ռ��٣��Ӳ��ԴҪ��
ѵ��ٶȿ죬��ʱ��
��͵Ĵ洢�ɱ��ͬ��Թ��󲿷ֵ�Ȩ�ز��
��ܻ��и��õ�ģ��ܣ��˹��

prompt tuning

prompt tuning[13]ԭ��ĺ��ָ��ͨ��޸��prompt��ø��õ�ģ��Ч��ʾ�ǡ�Ӳ��ʾ��hard prompt��ֱ��޸��prompt��prompt�ǲ��ɵ��ġ�

�롰Ӳ��ʾ��Ӧ��ʾ΢��soft prompt tuning��һ��ѵ��ı��embeddingsƴ��ѵ��ͨ��򴫲��Ż��Ŀ��ģ��Ч��Ŀ�ѵ��Ϊprompt�ı��Ӧ��embedding��һ��soft prompt��ͼ��ʾ��ѵ��״��[virtal_tokens_sum,embed_size]

prompt tuning��ģ��ԭʼ�Ĳ��ֻѵ��ӵ�prompt��prompt tuning��Ż��ģ�Ͳ��Ч��á�

prefix tuning

prefix tuning[14]��prompt tuning��ƣ��һ��ض��ӵ��룬��ǿ�ѵ��ģ��Ԥѵ��ģ�͵Ĳ��䡣��Ҫ��£�

prefix tuning��prefix��ѵ��ӵ��е�transformer�㣬��prompt tuningֻ��ѵ��ӵ��embedding��أ�prefix tuning�Ὣprefix��Ϊpast_key_value��ӵ��е�transformer�㡣
��һ��FFN��Ż�prefix��ֱ��Ż�soft prompt��Ϊ��ɲ��ȶ��ܡ��ڸ��soft prompt�󣬾Ͳ��ʹ��FFN�ˡ�

prefix tuning��prompt tuning��λ�ò�ͬ��е��ڿ�ѵ��ʽλ�ñ��תλ�ñ��RoPE��ǰ��ֱ��embedding�ϣ��transformer��self-attention�飬�ڼ��õ�K��V��ѵ��prefix��ƴ��

prefix tuning��ѵ��״�� [virtual\_tokens\_num,2\times layer\_num \times hidden\_size]��ͼ��LLaMA-7B��prefix tuning��ӣ�LLaMA-7B��32��transformer�㣬��ά��Ϊ4096�� 30,262144=2\times 32 \times 4096��30��Ӧ��2��Ӧ��K��V��

Adapter

adapter[16]��ĳ�̶ֳ��prefix tuning��Ƶģ��߶��ǰѶ��Ŀ�ѵ��ӵ�ÿ��transformer�㡣��֮ͬ��ǣ�prefix tuning�ǰ�prefix��ӵ��embedding��adapter��λ�ò��adapter �㣬��ͼ��ʾ��

LLaMA-Adapter

LLaMA-adapter[16]��prefix tuning��adapter��prefix tuning��ƣ�LLaMA-adapter��embed��˿�ѵ��prompt��Ҫע��ǣ�prefix��һ��embedding��ѧϰ�ͱ��ֵģ��ⲿ��ġ�ÿ��transformer�㶼�и��Բ�ͬ�Ŀ�ѧϰprefix��ͬģ�Ͳ��и��Ƶ��Ӧ��

��ͼ��ʾ��LLaMA-adapter��ʼ��ע��ƺ��ſػ��ơ��adapter��prefix tuning��ʼ��prefix prompts��adapter layers��ܴ��ܻ��Ԥѵ��ģ�͵��ѧ֪ʶ��ѵ��ʼ�׶ε�΢��ȶ��ͺܸߵ��ʧ��

��һ��Ҫ��ǣ�LLaMA-adapterֻ��L��transformer��˿�ѧϰ��adaption prompts��Ǹ��е�transformer�㶼��ӡ��Ϊ��ַ��Ը��Ч��΢��רע�ڸ߼��Ϣ��Ա�ʾ��

��ظ��һЩEfficient PEFT

1-Adapter-2019

˼·��Transformer Block��һЩС��Adapter

Adapter�ǽ��ģ��ܻᵼ��ģ�ͱ��ͣ��Lora��

2-Prompt Tuning

�ֹ�Prompt��Hard Prompt��Ҫ��֪ʶ

��ѧPrompt��Soft Prompt

ģ��ס��Prompt��һЩ��ѧϰ��vector prompt��ģ��ȥ��Щvectorʹ�ÿ��ԶԸ��Ȼÿ��и��ԵĿ�ѧϰprompt

�̶�Ԥѵ��Ϊÿһ��һ��embedding��֮��ƴ��query��LLM��ֻѵ��Щembedding��ͼΪ��ȫ��΢��ͼΪprompt tuning��

Prefix Tuning

prefix tuning��Ȼ�ǹ̶�Ԥѵ��Ϊÿһ��һ��embedding֮�⣬��ö��֪��prefix��ע��֪��prefix�ı��prompt tuning��LLM��

embedding = torch.nn.Embedding(num_virtual_tokens, token_dim)
transform = torch.nn.Sequential(
    torch.nn.Linear(token_dim, encoder_hidden_size),
    torch.nn.Tanh(),
    torch.nn.Linear(encoder_hidden_size, num_layers * 2 * token_dim),
)
peft_config = PrefixTuningConfig(task_type="CAUSAL_LM", num_virtual_tokens=20)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, return_dict=True)
model = get_peft_model(model, peft_config)

P-Tuning v1-v2

P-Tuning v1��LSTM��Prompt��б��

��prefix-tuning��˿�΢��virtual token��ǽ��룬û��ÿ��ӣ��virtual token��λ��Ҳ��һ��ǰ׺��λ��ǿ�ѡ�ġ��ĳ��ʵ��ǰѴ�ͳ�˹��ģ��е��ʵtoken�滻�ɿ�΢��virtual token��
�Ż��virtual token��ս��Ԥѵ��LM�Ĵ�Ƕ��Ѿ��ø߶��ɢ��ʼ��virtual token��Ż��ֲ��ֵ��Щvirtual token��Ӧ��ع��ģ��ν�ģ��ֹ��Ҳ��⡣��Ȼʵ��ʵ��У��߷��ֵ��һ��prompt encoder��죬Ч��á�Ҳ��˵��һ��LSTM+MLPȥ��Щvirtual token�Ժ��뵽ģ��
��߻��ʵ��Լ�һЩanchor token��ı��̺��ǰ��ͼ��裬�ж��Ƿ��̺��һ��ģ��ǣ��ǰ��롿��continuous tokens��롿��continuous tokens��MASK��һ��anchor token��?��Ч��ã�Ҳ��ǡ�ǰ��롿��continuous tokens��?��롿��continuous tokens��MASK��
��continuous tokens��λ�ã�token��Ƕ��٣�Ӧ��Ҳ��Ӱ�죬��õ��3��continuous tokenȥ�ָ��룬��ı��̺��ӡ�

P-Tuning v2

Deep Prompt Tuning on NLU
��Prefix-tuning��ǰ��ÿ��΢��Ĳ��
ȥ��ز��ı��
��ǰ�ķ��ز��ѵ��ٶȺ�³��ԣ��磬��prefix-tunning�� MLP �� P-tuning�� LSTM�� P-tuning v2 �У��߷��ز��ĸĽ��С��Ƕ��ڽ�С��ģ�ͣ�ͬʱ��Ӱ��ģ�͵ı��
��ѡ�Ķ��ѧϰ
Deep Prompt Tuning��Ż��ͨ��Ӷ��ݻ��ޱ�ע��⣬ͬʱ��΢��prefix continuous promptҲ��Ĺ��֪ʶ��˵��NER�У��ͬʱѵ��ݼ��ͬ��ݼ�ʹ�ò�ͬ�Ķ��classifer��prefix continuous prompt�ǹ��
�ع鴫ͳ��CLS��token label classifier
��Ҫ��Ϊ�˽��һЩû��ı�ǩ��

Prefix,Prompt,P-Tuning ��

Prefix��磬��control code��Token��ÿ��ӦһЩ��Token��ֻ��ھ��ף�ʹ��MLP��һ��ת��

Prompt Tuning��Prefix Tuning�ļ򻯰汾��ʹ��100��prefix token��ֻ��Embedding΢��MLP

P-Tuning v1ʹ��˫��LSTM+��MLP��prompt�任��ģ�͸��µ��LSTM+MLP��

P-Tuning v2��ÿ�㶼��ѧϰprompt vector��prompt��Ԥѵ��ģ��֮��ģ��൱��ÿһ��ݵ��һ��ʱ��ǰ��length*embedding dimension�ļ��ģ�ͼ��attention��Щprompt��prompt��ľ��ȥ��ֻ��ÿһ�㶼��ǰ�棬��ܵĿ�ѵ��Ĳ��number of layers * prompt length * embedding dimensions

��Ӿ��Prompt

��ͼƬ��ı��

VPT shallowֻ��prompt��

deep��prefix tuning��ÿһ��Transformer��һЩ��ѧϰ��Vector��Vectorֻ��Ϊ��룬��Ǳ��˵��

Lora

LoRA��Ԥѵ��ģ�͵Ĳ��ÿһ��decoder�м��dropout+Linear+Conv1d��Ĳ��

peft_config = LoraConfig(task_type="SEQ_CLS", inference_mode=False, r=8, lora_alpha=16,

lora_dropout=0.1)

model = AutoModelForCausalLM.from_pretrained(model_name_or_path, return_dict=True)
model = get_peft_model(model, peft_config)

AdaLoRA

20230318

Ԥѵ��ģ��еĲ�ͬȨ�ز��Ĺ��ǲ�ͬ�ġ��Ҫ��ܵط��Ԥ�㣬�Ա��΢��и��Ӹ�Ч�ظ��Щ��ģ��ܹ��׽ϴ�Ĳ��

��˵��ͨ��ֵ�ֽ⽫Ȩ�ؾ��ֽ�Ϊ��󣬲��µ��Ҫ�Զ��̬�ص��ÿ��ֵ�Ĵ�С��ʹ��΢��ֻ��Щ��ģ��ܹ��׽ϴ��Ҫ�Ĳ��Ӷ��ģ��ܺͲ��Ч�ʡ�

��

Ϊʲô��Decoder only

LLM֮��Ҫ��Decoder-only�ܹ��ѵ��Ч�ʺ͹��ʵ��ϵ��⣬��ΪEncoder��˫��ע��ڵ��⣬��ܻ��ģ�ͱ��ԣ��˫��ע��ʵ�ʺô��Encoder-Decoder�ܹ�֮��ܹ��ĳЩ��±��ָ��ã��ֻ��Ϊ��һ��ԣ��ͬ�Ȳ��ͬ��ɱ��£�Decoder-only�ܹ��ѡ��ˡ�

��֪��Attention��һ��һ��ȷֽ�ľ��softmax��˵��һ�� n �� d �ľ�� d �� n �ľ��˺��ټ�softmax��n ≫ d ��ʽ��Attention�ľ��Ϊ��½��Բο��Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth��Decoder-only�ܹ��Attention��һ��ע��ʽ��Խ��Ԫ��֮��softmax�Ĵ��ڣ��Խ��߱�Ȼ��ʽ��Ȼ��Decoder-only�ܹ��Attention��һ��ȵģ��ζ��и�ǿ�ı��Ҳ��˵��Decoder-only�ܹ��Attention��Ͼ��и�ǿ�ı��Ϊ˫��ע��ò��㡣

prefix LM��causal LM��

attention mask��ͬ��ǰ�ߵ�prefix��ֵ�token��ܿ��ϸ��ֻ�к��token��ܿ��ǰ��token�Ĺ��

ChatGLM-6B[1] prefix LM

LLaMA-7B[2] causal LM

GPTϵ�о��Causal LM��Ŀǰ��T5��GLM��ģ�ͻ��϶��Causal LM��

˵һ��LLM��⣿

��ָ��⡣

��磺ABCABCABC��ѭ��max length��

��һ��ֱ�۵Ľ��ͣ��룩��prompt��ͨ��ܳ��ı�ʱ��Խ��ƿ��䣬��ô�� P(B|A)Ҳ��䣬һֱ��ġ�

��ظ��ݣ��ģ�ͱ��һ��㣬��Ƿ�΢��п��ܳ��֡��ң��õ�ָ��΢��ܹ��ģ��ظ��ݵ��⡣[3]��Ϊָ��΢��Ե��⣬��ʵ��о��ָ��΢��󸴶��ص��

��⣬��ܳ��ظ��û��ԭ��δ֪��

��λ��⸴��⣿

��뷽ʽ��Ӳ�ȷ��ԣ��Ȼ��׸��Ǿ��ԣ��do_sampleѡ���temperature��

��ѧ��̫�ã�do_sampleҲ��أ���ظ��ͷ���repetition_penalty��ע��̫��ˡ��Ȼ��ᷢ��Ŷ��ˡ�

llama ��ӳ��Ͽ��޳��

��RoPE��ߣ��Ⱥ��Ļظ��

��ѵ��ݡ��rope��llama��Դ��޳��ȣ��̫��Ч��ð��ûѵ��ĳ��Ч��ͨ��á��취��ûѵ��ĳ��Ч��ã��ͽ��ԡ��⡣

��Խ��2k�ĳ��ưɡ�

Ϊʲô��ģ��ʱ�Դ��ǵ��ô�໹һֱռ�ţ�

��ȣ��̫��ˣ��кܶ�Q/K/V��

��Σ��Ϊ��Ԥ��next token��ÿ��Ҫ��K/V��ٽ��롣

��ģ�ʹ��ж��ģ��ļ��ж��?

һ��ų��ģ��ļ��fp16�ģ��һ�� n B��ģ�ͣ��ôģ��ļ�ռ 2n G��fp16��ص��Դ��Ҳ��ռ 2n G��pr�� 10n �ڲ��ģ�͡�

��ģ��gpu��cpu��ٶ��Σ�

7B��£�cpu��ٶ�Լ10token/s��A6000��8��AMD��ٶ�ͨ��Ϊ 10:1��[5]

�ܷ��4 * v100 32Gѵ��vicuna 65b��

��ܡ�

��ȣ�llama 65b��Ȩ��Ҫ5* v100 32G��ص�GPU��

��Σ�vicunaʹ��flash-attention��ѵ��ݲ�֧��v100��Ҫturing�ܹ�֮��Կ��

��շ��fastchat�Ͽ��ͨ��train�ű�ѵ��vicuna��train_mem��ʵҲ�ǿ��ѵ��ģ�

V100�²�Ҫ�� 8bit ģʽ��ѵ��alpaca_lora�ĸ��Ϻܶ��lossͻ��Ϊ0��bug��

��Ҫ��ĳ��ģ�ͻ��ȫ��΢��Ҫ��Դ棿

һ�� n B��ģ�ͣ��Ҫ 16-20 n G��Դ档(cpu offload��£�

vicuna-7BΪ��ٷ��Ϊ 4*A100 40G��һ��ȷʵ��ռ��Դ档��global batch size 128��max length 2048��Ȼѵ��ʱ��FSDP��ݶ��ۻ��ݶȼ��ȷ�ʽ��Դ档

��ٶ��ϣ�int8��fp16��ô��

��ʵ��飬int8ģʽһ��Ա��huggingface��ʵ�֣�

��Ҫ��65bģ�ͣ��Դ治��ô�죿

��ٴ��50g�Դ棬��llama-65b-int4��gptq��ģ�ͻ��LoRA[6]��Ȼ��ֿ�Ҫ��װ��ư汾�ġ�

LoRAȨ��Ƿ��Ժ��ԭģ�ͣ�

��ԣ��ѵ��õĵ��Ⱦ��B*A��+ԭģ��Ȩ�غϲ��ӣ��µ�Ȩ�ء�

ChatGLM-6B LoRA��Ȩ�ض��

rank 8 target_module query_key_value��£��Լ15M��

SFT��мල΢��ݼ��ʽ��

һ��һ��

RM��ģ�ͣ��ݸ�ʽ��

һ�� + һ��ûش�� + һ��ش��

PPO��ǿ��ѧϰ��ݸ�ʽ��

��˵��Ҫ��ݡ��Ҫ�ṩһЩprompt��ֱ��sft�׶ε��ʡ��⣬��Ҫ��ģ�Ͳ�Ҫƫ��ԭģ��̫Զ��ptx loss��Ҳ��ֱ��sft��ݡ�

��ģ��Ҫ�ͻ��ģ��һ��

��ͬʵ�ַ�ʽ�ƺ��Ʋ�ͬ��ʵ��ȷ�ϣ�colossal-ai��coati��Ҫģ��ͬ��tokenizer��ѡģ��ֻ�ܴ�ͬϵ����ppo�㷨ʵ�ַ�ʽ�Ͼ�˵trlx��ĵġ�

��θ�LLMע��֪ʶ��

��һ�ְ취��+LLM��ݿ��ѡ�𰸣��LLM�Դ𰸽��мӹ��

�ڶ��ַ��֪ʶ��ʴ��ݼ��SFT��LLMѧϰ�ⲿ��֪ʶ��[7]

ΪʲôSFT֮��о�LLMɵ��?

SFT��ص��ڼ��ģ�͵��SFT��һ��Ҳ��֮Դalpaca��ݼ��52k��Ԥѵ��ݻ��̫��ˡ��Ź�ע��֪ʶ��Ǽ��뷨��ȥ��SFT�Ļ��ȷʵ��װ�LLMŪɵ��
ָ��΢��Ϊ��ǿ��ģ�͵��
��ã�
ָ��΢��󣬴��ģ��չ�ֳ��δ��׿Խ��ʹ�ڶ��Գ��Ҳ��в��

΢��ݼ��
Ӧ��ѡ��д��Ե��ÿ��ʵ��Ӧ̫�ࣨ��磺��ٸ��ܻ�Ǳ�ڵص��¹��ⲢӰ��ģ��
ͬʱ��Ӧ��ƽ�ⲻͬ��ı��ݼ��ͨ��ǧ��򣩣��ֹ�ϴ��ݼ�ѹ��ֲ��

��Ҫ��ģ�ͣ��ô�죿

�Ƽ�fastchat��˸�·��Դģ�ͣ��Լ��vicuna��stable AI��stableLM��

��ݼ��ң�

�Ƽ�Alpaca-COT��ݼ��ķǳ�ȫ��ۻ��ҡ�

ת��ChatGLM2΢��ļ��

1.  torch>=2.0, ����΢���ᱨ�ܶ����(�������������õͰ汾);
2.  tokenizer.encode���Ϊ [gMASK, sop, ��ʵ�ı�token]
    64789 = {str} '[MASK]'
    64790 = {str} '[gMASK]'
    64791 = {str} '[sMASK]'
    64792 = {str} 'sop'
    64793 = {str} 'eop'
3.  modeling_chatglm.py�Դ�get_masks()�Ĵ���full_attention_mask -= padding_mask.unsqueeze(-1) - 1��Ϊ
                full_attention_mask = full_attention_mask.long() - padding_mask.unsqueeze(-1).long() - 1
4.  ��֧��gradient_checkpointing, �޸��Ļ���Ҫmodeling_chatglm.py����get_input_embeddings, set_input_embeddings;
5.  modeling_chatglm.py�е�ChatGLMForConditionalGeneration��forward�����е�
      if full_attention_mask is None:  ǰ����  batch_size, seq_length = input_ids.shape
6.  get_mask(), һֱ��������chatglm��mask/position��һЩ�ɻ�;
    def get_masks(seq, bos_token_id):
        """  code from model_chatglm.py  """
        if seq.count(bos_token_id) == 2:
            context_length = seq[2:].index(bos_token_id) + 2
        else:
            context_length = seq.index(bos_token_id)
        attention_mask = torch.ones((1, len(seq), len(seq)))
        attention_mask.tril_()
        attention_mask[..., :context_length] = 1
        # attention_mask.unsqueeze_(1)
        attention_mask = (attention_mask < 0.5).bool()
        return attention_mask
7.  �ϸ��չٷ�prompt�����������:
    ���룺"[Round 1]\n\n�ʣ�{}\n\n��"
    �����"{}"
    ����id: [gMASK, BOS, ����tokens]
    ���id: [gMASK, BOS, ���tokens, EOS]

��Ӧ��LLM΢��еġ��⣿

1. teacher-student training��ѵ��ʱ��ʧ��teacher��ʵ��עһ��

2. ��΢��ʱ��һЩ��ĶԻ��ϣ��Ϊ��Լ��ģ�Ͳ�Ҫ��ϡ��΢��Ŀ��Ƚ��Ƶ�Ԥ�ϡ�

������
���µĺܶ���������վ��վ�⣬��ƪ��������������Ϊ���Լ�ѧϰ��¼���ã������Լ����ĵ�

LLama

�ʱ���չ��Chinese LLaMa

SwiGLU����

Swish�����f

GELU�����

GLU��Gated Linear Unit)

GEGL

SwiGLU

PALM

ChatGLM-6B

BLOOM

tokenizer�Ƚ�

Layer Normalization

�����

λ�ñ���

��Ч����΢������ PEFT

prompt tuning

prefix tuning

Adapter

LLaMA-Adapter

���ظ�����һЩEfficient PEFT

1-Adapter-2019

2-Prompt Tuning

Prefix Tuning

P-Tuning v1-v2

P-Tuning v2

Prefix,Prompt,P-Tuning ������

���Ӿ�������Prompt

Lora

AdaLoRA

���

Ϊʲô��Decoder only

prefix LM��causal LM������

˵һ��LLM���������⣿

llama ������ӳ��������Ͽ������޳���

Ϊʲô��ģ������ʱ�Դ��ǵ���ô�໹һֱռ�ţ�

��ģ�ʹ���ж��ģ���ļ��ж��?

��ģ����gpu��cpu�������ٶ���Σ�

�ܷ���4 * v100 32Gѵ��vicuna 65b��

�����Ҫ��ĳ��ģ�ͻ�������ȫ����΢����������Ҫ�����Դ棿

�����ٶ��ϣ�int8��fp16��������ô����

���������Ҫ����65bģ�ͣ������Դ治����ô�죿

LoRAȨ���Ƿ���Ժ���ԭģ�ͣ�

ChatGLM-6B LoRA���Ȩ�ض��

SFT���мල΢���������ݼ���ʽ��

RM������ģ�ͣ������ݸ�ʽ��

PPO��ǿ��ѧϰ�������ݸ�ʽ��

����ģ����Ҫ�ͻ���ģ��һ����

��θ�LLMע������֪ʶ��