��ķ��̳̣�ͼ��Transformer

ԭ�ģ��ķ��̳̣�ͼ��Transformer (cuijiahua.com)

һ��ǰ��

��Һã�� Jack��

��ͼ�� AI �㷨ϵ�н̵̳ĵڶ�ƪ�� Transformer��

Transformer ��ܶ��Ȥ��顣

��д��ġ��Լ�ѵ��AI��ҫ��ʲô��飿��

�ٱ�� OpenAI �� DALL��E��ħ��һ��ذ��Ȼ��ֱ��ɶ�ӦͼƬ��

��ı��״�ķ��Ρ�

AI ��ɵ�ͼ��

��ķ��̳̣�ͼ��Transformer

��߶����ģ̬��Ӧ�ã��Ҳ�Ǹ��ͷ�ĸ��򣬿�ν����

Transformer ��ҪӦ��һЩ��Ȼ��Դ��緭�롢�ı��ࡢдС˵��д��ȡ�

��ż��ķ�չ��Transformer ��ʼ��ս�Ӿ��򣬷��ࡢ��ڻ��£����ģ̬�ĵ�·��

��ķ��̳̣�ͼ��Transformer

Transformer ��ǳ��𱬣��Ҳ�ܶ࣬Ҫ�뽲��漰һЩ��ڸýṹ��Ԥѵ��ģ���� BERT��GPT��Լ��ճ�� DALL��E �ȡ�

��Ƕ��ǻ�� Transformer ��ϲ�Ӧ�ã��Ϊ Transformer ��ѵ����ͷ�Ǿͼ縺��츣��ڵ�ʹ��Դ�˸��ֺ��õ�Ԥѵ��ģ����

��Ƕ��վ�ھ��˼��ѧϰ��ÿ�Դ��Ԥѵ��ģ����һЩ�ض��Ӧ�ó��Ǩ��ѧϰ��

ƪ��ޣ��Ƚ�� Transformer �Ļ��ԭ��ϣ��ÿ��˶��Կ��

��һ��д BERT��GPT ��ݣ��¿��һЩ��Ǹ��ѧ��Զ��ջ�

��Ǿ仰����ϲ�� AI �㷨ϵ�н̳̣�һ��Ҫ��֪��ת��ڿ�֧�֣��ĸ��ж��

��Transformer

Transformer �� Google �� 2017 ��ڻ��ģ�͡�

��ķ��̳̣�ͼ��Transformer

Transformer ��ڲ��ڱ��һ�� Encoder-Decoder �Ľṹ�� ��-����

��ķ��̳̣�ͼ��Transformer

Transformer ��˴�ͳ�� CNN �� RNN��ṹ��ȫ�� Attention ��ɣ��Ҳ�� 6 �� Encoder-Decoder �ṹ��

��ķ��̳̣�ͼ��Transformer

��Ȼ��Transformer ��Ҫ��Ϊ��󲿷���ֱ����������

�� Transformer �� 6 ��Ľṹ��ɣ�Ϊ�˷��⣬��ֻ��һ��Encoder-Decoder �ṹ��

��һ��򵥵��ӽ��˵��

��ķ��̳̣�ͼ��Transformer

Why do we work?��Ϊʲô��

������Ҳ������

����Ȼ��ӳ��Ϊ��ز㣨��ͼ��2��Ȼ��е��ѧ��

����ز��ӳ��Ϊ��Ȼ��У��Ӷ�ʹ��ǿ��Խ��⣬��з��롢ժҪ��ɡ��ϵ��ȡ�ȡ�

��˵�£��ͼÿһ��ʲô��

��Ȼ��е��: Why do we work?(ΪʲôҪ��)��
��ز㣬��뵽��
�� <𝑠𝑡𝑎𝑟𝑡> (��ʼ)��ŵ��
��õ��һ��"Ϊ"��
��õ��ĵ�һ��"Ϊ"��뵽��
��õ��ڶ��"ʲ"��
��õ��ĵڶ��ֱ�� <𝑒𝑛𝑑> (��ֹ��)��ɡ�

��ͱ��Ľṹ��ƣ��Ա��ֽ��н��⡣����Ȼ��ӳ��Ϊ��ز��ѧ���Ĺ��̣��Ϊ��˱��еĽṹ��ͷǳ��ˡ�

Ϊ�˷��ѧϰ��ҽ��Ϊ 4 ��֣��ν��⡣

��ķ��̳̣�ͼ��Transformer

1��λ��Ƕ�루𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑎𝑙 𝑒𝑛𝑐𝑜𝑑𝑖𝑛𝑔��

�� X ά��Ϊ[batch size, sequence length]��ݣ����Ϊʲô����

batch size �� batch �Ĵ�С��ֻ��һ�仰�� batch size Ϊ 1��sequence length �Ǿ��ӵĳ��ȣ�һ�� 7 ��֣��ά�� [1, 7]��

��ǲ��ֱ�ӽ��仰��뵽���У��Ϊ Tranformer ��ʶ��Ҫ�Ƚ����Ƕ����õ�ͼ�е� Xembedding ��

�򵥵�˵��->��ת��ת��ǽ��ת��Ϊ��ʶ��ѧ��ʾ��õ��ķ�� Word2Vec��Word2Vec �ľ��ϸ�ڣ��ڳ�ѧ��Ҳ��˽⣬��ǿ��ֱ��ʹ�õġ�

�õ�� Xembedding ��ά�� [batch size, sequence length, embedding dimension]��embedding dimension �Ĵ�С�� Word2Vec �㷨��Tranformer �� 512 ��ȵ�� Xembedding ��ά�� [1, 7, 512]��

��ˣ����Ϊʲô����һ��򻯱�ʾ��

��ķ��̳̣�ͼ��Transformer

��֪��ֵ��Ⱥ�˳�򣬺��Ҫ��

���Է�û��û�Է���û������û����û����ͬ��֣�˳��ߵ��ĺ��Ͳ�ͬ�ˡ�

��ֵ�λ��Ϣ��Ҫ��Tranformer û�� RNN ��ѭ��ṹ��û�в�׽˳��е��

Ϊ�˱��λ��Ϣ�� Tranformer ѧϰ��Ҫ�õ�λ��Ƕ����

��λ��Ϣ�ķ�ʽ�ǳ��࣬��򵥵Ŀ��ֱ�ӽ�� 0,1,2 ��롣

Tranformer ��õ�� sin-cos ��ʹ�� sin �� cos ��Ա任��ṩ��ģ��λ��Ϣ��

P E (p o s, 2 i) P E (pos, 2 i + 1) = sin (p o s / 10000 2 i / d model) = cos (pos / 10000 2 i / d model)

��ʽ�� pos ָ��Ǿ��ֵ�λ�ã�ȡֵ��Χ�� [0, 𝑚𝑎𝑥 𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝑙𝑒𝑛𝑔𝑡ℎ)��i ָ��Ƕ��ά��, ȡֵ��Χ�� [0, 𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛)�� 𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛 �Ĵ�С��

�� sin �� cos һ�鹫ʽ��Ҳ��Ƕ�Ӧ�� 𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛 ά�ȵ�һ��ż��ŵ�ά�ȣ��Ӷ��ͬ��Ա仯��

��ô��룬�򵥿��Ч��

Python


  
      1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

      # ����������
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
 
def get_positional_encoding(max_seq_len, embed_dim):
    # ��ʼ��һ��positional encoding
    # embed_dim: ��Ƕ���ά��
    # max_seq_len: �������г���
    positional_encoding = np.array([
        [pos / np.power(10000, 2 * i / embed_dim) for i in range(embed_dim)]
        if pos != 0 else np.zeros(embed_dim) for pos in range(max_seq_len)])
    positional_encoding[1:, 0::2] = np.sin(positional_encoding[1:, 0::2])  # dim 2i ż��
    positional_encoding[1:, 1::2] = np.cos(positional_encoding[1:, 1::2])  # dim 2i+1 ����
    # ��һ��, ��λ��Ƕ���ÿһ�г�������ģ��
    # denominator = np.sqrt(np.sum(position_enc**2, axis=1, keepdims=True))
    # position_enc = position_enc / (denominator + 1e-8)
    return positional_encoding
    
positional_encoding = get_positional_encoding(max_seq_len=100, embed_dim=16)
plt.figure(figsize=(10,10))
sns.heatmap(positional_encoding)
plt.title("Sinusoidal Function")
plt.xlabel("hidden dimension")
plt.ylabel("sequence length")

    

��Կ��λ��Ƕ�� 𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛 ��Ҳ��hidden dimension ��ά��ά��ڱ仯��Խ��Խ��һ�ְ��λ��Ϣ��

��ķ��̳̣�ͼ��Transformer

��һ��λ��Ϣ��ģ�ʹӶ�ѧ��λ��֮��ϵ��Ȼ��Ե�ʱ��ԡ�

��󣬽� Xembedding �� λ��Ƕ�� ��ӣ��͸��һ�㡣

2��ע��㣨𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑚𝑒𝑐ℎ𝑎𝑛𝑖𝑠𝑚��

ֱ�ӿ��ͼ�ʼǣ��ķǳ��ϸ��

��ķ��̳̣�ͼ��Transformer

��ͷ��ڣ�QKT �õ��ľ��ͽ�ע��Ա�ʾÿ��ֵ��Ƴ̶ȡ��Ϊ��ĵ��ֵԽ��˵��Խ�ӽ��

��ķ��̳̣�ͼ��Transformer

��ǵ�Ŀ��ǣ��ÿ��ֶ��е�ǰ��е��ֵ��Ϣ��ע��㣬��ˡ�

��Ҫע���� 𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 �ļ��У��ͨ��ʹ�� 𝑚𝑖𝑛𝑖 𝑏𝑎𝑡𝑐ℎ��Ҳ��һ�μ��仰��ľ��ֻ��һ��ӡ�

ÿ��ӵĳ��ǲ�һ��ģ��Ҫ���ľ��ӵĳ��ͳһ��ڶ̵ľ��ӣ�� Padding ��һ�� 0 ��䡣

��ķ��̳̣�ͼ��Transformer

3��в��ӺͲ��һ��

��˲в��ƺͲ��һ��Ŀ��Ϊ�˷�ֹ�ݶ��ʧ��ӿ��

1) �в��

��һ��õ��˾��ע��Ȩ֮�� 𝑉�� Ҳ�� 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄, 𝐾, 𝑉)��Ƕ��һ��ת�ã�ʹ�� 𝑋𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 ��ά��һ��, Ҳ�� [𝑏𝑎𝑡𝑐ℎ 𝑠𝑖𝑧𝑒, 𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝑙𝑒𝑛𝑔𝑡ℎ, 𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛] ��Ȼ��Ǽ��в��ӣ�ֱ�ӽ��Ԫ��ӣ��Ϊ��ǵ�ά��һ��:

X e m b e d d i n g + A t t e n t i o n (Q, K, V)

��֮��ÿ��һ��ģ��㣬��Ҫ��֮ǰ��ֵ��֮��ֵ��ӣ��Ӷ��õ��в��ӣ�ѵ��ʱ��ʹ�ݶ�ֱ��߽ݾ��ʼ�㣺

X + S u b L a y e r (X)

2) ��һ��

��ǰ��ز��һΪ��׼��̬�ֲ��Ҳ�� 𝑖.𝑖.𝑑 ��ͬ�ֲ�� 𵽼ӿ�ѵ��ٶȣ� ��á�

�� i = 1 m �� i = 1 m x i j

��ʽ��Ծ�� (𝑟𝑜𝑤) Ϊ��λ��ֵ��

�� 2 j = 1 m �� i = 1 m (x i j - �� j) 2

��ʽ��Ծ�� (𝑟𝑜𝑤) Ϊ��λ�󷽲

L a y e r N o r m (x) = �� �� x i j - �� i �� 2 i + ϵ - - - - - �� + ��

Ȼ��ÿһ����ÿһ��Ԫ����ȥ��еľ�ֵ��ٳ����еı�׼����Ӷ��õ��һ��ֵ��ϵ��Ϊ�˷�ֹ��0��

֮��ѵ��, ��ֲ��һ��Ĺ��ʧ��Ϣ��ע��ʾԪ��˶��ǵ��һ��ʼ��[/latex]\alpha[/latex]Ϊȫ[/latex]1[/latex]��Ϊȫ0��

��ǳ��򵥣��ͷ attention ��£�

Python


  
      1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

      class ScaledDotProductAttention(nn.Module):
    ''' Scaled Dot-Product Attention '''
​
    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)
​
    def forward(self, q, k, v, mask=None):
        # self.temperature�������е�d_k ** 0.5����ֹ�ݶȹ���
        # QxK/sqrt(dk)
        attn = torch.matmul(q / self.temperature, k.transpose(2, 3))
​
        if mask is not None:
            # ���β���Ҫ�����
            attn = attn.masked_fill(mask == 0, -1e9)
        # softmax+dropout
        attn = self.dropout(F.softmax(attn, dim=-1))
        # ���ʷֲ�xV
        output = torch.matmul(attn, v)
​
        return output, attn

    

Multi-Head Attention ʵ�� ScaledDotProductAttention ��Ϲ��

Python


  
      1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58

      class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''
 
    # n_headͷ�ĸ�����Ĭ����8
    # d_model�����������ȣ����籾��˵��512
    # d_k, d_v��ֵһ�������Ϊ n_head * d_k=d_model��
    # ��ʱconcat�����ú�ԭʼ����һ������Ȼ����ͬҲ���ԣ���Ϊ������fc��
    # �൱�ڽ���ѧϰ����ֳɶ�����n_head��
    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()
        # ����n_head=8��d_k=64
        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v
        # d_model����������n_head * d_k�������
        # ��ѧϰW^Q��W^K,W^V���������ʼ��
        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)
        # �������ά�ȱ任����
        self.fc = nn.Linear(n_head * d_v, d_model, bias=False)
        # ��ͷ��ע����
        self.attention = ScaledDotProductAttention(temperature=d_k ** 0.5)
        self.dropout = nn.Dropout(dropout)
        # ���һ��
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
 
    def forward(self, q, k, v, mask=None):
        # ����qkv������(b,100,512),100��ѵ��ÿ��������󵥴ʸ���
        # һ��qkv��ȣ�����ע����
        residual = q
        # ������x�Ϳ�ѧϰ������ˣ��õ�(b,100,512)���
        # ����512�ĺ�����ʵ��8x64��8��head��ÿ��head�Ŀ�ѧϰ����Ϊ64ά��
        # q�������(b,100,8,64),kvҲ��һ��
        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)
 
        # ���(b,8,100,64)�����������㣬Ҳ����8��ͷ��������
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2)
 
        if mask is not None:
            mask = mask.unsqueeze(1)   # For head axis broadcasting.
        # ���q��(b,8,100,64),ά�ֲ���,�ڲ����������ǣ�
        # q*kת�ã�����d_k ** 0.5�����ά����b,8,100,100�����ʺ͵���ֱ�ӵ�������
        # �����һ��ά�Ƚ���softmax�����õ�b,8,100,100
        # ������V���õ�b,8,100,64���
        q, attn = self.attention(q, k, v, mask=mask)
 
        # b,100,8,64-->b,100,512
        q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1)
        q = self.dropout(self.fc(q))
        # �в����
        q += residual
        # ���һ������512ά�ȼ����ֵ�ͷ�����в��һ��
        q = self.layer_norm(q)
 
        return q, attn

    

4��ǰ��

��ûɶ˵��ˣ��ǳ��򵥣�ֱ�ӿ��ɣ�

Python


  
      1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

      class PositionwiseFeedForward(nn.Module):
    ''' A two-feed-forward-layer module '''
 
    def __init__(self, d_in, d_hid, dropout=0.1):
        super().__init__()
        # ����fc�㣬������512ά�Ƚ��б任
        self.w_1 = nn.Linear(d_in, d_hid) # position-wise
        self.w_2 = nn.Linear(d_hid, d_in) # position-wise
        self.layer_norm = nn.LayerNorm(d_in, eps=1e-6)
        self.dropout = nn.Dropout(dropout)
 
    def forward(self, x):
        residual = x
 
        x = self.w_2(F.relu(self.w_1(x)))
        x = self.dropout(x)
        x += residual
 
        x = self.layer_norm(x)
 
        return x

    

��󣬻ع�� 𝑡𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟 𝑒𝑛𝑐𝑜𝑑𝑒𝑟 ��ṹ��

��ĵ��Ѿ��˽�� 𝑡𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟 ��Ҫ��ɲ��֣��ù�ʽ��һ�� 𝑡𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟 𝑏𝑙𝑜𝑐𝑘 �ļ��һ�£�

1) ��λ�ñ��

X = E m b e d d i n g L o o k u p (X) + P o s i t i o n a l E n c o d i n g

X �� R b a t c h s i z e * s e q . l e n . * e m b e d . d i m .

2) ��ע��

Q = L i n e a r (X) = X W Q

K = L i n e a r (X) = X W K

V = L i n e a r (X) = X W V

X a t t e n t i o n = S e l f A t t e n t i o n (Q, K, V)

3) �в��һ��

X a t t e n t i o n = X + X a t t e n t i o n

X a t t e n t i o n = L a y e r N o r m (X a t t e n t i o n)

4) ǰ��

��ʵ��ӳ�䲢�ü������˵ReLU:

X h i d d e n = A c t i v a t e (L i n e a r (L i n e a r (X a t t e n t i o n)))

5) �ظ�3)

X h i d d e n = X a t t e n t i o n + X h i d d e n

X h i d d e n = L a y e r N o r m (X h i d d e n)

X h i d d e n �� R b a t c h s i z e * s e q . l e n . * e m b e d . d i m .

��߶

��ˣ��Ѿ�� Transformer ��ȫ��ݣ�֪��λ��Ȼ��Ե�λ��Ϣ��ע��ƵĹ��ԭ��ȡ�

��ԭ��Ϊ��һ��ʵս����̴��ѵ��Լ��Ȥ�ֺ��ģ�͡�

ԭ�ģ���ķ���̳̣�ͼ��Transformer (cuijiahua.com)

һ��ǰ��

����Transformer

1��λ��Ƕ�루𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑎𝑙 𝑒𝑛𝑐𝑜𝑑𝑖𝑛𝑔��

2����ע�����㣨𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑚𝑒𝑐ℎ𝑎𝑛𝑖𝑠𝑚��

3���в����ӺͲ��һ��

1) �в����

2) ���һ��

4��ǰ������

������߶

ԭ�ģ��ķ��̳̣�ͼ��Transformer (cuijiahua.com)

��Transformer

2��ע��㣨𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑚𝑒𝑐ℎ𝑎𝑛𝑖𝑠𝑚��

3��в��ӺͲ��һ��

1) �в��

2) ��һ��

4��ǰ��

��߶