图解Transformer（完整版）！

当前位置: 首页 > 社会 > 内容页

图解Transformer（完整版）！

来源：个人图书馆-山峰云绕 2023-08-21 20:30:56

审稿人：Jepson，Datawhale成员，毕业于中国科学院，目前在腾讯从事推荐算法工作。

，而原始的词向量或者最终输出的向量的长度是 512（这 3 个向量的长度，和最终输出的向量长度，是有倍数关系的）。关于 Multi-head Attention，后面会给出实际代码。这里为了简化，假设只有一个 head 的 Self-Attention。

(资料图片)

上图中，有两个词向量：Thinking 的词向量 x1 和 Machines 的词向量 x2。以 x1 为例，X1 乘以 WQ 得到 q1，q1 就是 X1 对应的 Query 向量。同理，X1 乘以 WK 得到 k1，k1 是 X1 对应的 Key 向量；X1 乘以 WV 得到 v1，v1 是 X1 对应的 Value 向量。

Query 向量，Key 向量，Value 向量是什么含义呢？

其实它们就是 3 个向量，给它们加上一个名称，可以让我们更好地理解 Self-Attention 的计算过程和逻辑含义。继续往下读，你会知道 attention 是如何计算出来的，Query 向量，Key 向量，Value 向量又分别扮演了什么角色。

（是 Key 向量的长度）。你也可以除以其他数，除以一个数是为了在反向传播时，求取梯度更加稳定。

第 4 步，接着把这些分数经过一个 Softmax 层，Softmax可以将分数归一化，这样使得分数都是正数并且加起来等于 1。

这些分数决定了在编码当前位置（这里的例子是第一个位置）的词时，对所有位置的词分别有多少的注意力。很明显，在上图的例子中，当前位置（这里的例子是第一个位置）的词会有最高的分数，但有时，关注到其他位置上相关的词也很有用。

第 5 步，得到每个位置的分数后，将每个分数分别与每个 Value 向量相乘。这种做法背后的直觉理解就是：对于分数高的位置，相乘后的值就越大，我们把更多的注意力放到了它们身上；对于分数低的位置，相乘后的值就越小，这些位置的词可能是相关性不大的，这样我们就忽略了这些位置的词。

第 6 步是把上一步得到的向量相加，就得到了 Self Attention 层在这个位置（这里的例子是第一个位置）的输出。

上面这张图，包含了 Self Attention 的全过程，最终得到的当前位置（这里的例子是第一个位置）的向量会输入到前馈神经网络。但这样每次只能计算一个位置的输出向量，在实际的代码实现中，Self Attention 的计算过程是使用矩阵来实现的，这样可以加速计算，一次就得到所有位置的输出向量。下面让我们来看，如何使用矩阵来计算所有位置的输出向量。

，，相乘，得到 Q，K，V 矩阵。

矩阵 X 中的每一行，表示句子中的每一个词的词向量，长度是 512。Q，K，V 矩阵中的每一行表示 Query 向量，Key 向量，Value 向量，向量长度是 64。

接着，由于我们使用了矩阵来计算，我们可以把上面的第 2 步到第 6 步压缩为一步，直接得到 Self Attention 的输出。

的权重矩阵（在 Transformer 的论文中，使用了 8 组注意力（attention heads）。因此，接下来我也是用 8 组注意力头（attention heads））。每一组注意力的的权重矩阵都是随机初始化的。经过训练之后，每一组注意力可以看作是把输入的向量映射到一个”子表示空间“。

在多头注意力机制中，我们为每组注意力维护单独的 WQ, WK, WV 权重矩阵。将输入 X 和每组注意力的WQ, WK, WV 相乘，得到 8 组 Q, K, V 矩阵。

接着，我们把每组 K, Q, V 计算得到每组的 Z 矩阵，就得到 8 个 Z 矩阵。

接下来就有点麻烦了，因为前馈神经网络层接收的是 1 个矩阵（其中每行的向量表示一个词），而不是 8 个矩阵。所以我们需要一种方法，把 8 个矩阵整合为一个矩阵。

怎么才能做到呢？我们把矩阵拼接起来，然后和另一个权重矩阵相乘。

把 8 个矩阵 {Z0,Z1...,Z7} 拼接起来把拼接后的矩阵和 WO 权重矩阵相乘得到最终的矩阵 Z，这个矩阵包含了所有 attention heads（注意力头）的信息。这个矩阵会输入到 FFNN (Feed Forward Neural Network)层。

这就是多头注意力的全部内容。我知道，在上面的讲解中，出现了相当多的矩阵。下面我把所有的内容都放到一张图中，这样你可以总揽全局，在这张图中看到所有的内容。

既然我们已经谈到了多头注意力，现在让我们重新回顾之前的翻译例子，看下当我们编码单词it时，不同的 attention heads （注意力头）关注的是什么部分。

当我们编码单词"it"时，其中一个 attention head （注意力头）最关注的是"the animal"，另外一个 attention head 关注的是"tired"。因此在某种意义上，"it"在模型中的表示，融合了"animal"和"word"的部分表达。

然而，当我们把所有 attention heads（注意力头）都在图上画出来时，多头注意力又变得难以解释了。

。

如果不能够整除，那么这些向量的长度就无法平均分配。

下面的会有代码示例，如何使用矩阵实现多组注意力的并行计算。

定义 MultiheadAttention的对象后，调用时传入的参数如下。

forward(query, key, value, key_padding_mask=


        
          关键词：
         	 
        
        
                  
        
          
            
              上一篇
            
            
              割美国人韭菜，还中国人债，贾跃亭不坑穷人，不卖50万的低价车
            
          
          
            
              下一篇
            
            
                最后一页 
            
          
        
        
          
             最近更新 
          
        
        
          
                              图解Transformer（完整版）！
                             荷兰水仙花谢了怎么处理？
                             最火的Steam免费系列游戏推荐 非常好玩不要错过
                             收购太平洋咖啡？柠季：不予置评
                             美白淡斑护肤品排行榜前十名，发布口碑好的祛斑产品！
                             割美国人韭菜，还中国人债，贾跃亭不坑穷人，不卖50万的低价车
                             lol冰雪节任务选哪个（lol冰雪节任务）
                             猕猴桃汁怎么榨好喝 猕猴桃汁怎么榨好喝破壁机
                             《模拟人生4》快速获得奖励商店点数方法 怎么刷点数
                             苏东坡诗词精选（苏东坡诗词）
                           
          
          
            
                           前7个月上海空港口岸跨境电商出口货值同比增2.7倍
                             《霓虹深渊》官方回应停更质疑：目前正在开发续作
                             港股异动｜灵宝黄金涨近12% 完成发行认购股份筹资约2.656亿港元
                             一条高铁 跑出京津冀协同发展新速度
                             点读笔什么牌子好
                             B席、沃克与曼城续约？瓜迪奥拉：这是我的梦想，希望能实现
                             科华数据公开发行可转换公司债券网上路演
                             三木集团：我司并无办公用品业务
                             我们的节日·七夕丨遇见爱情遇见你
                             第二届CCF量子计算大会暨中国量子计算峰会举办


                                  x          广告        
                                娱乐                   
                                                 最火的Steam免费系列游戏推荐 非常好玩不要错过
             收购太平洋咖啡？柠季：不予置评
             盘州市“富矿精开”构建现代化煤炭产业体系
             盘锦兴隆台：用“绣花功夫”提升乡村颜值
             “都来嗨一夏”，向快乐出发 江都推出系列文旅活动
             怀孕期间夫妻如何满足性需求
                      
        
                                健康                   
                                             点读笔什么牌子好
             B席、沃克与曼城续约？瓜迪奥拉：这是我的梦想，希望能实现
             中科院金属所高性能全钒液流电池储能技术研究获进展
             不是吧，又涨租了！广州租金涨幅冲上全国TOP3
             爆发最激烈战斗！这里几乎与外界完全隔绝
                      
        
                                节目                   
                                                            
            燃油泵存在安全隐患 奔驰召回部分进口及国产汽车                              
                            x          广告

图解Transformer（完整版）！

微信扫一扫：分享