Transformer | 没有Attention的Transformer依然是顶流！！！

共 7763字，需浏览 16分钟

· 2021-06-03

点击下面卡片关注，”AI算法与图像处理”

最新CV成果，火速送达

本文主要介绍了Attention Free Transformer(AFT)，同时作者还引入了AFT-local和AFT-Conv，这两个模型在保持全局连通性的同时，利用了局域性和空间权重共享的思想。通过实验验证了AFT在所有benchmarks上具有竞争性能的同时具有出色的效率。

1简介

本文主要介绍了Attention Free Transformer(AFT)，在AFT层中，首先将key和value与一组学习到的位置偏差结合起来，然后以元素方式将其结果与query相乘。这个新的操作在context size和特征维度上都具有线性的内存复杂度，使得它能够兼容大的输入和模型大小。

作者还引入了AFT-local和AFT-Conv，这两个模型变种在保持全局连通性的同时还利用了局域性和空间权重共享的思想。作者对2个自回归建模任务(CIFAR10和Enwik8)以及一个图像识别任务(ImageNet-1K分类)进行了广泛的实验。验证了AFT在所有benchmarks上不仅具有不错的性能，同时还具有出色的效率。

2本文方法

2.1 Attention Free Transformer

首先，定义了Attention Free Transformer(AFT)，它是MHA的plugin replacement，不需要改变Transformer的其他架构。给定输入X, AFT先将它们线性变换为 , , ，然后执行以下操作:

其中，是元素的乘积; 是应用于query的非线性映射，默认为sigmoid; 是学习到成对的位置偏差。

换句话说，对于每个目标位置 , AFT把加权平均的结果与具有元素级乘法的query相结合。而加权操作则是由key和一组学习成对的位置偏差组成。这提供了一个直接的优势，即不需要计算和存储消耗大的注意力矩阵，同时能够像MHA那样维护query和value之间的全局交互。

为了进一步了解AFT与MHA的关系可以将方程改写为：

这里使用上标来索引矩阵的特征维数。在这种重新排列的形式中，能够再次用注意力来表达AFT。具体来说，对于每个位置有一个关注向量，每个维度由组成。换句话说，AFT可以解释为与特征尺寸一样多的Head中进行implicit attention，其中注意力矩阵采用因数分解的形式进行求解。

2.2 AFT variants: locality, weight sharing and parameterization

1 AFT-full

将下面方程中定义的AFT的基本版本表示为AFT-full：

2 AFT-local

作者发现了训练的标准Transformers倾向于表现出广泛的局部注意力模式。具体地说，把ImagenetNet预训练Vision Transformer(ViT)，由12层组成，每层6个Head。为了实现可视化忽略分类标记，将每一层的注意力张量reshape为6×196×196(因为ViT特征图的空间大小为14×14)。然后从ImageNet验证集中采样256张图像。对于每一层和每一个Head，计算平均的average relative 2d attentions、averaged across position和images。这就产生了一组尺寸为12×6×27×27的注意力map（如下图）。

通过上图可以看到，相对注意力Map显示出强烈的局部模式，特别是在lower layers。这激发了AFT的一种变体，称为AFT-local，即只在局部应用一组学习到的相对位置偏差:

这里s≤T是一个局部window size。AFT-local提供了进一步的计算量的节省，包括参数的数量和时间/空间复杂度。

3 AFT-simple

AFT-local的一个极端形式是当s=0时，即没有学习到位置偏差。这就产生了一个极其简单的AFT版本，AFT-simple，有:

在这个版本中，context reduction进一步简化为元素操作和全局池化。其实AFT-simple类似于线性化注意，公式为：

然而，AFT-simple完全摆脱了点积操作，这促使复杂度从降低为。

4 AFT-conv

作者还可以进一步扩展局部化locality的思想，加入空间权值共享，即卷积。这种变体与视觉任务特别相关，因为它通常希望将一个预训练模型扩展到可变大小的输入。具体来说，让的值只依赖于和 , 而为在给定的空间网格(1d或2d)中的相对位置。与CNN类似也可以学习多组位置偏差(重用head的概念作为参考)。为了考虑到#parameters随着 #heads的增加而增长，作者还采用了一个设计，将K的维度与#heads联系起来。这使得AFT-conv可修改为依赖于深度可分离卷积、全局池化和元素操作来实现。

类似的尺寸的AFT-conv学习到的相对位置偏差。

举一个例子，这里将模型构型表示为AFT-conv-h-s，其中h为head的个数，s×s为2d local window size。，于是对于每一个head 来说，有：

注意，上式可以很容易地解释为一个特殊的卷积层，具有：

全局连通性
非负卷积权值
复杂的除法/乘法门机制

实验表明，这3个方面对AFT-conv的性能都有显著的影响。

5 Parameterization

根据经验，作者发现适当地参数化位置偏差是很重要的。

对于AFT-full和AFT-local，采用w的因数分解形式:

其中是一个小的嵌入维数(例如128)。这种简单的因式分解不仅大大减少了参数量，而且在训练和测试中都有效地提高了模型的性能。

对于AFT-conv，因式分解的技巧并不适用。相反，作者采用一个简单的重新参数化，对于每个head i，让：

其中是可学习增益和偏置参数，均初始化为0。

3实验

3.1 Image Autoregressive Modeling

SOTA模型对比

Factorization的影响

3.2 Language Modeling

SOTA模型对比

local window size的影响

Longer sequence size

3.3 Image Classification

4参考

[1].An Attention Free Transformer

       个人微信（如果没有备注不拉群！）
      

       请注明：地区+学校/企业+研究方向+昵称
      

下载1：何恺明顶会分享

在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析

下载2：终身受益的编程指南：Google编程风格指南

在「AI算法与图像处理」公众号后台回复：c++，即可下载。历经十年考验，最权威的编程规范！

    
     下载3 CVPR2021
    
    
     

    
    
     在「AI算法与图像处理」公众号后台回复：CVPR，即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮，告诉大家你也在看

图片

表情

了解加密货币到加密货币的互换

1、什么是加密货币互换？加密货币到加密货币的互换是指以现行市场汇率将一种加密货币直接兑换为另一种加密货币。与需要法定货币存款和较长流程的传统交易所不同，加密货币到加密货币的互换可以无缝地促进交换。掉期在提高加密货币的流动性和效率方面发挥着重要作用。该功能使用户能够将他们的加密货币与钱包中的其他代币进

区块链头条

李彦宏：开源大模型不如闭源，后者会持续领先；周鸿祎：“开源不如闭源” 的言论是胡说八道

架构师大咖架构师大咖，打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖，每日推送。公众号该公众号已被封禁0、李彦宏：开源大模型不如闭源，后者会持续领先当今

源码共读

【第129期】程序员的新宠：三款终端工具，让你告别Xshell！

概述 WindTerm：跨平台的SSH利器首先介绍的是WindTerm，这是一款使用C语言开发的跨平台SSH客户端。它不仅完全免费，而且没有商业使用的限制。WindTerm支持SSH v2、Telnet、Raw Tcp等协议，而且性能出色，甚至超过了FinalShell和Electerm。功能

前端微服务

字节员工：35岁以后被裁员的，后来都走了哪条路？现在2-2，要不要利用最后一年拼命上个岸。

架构师大咖架构师大咖，打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖，每日推送。公众号该公众号已被封禁在当今竞争激烈的职场环境中，年龄并不总是一个决定性

源码共读

上班的时候，有一群摸鱼搭子非常重要...

上班的时候，有一群摸鱼搭子非常重要！一到上班时间，他们就从四面八方涌进群里冒泡...从八卦聊到股市、从职场聊到乌X兰局势，偶尔还会复读、相亲、battle...然后，下午6点钟准时消失不见...所以你要不要加入我们一起摸鱼？我们有北京、上海、深圳、广州、杭州、武汉、成都、南京等8个城市的摸鱼群，还有

产品经理日记

周四002 瑞超：同样落寞的境遇——北雪平vs埃尔夫斯堡

上赛季最终排名联赛第9的北雪平本赛季伊始表现不佳，4轮战罢他们仅以1胜1平2负的战绩排在倒数第三，这支历史上曾夺得13次联赛冠军、6次杯赛冠军老牌劲旅，正如英格兰赛场上的一众百年俱乐部，在低谷中不断探索着出路。球队主教练安德烈亚斯·阿尔姆曾是AIK索尔纳及赫根队的主教练，他于今年年初刚刚拿起球队教鞭

产品与体验

雷军辟谣了！不是高考状元，卡里也没有冰冷的 40 亿

架构师大咖架构师大咖，打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖，每日推送。公众号该公众号已被封禁最近很火的雷军简历，听说落魄时卡里只有冰冷的 40

源码共读

日本影山优佳最新杂志照，展现充满透明感的美丽

今天的图文分享的是影山优佳的杂志写真。元日向坂46的影山优佳，登上了写真杂志《周刊FLASH》5/7和‬5/14合并号的封面。影山优佳是日本艺人、女演员、前偶像。身高155厘米。2001年‬5月‬8日‬出生‬于‬东京都。2023年7月从组合日向坂46毕业，之后作为演员活跃的影山优佳，在《周刊FLAS

python教程

盘点一个使用超级鹰识别验证码并自动登录的案例

点击上方“Python共享之家”，进行关注回复“资源”即可获赠Python学习资料今日鸡汤江上几人在，天涯孤棹还。大家好，我是皮皮。一、前言前几天在Python钻石交流群【静惜】问了一个Python实现识别验证码并自动登录的问题，提问截图如下：验证码的截图如下所示：二、实现过程这里大家激烈的探讨，【

IT共享之家

朋友，你也不想一个人孤孤单单的上班吧？

产品经理日记