恒源云(Gpushare)_VSA:一个可变形尺寸窗口自注意力模型

可变形尺寸窗口自注意力模型VSA在视觉Transformer中的应用
本文介绍了可变尺寸窗口注意力(VSA)模型,该模型解决了固定大小窗口限制长期依赖关系建模的问题。VSA通过窗口回归模块预测自适应窗口大小和位置,用于增强视觉Transformer的性能。实验表明,VSA在ImageNet分类、COCO目标检测和实例分割以及Cityscapes语义分割任务中表现出色,特别是在处理不同大小对象时,相比标准窗口注意力有显著优势。

文章来源 | 恒源云社区

原文地址 | VSA

原文作者 | 咚咚


伙伴们,好久不见了啊。

最近平台各种功能上线,实在抽不出时间搬运大佬们的文章,不是小编消极怠工哦~

这不,稍微有点时间空下来,小编就立即去社区精心挑选了一篇文章分享给你们啦。

走过路过,不要错过呀!废话不多说,正文走起🏃‍♀️
👇👇👇

摘要

  1. 引入主题: 窗口自注意力已经在视觉Transformer中得到了广泛的探索,以平衡性能、计算复杂度和内存占用。
  2. 现存问题: 目前的模型采用预先定义的固定大小窗口设计,限制了它们建模长期依赖关系和适应不同大小对象的能力。
  3. 解决方法: 提出了可变尺寸窗口注意(VSA)来从数据中学习自适应窗口配置。具体来说,基于每个默认窗口中的token,VSA 使用了一个窗口回归模块来预测目标窗口的大小和位置。通过对每个注意头独立采用 VSA,可以建立长期依赖关系模型,从不同窗口捕获丰富的上下文,促进窗口之间的信息交换。
  4. 实验结果: VSA 是一个易于实现的模块,它可以用较小的修改和可以忽略的额外计算成本来替代最先进的代表性模型中的窗口注意力,同时大幅度地提高它们的性能,例如,在ImagNet 分类任务中,分类性能相对Swin-T提高了1.1% ,使用较大的图像训练和测试时,性能增益增加更大。另外,在目标检测分割、实例分割和语义分割任务中,处理不同大小的对象时,VSA 比普通窗口注意力更有优势。

算法

模型整体框架如上图(a)所示,是基于swin模型进行修改的,最主要的创新点是使用VSA(VWA) Transfomer blocks替代swin中的窗口自注意力block。

VSA Transformer模块如上图©所示,与传统的窗口自注意力模块不同,其中使用了VSA(VWA)(上图(b)所示)和CPE模块。接下来进行分别介绍。

VSA模块

上图(b)所示,可以简要看出,VSA module修改了每个窗口的大小和位置,提高模型对长远依赖的建模以及不同大小目标对象的检测。具体操作步骤如下:

  1. 给定VSA模块的输入特征 X X X,首先将其平分成大小一样的不重叠窗口 X w X_w Xw​,这与传统方法一样

  2. 对每个窗口进行线性操作得到对应的查询 Q w Q_w Qw​,

使用MOFid软件包将MOFid分为node和linker两部分 其中部分node中含有非金属原子 linker中含有金属原子 。node和linker分别储存在两个不同的csv中 请编写脚本利用软件分别提取node中Metal radius (Å), electronegativity, affinity (eV), ionization (eV), atomic mass, valence electron, radical electron, hybridization, oxidation state 等描述符 对linker提取以下描述符L_MolWt L_HeavyAtomMolWt L_ExactMolWt L_MaxEStateIndex L_MinEStateIndex L_MaxAbsEStateIndex L_MinAbsEStateIndex L_NumValenceElectrons L_NumRadicalElectrons L_MaxPartialCharge L_MinPartialCharge L_MaxAbsPartialCharge L_MinAbsPartialCharge L_FpDensityMorgan1 L_FpDensityMorgan2 L_FpDensityMorgan3 L_BCUT2D_MWHI L_BCUT2D_MWLOW L_BCUT2D_CHGHI L_BCUT2D_CHGLO L_BCUT2D_LOGPHI L_BCUT2D_LOGPLOW L_BCUT2D_MRHI L_BCUT2D_MRLOW L_BalabanJ L_BertzCT L_Chi0 L_Chi0n L_Chi0v L_Chi1 L_Chi1n L_Chi1v L_Chi2n L_Chi2v L_Chi3n L_Chi3v L_Chi4n L_Chi4v L_HallKierAlpha L_Ipc L_Kappa1 L_Kappa2 L_Kappa3 L_LabuteASA L_PEOE_VSA1 L_PEOE_VSA10 L_PEOE_VSA11 L_PEOE_VSA12 L_PEOE_VSA13 L_PEOE_VSA14 L_PEOE_VSA2 L_PEOE_VSA3 L_PEOE_VSA4 L_PEOE_VSA5 L_PEOE_VSA6 L_PEOE_VSA7 L_PEOE_VSA8 L_PEOE_VSA9 L_SMR_VSA1 L_SMR_VSA10 L_SMR_VSA2 L_SMR_VSA3 L_SMR_VSA4 L_SMR_VSA5 L_SMR_VSA6 L_SMR_VSA7 L_SMR_VSA9 L_SlogP_VSA1 L_SlogP_VSA10 L_SlogP_VSA12 L_SlogP_VSA2 L_SlogP_VSA3 L_SlogP_VSA4 L_SlogP_VSA5 L_SlogP_VSA6 L_SlogP_VSA7 L_SlogP_VSA8 L_TPSA L_EState_VSA1 L_EState_VSA10 L_EState_VSA11 L_EState_VSA2 L_EState_VSA3 L_EState_VSA4 L_EState_VSA5 L_EState_VSA6 L_EState_VSA7 L_EState_VSA8 L_EState_VSA9 L_VSA_EState1 L_VSA_EState10 L_VSA_EState2 L_VSA_EState3 L_VSA_EState4 L_VSA_EState5 L_VSA_EState6 L_VSA_EState7 L_VSA_EState8 L_VSA_EState9 L_FractionCSP3 L_HeavyAtomCount L_NHOHCount L_NOCount L_NumAliphaticCarbocycles L_NumAliphaticHeterocycles L_NumAliphaticRings L_NumAromaticCarbocycles L_NumAromaticHeterocycles L_NumAromaticRings L_NumHAcceptors L_NumHDonors L_NumHeteroatoms L_NumRotatableBonds L_NumSaturatedCarbocycles L_NumSaturatedHeterocycles L_NumSaturatedRings L_RingCount L_MolLogP L_MolMR L_fr_Al_COO L_fr_Al_OH L_fr_Al_OH_noTert L_fr_ArN L_f
03-12
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值