SlideShare a Scribd company logo
5
Most read
7
Most read
16
Most read
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
SegFormer: Simple and Efficient
Design for Semantic Segmentation
with Transformers
2022/06/27
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士1年 大倉博貴
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• 著者
– Enze Xie, Wenhai Wang, Zhiding Yu, Anima
Anandkumar, Jose M. Alvarez, Ping Luo
• 発表
– NeurIPS 2021
• ジャーナル
– CoRR
• リンク
– 論文:https://arxiv.org/abs/2105.15203
– Github:https://github.com/NVlabs/SegFormer
2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力なセマ
ンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は,固定サイズの位置埋め込みを用いない階層型
Transformerの構造
– デコーダ部分は,複雑性や計算コスト
を抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、
SoTAを記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
• ViT[1]のようなTransformerを用いた画像認識がSoTA
を記録
• Transformerベースモデルの2つの課題
– 固定長の位置埋め込みにより,出力が単一スケールの低解
像度な特徴量
– Attention機構の計算コストが高く,高解像度になるほど高
くなる
• 課題を解決し精度を向上させたモデル設計を目指す
[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani,
Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv,
2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
提案手法
• SegFormer
– エンコーダ:階層型Transformerの構造
– デコーダ:MLPのみで構成されるAll-MLP
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
エンコーダ
• 階層型Transformer
– 4つの階層で構成され,階層が進むと解像度が下がる
– 高解像度の細かい特徴と低解像度の粗い特徴の両方を抽出
• 以下3つの技術で構成
– Overlap Patch Merging
– Efficient Self-Attention
– Mix-FFN
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Overlap Patch Merging
• 階層𝑖の特徴マップ𝐹𝑖を解像度を下げ,階層𝑖 + 1の特
徴マップ𝐹𝑖+1に変換する技術
– 𝐹𝑖
𝐻
2𝑖+1 ×
𝑊
2𝑖+1 × 𝐶𝑖 , 𝑖 ∈ 1, 2, 3, 4 , 𝐶𝑖+1 > 𝐶𝑖
• パッチの連続性を保持するためにパッチサイズ𝐾,ス
トライド幅𝑆,パディングサイズ𝑃を指定
– 入力の場合,1パッチが特徴マップ4×4に対応
• 𝐾 = 7, 𝑆 = 4, 𝑃 = 3
– それ以外,1パッチが特徴マップ2×2に対応
• 𝐾 = 3, 𝑆 = 2, 𝑃 = 1
高さ 幅 次元数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
Self-Attentionは以下の式となり,クエリとキーの次元数が
𝑁 × 𝐶であることから,計算量𝑶(𝑵𝟐
)となる
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝑑ℎ𝑒𝑎𝑑
𝑉
𝑄:クエリ
𝐾:キー
𝑉:値
𝐻:入力画像の高さ
𝑊:入力画像の幅
𝑁 = 𝐻 × 𝑊:シーケンス長
𝐶:特徴マップの次元数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
ここで、PVT[2]で導入された以下の手法を取り入れる
𝐾 = 𝑅𝑒𝑠ℎ𝑎𝑝𝑒
𝑁
𝑅
, 𝐶・𝑅 𝐾
𝐾 = 𝐿𝑖𝑛𝑒𝑎𝑟(𝐶・𝑅, 𝐶)(𝐾)
削減率𝑅 = [64,16,4,1]を階層ごとに用いることで,キー𝐾の次
元数を𝑁 × 𝐶から
𝑵
𝑹
× 𝑪に変換し,計算量を𝑶(
𝑵𝟐
𝑹
)に削減
𝐾:キー
𝐻:入力画像の高さ
𝑊:入力画像の幅
𝑁 = 𝐻 × 𝑊:シーケンス長
𝐶:特徴マップの次元数
[2] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision
transformer: A versatile backbone for dense prediction without convolutions. arXiv, 2021
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Mix-FFN
• FFN (Feed-Forward Network)の畳み込みで動
的に位置埋め込みを行う技術
𝑥𝑜𝑢𝑡 = 𝑀𝐿𝑃 𝐺𝐸𝐿𝑈 𝐶𝑜𝑛𝑣3×3 𝑀𝐿𝑃 𝑥𝑖𝑛 + 𝑥𝑖𝑛
– 畳み込み層で位置情報を集約可能
• CPVT[3]やPosENet[4]からinspire
𝑥𝑖𝑛 :入力
𝑥𝑜𝑢𝑡 :出力
𝑀𝐿𝑃 :多重線形層
𝐺𝐸𝐿𝑈 :GELU活性化関数
𝐶𝑜𝑛𝑣 :畳み込み層
[3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for
vision transformers. arXiv, 2021
[4] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
デコーダ
• MLPのみで構成されるAll-MLP
– 4つのステップで構成
𝐹𝑖 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶𝑖, 𝐶 𝐹𝑖 , ∀𝑖
𝐹𝑖 = 𝑈𝑝𝑠𝑎𝑚𝑝𝑙𝑒
𝐻
4
×
𝑊
4
𝐹𝑖 , ∀𝑖
𝐹 = 𝐿𝑖𝑛𝑒𝑎𝑟 4𝐶, 𝐶 𝐶𝑜𝑛𝑐𝑎𝑡(𝐹𝑖) , ∀𝑖
𝑀 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶, 𝑁𝑐𝑙𝑠 𝐹
出力される𝑀はクラス数𝑁𝑐𝑙𝑠でマスクされた推測結果となる
𝐶:MLPの次元数
𝐶𝑖:特徴マップの次元数
𝐹𝑖:階層𝑖の出力
𝐻:入力画像の高さ
𝑊:入力画像の幅
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
All-MLPの効果
• ERF(Effective Receptive Field)を可視化
– ERFとは
• 保持している特徴マップの情報度合い
– CNNベースのDeepLabV3+[5]と提案手法を比較
• 提案手法はStage-4で広範囲を抽出できる
• 提案手法はMLPを通すことでより局所的な特徴を抽出
以上より提案手法はシンプルな構造に関わらず,局所的な特徴と
広域的な特徴を両方抽出可能
データセット:Cityscapes[6]
Stage1~4:エンコーダの段階
Head:デコーダ後
[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable
convolution for semantic image segmentation. In ECCV, 2018
[6] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験設定
• 使用データセット
– Cityscapes,ADE20K[7],COCO-Stuff[8]
• 事前学習
– エンコーダ:Imagenet-1K[9]のデータセット
– デコーダ:ランダムに初期化
• MiT(Mix Transformer encoders)
– 同じSegFormer構造でパラメータ数が異なるモデルを
MiT0~5まで用意
• 評価指標
– mIoU
[7] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In
CVPR, 2017
[8] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験①モデルサイズの影響
• MiT0~5を比較
– デコーダのパラメータ数が小さく軽量
– どのデータセットに対しても,パラメータが多い
ほど高性能
mIoUのSS/MSはシングルスケールとマルチスケールを示す
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験②動的位置埋め込みの有効性
• Mix-FFNとViTの位置埋め込みを比較
– どちらの解像度も提案手法が高性能
– 提案手法の方が入力の解像度に対するロバスト性が高い
PE:ViTの位置埋め込み
Mix-FFN:提案手法の動的位置埋め込み
・Cityscapesを1024×1024サイズで学習させる
・PEは入力サイズに合わせて伸縮させる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験③提案手法の性能
• SoTAとの比較
– MiT-B0を見ると,スピードと性能はトレードオフ
– 提案手法は軽量だが,高性能
MiT-B0は入力画像の高さを{1024,768,640,512}と変化
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験④様々な環境下でのロバスト性
• ブラー,ノイズ,デジタル,天候要因の入力に対し
て,DeepLabV3+や他の手法と比較
– 提案手法は様々な環境下で強いロバスト性を持つ
• 自動運転のような,ロバスト性が重要なタスクで活きる
Cityscapes-C[9]というCityscapesを拡張したデータセットを使用
[9] Christoph Kamann and Carsten Rother. Benchmarking the robustness of semantic segmentation models. In CVPR, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
まとめ
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力
なセマンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は,固定サイズの位置埋め込みを用いない
階層型Transformerの構造
– デコーダ部分は,複雑性や計算コストを抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、SoTAを記録

More Related Content

What's hot (20)

PDF
4 データ間の距離と類似度
Seiichi Uchida
 
PDF
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
PPTX
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
PPTX
Triplet Loss 徹底解説
tancoro
 
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
 
PPTX
深層学習の非常に簡単な説明
Seiichi Uchida
 
PDF
Attentionの基礎からTransformerの入門まで
AGIRobots
 
PDF
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
 
PDF
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
 
PDF
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 
PDF
【DL輪読会】Segment Anything
Deep Learning JP
 
PPTX
画像処理基礎
大貴 末廣
 
PDF
Point net
Fujimoto Keisuke
 
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PPTX
ResNetの仕組み
Kota Nagasato
 
PDF
ICLR2020の異常検知論文の紹介 (2019/11/23)
ぱんいち すみもと
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
4 データ間の距離と類似度
Seiichi Uchida
 
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
Triplet Loss 徹底解説
tancoro
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
深層生成モデルと世界モデル
Masahiro Suzuki
 
深層学習の非常に簡単な説明
Seiichi Uchida
 
Attentionの基礎からTransformerの入門まで
AGIRobots
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
 
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
 
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 
【DL輪読会】Segment Anything
Deep Learning JP
 
画像処理基礎
大貴 末廣
 
Point net
Fujimoto Keisuke
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
ResNetの仕組み
Kota Nagasato
 
ICLR2020の異常検知論文の紹介 (2019/11/23)
ぱんいち すみもと
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 

Similar to SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (20)

PDF
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
PPTX
RAPiD
harmonylab
 
PDF
RobotPaperChallenge 2019-07
robotpaperchallenge
 
PDF
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
PDF
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
PDF
20130925.deeplearning
Hayaru SHOUNO
 
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
 
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
 
PDF
Semantic segmentation
Takuya Minagawa
 
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
PDF
深層学習 - 画像認識のための深層学習 ①
Shohei Miyashita
 
PPTX
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
PPTX
Deep Learningについて(改訂版)
Brains Consulting, Inc.
 
PDF
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
Toru Tamaki
 
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
PDF
全力解説!Transformer
Arithmer Inc.
 
PDF
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
RAPiD
harmonylab
 
RobotPaperChallenge 2019-07
robotpaperchallenge
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
20130925.deeplearning
Hayaru SHOUNO
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
 
Semantic segmentation
Takuya Minagawa
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
深層学習 - 画像認識のための深層学習 ①
Shohei Miyashita
 
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
Deep Learningについて(改訂版)
Brains Consulting, Inc.
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
Toru Tamaki
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
全力解説!Transformer
Arithmer Inc.
 
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
PDF
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
Ad

Recently uploaded (10)

PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 2022/06/27 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士1年 大倉博貴
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 • 著者 – Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo • 発表 – NeurIPS 2021 • ジャーナル – CoRR • リンク – 論文:https://arxiv.org/abs/2105.15203 – Github:https://github.com/NVlabs/SegFormer 2
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • SegFormerとは – TransformerとMLPデコーダを統合した、シンプルだが強力なセマ ンティックセグメンテーションフレームワーク • 2つの特徴 – エンコーダ部分は,固定サイズの位置埋め込みを用いない階層型 Transformerの構造 – デコーダ部分は,複雑性や計算コスト を抑えるAll-MLP構造 • SegFormerの評価 – 計算コストが低いにも関わらず、 SoTAを記録
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 • ViT[1]のようなTransformerを用いた画像認識がSoTA を記録 • Transformerベースモデルの2つの課題 – 固定長の位置埋め込みにより,出力が単一スケールの低解 像度な特徴量 – Attention機構の計算コストが高く,高解像度になるほど高 くなる • 課題を解決し精度を向上させたモデル設計を目指す [1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv, 2020
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 提案手法 • SegFormer – エンコーダ:階層型Transformerの構造 – デコーダ:MLPのみで構成されるAll-MLP
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 エンコーダ • 階層型Transformer – 4つの階層で構成され,階層が進むと解像度が下がる – 高解像度の細かい特徴と低解像度の粗い特徴の両方を抽出 • 以下3つの技術で構成 – Overlap Patch Merging – Efficient Self-Attention – Mix-FFN
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Overlap Patch Merging • 階層𝑖の特徴マップ𝐹𝑖を解像度を下げ,階層𝑖 + 1の特 徴マップ𝐹𝑖+1に変換する技術 – 𝐹𝑖 𝐻 2𝑖+1 × 𝑊 2𝑖+1 × 𝐶𝑖 , 𝑖 ∈ 1, 2, 3, 4 , 𝐶𝑖+1 > 𝐶𝑖 • パッチの連続性を保持するためにパッチサイズ𝐾,ス トライド幅𝑆,パディングサイズ𝑃を指定 – 入力の場合,1パッチが特徴マップ4×4に対応 • 𝐾 = 7, 𝑆 = 4, 𝑃 = 3 – それ以外,1パッチが特徴マップ2×2に対応 • 𝐾 = 3, 𝑆 = 2, 𝑃 = 1 高さ 幅 次元数
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Efficient Self-Attention • Self-Attentionの計算コストを削減する技術 Self-Attentionは以下の式となり,クエリとキーの次元数が 𝑁 × 𝐶であることから,計算量𝑶(𝑵𝟐 )となる 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝑑ℎ𝑒𝑎𝑑 𝑉 𝑄:クエリ 𝐾:キー 𝑉:値 𝐻:入力画像の高さ 𝑊:入力画像の幅 𝑁 = 𝐻 × 𝑊:シーケンス長 𝐶:特徴マップの次元数
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Efficient Self-Attention • Self-Attentionの計算コストを削減する技術 ここで、PVT[2]で導入された以下の手法を取り入れる 𝐾 = 𝑅𝑒𝑠ℎ𝑎𝑝𝑒 𝑁 𝑅 , 𝐶・𝑅 𝐾 𝐾 = 𝐿𝑖𝑛𝑒𝑎𝑟(𝐶・𝑅, 𝐶)(𝐾) 削減率𝑅 = [64,16,4,1]を階層ごとに用いることで,キー𝐾の次 元数を𝑁 × 𝐶から 𝑵 𝑹 × 𝑪に変換し,計算量を𝑶( 𝑵𝟐 𝑹 )に削減 𝐾:キー 𝐻:入力画像の高さ 𝑊:入力画像の幅 𝑁 = 𝐻 × 𝑊:シーケンス長 𝐶:特徴マップの次元数 [2] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. arXiv, 2021
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Mix-FFN • FFN (Feed-Forward Network)の畳み込みで動 的に位置埋め込みを行う技術 𝑥𝑜𝑢𝑡 = 𝑀𝐿𝑃 𝐺𝐸𝐿𝑈 𝐶𝑜𝑛𝑣3×3 𝑀𝐿𝑃 𝑥𝑖𝑛 + 𝑥𝑖𝑛 – 畳み込み層で位置情報を集約可能 • CPVT[3]やPosENet[4]からinspire 𝑥𝑖𝑛 :入力 𝑥𝑜𝑢𝑡 :出力 𝑀𝐿𝑃 :多重線形層 𝐺𝐸𝐿𝑈 :GELU活性化関数 𝐶𝑜𝑛𝑣 :畳み込み層 [3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for vision transformers. arXiv, 2021 [4] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv, 2020
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 デコーダ • MLPのみで構成されるAll-MLP – 4つのステップで構成 𝐹𝑖 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶𝑖, 𝐶 𝐹𝑖 , ∀𝑖 𝐹𝑖 = 𝑈𝑝𝑠𝑎𝑚𝑝𝑙𝑒 𝐻 4 × 𝑊 4 𝐹𝑖 , ∀𝑖 𝐹 = 𝐿𝑖𝑛𝑒𝑎𝑟 4𝐶, 𝐶 𝐶𝑜𝑛𝑐𝑎𝑡(𝐹𝑖) , ∀𝑖 𝑀 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶, 𝑁𝑐𝑙𝑠 𝐹 出力される𝑀はクラス数𝑁𝑐𝑙𝑠でマスクされた推測結果となる 𝐶:MLPの次元数 𝐶𝑖:特徴マップの次元数 𝐹𝑖:階層𝑖の出力 𝐻:入力画像の高さ 𝑊:入力画像の幅
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 All-MLPの効果 • ERF(Effective Receptive Field)を可視化 – ERFとは • 保持している特徴マップの情報度合い – CNNベースのDeepLabV3+[5]と提案手法を比較 • 提案手法はStage-4で広範囲を抽出できる • 提案手法はMLPを通すことでより局所的な特徴を抽出 以上より提案手法はシンプルな構造に関わらず,局所的な特徴と 広域的な特徴を両方抽出可能 データセット:Cityscapes[6] Stage1~4:エンコーダの段階 Head:デコーダ後 [5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018 [6] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験設定 • 使用データセット – Cityscapes,ADE20K[7],COCO-Stuff[8] • 事前学習 – エンコーダ:Imagenet-1K[9]のデータセット – デコーダ:ランダムに初期化 • MiT(Mix Transformer encoders) – 同じSegFormer構造でパラメータ数が異なるモデルを MiT0~5まで用意 • 評価指標 – mIoU [7] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In CVPR, 2017 [8] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験①モデルサイズの影響 • MiT0~5を比較 – デコーダのパラメータ数が小さく軽量 – どのデータセットに対しても,パラメータが多い ほど高性能 mIoUのSS/MSはシングルスケールとマルチスケールを示す
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験②動的位置埋め込みの有効性 • Mix-FFNとViTの位置埋め込みを比較 – どちらの解像度も提案手法が高性能 – 提案手法の方が入力の解像度に対するロバスト性が高い PE:ViTの位置埋め込み Mix-FFN:提案手法の動的位置埋め込み ・Cityscapesを1024×1024サイズで学習させる ・PEは入力サイズに合わせて伸縮させる
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験③提案手法の性能 • SoTAとの比較 – MiT-B0を見ると,スピードと性能はトレードオフ – 提案手法は軽量だが,高性能 MiT-B0は入力画像の高さを{1024,768,640,512}と変化
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験④様々な環境下でのロバスト性 • ブラー,ノイズ,デジタル,天候要因の入力に対し て,DeepLabV3+や他の手法と比較 – 提案手法は様々な環境下で強いロバスト性を持つ • 自動運転のような,ロバスト性が重要なタスクで活きる Cityscapes-C[9]というCityscapesを拡張したデータセットを使用 [9] Christoph Kamann and Carsten Rother. Benchmarking the robustness of semantic segmentation models. In CVPR, 2020
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 まとめ • SegFormerとは – TransformerとMLPデコーダを統合した、シンプルだが強力 なセマンティックセグメンテーションフレームワーク • 2つの特徴 – エンコーダ部分は,固定サイズの位置埋め込みを用いない 階層型Transformerの構造 – デコーダ部分は,複雑性や計算コストを抑えるAll-MLP構造 • SegFormerの評価 – 計算コストが低いにも関わらず、SoTAを記録