【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DINOv2: Learning Robust Visual Features without Supervision
Taichi Okunishi, Keio Univ.

書誌情報
• タイトル
– DINOv2: Learning Robust Visual Features without Supervision
• 出典
– https://arxiv.org/abs/2304.07193
• 著者
– Meta AI の研究者，他
• 出版年⽉
– 2023年4⽉
• コード
– https://github.com/facebookresearch/dinov2
2

概要
• DINOv2 は画像の⾃⼰教師あり学習⼿法である DINO の拡張
• DINO （Distillation of knowledge with No labels ） [1]
– ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法
• DINOとの差分
– キュレーションされた⼤規模データセットを⽤いて事前学習
• 結果
– 様々な画像タスクで，他の⾃⼰教師あり，弱教師あり⼿法を凌駕
– ImageNet-1K の分類タスクでは，OpenCLIPを超える精度
3

背景知識｜DINO (1/2)
• DINO（Distillation of knowledge with No labels ）[1]
– ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法
– 今回報告された DINOv2 の元となる論⽂
4

背景知識｜DINO (2/2)
• DINOにおける⾃⼰蒸留
– 本来の⾃⼰蒸留の⽬的：
• ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮
– DINOにおける⾃⼰蒸留の⽬的
• ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤
5

本研究の位置づけ
• 画像の⾃⼰教師あり学習⼿法 DINOの改良
– ラベルなし⾃⼰蒸留による表現学習
• DINOからの差分
– キュレーションされた⼤規模データセットによる事前学習
• 多様性のあるデータによる学習により，様々なタスクに万能な表現学習
– その他の細かな技術的変更(付録スライド参照)
• 様々な画像タスクでDINOv2の有⽤性を評価
– 他の⾃⼰教師あり学習や，弱教師あり⼿法との⽐較
6

DINOv2 (1/2)| キュレーションデータセットの作成
• データソース
– ImageNet-22K，Google Landmarksなど (⼀覧は付録A参照）
– 142Mのデータ数
• Embedding
– 事前学習済みViTで embeddingを抽出
7

DINOv2 (2/2)| キュレーションデータセットの作成
• Deduplication
– 既存のコピー検出パイプライン[2]により，重複画像を削除
• Retrieval
– コサイン類似度を⽤いて，未キュレーションデータから類似画像を取得
→ キュレーションデータに追加
8

実験結果(1/3)｜様々なタスクでの結果
• 様々な画像タスクで，他の⾃⼰教師ありや，弱教師ありを上回る精度
• モデルサイズが増えるにつれて，精度向上
9
黄：自己教師あり手法
赤：弱教師あり手法
青：DINOv2 (提案手法）

実験結果(2/3) | ImageNet-1Kでの結果
• DINOv2は，OpenCLIPよりも精度が向上
• 他の⾃⼰教師あり学習⼿法を上回る精度
10

実験結果(3/3)| 定性的評価
11
• DINOv2で抽出した特徴に対するPCAの結果
• 教師なしにも関わらず，意味領域の情報を捉えている

まとめ
• 画像の⾃⼰教師あり学習
– 画像の表現学習に重要な役割
• DINO (Distillation of knowledge with No labels )[1]
– 画像の⾃⼰教師あり学習⼿法の１つ
– ラベルなし⾃⼰蒸留による表現学習
• 本研究：DINOv2
– 基本的にはDINO と同じ
– キュレーションされた⼤規模データセットで事前学習
• 結果
– 様々な画像タスクで，他の⾃⼰教師あり，弱教師あり⼿法を凌駕
– ImageNet-1Kでは，OpenCLIPを上回る精度
12

参考⽂献
[1] M. Caron et al., “Emerging Properties in Self-Supervised Vision
Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision
(ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640.
[2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv
preprint arXiv:2202.10261, 2022.
[3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou.
Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018.
13

付録：使⽤したデータセット⼀覧
14

付録：DINOからの他の技術的差分
• 解像度の適応
– 事前学習の最後に短期間で画像の解像度を518×518に上げる．
– ⼩さなオブジェクトが低解像度で消える問題点を解消
• KoLeo regularizer [3]の使⽤
– バッチ内の特徴量の均⼀化を促進
15

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

More Related Content

What's hot (20)

Similar to 【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision (16)

More from Deep Learning JP (20)

Recently uploaded (10)

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision