SlideShare a Scribd company logo
3
Most read
4
Most read
5
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DINOv2: Learning Robust Visual Features without Supervision
Taichi Okunishi, Keio Univ.
書誌情報
• タイトル
– DINOv2: Learning Robust Visual Features without Supervision
• 出典
– https://arxiv.org/abs/2304.07193
• 著者
– Meta AI の研究者,他
• 出版年⽉
– 2023年4⽉
• コード
– https://github.com/facebookresearch/dinov2
2
概要
• DINOv2 は画像の⾃⼰教師あり学習⼿法である DINO の拡張
• DINO (Distillation of knowledge with No labels ) [1]
– ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法
• DINOとの差分
– キュレーションされた⼤規模データセットを⽤いて事前学習
• 結果
– 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕
– ImageNet-1K の分類タスクでは,OpenCLIPを超える精度
3
背景知識|DINO (1/2)
• DINO(Distillation of knowledge with No labels )[1]
– ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法
– 今回報告された DINOv2 の元となる論⽂
4
背景知識|DINO (2/2)
• DINOにおける⾃⼰蒸留
– 本来の⾃⼰蒸留の⽬的:
• ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮
– DINOにおける⾃⼰蒸留の⽬的
• ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤
5
本研究の位置づけ
• 画像の⾃⼰教師あり学習⼿法 DINOの改良
– ラベルなし⾃⼰蒸留による表現学習
• DINOからの差分
– キュレーションされた⼤規模データセットによる事前学習
• 多様性のあるデータによる学習により,様々なタスクに万能な表現学習
– その他の細かな技術的変更(付録スライド参照)
• 様々な画像タスクでDINOv2の有⽤性を評価
– 他の⾃⼰教師あり学習や,弱教師あり⼿法との⽐較
6
DINOv2 (1/2)| キュレーションデータセットの作成
• データソース
– ImageNet-22K,Google Landmarksなど (⼀覧は付録A参照)
– 142Mのデータ数
• Embedding
– 事前学習済みViTで embeddingを抽出
7
DINOv2 (2/2)| キュレーションデータセットの作成
• Deduplication
– 既存のコピー検出パイプライン[2]により,重複画像を削除
• Retrieval
– コサイン類似度を⽤いて,未キュレーションデータから類似画像を取得
→ キュレーションデータに追加
8
実験結果(1/3)|様々なタスクでの結果
• 様々な画像タスクで,他の⾃⼰教師ありや,弱教師ありを上回る精度
• モデルサイズが増えるにつれて,精度向上
9
黄:自己教師あり手法
赤:弱教師あり手法
青:DINOv2 (提案手法)
実験結果(2/3) | ImageNet-1Kでの結果
• DINOv2は,OpenCLIPよりも精度が向上
• 他の⾃⼰教師あり学習⼿法を上回る精度
10
実験結果(3/3)| 定性的評価
11
• DINOv2で抽出した特徴に対するPCAの結果
• 教師なしにも関わらず,意味領域の情報を捉えている
まとめ
• 画像の⾃⼰教師あり学習
– 画像の表現学習に重要な役割
• DINO (Distillation of knowledge with No labels )[1]
– 画像の⾃⼰教師あり学習⼿法の1つ
– ラベルなし⾃⼰蒸留による表現学習
• 本研究:DINOv2
– 基本的にはDINO と同じ
– キュレーションされた⼤規模データセットで事前学習
• 結果
– 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕
– ImageNet-1Kでは,OpenCLIPを上回る精度
12
参考⽂献
[1] M. Caron et al., “Emerging Properties in Self-Supervised Vision
Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision
(ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640.
[2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv
preprint arXiv:2202.10261, 2022.
[3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou.
Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018.
13
付録:使⽤したデータセット⼀覧
14
付録:DINOからの他の技術的差分
• 解像度の適応
– 事前学習の最後に短期間で画像の解像度を518×518に上げる.
– ⼩さなオブジェクトが低解像度で消える問題点を解消
• KoLeo regularizer [3]の使⽤
– バッチ内の特徴量の均⼀化を促進
15

More Related Content

What's hot (20)

PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
 
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
PPTX
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
PDF
SSII2019企画: 点群深層学習の研究動向
SSII
 
PDF
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
PDF
Transformer メタサーベイ
cvpaper. challenge
 
PDF
【DL輪読会】Segment Anything
Deep Learning JP
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PDF
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
 
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
近年のHierarchical Vision Transformer
Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
SSII2019企画: 点群深層学習の研究動向
SSII
 
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
Transformer メタサーベイ
cvpaper. challenge
 
【DL輪読会】Segment Anything
Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 

Similar to 【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision (16)

PPTX
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
 
PDF
20150930
nlab_utokyo
 
PDF
IROS2020 survey
robotpaperchallenge
 
PDF
20140726.西野研セミナー
Hayaru SHOUNO
 
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Ohsawa Goodfellow
 
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
Deep Learning JP
 
PDF
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
Deep Learning JP
 
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
Deep Learning JP
 
PPTX
Hello deeplearning!
T2C_
 
PDF
Deep Learning技術の今
Seiya Tokui
 
PDF
Deep residual learning for image recognition
禎晃 山崎
 
PDF
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
 
PDF
ReNom 2016 ~ 2018振り返り
ReNom User Group
 
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
 
PDF
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
 
20150930
nlab_utokyo
 
IROS2020 survey
robotpaperchallenge
 
20140726.西野研セミナー
Hayaru SHOUNO
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Ohsawa Goodfellow
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
Deep Learning JP
 
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
Deep Learning JP
 
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
Deep Learning JP
 
Hello deeplearning!
T2C_
 
Deep Learning技術の今
Seiya Tokui
 
Deep residual learning for image recognition
禎晃 山崎
 
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
 
ReNom 2016 ~ 2018振り返り
ReNom User Group
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
 
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
Ad

Recently uploaded (10)

PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision