Submit Search
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation
0 likes
1,123 views
H
harmonylab
DLゼミ資料
Technology
Read more
1 of 21
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
More Related Content
Similar to DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation
(20)
PPTX
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
PPTX
RAPiD
harmonylab
PDF
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
PPTX
2021 09 29_dl_hirata
harmonylab
PDF
2021 haizoku
harmonylab
PDF
2021 haizoku
harmonylab
PPTX
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
PPTX
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
PPTX
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
PDF
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
PDF
Towards Total Recall in Industrial Anomaly Detection
harmonylab
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
PPTX
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
PPTX
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
RAPiD
harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
2021 09 29_dl_hirata
harmonylab
2021 haizoku
harmonylab
2021 haizoku
harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
Towards Total Recall in Industrial Anomaly Detection
harmonylab
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
More from harmonylab
(20)
PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
PDF
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
harmonylab
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
PDF
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
PDF
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
PPTX
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
PPTX
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
harmonylab
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
Ad
Recently uploaded
(10)
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
Ad
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation
1.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文紹介 Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士2年 大倉博貴
2.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 論文情報 • タイトル – Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation • 著者 – Shuting He and Henghui Ding and Wei Jiang • 発表 – CVPR2023 • 2023年6月19日 • URL – Project Page • https://henghuiding.github.io/PADing/ – Github • https://github.com/heshuting555/PADing
3.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • 物体の意味関係を視覚特徴の学習に利用する Zero-Shotセグメンテーション手法を提案 • 提案手法はSoTAを達成
4.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 • 大量の教師データが必要というセグメンテーション の課題解決にzero-shot学習が提案 • Generative modelベースは,物体を学習済みのクラス に分類する傾向がある問題[1]を軽減し優れている • しかし,いくつかの課題が存在 – ピクセルレベルごとに生成するため,十分なロバスト性が ない – 意味埋め込みから視覚特徴へのマッピングで,画像が言語 より豊富な情報を含むことを考慮していない – 未知クラスに対する生成の学習が難しい [1] Farhad Pourpanah, Moloud Abdar, Yuxuan Luo, Xinlei Zhou, Ran Wang, Chee Peng Lim, and Xi-Zhao Wang. A review of generalized zero-shot learning methods. arXiv preprint arXiv:2011.08641, 2020.
5.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 提案手法 • PADing – Primitive Generatorが未知のクラスの視覚特徴を 合成するフレームワーク • Relationship AlignmentとDisentangleにより実現
6.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 提案手法 • PADingの学習アルゴリズム – 事前学習済みの予測器が,クラスにとらわれない マスクとクラス埋め込みを予測 – Primitive Generatorを学習 – クラス埋め込みと合成未知クラス埋め込みから, 予測器を調整
7.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Primitive Generator • Primitive Cross-Model Generation – 細かい属性を持つprimitivesを用いたクラス埋め込 みの合成 • Semantic-Visual Relationship Alignment – 未知のクラスの合成を実現するためのRelationship -AlignmentとDisentangleによるアプローチ
8.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Primitive Cross-Model Generation • Primitivesをランダムに初期化 • Self-AttentionでPrimitivesを学習 – Primitivesは非常に細かい意味的特徴 • 例)毛,色,形など 𝑃 = 𝑝𝑖 𝑖=1 𝑁 , 𝑝𝑖 ∈ ℝ𝑑𝑘 𝑑𝑘:チャネル数
9.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Primitive Cross-Model Generation • 2つの異なる線形層𝜔𝐾, 𝜔𝑉を用いて,Cross-Attention のKey(𝐾)とValue(𝑉)を得る • 意味埋め込みをQueryとして,Cross-Attentionを実行 𝜒′ :合成クラス埋め込み 𝑧:ガウス分布のサンプル 𝜔1:線形層
10.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Primitive Cross-Model Generation • 2つの確率分布の平均不一致の最大値を抑えるために 損失関数を定義 – 既知のクラスのみを対象にしている 𝐿𝐺 = 𝑓,𝑓∈𝑋𝑆 𝑘 𝑓, 𝑓 + 𝑓′,𝑓′∈𝑋𝑆′ 𝑘 𝑓′, 𝑓′ − 2 𝑓∈𝑋𝑆 𝑓′∈𝑋𝑆′ 𝑘 𝑓, 𝑓′ 𝑋𝑆:既知の実クラス埋め込み 𝑋𝑆′ :既知の合成クラス埋め込み
11.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 Semantic-Visual Relationship Alignment • Disentangle – クラス埋め込みに対してエンコーダを適用,意味関連情報 を分離 • Relationship Alignment – 意味関連視覚空間と意味空間との関係アライメントを行う
12.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 Disentangle • クラス埋め込みに対して異なるエンコーダを適用し, 意味関連と非意味関連を生成する – 意味関連 – 非意味関連 𝑥𝑖 = 𝐸𝑅 𝑥𝑖 , 𝐿𝑅 = − 𝑖 𝑘 𝟙 𝑥𝑖 = 𝑘 𝑙𝑜𝑔 exp(𝑥𝑖𝑎𝑘/𝜏) 𝑘 exp(𝑥𝑖𝑎𝑘/𝜏) 𝐸𝑅:意味関連用エンコーダ 𝐸𝑈:非意味関連用エンコーダ 𝑥 :𝑥の正解クラスのインデックス 𝐷𝐾𝐿:KLダイバージェンス 𝑥𝑖 = 𝐸𝑈 𝑥𝑖 , 𝐿𝑈 = 𝑖 𝐷𝐾𝐿[𝑥𝑖||𝑁(0,1)]
13.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Disentangle • より効率的に意味関連情報を抽出するためデコーダ を用いて特徴を再構成 • Disentangle全体の損失関数を定義 𝐿𝑟𝑒𝑐𝑜𝑛 = 𝑖 𝑥𝑖 − 𝐷(𝑥𝑖, 𝑥𝑖) 𝐷:再構築用デコーダ 𝐿ⅅ = 𝐿𝑅 + 𝐿𝑈 + 𝐿𝑟𝑒𝑐𝑜𝑛
14.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Relationship Alignment • 意味関連視覚空間と意味空間の関係アライメント – 任意の2つの特徴の類似性をそれらに対応する意味埋め込み の類似性に近づける操作 𝐿𝐴 = 𝐷𝐾𝐿[ 𝑥𝑖𝑥𝑗 𝑥𝑖 𝑥𝑗 /𝜏|| 𝑎[𝑥𝑖]𝑎[𝑥𝑗] 𝑎[𝑥𝑖] 𝑎[𝑥𝑗] /𝜏] 𝑥 :𝑥の正解クラスのインデックス
15.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 Primitive Generator • 損失関数の定義 – 未知のクラスに対する意味関係を含むクラス埋め 込みの合成を実現 𝐿𝑡𝑜𝑡𝑎𝑙 = 𝐿𝐺 + 𝜆(𝐿ⅅ + 𝐿𝐴) 𝐿𝐺:既知クラスの損失関数 𝐿ⅅ:Disentangleの損失関数 𝐿𝐴:Relation Alignmentの損失関数 𝜆:重み
16.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験設定 • 利用モデル – 意味埋め込み生成 • CLIP text embedding[2] • Word2vec[3] – 分類器 • ResNet-50[4]をバックボーンとしたMask2Former[5] – Disentangle用エンコーダとデコーダ • MLP – ベースライン • GMMN[6] [2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML. PMLR, 2021. [3] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NeurIPS, 2013. [4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. [5] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. In CVPR, 2022. [6] Maxime Bucher, Tuan-Hung Vu, Matthieu Cord, and Patrick Perez. Zero-shot semantic segmentation. ´ NeurIPS, 32, 2019.
17.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験設定 • データセット – MSCOCOを用いたZSP(Zero-Shot Panoptic Segmentation)用 データセットを作成 • ZSS(Zero-Shot Segmentation)用データセット作成の先行研究 [7]に従う • 評価指標 – 調和平均(HM)で計算 • PQ(Panoptic Quality) • SQ(Segmentation Quality) • RQ(Recognition Quality) • mAP(mean Average Precision) • mIoU(mean Intersection-over-Union) [7] Yongqin Xian, Subhabrata Choudhury, Yang He, Bernt Schiele, and Zeynep Akata. Semantic projection network for zero-and few-label semantic segmentation. In CVPR, 2019. 𝐻𝑀 = 2 × 𝑃𝑠𝑒𝑒𝑛 × 𝑃𝑢𝑛𝑠𝑒𝑒𝑛 𝑃𝑠𝑒𝑒𝑛 + 𝑃𝑢𝑛𝑠𝑒𝑒𝑛
18.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験①アブレーション • ZSP(Zero-Shot Panoptic)タスク – PADingが高精度 – Primitive Generatorがベースラインより優れている • その他のZero-Shotタスク – セグメンテーションタスク全体に有効 G/P:GMMN/Primitive Generator A:Relationship Alignment D:Disentangle
19.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 実験②SoTAとの比較 • ZSS(Zero-Shot Segmentation)タスク手法比較 – 従来の最良手法ZegFormer-seg[8]を上回る精度 • 従来手法がResNet-101を利用するが提案手法はResNet-50を利用 [8] Jian Ding, Nan Xue, Gui-Song Xia, and Dengxin Dai. Decoupling zero-shot semantic segmentation. In CVPR, 2022.
20.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 実験③定性的な結果 • ZSP(Zero-Shot Panoptic)タスク – ベースラインが見落とす未知のクラスを分類できている • スーツケース,草,フリスビー,道路,木,スケートボードなど
21.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 まとめ • 物体の意味関係を視覚特徴の学習に利用する Zero-Shotセグメンテーション手法を提案 • 提案手法はSoTAを達成
Download