岡本大和
@RoadRoller_DESU
CVPR2019@Long Beach
参加速報(Tutorial&Workshop)
はじめに
 本資料はCVPR’19の様子をお伝えするための資料です
 基本的にどこでどんな研究がされてたかの私信メモです
IEEE Conference on Computer Vision and Pattern Recognition
・Tutorial&Workshop (6/16~6/17) ←この資料の内容
・Conference Session (6/18~6/20)
http://cvpr2019.thecvf.com/
2nd Multimodal Learning and
Applications Workshop (MULA 2019)
• https://mula-workshop.github.io/
• タイトルにある通り、複数種のセンサやデータを組み合わせたMultimodalアプ
リのWorkshop
• WiFiによる行動認識や、FaceRecognitionとSpeakerRecogniyionを組み合わ
せる話、
• Color and Depth Disentangle といった言葉も飛び交った(Disentanle流行っ
てるなぁ)
• SoundとVisionの組み合わせが多かった。ヒトはVisionからも音声を予測&誤
差確認しているという仮説から、補完効果があるだろうと。
• 周期性などから抽出する音の特徴量『Sound Texture』って言葉は初めて聞い
た(2011年からあったらしい)、動画の特徴量との相関が出るとか(そりゃそ
うよね、さざ波の音とかって動画と音声の相関高そうですし)
• この音って画像中のどのObjectが発してるの?くらいなら既にかなり識別でき
る様子(それもそうか、技術の進化は早いなぁ)
Invited Speaker: Kristen Grauman
- Disentangling Object Sounds in Video
• 動画中から音源の個数や種類のヒントを得て、周波数スペクトルに対す
るMaskを生成して、音源をDisentangleする手法。
• そういえば非負値行列因子分解もDisentangleの一種と言ますもんね
• ところで『ボーダーシャツの人がアコーディオンに誤認識されちゃうの』って発言に笑っ
てしまった
Learning audio-visual Correspondence
• 動画中から現在の音を発している音源を発見する
• 学習データセット構築が課題で、動画と音声のペアをシャッフルしてそ
れを識別させるといったテクニックを使う
• 画像&音声に限らず、こういった枠組みの研究は今後も様々なデータ組
み合わせで広がりそうな予感!(わくわく)
Distributed Private Machine Learning for Computer Vision:
Federated Learning, Split Learning and Beyond
• Federated LearningとSplit LearningのWorkshop
 似てるようですがこれらは別物です(下図参照)
• みんなデータコストやマシンリソースに苦しんでいるのか、(そもそも
大きな部屋ではないけど)立ち見が出るほど満席御礼
 私個人がじっと座ってるのが本当に嫌いな人種なので苦痛で仕方なかった、
よってFederatedのパートだけ聴講して即離脱
• Workshopサイトに重要論文がまとめられているのでチェックすべし
 https://nopeekcvpr.github.io/
Split Learning
Distributed Private Machine Learning for Computer Vision:
Federated Learning, Split Learning and Beyond
• Federated Learningに興味津々らしく質疑応答で次々と手が挙がった
 モデルは全員で同じものを共有しないといけないのか?
 いえす、ただしデプロイするのは最初の1回だけでOK
 悪意あるユーザでモデルが破壊されるリスクは無いのか?
 いえす、そういう研究も出てきている
 ユーザ端末に搭載のモデルは、各ユーザに特化したモデルにできないか?
 それが出来た方が価値は大きい、しかし、それは簡単には出来ない。
 おそらく、個人の嗜好を抽出するのが容易ではないということだろう。
 最近の検索傾向や流行などを取り入れるようなモデルにすると、例えばサッカーW杯が開催
されたら、全ユーザがしばらくはサッカー好きと判断されるだろう。とのこと。
• 最後に、Federatedが力を発揮するシーンが述べられた
Domain Generalization by Solving Jigsaw Puzzles
• Sourceに複数のドメインがあり、それらを駆使してUnknownである
Targetドメインでの性能を向上させるというDomain Generalization
• SupervisedでClassifierを学習するネットワークに、Jigsawされた画像
を復元するSelf-supervisedを加えてMulti-Task-Learningさせる
• Supervised部分がclass識別の特徴を捉え、Self-supervised部分が
Domain-Invariantな特徴を捉える。
• 画像認識に限って言えば、輪郭などがDomain-Invariantになる印象な
ので、 JigsawによるSelf-supervisedはたしかに筋がいいかも
参照:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Carlucci_Domain_Generalization_by_Solvi
ng_Jigsaw_Puzzles_CVPR_2019_paper.pdf
Discovering Fair Representations in the Data Domain
• Fairnessの目的の1つは、GenderなどのSensitive Parameterを取り
除いて、かつ、タスク性能を低下させないようなRepresentationを得
ること
• 実際、Fairになったデータってどんななの?というのが分からない(高
次元特徴量表現されているため)、というわけで、Fairにしたデータ
(画像)がどんなものか可視化したよ!という研究
• それだけ!?と思ったけど、ちゃんとFairにした後のデータで予測性能
が従来より向上していた。わりと定番っぽいネットワーク構造だが、何
が性能向上のKeyとなったのだろう・・?
参照: https://arxiv.org/pdf/1810.06755.pdf
Balanced Datasets Are Not Enough: Estimating and
Mitigating Gender Bias in Deep Image Representations
• 画像中の共起性に注目したFairnessの研究
• Balanced Datasetとするには、Genderそれぞれの画像を均等に準備す
るだけでは不十分。 Genderによって共起しやすいクラスのBiasがか
かっていると主張する
• よって下図にあるような男女ともに料理しているデータを用意するなど
の対策が必要
• そのBiasを解決するような
ネットワークも提案した
• でもごちゃごちゃしていた
ので省略(すいません
参照: http://www.cs.virginia.edu/~vicente/deeplearning/slides/bias.pdf
論文のTitleをメモし忘れた/(^0^)\
• 歩行者検出は性別や年齢によって
Biasがかかっているという主張
• 具体的にはChildとFemaleで比較的
ミスが多いという結果になった
• これらはデータの偏りに起因すると
推測されている(たぶん)
Evaluating image Enhancement using Semantic Task
• NeuralNetによる画像復元(圧縮?)を学習するときに、Semanticな
タスクの性能が上がるように学習させると画質も向上するというもの。
• 研究では、元画像から生成したキャプションと、GAN生成画像から生
成したキャプションの正確さを比較して、GAN生成画像からも適格な
キャプション生成ができるよう学習させていた。
• 資料を貼ろうと思ったのにググっても論文が出てこない
/(^0^)\
• 復元画像の『画質』評価ってどうやってるんだろ、、MSEとSemantic
な情報保存度合って比例しないと思うし、評価方法が気になりますね
参照: おっかしぃなぁ・・・
Half&Half: New Task and Benchmarks for studying
Visual Common Sense
• 直接目にしているわけじゃなくても『TVがあるとしたらリビングか
な』とか『歯ブラシは洗面台の鏡の前に置いてるのでは』といった
Common-Senseを学習&評価するための枠組み(≒データセット)を
新規提案したというもの。
• 画像の半分を隠して、隠された部分に何があるのか連想して(選択肢の
中から)予測できるかどうか、というタスクになっている。
• このままではデータセット依存の認識器しか構築できなくて、国や文化
が異なれば・・・などといった技術課題はありそうだが、おもしろいと
思ったのでシェア
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Vision_Meets_Cognition_Camera_Ready/Singh_Hal
fHalf_New_Tasks_and_Benchmarks_for_Studying_Visual_Common_Sense_CVPRW_2019_paper.pdf
Class Consistency Driven Unsupervised Deep
Adversarial Domain Adaptation
• 昨年から盛り上がっているUnsupervised-Domain-Adaptationの研究
• 従来はClassifier-LOSSはSourceドメインのみ用いるが、正解ラベルの
ないTargetドメインに対しても弱識別器の出力の一貫性(Consistency)
を評価するLOSSを設ける
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/CEFRL/Rakshit_Class_Consistency_Drive
n_Unsupervised_Deep_Adversarial_Domain_Adaptation_CVPRW_2019_paper.pdf
Building Explainable AI Evaluation for Autonomous
Perception
• 脱BlackBoxのために説明性のあるAIを構築しようという試み
• まずはデータXから予測Oを出力できるよう学習(この時点ではまだBlackBox)
• 次に、人手によるSemanticなアノテーションAから『Explainable Representations』と
定義したYを介して予測Oを出力できるよう学習(でもYは自動取得するとのこと←)
• 最後に、X⇒O、X⇒Y⇒O、A⇒Y⇒Oが同時に成り立つようにする
• 構築済みモデルがどの程度説明性を有するかの評価に用いることが出来ると主張
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Explainable%20AI/Zhang_Building_Expl
ainable_AI_Evaluation_for_Autonomous_Perception_CVPRW_2019_paper.pdf
Robust Image Colorization using Self Attention based
Progressive Generative Adversarial Network
• Self-Attention構造の導入によってGANによるColorization性能を向上
させたという研究、『Attention流行ってるなぁ~』の一言しか出ない
• Self Attentionの他にも、Spectral Normalizationを挟んだり、
Progressiveに学習させたり、GとDの更新頻度を調整したりと、細かい
努力もたくさんされている
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/NTIRE/Sharma_Robust_Image_Coloriza
tion_Using_Self_Attention_Based_Progressive_Generative_Adversarial_CVPRW_2019_paper.pdf
Attention PointNet for 3D-Object Detection
in Point Clouds
• Attention構造をPointNetに搭載することで性能改善
※PointNetとは?
 3D-Model用の3次元点群を(点の向きや順序に対してロバスト性を保ちな
がら)直接入力として扱えるNeural Network
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Autonomous%20Driving/Paigwar_Atten
tional_PointNet_for_3D-Object_Detection_in_Point_Clouds_CVPRW_2019_paper.pdf
Improving Deep Network Robustness to Unknown
Inputs with Objectosphere
• 学習したことのないUnknownクラスへの対処は、Gabageクラスを設けたり、
Softmaxの値にThresholdをかけることが多い
• 2つのLOSSによりUnknownクラスを区別しやすくなる学習方法を提案
• Entropic Open-Set Loss
 Unknownクラスに対してSoftmax値が一様になるよう制約をかける
 つまり、Unknownクラスに対してエントロピーを最大化する
• Objectosphere Loss
 特徴量の絶対値がUnknownで小さく、Knownで大きくなるよう制約する
学習用のUnknownクラスが必要なので、そのデータ設計にかなり精度依存する気が...
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20
in%20Deep%20Visual%20Learning/Dhamija_Improving_Deep_Network_Robustness_to_Unknown_In
puts_with_Objectosphere_CVPRW_2019_paper.pdf
Measuring Calibration in Deep Learning
• 機械学習モデルの『confidence(信頼性)』を評価する新しい指標として、
『Thresholded Adaptive Calibration Error (TACE) 』を提案
• Calibrationとは?
• 『クラスAのCalibration が90%』とは『全体観測のうち90%がクラスA』
であることを意味する
• 全データに対して予測が正解した割合を示す『Precision』とは異なる指標
• そのCalibrationについて実応用を見据えて適切な評価方法を提案したと
いう位置づけ。詳細は把握しきれていないが本気で機械学習モデルを現
場導入するときに必要となるであろう研究が増えているように感じる
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20in%20Deep%2
0Visual%20Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf
おまけ

More Related Content

PDF
ICML2019@Long Beach 参加速報(4日目)
PDF
ICML2019@Long Beach 参加速報(1日目)
PDF
ICML2019@Long Beach 参加速報(3日目)
PDF
ICML2019@Long Beach 参加速報(最終日 Workshop)
PDF
ICML2019@Long Beach 参加速報(5~6日目 Workshop)
PDF
ICML2019@Long Beach 参加速報(2日目)
PPTX
コードに基づくモデルによる IntelliCode
PPTX
俺とGitHubとcodeシリーズ
ICML2019@Long Beach 参加速報(4日目)
ICML2019@Long Beach 参加速報(1日目)
ICML2019@Long Beach 参加速報(3日目)
ICML2019@Long Beach 参加速報(最終日 Workshop)
ICML2019@Long Beach 参加速報(5~6日目 Workshop)
ICML2019@Long Beach 参加速報(2日目)
コードに基づくモデルによる IntelliCode
俺とGitHubとcodeシリーズ

Similar to CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~) (20)

PDF
【CVPR 2020 メタサーベイ】Vision & Other Modalities
PDF
CVPRプレゼン動画100本サーベイ
PPTX
Cvpr2018 参加報告(速報版)3日目
PPTX
CVPR2017 参加報告 速報版 本会議 1日目
PPTX
Eccv2018 report day3
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PPTX
CVPR2017 参加報告 速報版 本会議 4日目
PDF
Vision and Language(メタサーベイ )
PDF
CVPR 2019 速報
PDF
メタスタディ (Vision and Language)
PPTX
CVPR2018 参加報告(速報版)2日目
PDF
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
PDF
【メタサーベイ】Video Transformer
PPTX
CVPR2017 参加報告 速報版 本会議 2日目
PDF
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
PPTX
ECCV2018参加速報(一日目)
PDF
JDLA主催「CVPR2023技術報告会」発表資料
PDF
CVPR 2018 速報
PPTX
20190831 3 d_inaba_final
【CVPR 2020 メタサーベイ】Vision & Other Modalities
CVPRプレゼン動画100本サーベイ
Cvpr2018 参加報告(速報版)3日目
CVPR2017 参加報告 速報版 本会議 1日目
Eccv2018 report day3
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
CVPR2017 参加報告 速報版 本会議 4日目
Vision and Language(メタサーベイ )
CVPR 2019 速報
メタスタディ (Vision and Language)
CVPR2018 参加報告(速報版)2日目
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
【メタサーベイ】Video Transformer
CVPR2017 参加報告 速報版 本会議 2日目
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
ECCV2018参加速報(一日目)
JDLA主催「CVPR2023技術報告会」発表資料
CVPR 2018 速報
20190831 3 d_inaba_final
Ad

More from Yamato OKAMOTO (20)

PDF
第七回全日本コンピュータビジョン勉強会 A Multiplexed Network for End-to-End, Multilingual OCR
PDF
部下のマネジメントはAI開発に学べ
PDF
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
PDF
ICLR'2020 参加速報
PDF
Domain Generalization via Model-Agnostic Learning of Semantic Features
PDF
(SURVEY) Active Learning
PDF
(SURVEY) Semi Supervised Learning
PDF
[ICML2019読み会in京都] (LT)Bayesian Nonparametric Federated Learning of Neural Net...
PDF
[ICML2019読み会in京都] Agnostic Federated Learning
PDF
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
PDF
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
PDF
ICLR'19 読み会 in 京都 [LT枠] Domain Adaptationの研究動向
PDF
CVPR2019 survey Domain Adaptation on Semantic Segmentation
PDF
ICLR'19 研究動向まとめ 『Domain Adaptation』『Feature Disentangle』
PPTX
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
PDF
(Ja) A unified feature disentangler for multi domain image translation and ma...
PDF
IntelliLight: A Reinforcement Learning Approach for Intelligent Traffic Light...
PPTX
A unified feature disentangler for multi domain image translation and manipul...
PDF
ICDM'18 速報
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
第七回全日本コンピュータビジョン勉強会 A Multiplexed Network for End-to-End, Multilingual OCR
部下のマネジメントはAI開発に学べ
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR'2020 参加速報
Domain Generalization via Model-Agnostic Learning of Semantic Features
(SURVEY) Active Learning
(SURVEY) Semi Supervised Learning
[ICML2019読み会in京都] (LT)Bayesian Nonparametric Federated Learning of Neural Net...
[ICML2019読み会in京都] Agnostic Federated Learning
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR'19 読み会 in 京都 [LT枠] Domain Adaptationの研究動向
CVPR2019 survey Domain Adaptation on Semantic Segmentation
ICLR'19 研究動向まとめ 『Domain Adaptation』『Feature Disentangle』
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
(Ja) A unified feature disentangler for multi domain image translation and ma...
IntelliLight: A Reinforcement Learning Approach for Intelligent Traffic Light...
A unified feature disentangler for multi domain image translation and manipul...
ICDM'18 速報
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Ad

Recently uploaded (10)

PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PPTX
Vibe Codingを触って感じた現実について.pptx .
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
Vibe Codingを触って感じた現実について.pptx .
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
20250823_IoTLT_vol126_kitazaki_v1___.pdf

CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~)

  • 2. はじめに  本資料はCVPR’19の様子をお伝えするための資料です  基本的にどこでどんな研究がされてたかの私信メモです IEEE Conference on Computer Vision and Pattern Recognition ・Tutorial&Workshop (6/16~6/17) ←この資料の内容 ・Conference Session (6/18~6/20) http://cvpr2019.thecvf.com/
  • 3. 2nd Multimodal Learning and Applications Workshop (MULA 2019) • https://mula-workshop.github.io/ • タイトルにある通り、複数種のセンサやデータを組み合わせたMultimodalアプ リのWorkshop • WiFiによる行動認識や、FaceRecognitionとSpeakerRecogniyionを組み合わ せる話、 • Color and Depth Disentangle といった言葉も飛び交った(Disentanle流行っ てるなぁ) • SoundとVisionの組み合わせが多かった。ヒトはVisionからも音声を予測&誤 差確認しているという仮説から、補完効果があるだろうと。 • 周期性などから抽出する音の特徴量『Sound Texture』って言葉は初めて聞い た(2011年からあったらしい)、動画の特徴量との相関が出るとか(そりゃそ うよね、さざ波の音とかって動画と音声の相関高そうですし) • この音って画像中のどのObjectが発してるの?くらいなら既にかなり識別でき る様子(それもそうか、技術の進化は早いなぁ)
  • 4. Invited Speaker: Kristen Grauman - Disentangling Object Sounds in Video • 動画中から音源の個数や種類のヒントを得て、周波数スペクトルに対す るMaskを生成して、音源をDisentangleする手法。 • そういえば非負値行列因子分解もDisentangleの一種と言ますもんね • ところで『ボーダーシャツの人がアコーディオンに誤認識されちゃうの』って発言に笑っ てしまった
  • 5. Learning audio-visual Correspondence • 動画中から現在の音を発している音源を発見する • 学習データセット構築が課題で、動画と音声のペアをシャッフルしてそ れを識別させるといったテクニックを使う • 画像&音声に限らず、こういった枠組みの研究は今後も様々なデータ組 み合わせで広がりそうな予感!(わくわく)
  • 6. Distributed Private Machine Learning for Computer Vision: Federated Learning, Split Learning and Beyond • Federated LearningとSplit LearningのWorkshop  似てるようですがこれらは別物です(下図参照) • みんなデータコストやマシンリソースに苦しんでいるのか、(そもそも 大きな部屋ではないけど)立ち見が出るほど満席御礼  私個人がじっと座ってるのが本当に嫌いな人種なので苦痛で仕方なかった、 よってFederatedのパートだけ聴講して即離脱 • Workshopサイトに重要論文がまとめられているのでチェックすべし  https://nopeekcvpr.github.io/ Split Learning
  • 7. Distributed Private Machine Learning for Computer Vision: Federated Learning, Split Learning and Beyond • Federated Learningに興味津々らしく質疑応答で次々と手が挙がった  モデルは全員で同じものを共有しないといけないのか?  いえす、ただしデプロイするのは最初の1回だけでOK  悪意あるユーザでモデルが破壊されるリスクは無いのか?  いえす、そういう研究も出てきている  ユーザ端末に搭載のモデルは、各ユーザに特化したモデルにできないか?  それが出来た方が価値は大きい、しかし、それは簡単には出来ない。  おそらく、個人の嗜好を抽出するのが容易ではないということだろう。  最近の検索傾向や流行などを取り入れるようなモデルにすると、例えばサッカーW杯が開催 されたら、全ユーザがしばらくはサッカー好きと判断されるだろう。とのこと。 • 最後に、Federatedが力を発揮するシーンが述べられた
  • 8. Domain Generalization by Solving Jigsaw Puzzles • Sourceに複数のドメインがあり、それらを駆使してUnknownである Targetドメインでの性能を向上させるというDomain Generalization • SupervisedでClassifierを学習するネットワークに、Jigsawされた画像 を復元するSelf-supervisedを加えてMulti-Task-Learningさせる • Supervised部分がclass識別の特徴を捉え、Self-supervised部分が Domain-Invariantな特徴を捉える。 • 画像認識に限って言えば、輪郭などがDomain-Invariantになる印象な ので、 JigsawによるSelf-supervisedはたしかに筋がいいかも 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Carlucci_Domain_Generalization_by_Solvi ng_Jigsaw_Puzzles_CVPR_2019_paper.pdf
  • 9. Discovering Fair Representations in the Data Domain • Fairnessの目的の1つは、GenderなどのSensitive Parameterを取り 除いて、かつ、タスク性能を低下させないようなRepresentationを得 ること • 実際、Fairになったデータってどんななの?というのが分からない(高 次元特徴量表現されているため)、というわけで、Fairにしたデータ (画像)がどんなものか可視化したよ!という研究 • それだけ!?と思ったけど、ちゃんとFairにした後のデータで予測性能 が従来より向上していた。わりと定番っぽいネットワーク構造だが、何 が性能向上のKeyとなったのだろう・・? 参照: https://arxiv.org/pdf/1810.06755.pdf
  • 10. Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations • 画像中の共起性に注目したFairnessの研究 • Balanced Datasetとするには、Genderそれぞれの画像を均等に準備す るだけでは不十分。 Genderによって共起しやすいクラスのBiasがか かっていると主張する • よって下図にあるような男女ともに料理しているデータを用意するなど の対策が必要 • そのBiasを解決するような ネットワークも提案した • でもごちゃごちゃしていた ので省略(すいません 参照: http://www.cs.virginia.edu/~vicente/deeplearning/slides/bias.pdf
  • 12. Evaluating image Enhancement using Semantic Task • NeuralNetによる画像復元(圧縮?)を学習するときに、Semanticな タスクの性能が上がるように学習させると画質も向上するというもの。 • 研究では、元画像から生成したキャプションと、GAN生成画像から生 成したキャプションの正確さを比較して、GAN生成画像からも適格な キャプション生成ができるよう学習させていた。 • 資料を貼ろうと思ったのにググっても論文が出てこない /(^0^)\ • 復元画像の『画質』評価ってどうやってるんだろ、、MSEとSemantic な情報保存度合って比例しないと思うし、評価方法が気になりますね 参照: おっかしぃなぁ・・・
  • 13. Half&Half: New Task and Benchmarks for studying Visual Common Sense • 直接目にしているわけじゃなくても『TVがあるとしたらリビングか な』とか『歯ブラシは洗面台の鏡の前に置いてるのでは』といった Common-Senseを学習&評価するための枠組み(≒データセット)を 新規提案したというもの。 • 画像の半分を隠して、隠された部分に何があるのか連想して(選択肢の 中から)予測できるかどうか、というタスクになっている。 • このままではデータセット依存の認識器しか構築できなくて、国や文化 が異なれば・・・などといった技術課題はありそうだが、おもしろいと 思ったのでシェア 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Vision_Meets_Cognition_Camera_Ready/Singh_Hal fHalf_New_Tasks_and_Benchmarks_for_Studying_Visual_Common_Sense_CVPRW_2019_paper.pdf
  • 14. Class Consistency Driven Unsupervised Deep Adversarial Domain Adaptation • 昨年から盛り上がっているUnsupervised-Domain-Adaptationの研究 • 従来はClassifier-LOSSはSourceドメインのみ用いるが、正解ラベルの ないTargetドメインに対しても弱識別器の出力の一貫性(Consistency) を評価するLOSSを設ける 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/CEFRL/Rakshit_Class_Consistency_Drive n_Unsupervised_Deep_Adversarial_Domain_Adaptation_CVPRW_2019_paper.pdf
  • 15. Building Explainable AI Evaluation for Autonomous Perception • 脱BlackBoxのために説明性のあるAIを構築しようという試み • まずはデータXから予測Oを出力できるよう学習(この時点ではまだBlackBox) • 次に、人手によるSemanticなアノテーションAから『Explainable Representations』と 定義したYを介して予測Oを出力できるよう学習(でもYは自動取得するとのこと←) • 最後に、X⇒O、X⇒Y⇒O、A⇒Y⇒Oが同時に成り立つようにする • 構築済みモデルがどの程度説明性を有するかの評価に用いることが出来ると主張 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Explainable%20AI/Zhang_Building_Expl ainable_AI_Evaluation_for_Autonomous_Perception_CVPRW_2019_paper.pdf
  • 16. Robust Image Colorization using Self Attention based Progressive Generative Adversarial Network • Self-Attention構造の導入によってGANによるColorization性能を向上 させたという研究、『Attention流行ってるなぁ~』の一言しか出ない • Self Attentionの他にも、Spectral Normalizationを挟んだり、 Progressiveに学習させたり、GとDの更新頻度を調整したりと、細かい 努力もたくさんされている 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/NTIRE/Sharma_Robust_Image_Coloriza tion_Using_Self_Attention_Based_Progressive_Generative_Adversarial_CVPRW_2019_paper.pdf
  • 17. Attention PointNet for 3D-Object Detection in Point Clouds • Attention構造をPointNetに搭載することで性能改善 ※PointNetとは?  3D-Model用の3次元点群を(点の向きや順序に対してロバスト性を保ちな がら)直接入力として扱えるNeural Network 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Autonomous%20Driving/Paigwar_Atten tional_PointNet_for_3D-Object_Detection_in_Point_Clouds_CVPRW_2019_paper.pdf
  • 18. Improving Deep Network Robustness to Unknown Inputs with Objectosphere • 学習したことのないUnknownクラスへの対処は、Gabageクラスを設けたり、 Softmaxの値にThresholdをかけることが多い • 2つのLOSSによりUnknownクラスを区別しやすくなる学習方法を提案 • Entropic Open-Set Loss  Unknownクラスに対してSoftmax値が一様になるよう制約をかける  つまり、Unknownクラスに対してエントロピーを最大化する • Objectosphere Loss  特徴量の絶対値がUnknownで小さく、Knownで大きくなるよう制約する 学習用のUnknownクラスが必要なので、そのデータ設計にかなり精度依存する気が... 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20 in%20Deep%20Visual%20Learning/Dhamija_Improving_Deep_Network_Robustness_to_Unknown_In puts_with_Objectosphere_CVPRW_2019_paper.pdf
  • 19. Measuring Calibration in Deep Learning • 機械学習モデルの『confidence(信頼性)』を評価する新しい指標として、 『Thresholded Adaptive Calibration Error (TACE) 』を提案 • Calibrationとは? • 『クラスAのCalibration が90%』とは『全体観測のうち90%がクラスA』 であることを意味する • 全データに対して予測が正解した割合を示す『Precision』とは異なる指標 • そのCalibrationについて実応用を見据えて適切な評価方法を提案したと いう位置づけ。詳細は把握しきれていないが本気で機械学習モデルを現 場導入するときに必要となるであろう研究が増えているように感じる 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20in%20Deep%2 0Visual%20Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf