Optical Flow – Based Frame Interpolations
작은논문읽기 모임 2018-2-1st
영상 및 비디오 패턴 인식 연구실 이형민
& Middlebury Benchmark
Frame Interpolation 계보
AdaConv
2017.6 CVPR
Niklaus
Adaptive
Convolution
SepConv
2017.10 ICCV
Niklaus
Phase Based
Phase-Based
2015.6 CVPR
Meyer
PhaseNet
2018.6 CVPR
Meyer
Optical Flow
Based
ETCDeep Voxel Flow
2017.10 ICCV
Liu
Moving Gradient
2009.8 ACM Graphics
Mahajan
Middlebury
2011.11 IJCV
Baker
CtxSyn
2018.6 CVPR
Niklaus
Middlebury Benchmark
• Optical Flow의 Evaluation을 위해 쓰여진 논문
• 여러 Evaluation 방법 중, Optical Flow를 이용한 Frame Interpolation 성능을 기준으로 평가하는 방법 존재
• Optical Flow를 평가하기 위한 목적으로 Optical Flow Based Frame Interpolation 알고리즘을 부산물로 제안
Frame Interpolation 논문으로도 평가받고 있다.
Baker, Simon, et al. "A database and evaluation methodology for optical flow." International Journal of Computer Vision 92.1 (2011): 1-31.
Middlebury Benchmark
• 두 이미지 𝐼0, 𝐼1와 둘 사이의 Optical Flow 𝑢0 존재
• Optical Flow 𝑢0 를 이용하면 0~1 사이 임의의 시점 t에서의 Optical Flow 𝑢 𝑡를 얻을 수 있다.
𝑢 𝑡 round x + tu0 x = u0(x)
• 분명히 𝑢 𝑡의 어떤 지점에는 u0의 값 둘 이상이 몰릴 수 있고, 어떤 지점에는 아무도 배정되지 않을 수 있다.
• u0(x1)과 u0(x2)가 경쟁할 경우, |𝐼0 𝑥 − 𝐼1(𝑥 + 𝑢0(𝑥))|의 값이 작은 쪽을 채택한다.
• 비어 있는 곳은 Outside-in strategy를 이용한다.
Middlebury Benchmark
• Occlusion Mask 𝑂0 𝑥 , 𝑂1(𝑥)를 구한다. 𝑂𝑖 𝑥 = 1이라는 뜻은 𝐼𝑖(𝑥)픽셀이 반대편에서는 보이지 않는다는 뜻이다.
 𝑢 𝑡 round x + tu0 x = u0(x)에 𝑡 = 1을 대입하면 u1을 구할 수 있는데, 이때 생긴 hole 들을 𝑂1 𝑥 = 1로 놓을 수 있다.
 𝑂0 𝑥 의 경우, 𝑢0 𝑥 − 𝑢1 𝑥 + 𝑢0 𝑥 > 0.5이면 𝑂0 𝑥 = 1로 놓는다.
• 이제 𝐼𝑡(𝑥)픽셀 값을 구하기 위해 참조할 𝐼0에서의 위치 𝑥0와 𝐼1에서의 위치 𝑥1를 구해야 한다. 즉 𝐼0(𝑥0)와 𝐼1(𝑥1)을 참
조할 것이다.
 𝑥0 = 𝑥 − 𝑡𝑢 𝑡(𝑥)
 𝑥1 = 𝑥 + 1 − 𝑡 𝑢𝑡(𝑥)
• 𝐼𝑡 𝑥 = 1 − 𝑡 𝐼0 𝑥0 + 𝑡𝐼1(𝑥1)
• 만약 𝑂0 𝑥0 = 1이라면 𝐼𝑡(𝑥) = 𝐼0 𝑥0 반대 경우도 마찬가지
Evaluation
다양한 Mask에 대해서 RMS Error 계산  등수
http://vision.middlebury.edu/flow/eval/results/results-i1.php
Context Aware Synthesis
• 𝐼𝑡 𝑥 = 1 − 𝑡 𝐼0 𝑥0 + 𝑡𝐼1(𝑥1)
𝐼𝑡 𝑥 = 𝐼0(𝑥0)  Forward Wrapped Image
𝐼𝑡 𝑥 = 𝐼1(𝑥1)  Backward Wrapped Image
• 두 이미지를 Linear Combination(Blending)하지 말고, Neural Network를 이용해서 섞어보자!
• 섞을 때 Pre-trained Network에서 얻은 Feature까지 Wrap 해서 같이 넣어주자!!
Niklaus, Simon, and Feng Liu. "Context-aware Synthesis for Video Frame Interpolation." arXiv preprint arXiv:1803.10967(2018).
Future Plan
• 이제는 Related Works에 나오는 알고리즘들이 대부분 Flow-Based거나 이미 읽은 논문들
• 남아 있는 몇몇 논문들 빠르게 마무리하고 직접 구현  각 알고리즘마다 아직 명확하지 않은 디테일을 어떻게 구현
했는지 파악
• Frame Interpolation 관련 논문 TCSVT 목표로 도전!
• 이후에 Optical Flow를 건드려 볼 생각

More Related Content

PPTX
Latest Frame interpolation Algorithms
PDF
FCN to DeepLab.v3+
PDF
Convolutional Neural Networks(CNN) / Stanford cs231n 2017 lecture 5 / MLAI@UO...
PPTX
[Paper Review] Video Frame Interpolation via Adaptive Convolution
PDF
이정근_project_로봇비전시스템.pdf
PDF
Vid2vid
PPTX
영상 데이터의 처리와 정보의 추출
Latest Frame interpolation Algorithms
FCN to DeepLab.v3+
Convolutional Neural Networks(CNN) / Stanford cs231n 2017 lecture 5 / MLAI@UO...
[Paper Review] Video Frame Interpolation via Adaptive Convolution
이정근_project_로봇비전시스템.pdf
Vid2vid
영상 데이터의 처리와 정보의 추출

Similar to [Paper Review] A Middlebury Benchmark & Context-Aware Synthesis for Video Frame Interpolation (7)

PPTX
Image mining defect detection midterm final
PPTX
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
PDF
Detecting fake jpeg images
PDF
VLFeat SIFT MATLAB application 테크니컬 리포트
PPTX
논문피티1210
PDF
[NDC 2018] 유체역학 엔진 개발기
PDF
247 deview 2013 이미지 분석 - 민재식
Image mining defect detection midterm final
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
Detecting fake jpeg images
VLFeat SIFT MATLAB application 테크니컬 리포트
논문피티1210
[NDC 2018] 유체역학 엔진 개발기
247 deview 2013 이미지 분석 - 민재식
Ad

More from Hyeongmin Lee (20)

PDF
PR-455: CoTracker: It is Better to Track Together
PDF
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
PDF
PR-420: Scalable Model Compression by Entropy Penalized Reparameterization
PDF
PR-409: Denoising Diffusion Probabilistic Models
PDF
PR-395: Variational Image Compression with a Scale Hyperprior
PDF
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
PDF
PR-376: Softmax Splatting for Video Frame Interpolation
PDF
PR-365: Fast object detection in compressed video
PDF
PR-340: DVC: An End-to-end Deep Video Compression Framework
PDF
PR-328: End-to-End Optimized Image Compression
PDF
PR-315: Taming Transformers for High-Resolution Image Synthesis
PDF
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PDF
PDF
PR-252: Making Convolutional Networks Shift-Invariant Again
PDF
PR-240: Modulating Image Restoration with Continual Levels via Adaptive Featu...
PDF
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
PDF
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PDF
[PR12] Making Convolutional Networks Shift-Invariant Again
PPTX
[Paper Review] Temporal Generative Adversarial Nets with Singular Value Clipping
PR-455: CoTracker: It is Better to Track Together
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
PR-420: Scalable Model Compression by Entropy Penalized Reparameterization
PR-409: Denoising Diffusion Probabilistic Models
PR-395: Variational Image Compression with a Scale Hyperprior
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
PR-376: Softmax Splatting for Video Frame Interpolation
PR-365: Fast object detection in compressed video
PR-340: DVC: An End-to-end Deep Video Compression Framework
PR-328: End-to-End Optimized Image Compression
PR-315: Taming Transformers for High-Resolution Image Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PR-252: Making Convolutional Networks Shift-Invariant Again
PR-240: Modulating Image Restoration with Continual Levels via Adaptive Featu...
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
[PR12] Making Convolutional Networks Shift-Invariant Again
[Paper Review] Temporal Generative Adversarial Nets with Singular Value Clipping
Ad

[Paper Review] A Middlebury Benchmark & Context-Aware Synthesis for Video Frame Interpolation

  • 1. Optical Flow – Based Frame Interpolations 작은논문읽기 모임 2018-2-1st 영상 및 비디오 패턴 인식 연구실 이형민 & Middlebury Benchmark
  • 2. Frame Interpolation 계보 AdaConv 2017.6 CVPR Niklaus Adaptive Convolution SepConv 2017.10 ICCV Niklaus Phase Based Phase-Based 2015.6 CVPR Meyer PhaseNet 2018.6 CVPR Meyer Optical Flow Based ETCDeep Voxel Flow 2017.10 ICCV Liu Moving Gradient 2009.8 ACM Graphics Mahajan Middlebury 2011.11 IJCV Baker CtxSyn 2018.6 CVPR Niklaus
  • 3. Middlebury Benchmark • Optical Flow의 Evaluation을 위해 쓰여진 논문 • 여러 Evaluation 방법 중, Optical Flow를 이용한 Frame Interpolation 성능을 기준으로 평가하는 방법 존재 • Optical Flow를 평가하기 위한 목적으로 Optical Flow Based Frame Interpolation 알고리즘을 부산물로 제안 Frame Interpolation 논문으로도 평가받고 있다. Baker, Simon, et al. "A database and evaluation methodology for optical flow." International Journal of Computer Vision 92.1 (2011): 1-31.
  • 4. Middlebury Benchmark • 두 이미지 𝐼0, 𝐼1와 둘 사이의 Optical Flow 𝑢0 존재 • Optical Flow 𝑢0 를 이용하면 0~1 사이 임의의 시점 t에서의 Optical Flow 𝑢 𝑡를 얻을 수 있다. 𝑢 𝑡 round x + tu0 x = u0(x) • 분명히 𝑢 𝑡의 어떤 지점에는 u0의 값 둘 이상이 몰릴 수 있고, 어떤 지점에는 아무도 배정되지 않을 수 있다. • u0(x1)과 u0(x2)가 경쟁할 경우, |𝐼0 𝑥 − 𝐼1(𝑥 + 𝑢0(𝑥))|의 값이 작은 쪽을 채택한다. • 비어 있는 곳은 Outside-in strategy를 이용한다.
  • 5. Middlebury Benchmark • Occlusion Mask 𝑂0 𝑥 , 𝑂1(𝑥)를 구한다. 𝑂𝑖 𝑥 = 1이라는 뜻은 𝐼𝑖(𝑥)픽셀이 반대편에서는 보이지 않는다는 뜻이다.  𝑢 𝑡 round x + tu0 x = u0(x)에 𝑡 = 1을 대입하면 u1을 구할 수 있는데, 이때 생긴 hole 들을 𝑂1 𝑥 = 1로 놓을 수 있다.  𝑂0 𝑥 의 경우, 𝑢0 𝑥 − 𝑢1 𝑥 + 𝑢0 𝑥 > 0.5이면 𝑂0 𝑥 = 1로 놓는다. • 이제 𝐼𝑡(𝑥)픽셀 값을 구하기 위해 참조할 𝐼0에서의 위치 𝑥0와 𝐼1에서의 위치 𝑥1를 구해야 한다. 즉 𝐼0(𝑥0)와 𝐼1(𝑥1)을 참 조할 것이다.  𝑥0 = 𝑥 − 𝑡𝑢 𝑡(𝑥)  𝑥1 = 𝑥 + 1 − 𝑡 𝑢𝑡(𝑥) • 𝐼𝑡 𝑥 = 1 − 𝑡 𝐼0 𝑥0 + 𝑡𝐼1(𝑥1) • 만약 𝑂0 𝑥0 = 1이라면 𝐼𝑡(𝑥) = 𝐼0 𝑥0 반대 경우도 마찬가지
  • 6. Evaluation 다양한 Mask에 대해서 RMS Error 계산  등수 http://vision.middlebury.edu/flow/eval/results/results-i1.php
  • 7. Context Aware Synthesis • 𝐼𝑡 𝑥 = 1 − 𝑡 𝐼0 𝑥0 + 𝑡𝐼1(𝑥1) 𝐼𝑡 𝑥 = 𝐼0(𝑥0)  Forward Wrapped Image 𝐼𝑡 𝑥 = 𝐼1(𝑥1)  Backward Wrapped Image • 두 이미지를 Linear Combination(Blending)하지 말고, Neural Network를 이용해서 섞어보자! • 섞을 때 Pre-trained Network에서 얻은 Feature까지 Wrap 해서 같이 넣어주자!! Niklaus, Simon, and Feng Liu. "Context-aware Synthesis for Video Frame Interpolation." arXiv preprint arXiv:1803.10967(2018).
  • 8. Future Plan • 이제는 Related Works에 나오는 알고리즘들이 대부분 Flow-Based거나 이미 읽은 논문들 • 남아 있는 몇몇 논문들 빠르게 마무리하고 직접 구현  각 알고리즘마다 아직 명확하지 않은 디테일을 어떻게 구현 했는지 파악 • Frame Interpolation 관련 논문 TCSVT 목표로 도전! • 이후에 Optical Flow를 건드려 볼 생각