Q Learning과 CNN을 이용한 Object Localization

Active Object Localization with
Deep Reinforcement Learning
1
2016. 7.
김홍배, 한국항공우주연구원
第32回CV勉強会「ICCV2015読み会」, 皆川卓也

소개 논문
 Active Object Localization with Deep Reinforcement Learning
• Juan C. Caicedo, and Svetlana Lazebnik
• 물체검출 작업에 Deep Q-Network을 사용
2

DEEP Q-NETWORK (DQN)
 Q Learning이라는 강화학습 알고리즘에 Convolutional Neural
Network을 적용
 아래 논문에서 기계에 컴퓨터게임을 하는 방법을 학습시켜 3/7로
인간을 이김
• Mnih, V., et al., “Playing Atari with Deep Reinforcement
Learning”, NIPS Deep Learning Workshop, 2013
• Mnih, V., et al., “Human-level control through deep
reinforcement learning”, Nature, 518 (7540), 529–533. 2015
3

강화학습이란 ?
「어떤 환경에 있어서 Agent가 현재의 상태를 관
측하여 취하여야 하는 행동(Action)을 결정하는 문
제를 다루는 기계학습의 일종. Agent는 행동을 선
택함으로써 보수(Reward) 를 얻는다. 강화학습은
일련의 행동을 통하여 보수가 가장 많게 얻을 수 있
도록 정책(policy)을 학습한다.」（Wikipedia）
4

강화학습이란？
Agent
상태 : s
시간: t
행동: 𝑎
관측
정책： 𝜋(𝑠)
5

상태 : s’
Agent
시간: t+1
행동: 𝑎
정책： 𝜋(𝑠)
6

시간 : t+1
관측
보수 : 𝑟𝑡
학습으로 구함
정책： 𝜋(𝑠')
상태 : s’
Agent
7

어떻게 정책을 학습할까 ?
아래와 같이 보수의 합의 기대치가 최대가 되도록 지금의 행동을 결정
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡 +1 + 𝛾2 𝑟𝑡 +2 + ⋯ + 𝛾 𝑇−𝑡 𝑟 𝑇
보수의 합
감쇄율
장래의 보수
𝜋∗(𝑠) = argmax 𝔼[𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎]
𝑎
상태 s일때、보수의 합의 기대치가 최대가
되도록 행동 a를 선택
8

Q LEARNING
𝑄∗(𝑠, a)
상태 s、행동 a의 조합의 “좋고” “나쁨”을
점수로 가르쳐주는 함수
상태 s일때、보수의 합의 기대치가 최대가 되도록 행동 a를 선택
𝜋∗(𝑠) = argmax 𝔼 𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎
𝑎
상태 s에서 행동 a를 취할 경우, 이후로 최적인 행동
을 계속 취할 경우에 얻게 되는 보수의 합의 기대치
𝜋를 대신해서 함수 Q를 학습
9

Q LEARNING
𝜋를 대신해서 함수 Q를 학습
𝜋∗(𝑠) = argmax 𝑄∗(𝑠, 𝑎)
𝑎
함수 𝑄의 변수 𝜃를
학습에 의해 구한다.
확률적 구배강하법(SGD, Stochastic Gradient Descent)
𝜃𝑖 +1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖 )
Learning rate 손실함수(Loss function)
Q(s, a; θ∗)
10

Q LEARNING
기준값(보수의 합의 최대 기대치)
존재하지 않음
 손실함수의 정의
𝜃𝑖 +1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖 )
L(ϴ𝑖)=
1
2
𝑄∗
𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖
2
11

Q LEARNING
𝑄∗(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max 𝑄∗(𝑠′, 𝑎′)
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑇−𝑡 𝑟𝑇
보수의 합
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑅𝑡+1
𝑄∗(𝑠, 𝑎) = 𝔼 [𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎]
𝑎에 의해 바뀐 상태𝑎′
12

Q LEARNING
 손실함수
L(ϴ𝑖)=
1
2
𝑄∗
2
𝑄∗(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max 𝑄∗(s′, 𝑎′)
𝑎′
13

Q LEARNING
 손실함수
지금의 변수를
이용해서 근사화
L(ϴ𝑖) =
1
2
𝑄∗
2
=
1
2
𝑟𝑡 + 𝛾 max 𝑄∗(s′, 𝑎′) − 𝑄 𝑠, 𝑎; ϴ𝑖
2
≈
1
2
𝑟𝑡 +𝛾 max 𝑄(𝑠′ , 𝑎′ ; 𝜃𝑖) − 𝑄 𝑠, 𝑎; ϴ𝑖
2
𝑎′
𝑎′
14

Q LEARNING
 손실함수의 구배(Gradient)
𝛻𝜃 𝑖 𝐿 𝜃𝑖
= −( 𝑟𝑡 + 𝛾 max 𝑄(𝑠', 𝑎' ;𝜃𝑖) − 𝑄(𝑠,𝑎;𝜃𝑖 )) 𝛻𝜃 𝑖 𝑄(𝑠,𝑎;𝜃𝑖 )
L(ϴ𝑖) =
1
2
𝑟𝑡 +𝛾 max 𝑄(𝑠′ , 𝑎′ ; 𝜃𝑖 ) − 𝑄 𝑠, 𝑎; ϴ𝑖
2
𝑎′
𝑎′
15

Deep Q-Network의 정의
𝑄(𝑠, 𝑎2)
Deep CNN
𝜃𝑖
・・
𝑄(𝑠, 𝑎 𝐿)
s
𝑄(𝑠, 𝑎1)
 함수 𝑄(𝑠, 𝑎; 𝜃 𝑖)를 CNN로 나타낸다.
 입력이 상태 s, 출력이 각 행동에 따른 Q값
16

Deep Q-Network의 학습
𝑄(𝑠, 𝑎2)
Deep CNN
𝜃𝑖
・・
𝑄(𝑠, 𝑎 𝐿)
st
𝑄(𝑠, 𝑎1)
1. 상태 𝑆𝑡 를 입력시, 𝑄(𝑠𝑡 , 𝑎; 𝜃 𝑖)가 최대가 되는 행동 𝑎 𝑡를 선택
• 단 확률 𝜀으로 랜덤하게 선택
17

2. 행동 𝑎𝑡 에 의 해 상 태 𝑆𝑡 +1과 보수 𝑟𝑡 를 얻는다.
𝑎𝑡
𝑠𝑡 → 𝑠𝑡+
1
Agent
환경
𝑟𝑡
18

𝑄(𝑠𝑡 +1, 𝑎1)
𝑄(𝑠𝑡 +1, 𝑎2)
Deep CNN
𝜃𝑖
・・
・・
・
𝑄(𝑠𝑡+1, 𝑎 𝐿)
𝑠
t+1
3. 상태 𝑆𝑡 +1를 입력하고 max 𝑎 𝑄(𝑠𝑡 +1, 𝑎; 𝜃𝑖 ) 를 구한다.
19

𝑦𝑖Deep CNN
𝜃𝑖
・
・
𝑄(𝑠𝑡 , 𝑎 𝐿)
𝑠𝑡
𝑄(𝑠𝑡 , 𝑎1)
4. 다음을 정답으로 해서 변수 𝜃 𝑖를 갱신한다.
𝑦𝑖 = 𝑟𝑡 + γ max 𝑎 𝑄(𝑠𝑡 +1, 𝑎; 𝜃𝑖 )
L(ϴ𝑖) =
1
2
𝑦𝑖 − 𝑄 𝑠𝑡, 𝑎; ϴ𝑖
2 𝜃𝑖 +1= 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖 )
20

DQN로 물체검출
 Agent : Bounding Box
 행동, a : Bounding Box의 이동/형상변경
 상태, s : Box내의 이미지 특징 벡터 + 행동이력
 보수, r : 정답(Ground Truth)과의 오버랩비율
22

 행동 (X9)
• 상하좌우 이동, 확대/축소, 형상변화(가늘게/넙적하게), 종료
• 이동 및 크기변화의 크기는 Box 크기에 비례（α = 0.2）
DQN로 물체검출
23

 상태
• Bounding Box내 이미지로부터 특징 벡터를 구함
 CNN에서 구한 4,096x1 벡터
• 과거의 행동이력
 직전 10회의 행동까지
 각각의 행동은 9x1 Binary 벡터로 표시
(취한 행동에 “1”, 나머지는 “0”)
 10 x 9 = 90x1 벡터
• 4096+90 = 4186x1 벡터를 DQN의 입력으로 한다.
DQN로 물체검출
24

 보수
b
g
𝐼𝑜𝑈 𝑏, 𝑔 =
𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔)
𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔)
𝑅 𝑎( 𝑠, 𝑠‘) = 𝑠𝑖𝑔𝑛 (𝐼𝑜𝑈(𝑏′, 𝑔) − 𝐼𝑜𝑈(𝑏, 𝑔))
Agent
Ground Truth
정답과의 오버랩 비율
(Intersection over Union)
Trigger（종료）이외의행동에대한보수
오버랩 비율이 커지면 1 , 작아지면 - 1
DQN로 물체검출
25

b
g 𝐼𝑜𝑈 𝑏, 𝑔 =
𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔)
𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔)
Agent
Ground Trut
h
오버랩 비율이 임계치, 𝜏 이상이면 +𝜂、이하면 −𝜂
+𝜂 𝑖𝑓 𝐼𝑜𝑈 𝑏, 𝑔 ≥ 𝜏
−𝜂 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
 보수
정답과의 오버랩 비율
Trigger（종료）에대한보수
𝑅w( 𝑠, 𝑠‘) =
DQN로 물체검출
26

네트웍 구성
 이미지 크기는 224x224
 특징추출은 Pre-trained CNN을 사용
90x1
224x224 pixels
27

Agent의 학습
 Ε-GREEDY알고리즘
 확률 ε로 랜덤하게 행동을 선택
• 그 이외에는 가장 Q값이 큰 행동으로
• 본 방법에서는 학습시 정답 데이터를 알고 있으므로
보수가 “+”인 행동 중에서 랜덤하게 선택
 ε 은 학습이 진행됨에 따라 작아진다.
28

 Experience Replay
 과거의 (𝑠 𝑡, 𝑎 𝑡, 𝑟𝑡, 𝑠𝑡 +1)를 replay-memory에 보존
 DQN의 학습 시, 보존된 replay-memory로부터
랜덤하게 선택된 미니뱃치로 재학습
Agent의 학습
29

AGENT에 의한 물체검출
DQN
𝑠
Restart
25%smaller
start box size
Put it on an
image corner
Do Action
Y
Y
total 200
steps over ?
Y
N
𝑎
Trigger ?
N
40 steps
over ?
N
30

실험 (PASCALVOC2007)
 Pascal VOC 20
07
31

물체검출까지의 STEP수의 분포
33

SENSITIVITY ANALYSIS
 물체의 외형(Occlusion, Truncation, Size, Aspect Ratio,Viewpoint of
Objects, Visibility of parts)에 대한 민감도 해석
37

RUNTIME
 K-40 GPU 1대
 CNN에 의한 특징검출 (4.5ms)
 Q-network (3.2 ms)
 평균 1.54sec/image
38

결론
 강화학습을 사용해서 TOP-DOWN으로 물체
검출을 하는 방법을 제안
하나의 OBJECT에 대하여 11~25 정도의
영역밖에 보지 않았는데도 검출가능
39

Q Learning과 CNN을 이용한 Object Localization

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Q Learning과 CNN을 이용한 Object Localization (20)

More from 홍배 김 (19)

Q Learning과 CNN을 이용한 Object Localization