Chapter 7 Regularization for deep learning - 1

7. Regularization for Deep Learning
심층 학습을 위한 정칙화
장경욱

Training Test
새로운 입력 Input
정칙화 Regularization

정칙화 Regularization
: “훈련오차가 아니라 일반화 오차를 줄이기 위해 학습 알고리즘에 가하는 모든 종류의 수정”

수축 기법 = 정규화(Regularization)
패널티를 부과하여 계수를 수축하는 것
변수 p의 개수 ↑ ☞ 모델 과적합 위험 (편향 ↓ 분산 ↑)
☞ 모델의 계수 제한 ☞ 모델의 분산을 줄이는 시도 = 정규화(Regularization
정규화
Thanks to ISLR Chapter 6

7.1 Parameter Norm Penalties(매개변수 노름 벌점)
목적함수 J에 매개변수 노름 벌점(ㅋ..)(Parameter norm penalty) Ω를 추가
𝐽 𝜃; 𝑋, 𝑦 = 𝐽 𝜃; 𝑋, 𝑦 + 𝛼𝛺(𝜃)
𝛼는 𝛺의 상대적인 기여도를 결정하는 가중치로 작용하는 초매개변수
b?

7.1.1 L2Parameter Regularization(L2 매개변수 정칙화)
𝛺 𝜃 =
1
2
𝑤 2
2
추가
L2 정칙화 = 능선회귀(Ridge Regression) = 티코노프 정칙화
𝐽 𝜃; 𝑋, 𝑦 = 𝐽 𝜃; 𝑋, 𝑦 + 𝛼𝛺(𝜃)
𝐽 𝜃; 𝑋, 𝑦 = 𝐽 𝜃; 𝑋, 𝑦 + 𝛼
1
2
𝑤 2
2

𝐽 𝜃; 𝑋, 𝑦 = 𝐽 𝜃; 𝑋, 𝑦 + 𝛼
1
2
𝑤 2
2
𝑤 ≔ 𝑤 − 𝜖(𝛼𝑤 + ∇ 𝑤 𝐽 𝜃; 𝑋, 𝑦 )
∇ 𝑤 𝐽 𝜃; 𝑋, 𝑦 = ∇ 𝑤 𝐽 𝜃; 𝑋, 𝑦 + 𝛼𝑤
𝑤 ≔ (1 − 𝜖𝛼)𝑤 − 𝜖∇ 𝑤 𝐽 𝜃; 𝑋, 𝑦
𝑤(1 − 𝜖𝛼) < w
“W가 어떤 값이든 값이 약간 더 작아진다”
L2 정규화 = 가중치 감쇠(Weight Decay)

𝑤(1 − 𝜖𝛼) < w
직관적 이해
𝛼 =
𝜆
2𝑚
𝜆 = 정칙화 변수
m = Data 크기
z = wx+b
𝜆 𝛼 𝑤 z
Activation Function -> 선형적

Activation Function -> 선형적 -> 전체 모델이 보다 선형적
-> 복잡한 모델 X -> 정칙화(정규화)

7.1.2 L1Regularization
𝛺 𝜃 = 𝑤 1 =
𝑖
𝑤𝑖
“L1 정칙화 항은 개별 매개변수의 절대값들의 합”
L2 정칙화에 비해 L1 정칙화는 좀 더 희소한(Sparse) 해를 산출한다
: 희소성(sparsity) = 최적값 0에 도달하는 매개변수가 있음
L1 정칙화가 유발하는 이러한 희소성은 예전부터
일종의 특징선택(Feature Selection)을 위한
하나의 메커니즘으로 활용되었다
Andrew Ng said
모델을 압축하겠다는 목표가 있지 않는 이상 L1을 사용하지 않는다
-> L1보다 L2의 사용이 압도적으로 높다

7.2 Norm Penalties as Constrained Optimization(제약 있는 최적화로서의 노름 벌점)
𝐽 𝜃; 𝑋, 𝑦 = 𝐽 𝜃; 𝑋, 𝑦 + 𝛼𝛺(𝜃)
𝐿 𝜃, 𝛼; 𝑋, 𝑦 = 𝐽 𝜃; 𝑋, 𝑦 + 𝛼𝛺(𝜃 − 𝑘)
𝛺(𝜃)가 반드시 어떤 상수 k보다 작아야 한다는 제약을 가할 때,
𝜃∗ = 𝑎𝑟𝑔min
𝜃
max
𝛼,𝛼≥0
𝐿(𝜃, 𝛼)
제약 있는 문제(Constrained problem)의 해는 다음과 같다
𝛼∗고정
𝜃∗
= 𝑎𝑟𝑔min
𝜃
𝐿(𝜃, 𝛼∗
)
𝛼∗𝐽 k

7.3 Regularization and Under-Constrained Problems(정칙화와 과소제약 문제)
선형회귀와 PCA를 포함한 기계학습의 여러 선형모형은 행렬 𝑋 𝑇
𝑋 의 역행렬에 의존
𝑋 𝑇 𝑋가 특이행렬이면 역행렬 X
생성 분포가 특정 방향에서 분산이 전혀 없거나,
특징보다 data가 적어서 분산이 관측되지 않을 때
Ex) 식수 특징 50개, data 30개
𝑋 𝑇
𝑋 + 𝛼𝐼 의 역행렬 풀면 됨

7.4 Dataset Augmentation(자료 집합의 증강)

7.5 Noise Robustness(잡음에 대한 강인성)
Other Way… 잡음을 입력이 아니라 가중치에 더하는 것..!
매개변수들의 크기 줄이기 잡음(Noise) 주입
7.5.1 Injecting Noise at the Output Targets(출력 목표들에 잡음 주입)
Y가 실수일 때, 즉 해당 견본의 정확한 이름표(Label)가 아닐 때, log(Y|x)를 최대화 하면 결과가 나빠짐
Label들에 명시적으로 잡음(Noise) 반영

Chapter 7 Regularization for deep learning - 1

More Related Content

What's hot (20)

Similar to Chapter 7 Regularization for deep learning - 1 (6)

More from KyeongUkJang (20)

Chapter 7 Regularization for deep learning - 1

Editor's Notes