3. 차원의 축소
• 수천, 수백만 개의 특성이 훈련 속도를 낮추고 솔루션을 찾기 어렵게 만듭니다.
• 특성의 수를 줄이는 차원 축소(비지도 학습)로 해결 가능한 문제로 변경 가능합니다.
• 예를 들어, 이미지 주변 픽셀을 제거하거나 인접한 픽셀을 평균내어 합칩니다.
• 차원 축소는 일반적으로 훈련 속도는 높아지지만 성능은 낮아지고 작업 파이프라인이
복잡해 집니다. 드물게 성능이 높아지는 경우가 있습니다(이상치 제거).
• 차원 축소는 데이터 시각화에도 유용합니다.
• PCA, 커널 PCA, LLE를 다룹니다.
4. 차원의 저주
• 사람은 4차원 초입방체도 상상하기 어렵습니다.
• 1x1 사각형에서 0.001 이내의 면적은 1-(1-0.001x2)2=0.003996이므로 약 4%(사이 거리: 0.52)
• 10,000 차원 초입방체는 1-(1-0.001x2)10000=0.999999998이므로 99.99%(사이 거리: 428.25)
• 고차원의 대부분의 점들은 경계에 가까이 위치해 있습니다.
5. 데이터 밀도
• 고차원 데이터셋은 샘플 간의 거리가 멉니다. 즉 희박합니다.
• 새로운 샘플에 대해 예측하려면 많은 보간이 필요합니다(과대적합 위험).
• 간단한 해결 방법은 데이터 밀도가 충분해질 때까지 데이터를 더 모으는 것입니다.
• 100개의 특성이 있는 경우 샘플 간의 거리를 0.1 이내로 하려면 10100개가 필요합니
다. 이는 우주 전체에 있는 원자수(1080)보다 많습니다.
8. 매니폴드 학습
• 매니폴드(manifold)는 고차원 공간에서 휘어지거나 뒤틀린 2D 모양을 말합니다. d 차원 매니폴드는 더
높은 n 차원 공간에서 d 차원 초평면으로 볼 수 있습니다.
선형 결정 경계
복잡한 결정 경계
매니폴드 가정이 항상
성립하는 것은 아닙니다.
9. PCA
• 주성분 분석(Principal Component Analysis): 분산을 최대로 보존하는 초평면에 데
이터를 투영합니다(원본 데이터와 투영 사이의 평균 제곱 거리가 최소가 되는 초평면).
10. 주성분
• 주성분은 서로 직교하며 데이터셋의 특성 개수만큼 찾을 수 있습니다.
• X를 주성분 w에 투영했을 때 분산은
• 공분산 행렬의 가장 큰 고윳값을 찾으려면
• 즉 특잇값 분해(SVD)에서 구한 V가 주성분입니다.
Var(Xw) =
1
n − 1
(Xw)T
Xw =
1
n − 1
wT
XT
Xw = wT 1
n − 1
XT
Xw = wT
Cw
C =
1
n − 1
XT
X =
1
n − 1
(UΣVT
)T
(UΣVT
) =
1
n − 1
(VΣUT
)(UΣVT
) =
1
n − 1
VΣ2
VT
= V
Σ2
n − 1
VT
평균이 0이라고 가정합니다
11. 직접 주성분 구해서 투영하기
두 개의 주성분
svd() 함수는 V^T를 반환합니다
Xproj = X ⋅ Vd