Optimization algorithms in machine learning

Nonlinear Programming
Tutorial for
Optimization Algorithms
in Machine Learning
1
연세대학교 산업공학과
System Intelligence Lab
허태원 석사과정

CONTENTS
02Hessian Free
Optimization
01Gradient Method
Algorithms
2

01
Gradient Method Algorithms
3

Gradient Method Algorithms
4
Momentum
NAG
Adaptive
Adagrad
RMSProp AdaDelta
Adam
AMSGrad
Nadam
AdaMax
L2 norm
L2 norm
𝐿∞ norm
L2 norm
Momentum
L2 norm

Momentum & NAG
5
 Momentum
𝑣 𝑡 = 𝛾𝑣 𝑡−1 + η𝛻𝜃𝑡
𝐽 𝜃𝑡
𝜃𝑡+1 = 𝜃𝑡 − 𝑣 𝑡
𝑣 𝑡: 이동거리
𝛾: 𝑚𝑜𝑚𝑒𝑛𝑡𝑢𝑚 𝑡𝑒𝑟𝑚
𝑣4 = η𝛻𝜃3
𝐽 𝜃3 + 𝛾3 𝑣0 + 𝛾3η𝛻𝜃0
𝐽 𝜃0 + 𝛾2η𝛻𝜃1
𝐽 𝜃1 + 𝛾η𝛻𝜃2
𝐽 𝜃2
현재 gradient 과거 momentum 효과, big jump
 Nesterov Accelerated Gradient
𝑣 𝑡 = 𝛾𝑣 𝑡−1 + η𝛻𝜃𝑡
𝐽 𝜃𝑡 − 𝛾𝑣 𝑡−1
𝜃𝑡+1 = 𝜃𝑡 − 𝑣 𝑡
Momentum과 마찬가지로 이전 gradient의 방향으로 big jump를
한 후 gradient 반영
Momentum & Nesterov update (참조: G. Hinton’s lecture 6c)
Animation of Gradient descent & Momentum & Nesterov update

Adaptive method
6
 Adagrad
𝐺𝑡 = 𝐺𝑡−1 + 𝛻𝜃 𝑡
𝐽 𝜃𝑡
2
𝜃𝑡+1 = 𝜃𝑡 −
η
𝐺𝑡 + 𝜀
𝛻𝜃 𝑡
𝐽 𝜃𝑡
𝐺𝑡: 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑟𝑒𝑠 = ෍
𝑖
4
𝛻𝜃 𝑖
𝐽 𝜃𝑖
2 (𝐿2 𝑛𝑜𝑟𝑚)
𝜀: 10−8
𝑑𝑒𝑓𝑎𝑢𝑙𝑡 0으로 나눠지는 걸 방지하는 term
 RMSProp
𝐺𝑡 = 𝛽𝐺𝑡−1 + (1 − 𝛽)𝛻𝜃 𝑡
𝐽 𝜃𝑡
2
𝜃𝑡+1 = 𝜃𝑡 −
η
𝐺𝑡 + 𝜀
𝛻𝜃 𝑡
𝐽 𝜃𝑡
𝑅𝑀𝑆[𝑔] 𝑡 = 𝐺𝑡 + 𝜀
𝛽: 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙 𝑑𝑒𝑐𝑎𝑦 𝑟𝑎𝑡𝑒,
0 < 𝛽 < 1, 𝑑𝑒𝑓𝑎𝑢𝑙𝑡 𝛽 = 0.9
점화식으로 쓰는 이유는?
𝜃 업데이트 시 계산 효율 상 이전 값만 기억하
면 됨𝐺4 = 𝛻𝜃4
𝐽 𝜃4
2 + 𝛻𝜃3
𝐽 𝜃3
2 + 𝛻𝜃2
𝐽 𝜃2
2 + 𝛻𝜃1
𝐽 𝜃1
2 + 𝛻𝜃0
𝐽 𝜃0
2 = ෍
𝑖
4
𝛻𝜃 𝑖
𝐽 𝜃𝑖
2
t가 커짐에 따라 𝑮𝒕 값이 계속 커지고 learning rate가 매우 작아지는
단점이 있음
𝐺4 = (1 − 𝛽)𝛻𝜃4
𝐽 𝜃4
2 + (1 − 𝛽)𝛽 𝛻𝜃3
𝐽 𝜃3
2 + (1 − 𝛽)𝛽2 𝛻𝜃2
𝐽 𝜃2
2 + (1 − 𝛽)𝛽3 𝛻𝜃1
𝐽 𝜃1
2 + (1 − 𝛽)𝛽4 𝛻𝜃0
𝐽 𝜃0
2
오래된 gradient의 영향이 지수함수적으로 감소(exponentially decaying average of squared
gradients)
𝐺𝑡 ≈ 𝑎𝑣𝑒𝑟𝑎𝑔𝑒 𝑜𝑓 𝑝𝑎𝑠𝑡
1
1−𝛽
, 𝛽가 0.9이면 𝐺𝑡는 지난 10개의 평균과 비슷함(accumulation is
restricted)
Exponentially weighted average

Adaptive method
7
 Adadelta
𝐺𝑡 = 𝛽𝐺𝑡−1 + (1 − 𝛽)𝛻𝜃 𝑡
𝐽 𝜃𝑡
2
𝑆𝑡 = 𝛽𝑆𝑡−1 + (1 − 𝛽)∆𝜃𝑡
2
𝜃𝑡+1 = 𝜃𝑡 −
𝑆𝑡 + 𝜀
𝐺𝑡 + 𝜀
𝛻𝜃 𝑡
𝐽 𝜃𝑡
𝛽: 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙 𝑑𝑒𝑐𝑎𝑦 𝑟𝑎𝑡𝑒, 0 < 𝛽 < 1
Adagrad의 단점 극복
① 시간이 지남에 따라 learning rate가 계속 작아짐.
𝑹𝑴𝑺[𝒈] 𝒕를 분모항에 넣어 가중치 learning rate가 0에 수렴하는 것을 방지
② Global learning rate를 사람이 정해야 함.
𝑺 𝒕+𝟏 = 𝜷𝑺 𝒕 + (𝟏 − 𝜷)∆𝜽 𝒕
𝟐
Global learning rate 대신 지난 update(∆𝜽)의 Exponentially weighted average(𝑹𝑴𝑺[∆𝜽] 𝒕)를 사용
𝑅𝑀𝑆[𝑔] 𝑡 = 𝐸[𝑔2] 𝑡 + 𝜀
𝑅𝑀𝑆[∆𝜃] 𝑡= 𝐸[𝜃2] 𝑡 + 𝜀
𝜃𝑡+1
= 𝜃𝑡 −
𝑅𝑀𝑆[∆𝜃] 𝑡−1
𝑅𝑀𝑆[𝑔] 𝑡
𝛻𝜃 𝑡
𝐽 𝜃𝑡
=

Adam
8
𝑣 𝑡 = 𝛽1 𝑣 𝑡−1 + (1 − 𝛽1)𝛻𝜃𝑡
𝐽 𝜃𝑡
𝐺𝑡 = 𝛽2 𝐺𝑡−1 + (1 − 𝛽2)𝛻𝜃𝑡
𝐽 𝜃𝑡
2
𝜃𝑡+1 = 𝜃𝑡 −
η
෠𝐺𝑡 + 𝜀
ො𝑣 𝑡
𝑑𝑒𝑓𝑎𝑢𝑙𝑡 𝛽1 = 0.9 , 𝛽2 = 0.999
ො𝑣 𝑡 =
𝑣 𝑡
1 − 𝛽1
𝑡
෠𝐺𝑡 =
𝐺𝑡
1 − 𝛽2
𝑡
Momentum + Adaptive
Exponential weighted average에서 초기 값이 실제보다 작아지는 문제를 해결하기 위해 bias correction 항 사용
① Exponentially decaying momentum
② RMSProp와 같이 𝑅𝑀𝑆[𝑔] 𝑡를 분모항에 넣어 가중치 learning rate가 0에 수렴하는 것을 방지
Bias correction
Bias
Exponentially decaying
momentum

AdaMax
9
𝑣 𝑡 = 𝛽1 𝑣 𝑡−1 + (1 − 𝛽1)𝛻𝜃𝑡
𝐽 𝜃𝑡
ො𝑣 𝑡 =
𝑣𝑡
1 − 𝛽1
𝑡
𝐺𝑡 = 𝛽2 𝐺𝑡−1 + (1 − 𝛽2)𝛻𝜃𝑡
𝐽 𝜃𝑡
2 → 𝐺𝑡 = 𝛽2
𝑝
𝐺𝑡−1 + (1 − 𝛽2
𝑝
)𝛻𝜃𝑡
𝐽 𝜃𝑡
𝑝
𝑢 𝑡 = lim
𝑝→∞
(𝐺𝑡)1/𝑝 = lim
𝑝→∞
(1 − 𝛽2
𝑝
)1/𝑝 ෍
𝑖=1
𝑡
𝛽2
𝑝(𝑡−1)
∙ 𝑔𝑖
𝑝
1/𝑝
= max(𝛽2
𝑡−1
𝑔1 , 𝛽2
𝑡−2
𝑔2 , ⋯ , 𝛽2 𝑔𝑡−1 , 𝑔𝑡 )
𝜃𝑡+1 = 𝜃𝑡 −
η
𝑢 𝑡
ො𝑣 𝑡
𝑑𝑒𝑓𝑎𝑢𝑙𝑡 𝛽1 = 0.9 , 𝛽2 = 0.999
Special case of Adam
① Adam과 AdaMax 모두 sparse(ex. Word embedding)하거나 noisy한 조건에서 다른 알고리즘보다 좋은 성능을 보임.
② AdaMax의 경우 데이터의 변화가 큰 경우에 빠르게 수렴하는 특성이 있음.
일반적으로 p가 증가할수록 수치적으로 불안정해지기 때문
에 𝑙1과 𝑙2 𝑛𝑜𝑟𝑚이 많이 쓰이지만 𝑙∞ 는 안정적임
𝑙∞ 𝑖𝑠 𝑚𝑎𝑥𝑖𝑚𝑢𝑚 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓 𝑖𝑛𝑑𝑖𝑣𝑖𝑠𝑢𝑎𝑙 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑠

Nadam
10
NAG+Adam
① NAG는 classical momentum 보다 우수하며 gradient 방향으로 좀 더 정확하게 이동
② 알고리즘을 합치기 위해 트릭을 썼지만 개념은 동일함.
𝑣 𝑡 = 𝛽1 𝑣 𝑡−1 + (1 − 𝛽1)𝛻𝜃𝑡
𝐽 𝜃𝑡
𝐺𝑡 = 𝛽2 𝐺𝑡−1 + (1 − 𝛽2)𝛻𝜃𝑡
𝐽 𝜃𝑡
2
𝜃𝑡+1 = 𝜃𝑡 −
η
෠𝐺𝑡 + 𝜀
ො𝑣 𝑡 = 𝜃𝑡 −
η
෠𝐺𝑡 + 𝜀
𝛽1 𝑣 𝑡−1
1 − 𝛽1
𝑡 −
(1 − 𝛽1)𝛻𝜃𝑡
𝐽 𝜃𝑡
1 − 𝛽1
𝑡
𝑑𝑒𝑓𝑎𝑢𝑙𝑡 𝛽1 = 0.9 , 𝛽2 = 0.999
ො𝑣 𝑡 =
𝑣 𝑡
1 − 𝛽1
𝑡
෠𝐺𝑡 =
𝐺𝑡
1 − 𝛽2
𝑡
 Trick of NAG algorithm(Simplified NAG)
𝑣 𝑡 = 𝜇𝑣 𝑡−1 − 𝜖𝑔 𝜃𝑡
𝜃𝑡+1 = 𝜃𝑡 + 𝜇 𝜇𝑣 𝑡−1 − 𝜖𝑔 𝜃𝑡 − 𝜖𝑔 𝜃𝑡
𝑣 𝑡 = 𝛾𝑣 𝑡−1 − η𝛻𝜃𝑡
𝐽 𝜃𝑡 − 𝛾𝑣 𝑡−1
𝜃𝑡+1
= 𝜃𝑡 − (𝛾𝑣 𝑡−1 + η𝛻𝜃𝑡
𝐽 𝜃𝑡 − 𝛾𝑣 𝑡−1 )
𝑣 𝑡 = 𝛾𝑣 𝑡−1 − η𝛻𝜃𝑡
𝐽 𝜃𝑡
𝜃𝑡+1 = 𝜃𝑡 − (𝛾𝑣 𝑡 + η𝛻𝜃𝑡
𝐽 𝜃𝑡 )
 NAG rewritten
𝜃𝑡+1 = 𝜃𝑡 −
η
෠𝐺𝑡 + 𝜀
ො𝑣 𝑡 −
(1 − 𝛽1)𝑔𝑡
1 − 𝛽1
𝑡𝜃𝑡+1 = 𝜃𝑡 −
η
෠𝐺𝑡 + 𝜀
ො𝑣 𝑡−1 −
(1 − 𝛽1)𝑔𝑡
1 − 𝛽1
𝑡

AMSGrad
11
Adaptive methods의 단점
① Exponential moving averages of squared past gradients로 스케일링된 adaptive methods는 출력 공간이 큰 학습에서 optimal 수렴에 실패하는 것
이 관측됨.
② The non-convergence of Adam: positive definiteness가 훼손 됐을 때, Adam이나 RMSProp은 종종 undesirable convergence를 보임.
AMSGrad의 특징
① Exponential weighted average의 문제라고 인식하여 ෠𝐺𝑡 = max( ෠𝐺𝑡−1, 𝐺𝑡)를 사용.
Non-increasing step size. Step size가 한번 작아지면 커지지 않는다.
𝑣 𝑡 = 𝛽1 𝑣 𝑡−1 + (1 − 𝛽1)𝛻𝜃𝑡
𝐽 𝜃𝑡
𝐺𝑡 = 𝛽2 𝐺𝑡−1 + (1 − 𝛽2)𝛻𝜃𝑡
𝐽 𝜃𝑡
2
෠𝐺𝑡 = max( ෠𝐺𝑡−1, 𝐺𝑡)
𝜃𝑡+1 = 𝜃𝑡 −
η
෠𝐺𝑡 + 𝜀
ො𝑣 𝑡
𝑑𝑒𝑓𝑎𝑢𝑙𝑡 𝛽1 = 0.9 , 𝛽2 = 0.999
 성능 비교
I. Training and test loss for CIFARNET

Visualization
12
알고리즘 별 수렴 속도 비교
Animation of Gradient descent & Momentum & Nesterov updateAnimation of Adaptive Algorithms
Case1:
Adagrad < RMSProp < Adadelta < Adam
Case2:
Adamax < Nadam ≤ AMSGrad < Adam

02
Hessian Free Optimization
13

Quasi-Newton Methods
14
Gradient descent method:
𝑥+ = 𝑥 − 𝑡𝛻𝑓(𝑥)
Newton’s method:
𝑥+ = 𝑥 − 𝑡𝛻2 𝑓(𝑥)−1 𝛻𝑓(𝑥)
Quasi-Newton’s method:
𝑥+ = 𝑥 + 𝑡𝑝
𝐵𝑝 = −𝛻𝑓 𝑥
B는 𝛻2 𝑓(𝑥)를 근사한 값이다.
Optimal point에 점진적으로 다가갈 수 있도록 B를 업데이트 해나가는 것이 Quasi-Newton method의 특징
즉, B를 통해 𝑛𝑒𝑥𝑡 𝑠𝑡𝑒𝑝인 𝐵+
구하는 방법에 따라 세분화 된다.
Secant equation
B는 𝐻𝑒𝑠𝑠𝑖𝑎𝑛 𝛻2 𝑓(𝑥)를 근사하는 행렬
𝑥 𝑘+1 = 𝑥 𝑘 + 𝑠 𝑘 이고 𝑓가 두 번 이상 미분 가능할 때, first-order Taylor expansion에 의
해 다음의 성질을 가진다.
𝛻2 𝑓 𝑥 𝑘 ≈
𝛻𝑓 𝑥 𝑘 + 𝑠 𝑘 − 𝛻𝑓 𝑥 𝑘
𝑠 𝑘
𝐵 𝑘+1 𝑠 𝑘 = 𝑦 𝑘 𝑜𝑟 𝐵+ 𝑠 = 𝑦

Symmetric Rank-1 (SR1)
15
SR1 update는 rank-1의 symmetric matrix로 B를 업데이트 함으로써 B+(next B)가 symmetric를 유지하고 secant equation을 계속해서
만족하도록 업데이트하는 방법이다. 알고리즘이 간단한 것이 장점이다.
Secant equation form을 만들기 위해 양변에 s를 곱한다.
𝑢를 𝑦 − 𝐵𝑠를 임의의 𝑠𝑐𝑎𝑙𝑎𝑟 𝛿와의 곱으로 표현
𝐵+ = 𝐵 + 𝑎𝑢𝑢 𝑇
𝐵+
𝑠 = 𝐵𝑠 + 𝑎𝑢 𝑇
𝑠 𝑢
𝑢 = 𝛿(𝑦 − 𝐵𝑠)
𝑦 − 𝐵𝑠 = 𝑎𝛿2[𝑠 𝑇(𝑦 − 𝐵𝑠)](𝑦 − 𝐵𝑠)
𝑎 = 𝑠𝑖𝑔𝑛 𝑠 𝑇
𝑦 − 𝐵𝑠 , 𝛿 = ± 𝑠 𝑇
𝑦 − 𝐵𝑠 −1/2
𝐵+ = 𝐵 +
𝑦 − 𝐵𝑠 𝑦 − 𝐵𝑠 𝑇
𝑦 − 𝐵𝑠 𝑇 𝑠
Inverse hessian H을 근사하는 𝐵−1을 업데이트 할 수 있다면?
𝑥+
= 𝑥 + 𝑡𝑝 = 𝑥 + 𝑡𝐵−
𝛻𝑓(𝑥)
𝐻+
= 𝐻 +
𝑠 − 𝐻𝑦 𝑠 − 𝐻𝑦 𝑇
𝑠 − 𝐻𝑦 𝑇 𝑦
Update form
위 등식을 만족하는 파라미터 𝛿와 𝑎
위의 값을 𝐵+ = 𝐵 + 𝑎𝑢𝑢 𝑇에 대입
Rank-1의 symmetric matrix를 𝑎 ∈ −1,1 과 𝑢 ∈ 𝑅 𝑛의 곱으로 분해
SR1의 단점
① 분모 항인 𝑦 − 𝐵𝑠 𝑇 𝑠가 0에 가까워지면 업데이트에 실패할 수 있다.
② B와 H가 positive definiteness를 유지하지 못할 수 있다.
Sherman-Morrison formula를 이용하면 𝐵−도 동일한 형태로 업데이트 할 수
있다. (𝐻 = 𝐵−)

𝐻+
= 𝐻 + 𝑎𝑢𝑢 𝑇
+ 𝑏𝑣𝑣 𝑇
𝐻+ 𝑦 = 𝐻𝑦 + 𝑎𝑢 𝑇 𝑦 𝑢 + 𝑏𝑣 𝑇 𝑦 𝑣
𝐻+ = 𝐻 −
𝐻𝑦𝑦 𝑇 𝐻
𝑦 𝑇 𝐻𝑦
+
𝑠𝑠 𝑇
𝑦 𝑇 𝑠
𝐵+
= 𝐵 +
𝑦 − 𝐵𝑠 𝑦 𝑇
𝑦 𝑇 𝑠
+
𝑦 𝑦 − 𝐵𝑠 𝑇
𝑦 𝑇 𝑠
−
𝑦 − 𝐵𝑠 𝑇
𝑠
(𝑦 𝑇 𝑠)2
𝑦𝑦 𝑇
= 𝐼 −
𝑦𝑠 𝑇
𝑦 𝑇 𝑠
𝐵 𝐼 −
𝑠𝑦 𝑇
𝑦 𝑇 𝑠
+
𝑦𝑦 𝑇
𝑦 𝑇 𝑠
DFP Algorithm
16
Davidon-Fletcher-Powell(DFP) update는 rank-2의 symmetric matrix로 𝐻(= 𝐵−
)를 업데이트하는 방법이다.
Secant equation form을 만들기 위해 양변에 y를 곱한다.
𝑢 = 𝑠, 𝑣 = 𝐻𝑦로 두고 a와 b에 대해 푼다.
Update form
Secant equation에 의해 𝐵+ 𝑠 = 𝑦 ↔ 𝐻+ 𝑦 = 𝑠
SR1의 지속성 문제 해결
① B가 positive definite 이면 𝐼 −
𝑦𝑠 𝑇
𝑦 𝑇 𝑠
𝐵 𝐼 −
𝑠𝑦 𝑇
𝑦 𝑇 𝑠
는 positive semidefinite이 된다. 이때
𝑦𝑦 𝑇
𝑦 𝑇 𝑠
가 positive definite이면
𝐵+ = 𝐼 −
𝑦𝑠 𝑇
𝑦 𝑇 𝑠
𝐵 𝐼 −
𝑠𝑦 𝑇
𝑦 𝑇 𝑠
+
𝑦𝑦 𝑇
𝑦 𝑇 𝑠
는 positive definite임이 보장되어 SR1의 문제가 해결된다.
SR1과 마찬가지로 Sherman-Morrison formula 를 이용하여 B에 대한 updating formula 유도

𝐵+
= 𝐵 + 𝑎𝑢𝑢 𝑇
+ 𝑏𝑣𝑣 𝑇
𝐵+ 𝑠 = 𝐵𝑠 + 𝑎𝑢 𝑇 𝑠 𝑢 + 𝑏𝑣 𝑇 𝑠 𝑣
𝐵+ = 𝐵 −
𝐵𝑠𝑠 𝑇 𝐵
𝑠 𝑇 𝐵𝑠
+
𝑦𝑦 𝑇
𝑦 𝑇 𝑠
𝐻+
= 𝐻 +
𝑠 − 𝐻𝑦 𝑠 𝑇
𝑦 𝑇 𝑠
+
𝑠 𝑠 − 𝐻𝑦 𝑇
𝑦 𝑇 𝑠
−
𝑠 − 𝐻𝑦 𝑇
𝑦
(𝑦 𝑇 𝑠)2
𝑠𝑠 𝑇
= 𝐼 −
𝑠𝑦 𝑇
𝑦 𝑇 𝑠
𝐻 𝐼 −
𝑦𝑠 𝑇
𝑦 𝑇 𝑠
+
𝑠𝑠 𝑇
𝑦 𝑇 𝑠
BFGS Algorithm
17
BFGS의 아이디어는 DFP와 동일하고 B와 H의 역할이 바뀌었다는 것이 차이점이다.
Secant equation form을 만들기 위해 양변에 y를 곱한다.
𝑢 = 𝑦, 𝑣 = 𝐵𝑠로 두고 a와 b에 대해 푼다.
Update form
Secant equation에 의해 𝐵+ 𝑠 = 𝑦 ↔ 𝐻+ 𝑦 = 𝑠
SR1의 지속성 문제 해결
① DFP와 마찬가지로 SR1의 지속성 문제를 해결할 수 있다.
② In practice BFGS seems to work better than DFP
DFP과 마찬가지로 Sherman-Morrison formula 를 이용하여 H에 대한 updating formula 유도

Visualization
18
알고리즘 별 수렴 속도 비교
DFP(local optimal) ≤ BFGS(local optimal) < L-BFGS-B(optimal) ≤ Conjugate Gradient(optimal)

Reference
19
Papers & Lecture notes
[1] John Duchi, Elad Hazan, Yoram Singer, Adaptive Subgradient Methods for Online Learning and Stochastic Optimization, The Journal of
Machine Learning Research, Volume 12, 2121-2159, 2011
[3] Diederik P. Kingma, Jimmy Ba, Adam: A method for stochastic optimization, arXiv:1412.6980
[4] Matthew D. Zeiler, ADADELTA: An Adaptive Learning Rate Method, arXiv:1212.5701
[5] G. Hinton’s lecture 6a, 6c
[6] Timothy Dozat, Incorporating Nesterov Momentum into Adam
[7] Sashank J. Reddi, Satyen Kale & Sanjiv Kumar, On the Convergence of Adam and Beyond, arXiv:1904.09237
[7] Pradeep Ravikumar, Aarti Singh, lecture notes : Convex Optimization 10-725/36-725, Carnegie Mellon University
Websites
[1] https://tensorflow.blog/2017/03/22/momentum-nesterov-momentum/#3
[2] http://ruder.io/optimizing-gradient-descent/index.html#fn19
[3] http://www.cs.cmu.edu/~pradeepr/convexopt/

Optimization algorithms in machine learning

More Related Content

What's hot (19)

Similar to Optimization algorithms in machine learning (20)

Optimization algorithms in machine learning