근사,approximation법과 비슷한 다음단계로 나아가는 반복적 방법(
반복,iteration, iterative method)
최적화하고자 하는(최소점을 찾고자 하는) 함수가
라면
그리고 다변수함수로 일반화(확장)하면
(angeloyeo)
저기서 부호가
대신
로 되면 gradient ascent.
저기서
가 알고리즘 속도 조절 parameter. step size 또는 learning rate(
학습율,learning_rate).
이 방법의 문제점은 local_minimum 에 빠지는 것.
또 다른 문제점은 해에 근접할수록
가 0에 가까워지기 때문에 수렴 속도가 느려진다는 것.
(darkpgmr)
1. gradient descent에서 batch ¶
batch size가 너무
크면 - 느리고, 메모리부족 발생할 위험
작으면 - 너무 잦은 weight update - 훈련이 불안정해짐
(batch) gradient descent는 전체 dataset을 사용하므로 - 느리므로,
표본,sample을 무작위로 선택하는 대안 방법인
stochastic gradient descent (SGD)가 있음.
}
5. Sub: 확률적기울기하강 stochastic gradient descent (SGD) ¶
확률적기울기하강 stochastic_gradient_descent SGD
확률적경사하강, stochastic gradient descent (SGD)
tmp bmks ko
http://sanghyukchun.github.io/74/ 의 50% 정도의 "Stochastic Gradient Descent" 문단 참조.
대충,
신경망,neural_network의 weight_parameter_update할 때 모두 계산하면(full batch) 너무 비효율적이므로 SGD라는 확률적 방법을 쓴다는 얘기. 이 때 'mini batch'를 만든다는.
6. Sub: adaptive gradient, adagrad - adaptive_gradient ¶
7. subgradient descent? - no, subgradient method. ¶
볼록최적화 문제의 해법 중 하나. 반복법.
보통 sub-는 부- 로 번역하는데
wpko에선 '하방미분'이라 번역했음.
}
}
8. proximal gradient descent ¶
9. natural gradient descent ¶
10. rel. mirror descent ¶
11. tmp video en ¶
이름에 대해
단변수일 경우
기울기,gradient를 정의할 수 없으므로, 도함수 하강(derivative descent)이라 명명하는 편이 나을지도.
"Especially, for the single-variable cases, probably I would say 'derivative descent algorithm' because we cannot define the gradient in this single-variable case." (KU정태수 ㄷㄱㄱ 14-2 18:00)
AKA 경사강하, 경사하강 (gradient descent)
AKA 경사하강법(gradient descent method/algorithm)
(기울기|경사)(하강|강하)(법)