스탠포드 강의 내용 참고하여 정리.
( http://cs231n.stanford.edu/syllabus.html )
===================================================================================
- SGD
- Momentum
overshooting 경향이 있지만 SGD에 비해 빠름.
- NAG (Nesterov Accelerated Gradient)
momentum에 비해 overshooting이 덜함
- Adagrad
초반에는 빠르게 학습이 이루어 지지만
learning이 계속되면 cache가 누적되어 x값이 점차 작아짐. 과도하게..
- RMSProp
Adagrad의 문제점을 해결하기 위해 cache에 decay_rate를 추가.
Adagrad 보다는 느리지만 x의 값을 적당히 조절하여 지속적으로 학습이 가능하게 함.
- Adam
momentum + RMSProp 의 형태
일반적인 경우 이녀석이 가장 좋은 듯 하다.
'전공관련 > Deep Learning' 카테고리의 다른 글
[Caffe] DIGITS에서 사용하는 caffe의 버전을 올려보자. (0) | 2016.03.18 |
---|---|
[Caffe] NVIDIA DIGITS 버전 업데이트 하기. (0) | 2016.03.18 |
[Deep Learning] Xavier Initialization에 관하여.. (0) | 2016.02.22 |
[Caffe] Caffe를 이용하여 학습할때 snapshot을 이용하여 이어서 학습하기 (0) | 2015.12.16 |
[Deep Learning] 컴퓨터 비전을 위한 심층학습 기법 강의정리 (0) | 2015.12.15 |