[딥러닝] 확률적 경사 하강법

Updated: April 27, 2021

SGD와 Mini-Batch GD

경사 하강법 방식은 전체 학습 데이터를 기반으로 GD를 계산. 하지만 입력 데이터가 크고 레이어가 많을수록 GD를 계산하는데 많은 Computing 자원이 소모
이를 극복하기 위해 Stochastic Gradient Descent와 Mini-Batch Gradient Dexcent 방식이 도입

GD(Gradient Dexcent)	SGD	Mini - Batch GD
전체 학습 데이터를 기반으로 GD 계산	전체 학습 데이터 중 한 건만 임의로 선택하여 GD 계산	전체 학습 데이터 중 특정 크기만큼(Batch 크기) 임의로 선택해서GD 계산

일반적으로 Mini-Batch GD가 대부분의 딥러닝 Framework에서 채택된다. 보통 SGD with Mini-Batch라고도 한다.

특히 keras의 경우 무조건 미니배치 GD를 사용하며 배치 사이즈 = 32가 디폴트 값이다.