[딥러닝] 심층 신경망과 오차 역전파 개요

Updated:

심층 신경망(다중 퍼셉트론) 이해

기본 퍼셉트론은 간단한 문제만 해결이 가능

보다 복잡한 문제의 해결을 위해서 은닉층(Hidden Layer)가 포함된 다중 퍼셉트론으로 심층 신경망을 구성된다.

가중합이 구해지면 ReLu와 같은 활성화 함수를 통해 아웃풋이 나온다. 다음 은닉층에서는 다시 이 아웃풋을 입력으로 계산을 반복한다.

오차 역전파 알고리즘

심층 신경망에서는 은닉층을 지나갈 수록 활성화 함수(ReLu)를 씌우고 아웃풋을 곱하는 과정이 반복해져서 나중에 기존에 경사하강법으로는 가중치를 일일이 업데이트하기 어렵다.

따라서 오차 역전파 알고리즘이 등장하게 되었는데, 이는 뒤에서부터 순차적으로 미분연쇄법칙(Chain Rule)을 활용해서 가중치를 업데이트하는 것이다.

출력층에서부터 역순으로 Gradient를 전달하여 전체 Layer의 가중치를 Update하는 방식

미분의 연쇄 법칙

미분의 연쇄 법칙은 합성 함수의 미분이다.

$z = f(g(x))$

$\frac{dz}{dx} = f’(g(x))*g’(x)$

미분의 연쇄 법칙 의의

아무리 개별 변수가 복잡하게 구성된 함수의 미분이라도 해당 함수가 (미분 가능한) 내포 함수의 연속적인 결합으로 되어 있다면 연쇄 법칙으로 쉽게 미분 가능하다!

참고 자료

딥러닝 CNN 완벽가이드

Leave a comment