Image processing/Deep-learning

[Deep Learning] 배치 정규화

유니디니 2020. 2. 5. 11:05
728x90
반응형

참고자료 : [1] https://shuuki4.wordpress.com/2016/01/13/batch-normalization-%EC%84%A4%EB%AA%85-%EB%B0%8F-%EA%B5%AC%ED%98%84/


[2] https://astralworld58.tistory.com/65




배치 정규화


배치 정규화는 Gradient Vanishing/Exploding과 같은 문제를 해결하기 위해 나온 방법이다. 지금까지는 이 문제를 활성화 함수(ReLU, Tanh, Sigmoid 등)의 변화, 가중치 초기화 방법, 작은 학습률등으로 해결했지만 이 논문에서는 가중치 초기값이나 학습률에 의존하지 않고 전체적으로 해결하고자 하였다. 


미니 배치(mini-batch) 단위로 학습 바로 전,후 데이터를 정규화 하는 방식으로 학습속도를 빠르게 할 수 있다는 점, 매개변수의 초기값, 학습률의 크기에 크게 의존하지 않는다는 점, 과대적합을 억제한다는 점이 장점으로 꼽힌다. 또한, 드롭아웃(Dropout)과 같은 가중치 규제항을 적용할 필요가 없기 때문에 학습속도가 빨라진다.(배치 정규화와 드롭아웃은 유사한 기능)



일반적으로 레이어를 거친 후, 배치 정규화를 수행하며 이를 활성화 함수에 입력한다. 


테스트 단계에서는 학습단계에서 배치단위의 평균과 분산 값을 저장해 놓고 이를 활용한다. 그 이유는 학습단계에서는 배치단위로 들어오기 떄문에 배치의 평균과 분산을 구하는것이 가능하지만 테스트 단계에서는 배치단위로 구하는것이 어렵다.



반응형