Image processing/논문 Review

Squeeze-and-Excitation Networks

유니디니 2020. 1. 16. 11:31
728x90
반응형


참고자료


[1] 논문 : https://arxiv.org/pdf/1709.01507.pdf




기존의 CNN(Convolution Neural Network) 선행 연구에서는 공간적인 관계(Spatial)를 가지는 특징들을 개선시키기 위해 노력해왔다. 본 논문에서는 공간적인 관계가 아닌 채널간의 관계를 재조정(Recalibrate)시켜주는 "Squeeze-and-Excitation Block"을 통해 성능을 개선시키고자 한다. SE-block은 구조가 간단하고 가볍기 때문에, 효율적으로 성능을 높여줄 수 있다. 


1. Squeeze-and-Excitation Blocks




전체적인 구조는 다음과 같다. 


1. 입력 특징 맵으로 부터 Squeeze 연산을 통해, 각 채널 별로 공간 차원(H x W) 특징맵을 모아서 표현한다. (Global pooling operation)

2. 모아진 특징 맵은 비선형 excitation 연산을 통해, 채널단위 특징들 간에 관계의 의존성을 파악한다.
(Two-
fully connected layer)


3. 채널수가 동일 한 입력 특징 맵에 곱해줌으로써, 중요한 특징에 대하여 강조한다.(Attention-Mechanism)


 


Inception 방식과 residual 방식으로 활용할 수 있다. SE-block은 특징맵의 크기(H x W)Global pooling을 통해, 채널단위(1 x 1)로 줄어든다. 축소된 특징맵은 실험을 통해 얻은 축소 비율(하이퍼 파라미터)로 채널 단위로 축소하고, 다시 확장하여 채널수가 동일한 원래 특징맵에 곱해줌으로써 중요한 특징맵을 강조한다.


  • Squeeze operation : Global Information Embedding


기존의 컨볼루션 연산은 지역적인 정보 (Local Receptive Field)만을 가지고 학습하기 때문에 채널단위 전체적인 정보를 반영할 수 없었다. 이러한 문제를 완화하기 위해 global average pooling을 사용하여 1x1xC의 특징맵으로 압축하였다. 


  • Excitation operation : Adaptive Recalibration


Squeeze 연산을 통해 압축된 정보들의 채널단위 연관성을 파악하기 하기 위함이다. 두번의 Fully-Connected Layer와 비선형 활성화 함수를 통해 중요한 특징부분을 강조하고자 하였다. 축소 비율은 Fully-connected layer에 의한 연산량을 줄이기 위함이며, 다양한 실험을 통해 최적의 값(r = 16)을 찾았다고 한다. 강조된 특징맵은 기존의 특징 맵에 곱해줌으로써 강조하는 효과를 주었다. 



2. 실험 결과


  • Image-net에 대하여 SE block을 사용하면, 성능이 좋아짐을 알수 있다.



  •  ILSVRC 2017 Classification


  • Reduction Ratio


  • Squeeze operation

  • SE block integration strategies







반응형