Image processing/Object Detection

[객체 탐지] DSSD : Deconvolutional Single Shot Detector

유니디니 2020. 1. 13. 11:40
728x90
반응형


참고자료 


논문 : https://arxiv.org/abs/1701.06659


[1] https://towardsdatascience.com/review-dssd-deconvolutional-single-shot-detector-object-detection-d4821a2bbeb5




기존의 SSD(Single Shot MultiBox Detecotr)에서 성능 향상을 위해, Context 특징들을 더하기 위해 Deconvolution 연산을 추가하였다. 



  • 기존의 SSD에 Deconvolution 연산을 추가함으로써, 속도를 상대적으로 유지하면서 탐지 성능을 높이고자 하였다. (특히 작은 객체들(small object)에 대하여)
  • SSD의 앞 부분에서 사용되었던 VGG network를 Resnet기반의 Residual-101로 교체
  • 네트워크에서 테스트 할때, 배치 정규화 과정을 제거함으로써 테스트 시간을 1.2 ~ 1.5배 줄였다.

1. Prediction Module

(a) SSD Prediction module, (b) residual block with skip connection, (c) one residual block for each prediction layer, (d) two sequential residual block 


  • 다양한 조합을 통해 성능을 비교해 본 결과 큰 차이는 없지만, (c)+ Element-wise Product 연산이 가장 좋은 결과를 보였다. (Ablation studies)
  • 기존의 객체 탐지 방법에서와 동일하게 Class에 대한 분류(class score)와 Localization Regression을 예측(Bounding box offset)

2. Deconvolution Module


  • 크기에 불변한 High-context 정보들을 효율적으로 활용하기 위해, 비대칭(Asymmetric)의 Hourglass 구조를 활용
    1. 대칭의 구조를 갖게 되면, 추론시간이 두배로 늘어나기 때문에 비대칭 구조를 채택
    2. 분류는 전체 이미지에 대하여 정답 이미지를 주기 때문에, 탐지에서처럼 Local 라벨 데이터가 주어지지 않으므로 사전 학습된 모델(Pre-trained model)을 얻을 수 없다.
  • Pinheiro et al의 논문을 참고하여 개선
    1. 배치 정규화 계층을 각 컨볼루션 계층 뒤에 추가
    2. 학습된 Deconvolution 계층(Transposed layer) 대신에 Bilinear updsampling layer을 사용
    3. Element-wise Product와 Element-wise sum에 대하여 각각 비교 실험해 본 결과, element-wise product가 좋은 결과를 보임

3. 학습 및 실험 결과

학습 전략
  • GT box와 IoU 값이 임계값(0.5) 이상인 Predicted Anchor box(default box)만 학습에 사용
  • Non-matched default box는 신뢰 손실 함수를 기반으로 matched default box와의 비율을 3:1로 학습
    (Joint localization loss- Smooth L1와 confidence loss-Softmax)
  • SSD에서와 동일한 Random expansion augmentation

실험 결과


VGG와 Residual-101를 비교하였을때, 각 특징 계층에서의 깊이와 해상도를 나타낸다. 




PASCAL VOC 2007




Ablation Study on VOC 2007(Prediction Module, Feature Combination)




PASCAL VOC 2012



COCO



Inference Time



Visualization, SSD vs DSSD 성능 비교(특히, 작은 물체)



왼쪽은 SSD의 결과를 오른쪽은 DSSD의 결과를 보여주고 있다. 작은 물체들에 대하여 DSSD가 성능이 향상됨을 알 수 있다.

반응형