Image processing/논문 Review

[Shadow Detection] Instance Shadow Detection

유니디니 2020. 2. 24. 15:05
728x90
반응형



참고자료 : https://arxiv.org/pdf/1911.07034.pdf.




Instance shadow detection은 인스턴스 단위 객체들에 대한 그림자 탐지를 목표로 한다. 


이러한 목표에 접근하기 위해, 새로운 그림자 데이터 셋 구축, LISA(Light-guided Instance Shadow-object Association) 방법을 제안하고자 한다. 평가 지표로는 그림자와 객체 간의 관계를 AP(Average Precision)를 통해 측정하였다. 향후, 빛의 방향 추정과 Photo-editing 등에 활용될 수 있다. 

 


그림자는 객체가 빛을 막을때 생성되며, 영상을 이해하고 해석하는데 있어 방해요인으로 여겨져 왔다. 이 논문에서는 신경망을 이용하여 객체와 그림자 간에 관계를 예측하여 각 인스턴스 별 객체의 그림자를 탐지하고자 한다. 인스턴스 그림자를 찾음으로써 영상에서 객체를 지우거나 조작할 때 더욱 자연스럽게 조작할 수 있다. 


1. 3,623쌍의 SOBA(Shadow-OBject Association) 데이터 셋을 구축
(Shadow instance mask, shadow-object association mask, Object instance mask)

2. End-to-End의 프레임워크 기반의 LISA(Lighted-Guided-Instance Shadow-object Association) 방법을 정의

3. 인스턴스 단위 객체에 대한 그림자를 SOAP(Shadow-Object Association Precision) 평가


1. SOBA(Shadow OBject Association) Dataset


ADE2K, SBU, ISTD, Microsoft COCO등 1000장의 이미지를 확보하여 대략적으로 그림자객체 별 마스크를 라벨링하였다. 총 3,623 쌍의 데이터 셋으로 구성되어 있으며 이미지의 비율에 대해 히스토그램으로 그려볼 때 다음과 같다. 학습데이터는 2,999장, 테스트 셋으로는 624장으로 이루어져 있다. 





2. LISA에 대한 전반적인 네트워크 (MASK-RCNN 기반)


일반적인 그림자 탐지와 다른 점은 모든 그림자에 대해 단일 마스크가 아니라 그림자 인스턴스를 예측해야 한다는 것입니다. 또한 입력 이미지에서 객체 인스턴스를 찾아 그림자 인스턴스와 쌍을 이루어야 한다. 방법은 다음과 같다.



FPN을 백본 네트워크로 사용하여 그림자의 특징을 추출한다. 그리고 나서, 두 개의 가지로 나누어 Top Branch는 그림자와 객체 별 인스턴스를 예측하고 Bottom Branch는 그림자, 객체 간의 관계와 빛의 관계를 예측한다. 


Top Branch는 RPN(Region Proposal Network)로 시작하여 그림자/객체 인스턴스를 포함 할 가능성이 높은 영역 을 찾는다. 그런 다음, Roi-Align을 채택하여 제안된 영역에 대한 특징을 추출하고, Bounding box, Mask 헤드를 활용하여 예측 결과와 비교하고 최소 손실 값을 가지는 경계 상자와 mask를 예측한다.


Bottom Branch는 association RPN을 의미하며 그림자-객체 연관에 대한 영역 제안을 생성한 다음 RoI Align을 사용하여 각 제안에 대한 특징을 추출하고 경계 상자 Head를 채택하여 그림자-객체 연관의 경계 상자를 생성한다. 연관 관계를 얻은 후, Top Branch에서 예측된 그림자와 객체 마스크를 결합하여 그림자-객체 연관의 마스크를 효율적으로 얻을 수 있다.


게다가, 빛의 방향을 추출하기 위해 그림자-객체 관계를 통해 예측할 수 있다.


 


LISA에서 빛 방향과 그림자-객체 연관 예측을 공동으로 최적화 함으로써 인스턴스 그림자 탐지의 전반적인 성능을 향상 시킬 수 있다. 


학습 방법




손실 함수의 구성 : INSTANCE BOX LOSS, INSTANCE MASK LOSS, ASSOCIATION BOX LOSS, LIGHT DIRECTION LOSS를 조합하여 최적화가 진행된다. Boxes와 mask의 손실함수는 RPN을 따르는 Mask R-CNN의 공식을 따르고 있으며, 빛의 방향 손실은 Smooth L1 손실을 따른다.



p는 예측된 결과를 나타내며, g는 정답값의 빛의 방향을 나타낸다. 


평가 방법


SOAP(Shadow-Object Average Precision) : IoU를 이용하여 AP를 측정 (0.5, 0.75, 0.95)


실험 결과



IoU의 τ 기준을 0.5, 0.75, 0.95로 두고, 그림자 인스턴스, 객체 인스턴스, 그림자-객체 관계를 얻는다. 


1. 예측된 그림자 인스턴스와 GT 그림자 인스턴스 간의 IoU는 τ 이상이다. 

2. 예측된 객체 인스턴스와 GT 객체 인스턴스 간의 IoU는 τ 이상이다.

3. 예측된 그림자 객체와 GT그림자 객체 간의 IoU는 τ 이상이다.



Baseline 1 : 그림자와 객체 인스턴스의 경계 상자와 마스크를 예측하기 위해 LISA의 TOP Branch(객체와 마스크 탐지)만 채택하여 그림자와 객체 인스턴스에 대해 탐지


Baseline 2 : 그림자와 객체 연관을 예측할 때, LISA에서 광원의 방향 부분을 제외하고 그림자와 객체 인스턴스를 쌍으로 일치시켜 탐지


Full pipeline : 그림자와 객체 인스턴스에 대해 탐지, 그림자와 객체간의 관계와 빛의 방향까지 고려 

반응형