Image processing/논문 Review

Fixing the train-test resolution discrepancy

유니디니 2020. 5. 3. 19:20
728x90
반응형

참고자료 : Fixing the train-test resolution discrepancy, Facebook AI Research, https://arxiv.org/abs/1906.06423




[Abstract]


Data-augmentation은 이미지 분류를 위해 신경망을 학습시키는데 있어 중요한 부분이다. 본 논문에서는 Classifier가 학습 과정과 테스트 과정에 있어, 이미지 크기에 따라 객체를 보는 차이(discrepancy)가 있음을 보여준다. 실제로, 학습할 때 이미지 해상도가 낮을수록 테스트시 성능이 향상된다. 이를 위해, 학습과 테스트시 사용하는 이미지 해상도를 다르게 설정하여 테스트 하는 간단하고, 최적의 전략을 사용하였다. 

테스트 해상도는 fine-tuning을 이용하여, 상대적으로 작은 계산량으로 효율적인 모델을 만들수 있다. 

예를 들어, ResNext-101, 32x48d는 224x224으로 Weak supervision을 사전학습하여, 우리의 학습방법으로 테스트 해상도 320x320에 top 1 accuracy 86.4%, top 5 accuracy 98.0%를 달성하였다.


[Method]


우리는 두가지 Standard Setting에 두가지 향상 방안을 제안한다. 

1. 테스트 시, Crop 크기를 늘림으로써 학습 및 테스트 시간에 객체 크기의 차이를 제거할 수 있다. 


(학습 이미지의 크기는 224으로 설정) Test 이미지의 크기를 288로 설정하였을때, 정확도는 기존 테스트와 학습에서의 이미지 크기를 동일하게 했을때 (77.0%) 보다 78.4%로 향상 되었다.


2. 입력 Crop-이미지의 크기 증가로 인한 변화를 보상하기 위해, Global Average Pooling 계층 전에 네트워크를 조정한다.


증가된 Crop 해상도를 테스트시 활용하면, 도메인 변환(Domain-Shift)에 효율적이다. 이러한 변화를 보상하는 자연스러운 방법은 모델을 Fine-tuning 하는 것이며, 경험상 네트워크의 마지막 계층으로 제한하였다. 그 이유는 데이터의 분포에서 벗어나기 때문에 Sparsity가 조정되어야 한다는 것이다. 이를 위해서는 최소한 Global Pooling 이전의 배치 정규화가 미세조정에 포함되어야 합니다. 이러한 방식으로 배치 통계는 증가된 해상도에 맞게 조정된다. 또한, 추가 도메인 이동이 발생하지 않도록 Fine-tuning 중에 테스트 시간 확대 방법을 사용합니다. 



그림 4는 이미지 해상도에 따라 Fine-tuning 전과 후에, pooling 연산의 활성화 통계를 보여준다. 활성화 통계를 Fine-tuning한 후 값의 분포가 원래 분포(reference)와 매우 유사하며, Adaptation이 성공적임을 보여준다. 그러나, 정확성이 개선한 것을 의미하지는 않습니다. 


Fine-tuning의 방법은 다음과 같다. (Transfer Learning Tasks)


1. ImageNet 데이터 셋을 이용하여, 네트워크를 초기화 한다. 

2. 전체 에폭 중 일부를 특정 해상도로 학습한다.

3. Last batch norm과 fully Connected Layer를 높은 해상도로 조정(Fine-tune)한다.




데이터 augmentation : 3가지 데이터 증강 방법에 따라 실험하였다.


1. (TestDA1) 이미지의 크기를 재조정하고, Center-Crop 이미지를 가져온다.

2. (TestDA2) 이미지의 크기를 재조정하고, Center-Crop, 임의 수평이동, 수평 플립 및 Color jittering 

3. (TrainDA) 본 연구에서 제안하는 방법을 적용한 것이다. 



[Result]



[Conclusion]

우리는 다양한 이미지를 사용하여 자연 이미지와 풀링 활성화에 미치는 영향을 연구하였다. Crop 해상도를 조절하여 Simple, 가벼운 파라미터 adaptation 방법을 보였다. 이것은 표준 해상도를 가진 Classifiers를 상당히 향상시켰다. 또한, "Post-facto"(이후에) 고정시키는 방법을 통해 성능을 향상하는 방법을 제안하였다. 

[open source] https://github.com/ facebookresearch/FixRes. 


반응형