Image processing/Object Detection

[객체 탐지] YOLO

유니디니 2019. 12. 30. 15:18
728x90
반응형




참고 자료 


YouTube : https://www.youtube.com/channel/UC7ev3hNVkx4DzZ3LO19oebg


Git-Hub : https://github.com/pjreddie/darknet/wiki/YOLO:-Real-Time-Object-Detection


[1] https://curt-park.github.io/2017-03-26/yolo/

[2] https://zzsza.github.io/data/2018/05/02/YOLO-You-only-look-once-review/




Yolo는 기존연구에 비해 여러가지 특징들을 가진다.


  • 속도(45 FPS-Frame Per Seconds)
  • 네트워크는 일반화된 추론 성능(General Representations)을 지닌다. (실제 이미지로 훈련시키고, Artworks-그림, 영화와 같은 도메인이 다른 이미지에 대한 예측 성능이 보장)
  • 단일 네트워크를 통해, bounding box와 class probabilities를 예측
  • 예측할 때, 전체 이미지를 이용하기 때문에 문맥적인(Contextual) 정보들을 추론  
  • 성능은 기존 연구들에 비해 조금 떨어지지만, 속도가 빠른 특징


Yolo의 탐지 시스템 처리 과정


1. 입력 이미지로 부터 448x448 크기로 리사이즈(Resize)

2. 리사이즈된 이미지로 부터 단일 컨볼루션 신경망 작동

3. 탐지된 결과들에 대하여, 모델의 신뢰도 임계값을 설정 (Non-max suppression) 


Unified System


회귀 문제에 대한 모델의 탐지과정


  • 입력 이미지를 S x S 그리드로 나눈다. 

  • 각각의 그리드는 특정 갯수(B)의 bounding box와 그에 대한 신뢰도 점수(Confidence Score)를 갖는다. 


  • 각각의 그리드에 대한 셀은 C개의 조건적 클래스 확률(Conditional class probability)을 예측한다. (C는 분류 해야 할 클래스를 나타낸다.) 


  • 테스트 할때에는, 조건적 클래스 확률과 bounding box에 대한 신뢰도 점수를 곱하여 각 클래스에 대한 특정 신뢰도 점수를 얻는다. 


    예측된 텐서의 크기 : S x S x (B * 5 + C) 


Yolo의 한계 (Limitation of Yolo) 


1. 하나의 Grid Cell에서 공간적 제약으로 인해, 작은 물체들을 예측하는데 있어 어려움을 겪는다. 

2. Bounding Box를 예측하는 것을 학습하기 때문에, 학습데이터에 존재하지 않는 새로운 형태의 종횡비 또는 구성을 가진 객체(새로운 형태의 Bounding Box)를 일반화 하는데 어려움을 겪는다. 

3. bounding box를 예측하는데 있어, localization이 다소 부정확하다. 큰 bounding box에서의 작은 오류는 일반적으로 괜찮지만, 작은 bounding box의 작은 오류는 IOU에 큰 영향을 미치기 때문이다. 

반응형