Image processing/논문 Review

Scene Graph Generation 논문에 대한 이해

유니디니 2019. 12. 4. 16:53
728x90
반응형

참고자료

[1] Y. Li, W. Ouyang, B. Zhou, K. Wang, and X. Wang.“Scene graph generation from objects, phrases and region captions.” In ICCV, 2017.

관련 연구

  1. Object Detection

  2. Scene Graph Generation

  3. Image/Region Captioning

내용

[그림 1] Scene Graph 수행 절차 [1]

  • Scene Graph 기술은 주어진 장면에 대하여 객체뿐만 아니라, 객체들 간의 관계를 추론하는 방법으로 입력 영상으로부터 인스턴스(Instance)단위 객체를 분류하고, 연결 그래프를 이용하여 관계를 명시적으로 표현한다.

  • <그림 1>과 같이, 3가지 단계에 걸쳐 장면에 대한 의미추론을 수행한다. 먼저, 객체탐지(Object Detection) 단계를 통해 칫솔, 엄마, 아이와 같이 개별적인 객체를 탐지한다. 다음으로, 장면 그래프 생성(Scene Graph Generation) 단계에서는 <Woman-use-Toothbrush>와 같이 객체간의 관계(Phrase)를 탐지 후, 연결하여 표현한다. 마지막으로, 영역 캡셔닝(Region Captioning) 단계에서는 다수의 객체들로부터 속성 및 상호작용을 포함하는 문장을 생성한다.

    1. 객체 탐지(Object Detection)는 이미지를 이해하는 기본적인 단계이다. 이미지로 부터 관심 객체에 대하여 배경과 구분해 식별하는 자동화 기법을 말한다. 올바른 객체 탐지를 위해 경계 박스(Bounding Box)를 설정하여 객
      체를 나타내는 사물의 카테고리를 연관하여 표현한다.

    2. 장면 그래프 생성(Scene Graph Generation) 단계에서는 탐지된 객체를 이용하여 각 객체간의 관계에 대한 분류를 수행한다. 시각적 관계 탐지(Visual Relationship Detection)는 관계를 나타내는 그래프를 제한하는 방법으로 객체와 술어를 분류하거나 종단 간의 네트워크를 학습하여 관계를 직접 예측한다. 

    3. 영역 캡셔닝(Region Captioning) 단계에서는 객체와 속성, 관계, 문맥적 관계들간의 언어적인 묘사를 수행하며, CNN 과 RNN을 결합한 모델을 활용한다. 캡셔닝이란, 하나의 이미지를 설명하는 문장을 만들어내는 분야로 사진의 묘사를 통해 새로운 의미 정보를 제공한다. CNN을 통해 객체 및 구(Phase) 노드와 같은 특징들을 추출하고, 객체, 상호작용, 속성 장면 관련 정보 등과 같은 광범위한 정보들을 생성하기 위해 RNN 기반의 모델을 이용한다. 

  • Multi-task 학습은 상호 연관이 있는 일(Task)들에 대하여 모델을 학습하려 할때 주로 사용되는 기술이다. 관련있지만 서로 다른 task, 예를들면 이미지와 언어는 분야가 서로 다르지만 하나의 이미지를 해석하는데 있어 연관성을 가질수 있다. 이러한 접근 방식은 학습시에 표현(Representation)들을 서로 공유함에 따라 모델을 더 좋게 일반화 할 수 있기 때문에 주로 사용된다. 

논문에서 제안하는 프로세스 요약

 

[그림 2] 논문에서 제안하는 구조 [1]

1. Region Proposal : 객체(Object), 관계(Phase), 그리고 영역 캡션에 대한 ROI(Region Of Interest) 관심영역을 생성

2. Feature Specialization : ROI가 주어지면 특수화된 특징들(Specialized features)을 얻기 위해 서로 다른 의미 정보(객체나 관계, 영역 캡션 등등)들을 이용 

3. Dynamic graph construction : 해당 ROI의 시맨틱 및 공간 관계를 기반으로 서로 다른 branch의 피쳐 노드 간 연결을 모델링하는 그래프를 동적으로 구성합니다.

4. Feature refining : 서로 다른 의미 수준의 정보들을 장면 그래프에 전달하여, 특징들을 공동으로 세분화

5. Final Prediction : 정제된 특징(객체, 예측된 관계)을 사용하여 분류

반응형