반응형

Image processing/논문 Review 10

[2018] Bag of Tricks for Image Classification with Convolutional Neural Networks(part 2)

[Training Refinement] Cosine Learning Rate Decay 학습률에 대한 조정은 중요하다. 본 논문에서는 꾸준히 초기 학습률을 줄이는 전략을 사용하였다. 대부분의 논문에서 사용하는 전략은 기하급수적으로(exponentially) 감소시키는 전략을 많이 사용한다. He et al.은 30 epochs마다 0.1 rate를 감소시켰으며 "step decay"라고 부른다. Szegedy et al.은 2에폭마다 0.94를 감소시켰다. 이와 대조적으로 Loshchilov et al.은 cosine annealing strategy를 사용하였다. 단순한 version은 초기 값을 cosine 함수에 따라서 0으로 감소시키는 것이다. warm up 전략을 무시하고 전체 배치 수 t에서 ..

[2018] Bag of Tricks for Image Classification with Convolutional Neural Networks(Part 1)

Written by Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang Junyuan Xie, Mu Li [Abstract] 최근 image classification 분야에서는 Data augmentations and optimization methods와 같은 학습 성능 개선 방안들이 발전하고 있다. 본 논문에서는 성능을 개선시키는 다양한 기법들에 대한 시험을 수행하였고, 최종 모델 정확도에 미치는 영향을 경험적으로 평가하였다. 이러한 개선사항들을 통해 ImageNet에서 ResNet-50의 Top-1 검증 정확도를 75.3%에서 79.29%로 높였다. 또한 Image Segmentation 정확도가 향상되면, 객체 탐지 및 Semantic segmentation과 같..

Fixing the train-test resolution discrepancy

참고자료 : Fixing the train-test resolution discrepancy, Facebook AI Research, https://arxiv.org/abs/1906.06423 [Abstract] Data-augmentation은 이미지 분류를 위해 신경망을 학습시키는데 있어 중요한 부분이다. 본 논문에서는 Classifier가 학습 과정과 테스트 과정에 있어, 이미지 크기에 따라 객체를 보는 차이(discrepancy)가 있음을 보여준다. 실제로, 학습할 때 이미지 해상도가 낮을수록 테스트시 성능이 향상된다. 이를 위해, 학습과 테스트시 사용하는 이미지 해상도를 다르게 설정하여 테스트 하는 간단하고, 최적의 전략을 사용하였다. 테스트 해상도는 fine-tuning을 이용하여, 상대적으로..

[Shadow Detection] Instance Shadow Detection

참고자료 : https://arxiv.org/pdf/1911.07034.pdf. Instance shadow detection은 인스턴스 단위 객체들에 대한 그림자 탐지를 목표로 한다. 이러한 목표에 접근하기 위해, 새로운 그림자 데이터 셋 구축, LISA(Light-guided Instance Shadow-object Association) 방법을 제안하고자 한다. 평가 지표로는 그림자와 객체 간의 관계를 AP(Average Precision)를 통해 측정하였다. 향후, 빛의 방향 추정과 Photo-editing 등에 활용될 수 있다. 그림자는 객체가 빛을 막을때 생성되며, 영상을 이해하고 해석하는데 있어 방해요인으로 여겨져 왔다. 이 논문에서는 신경망을 이용하여 객체와 그림자 간에 관계를 예측하여 각..

Squeeze-and-Excitation Networks

참고자료 [1] 논문 : https://arxiv.org/pdf/1709.01507.pdf 기존의 CNN(Convolution Neural Network) 선행 연구에서는 공간적인 관계(Spatial)를 가지는 특징들을 개선시키기 위해 노력해왔다. 본 논문에서는 공간적인 관계가 아닌 채널간의 관계를 재조정(Recalibrate)시켜주는 "Squeeze-and-Excitation Block"을 통해 성능을 개선시키고자 한다. SE-block은 구조가 간단하고 가볍기 때문에, 효율적으로 성능을 높여줄 수 있다. 1. Squeeze-and-Excitation Blocks 전체적인 구조는 다음과 같다. 1. 입력 특징 맵으로 부터 Squeeze 연산을 통해, 각 채널 별로 공간 차원(H x W) 특징맵을 모아서..

Conditional Generative Adversarial Nets

GAN(Generative Adversarial Networks)는 최근 생성적 모델을 학습시키는 새로운 방법으로 소개되었다. GAN은 생성기와 분류기의 경쟁적 학습에 의해 실제 이미지와 유사한 가짜 이미지를 만들어 내지만, 어떤 이미지를 만들어 낼지는 알 수 없었다. 이러한 문제를 해결하고자 조건을 추가하였다. 1. Conditional GAN z는 Latent vector(잠재 변수- 100차원의 정규화된 모델에 의한 랜덤변수), y는 조건, x는 생성된 데이터초록색 부분(y = Condition)을 제외하면, GAN과 동일하다.조건 데이터는 이미지 뿐만 아니라 다양한 형태(one-hot vector, image, word..)를 가질수 있다.생성기와 분류기에서 입력 데이터로 Concatenation..

Scene Graph Generation 논문에 대한 이해

참고자료 [1] Y. Li, W. Ouyang, B. Zhou, K. Wang, and X. Wang.“Scene graph generation from objects, phrases and region captions.” In ICCV, 2017. 관련 연구 Object Detection Scene Graph Generation Image/Region Captioning 내용 Scene Graph 기술은 주어진 장면에 대하여 객체뿐만 아니라, 객체들 간의 관계를 추론하는 방법으로 입력 영상으로부터 인스턴스(Instance)단위 객체를 분류하고, 연결 그래프를 이용하여 관계를 명시적으로 표현한다. 과 같이, 3가지 단계에 걸쳐 장면에 대한 의미추론을 수행한다. 먼저, 객체탐지(Object Detectio..

오토 인코더(Auto-Encoder)의 이해

[참고 자료] 1.핸즈온 머신러닝(Hands-On Machine Learning with Scikit-Learning & TensorFlow), 한빛 미디어 2. 오토인코더의 모든 것(naver d2, 발표자 : 이활석님) https://youtu.be/o_peo6U7IRM 1. 오토 인코더의 개념 오토 인코더는 "어떤 감독 없이도(즉, 레이블 되어 있지 않은 훈련 데이터를 사용해서) 입력 데이터의 효율적인 표현인 코드를 학습할 수 있는 인공 신경망"을 말합니다. 여기서 코드는 입력차원의 데이터를 표현할수 있는, 입력보다 낮은 차원의 데이터를 말하므로 종종 차원 축소에 유용하게 사용되기도 합니다. (코딩은 Latent Variable, feature, Hidden representation으로 불리기도 ..

GAN(Generative Adversarial Network)의 이해

참고자료 : [1] 1시간만에 GAN(Generative Adversarial Network) 완전 정복하기 [2] https://towardsdatascience.com/understanding-generative-adversarial-networks-4dafc963f2ef [3] https://dreamgonfly.github.io/2018/03/17/gan-explained.html 1. GAN(Generative Adversarial Network)이란? Generative : "생성적인, 생산하는"이라는 뜻으로 GAN모델 안에서의 의미는 이미지를 생성한다라는 의미입니다. Adversarial : "적대적인" 이르는 뜻으로, 서로 경쟁하면서 무엇인가를 좋게하는 의미입니다. 즉, 이미지를 만들긴 하..

반응형