Written by Romera, Jose M. Alvarez, Luis M. Bergasa and Roberto Arroyo
[Abstract]
지능형 차량의 인식 요구사항을 통합된 방식으로 해결하는 것은 어려운 Task에 속한다. Deep Neural Network는 픽셀 수준에서 이미지의 여러 개체 범주를 분류하기 위해 End-to-End 학습을 수행하기 때문에 적합하다. 그러나, 고품질 성능, 제한된 리소스 간의 trade-off를 지키는 좋은 접근 방식이 존재하지 않기 때문에 실제 차량에서의 적용이 제한된다.
본 논문에서는 정확도 높은 실시간 딥 아키텍쳐를 제안한다. 우리는 뛰어난 정확도를 유지하기 위해 Residual connection과 factorized convolutions를 사용한 새로운 layer를 적용하였다. 단일 Titan X에서 83FPS이상, Jetson TX1에서 7FPS 이상으로 실행되며 공개적으로 사용가능한 Cityscapes 데이터 세트에 대해 테스트를 수행하였다.
[Introduction]
과거, 제안된 Residual layer는 convnets 디자인의 새로운 트렌드를 만들었다. 심층 아키텍처의 저하(degradation) 문제를 피하기 위해 컨볼루션 레이어를 재구성함으로써, 많은 양의 레이어를 쌓는 네트워크에서 높은 정확도를 달성할 수 있었습니다. 이 방법은 이미지 분류 문제 및 의미론적 세분화 문제에서 최고의 정확도를 얻는 새로운 아키텍처에서 일반적으로 채택되었지만, 최적의 방법은 아니라고 생각한다. 합리적인 양의 레이어를 고려할 때, 더 많은 컨볼루션으로 깊이를 확대하면 필요한 리소스가 크게 증가하면서 정확도가 약간만 향상되기 때문이다.
차량에 적용하기 위해선 계산 리소스는 주요 제한사항이다. 알고리즘은 안정적으로 작동할 뿐만아니라 빠르게 작동하고, 공간제약으로 인해 임베디드 장치에 적합하고, 차량 자율성에 최소한의 영향을 미치기 위해 낮은 전력 소비를 가져야 한다.
본 논문에서는 효율적인 semantic segmentation을 위한 convnet인 ERF-Net을 제안한다.
- Skip connection과 Residual 개념을 적용한 1D factorized convolution (기존 2D 방법을 변형)
- 제안된 블록은 인코더와 디코더에 순차적으로 적용
[Method]
Factorized Residual Layers
Residual 방식은 수많은 컨볼루션 레이어를 쌓을 때 나타나는 degradation 문제를 해결하였으며, 기존 방식은 Fig 2.의 a,b와 같다. 두 버전은 유사한 수의 파라미터수와 거의 유사한 정확도를 가진다. 하지만 bottleneck은 계산 리소스를 덜 필요로 하며, 깊이가 증가함에 따라 더욱 효율적으로 확장된다. 그러나, bottleneck이 없는 Resnet은 bottleneck 버전보다 깊이가 더 높아지기 때문에 정확도가 더 높다는 보고가 있으며, 이는 bottleneck 설계가 여전히 성능 저하 문제를 겪고 있음을 나타낸다.
우리는 non-bottleneck 버전을 1D filters로 rebuilding 하였으며, 그림 2와 같다. 이 factorized 방법을 적용하여 기존의 residual module의 3x3 컨볼루션 크기를 33% 줄이며 계산 효율성을 높일 수 있었다. (Table 1)
[Architecture design]
세부 디자인은 다음과 같으며, E-Net, Seg-Net의 encoder-decoder 부분을 참고하여 변형하였다.
* E-Net : go-hard.tistory.com/74
[Experiments]
- Cityscapes 데이터 셋이용 (19 classes) - 학습데이터(2975), 검증(500), 테스트(1525)
- 20k의 coarsely annotated 데이터를 사용하지 않음
- momentum 0.9, weight decay 2e-4, learning rate 5e-4
- Table3은 실험결과를 나타내며, Fig3은 에폭당 학습과 검증에서의 에러를 나타낸다.
[Conclusion]
실제 논문에 대한 내용은 상당히 길지만, 전하고자 하는 내용은 간결하다. (정확하고 빠른 픽셀단위 semantic segmentation 방법을 제안하고 싶은것)
계산 비용이 많이 드는 기존 방법에서 컨볼루션 블럭에 중점을 두어 개선하였다.(Residual module) 또한, 모델의 전력 소비에 관한 실험, 모델의 계산 리소스를 줄이기 위한 압축기술(ex. 가중치 이진화, 양자화, 가지치기)이 필요해 보인다.
Code[official] : github.com/Eromera/erfnet