티스토리 뷰

ImageNet에서 분류대회 기준 2위를 한 모델로 AlexNet보다 더 깊은 layer를 쌓으면서 간단한 구조로 설계되어 지금까지도 자주 사용되는 모델이다. CNN 모델에서 중요한 모델 중 하나인 만큼 간단하게 리뷰해보자!

 

1. Abstract

Convolutional Network depth에 대한 연구를 진행했으며 3x3 Conv를 활용해 더 깊은 depth의 Network를 설계하여 이전 SOTA모델 보다 높은 성능의 Performance를 보여주었다.(16-19 layers) 다른 데이터셋에서도 일반적인 퍼포먼스를 보여줬으며, 컴퓨터 비전의 많은 연구에서 이용할 수 있도록 만들었다. (특히 U-Net 같은 Semantic Segmentation 모델의 backbone)

 

2. Intro

컴퓨터 비전 분야에서 주요 모델이된 ConvNets와 함께 기존 아키텍쳐에 대해서 성능을 향상시키기위해 많은 시도를 했다. 예를 들면, receptive window size / stride를 줄이거나 multiscale 학습 및 테스트 등의 시도가 있었다. 이 논문에서는 depth를 깊게하여 성능을 끌어올렸다. depth는 증가시키고 layer에 계산되는 parameter를 줄이는 방향으로 설계했다. (모두 3x3 conv로만 구성) 이를 통해 상당한 성능향상을 보였다.

 

3. Architecture

학습에서 input은 224x224의 RGB 이미지 사이즈로 고정했다. 유일한 전처리는 각 픽셀을 Normalizing한 것이다. Conv layers의 모든 receptive field를 3x3로 했으며(가장 작은 사이즈, stride = 1, padding = 1) size는 max pooling을 통해 반씩 줄여가는 식으로 구성했다.(5개의 max-pooling, 2x2, stride = 2). AlexNet과 마찬가지로 fc layers는 3개로 구성했다. 모든 hidden layers는 ReLU로 구성했고, AlexNet에서 사용한 Local Response Normalization은 사용하지 않았다. 

 

VGGNet 논문 : https://arxiv.org/abs/1409.1556

 

Very Deep Convolutional Networks for Large-Scale Image Recognition

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x

arxiv.org