
구현은 조금 빡빡해서 리뷰를 먼저하고 구현은 천천히 업로드 할 예정이다. Swin Transformer는 Shifted Window의 줄임말에 Transformer를 붙인 용어이다. 용어 그대로 Shifted window를 활용해 성능을 개선시킨 모델이라 논문을 읽지 않아도 추측해 볼 수 있다. 나오게 된 것은 다양한 scale을 갖는 visual entities를 커버하고, Large resolution의 이미지 인풋에 대해서 patch words를 잘 구성해야한다는 점을 motive로 하여 개발이 된 모델이다. 논문 제목 : Swin Transformer : Hierachical Vision Transformer using Shifted Windows Abstract NLP와 비전에서의 domain ..

SENet의 기본 아이디어를 간단하게 리뷰하고 ResNet101에 붙여보는 식으로 구현하려고 한다. 기본 ResNet101 구현은 다음 글을 참고하면 된다. 1. Idea SENet의 구조는 다음 그림으로 모든게 설명이된다. 각 채널별로 중요도(논문에서는 response, attention 등을 언급한다.)가 있어서 이를 계산하는 구조로 설계했다. 논문에서는 channel간 relationship에 focus를 두어 representation quality 향상을 목적으로 설계했다고 한다. feature map의 채널간 interdependency를 모델링하여 attention 처럼 계산하여 채널간 가중치를 부여하여 계산하는 방식을 택한다. 위의 그림을 설명하면 다음과 같다. input $X$ ($C`x..

V1에서 달라진 점과 Architecture 중심으로 이야기를 하려고 한다. 0. Abstract MobileNet V2는 Bottleneck 간 skip-connection과 Inverted Residual Structure를 바탕으로 설계되었다. Block 안 expansion layer는 lightweight depthwise conv를 사용한다.(MobileNet v1과 같다.) 또한 representational power를 유지하려면 narrow layers에선 non-linearities를 제거하는 것이 중요하며 이를 실험적으로 확인했다. 이러한 아이디어를 바탕으로 실험한 결과 성능향상을 확인할 수 있었다. 1. Intro 현재 SOTA 모델들은 높은 computational cost(res..

이번 글에서는 ShuffleNet논문을 간단하게 리뷰해보려 한다. Intro와 Architecture 중심으로 작성해보겠다. 0. Abstract 이 논문에서는 Mobile 장치에 특화된 extremely computation-efficient CNN인 ShuffleNet을 소개한다. ShuffleNet은 Channel shuffle과 pointwise group convolution operation을 이용하여 computation cost는 낮추면서도 accuracy는 유지하여 MobileNet보다 더 좋은 효율을 보여준다. 1. Intro 현재 트렌드는 CNN을 더 깊게, 더 크게 design하여 성능을 올리는 것이다. 하지만 현재 SOTA 모델들은 layer도 수백개, channel은 수천개에 달..

지금까지 AlexNet, VGGNet, ResNet, DenseNet을 리뷰해봤다. 모델의 성능을 올리기위해 개선했던 방향은 여러가지가 있지만 크게 Layer의 Depth를 깊게하거나 각 Layer의 width(feature 수)를 크게 하거나 Resolution을 높이는 방향으로 전개되었다. efficientnet은 3가지 조건에 대한 적절한 비율을 찾아내어 적은 epoch으로 높은 성능을 보여주는 이름 그대로의 효율적이면서 높은 성능을 보여주었다. 그래서 이번에는 EfficientNet 논문을 리뷰해보려고 한다. 1. Abstract 이 논문은 model scaling과 Depth, width, resolution의 적절한 비율을 통해 더 좋은 성능을 이끌어낼 수 있음을 연구했다. 그래서 효율적인 c..

ImageNet에서 분류대회 기준 2위를 한 모델로 AlexNet보다 더 깊은 layer를 쌓으면서 간단한 구조로 설계되어 지금까지도 자주 사용되는 모델이다. CNN 모델에서 중요한 모델 중 하나인 만큼 간단하게 리뷰해보자! 1. Abstract Convolutional Network depth에 대한 연구를 진행했으며 3x3 Conv를 활용해 더 깊은 depth의 Network를 설계하여 이전 SOTA모델 보다 높은 성능의 Performance를 보여주었다.(16-19 layers) 다른 데이터셋에서도 일반적인 퍼포먼스를 보여줬으며, 컴퓨터 비전의 많은 연구에서 이용할 수 있도록 만들었다. (특히 U-Net 같은 Semantic Segmentation 모델의 backbone) 2. Intro 컴퓨터 비..