
비전 Task에서 많이 활용되는 ViT(Vision Transformer)를 이해하기 위해선 Attention과 Transformer 개념을 이해하고 있으면 좋다. 같이 한 번 살펴보자 Attention Attention은 주목 포인트를 찾는 방법이다. NLP 번역 Task에서 시작하여 CV에서는 Image captioning 등에 활용된다. hard attention과 soft attention으로 구분할 수 있다. Hard 버전은 0, 1로 attention을 계산하여 feature map을 표현한다. 이때 계산량이 많아 모든 위치에서 다 계산하지 않고 multinoulli 분포에서 sampling하는 방법으로 계산한다. Soft 버전은 0~1의 float로 attention을 계산하여 feature..
AI
2022. 8. 30. 23:37