배움 기록/Deep Learning

[MONAI] UNETR 이란? (feat. Vision Transformers)

Spezi 2023. 1. 12. 03:14

자세한 내용은 아래의 논문에서 확인가능

Background 한 줄 정리

FCNN(Fully Convolutional Neural Networks) 에서 인코더는 중요한 역할을 한다. global, local 의 Feature 를 배워서 contextual representation 을 함. 근데 FCNN의 locality 때문에 long-range 를 배우는데는 한계가 있다. -> NLP에서 큰 성공을 거둔 'transformer' 개념 도입 -> 그래서 만든게 UNEt TRansformers (UNETR)

UNETR

인코더와 디코더를 사용하는 U-Net 구조를 따르지만, 인코더에 transformer를 사용함. -> 장점: input volume의 sequence representation을 배울 수 있음, global 정보 capture 가능

U-Net

Encoder : extracted feature들을 점점 downsampling 해가면서 global contextual representation을 배울 수 있게 한다.
Decoder : extracted 된 representation을 반대로 upsampling 해서 input resolution과 같게 만들어 prediction 한다.
Skip connection : encoder의 output 를 different resolution 의 decoder와 합쳐서 downsampling 중 잃게 되는 spatial 정보를 보안한다.

FCNN-based approach의 단점

FCNN (convolutional layer의 단점) : long-range dependency 낮음 <- 이미지는 여러개의 작은 feature들로 구성되어 있기있고, 그 픽셀의 종속성은 feauture 가 있는 local 지역에 한정됨 <- 일정한 크기의 Kernel 사용해서 receptive field가 제한되어 있으니까
즉 근접한 애들끼리만 종속됨

Transformer

long-range 끼리도 dependent 함
transformer 는 NLP 에서 성공을 거둠. 이를 이미지 분야에 적용한 예 : Vision Transformers
vision transformer 와 관련된 자세한 논문 : (https://arxiv.org/abs/2010.11929)
Transformer Encoder를 사용하려면 Transformer에 맞는 input을 넣어야함
- 이미지를 patch 단위로 쪼개서 tocken 화 시킴 + position embedding

Architecture of UNETR

이미지를 transformer input에 맞게 만들기
- 3D volume -> non-overlapping patches 들로 나눠줌 -> embedding space 에 넣어줌 -> position embedding 추가
추출된 encoded representations을 decoder와 merge함
- skip connection 사용

배움을 기록하기 위한 공간입니다.

수정이 필요한 내용이나 공유하고 싶은 것이 있다면 언제든 댓글로 남겨주시면 환영입니다 :D

'배움 기록 > Deep Learning' 카테고리의 다른 글

[Segmentation, MONAI] CUDA out of memory 와의 전쟁 -2. Crop 을 통해 이미지 크기 줄이 (0)	2023.07.07
[Segmentation, MONAI] CUDA out of memory 와의 전쟁 -1. Spacingd를 통한 해상도 조정 (0)	2023.07.07
[sklearn] 데이터 정규화 하는법 (feat. ChatGPT 를 처음 사용하다...) (0)	2023.03.30
[PyTorch, MONAI] UNETR 모델 생성 및 Forward (0)	2023.01.12
[MONAI, PyTorch] MONAI를 이용해 데이터 전처리 하기 (2)	2023.01.12

현재글[MONAI] UNETR 이란? (feat. Vision Transformers)

Life as Münchnerin

[MONAI] UNETR 이란? (feat. Vision Transformers)

Background 한 줄 정리

UNETR

U-Net

FCNN-based approach의 단점

Transformer

Architecture of UNETR

'배움 기록 > Deep Learning' 카테고리의 다른 글

'배움 기록/Deep Learning'의 다른글

티스토리툴바

[MONAI] UNETR 이란? (feat. Vision Transformers)

Background 한 줄 정리

UNETR

U-Net

FCNN-based approach의 단점

Transformer

Architecture of UNETR

'배움 기록 > Deep Learning' 카테고리의 다른 글

'배움 기록/Deep Learning'의 다른글

관련글

티스토리툴바