본문 바로가기

AI/논문

U-NET 리뷰

 

유넷 간단 정리 ... 

 

디퓨전에서 사용되고 다른 비디오 관련 모델에서도 종종 보여서 궁금해서 공부하게 되었다

 

원래 목적은 Image Segmentation이었다고 함 (세포 영역 구분)

 

모델 구조가 U형태를 띄는데

 

Contracting Path와 Expanding Path로 이루어진다.

 

Contracting Path

  - 입력 이미지의 Context 포착을 목적 

  - VGG based Architecture

  - Relu, Batch norm

 

각 스탭마다

3x3 두번씩 반복 ( 패딩이 없어서 사이즈가 조금씩 줄어듦)

-> 2x2 max-pooling 수행 (stride: 2) ( 사이즈 절반으로 줄어듦)

-> 채널의 수가 2배로 늘어남

 

 

Expanding Path

  - 세밀한 Localization

  - 높은 차원의 채널을 갖는 Up-sampling

  - Relu

  - Transposed convolution

 

각 스탭마다

2x2 Up-Conv (사이즈 두배 커짐) 

-> 필터 개수를 반으로 줄여서 채널을 줄임 

-> 반대편 contracting path의 같은 스탭층에 있는 feature map과 concat

-> 3x3 두번 반복

 

 

 

장점 

 - 속도 빠름 

 - context 정보 잘 사용 및 지역화

 

 

생각할점 ~~ 

 

Q : 채널을 줄였다가 늘리는것의 장점은 무엇인가?? - con1x1과 연관있을까?

A: 얕은 층에서는

-local feature

-직선 및 곡선, 색상 등의 낮은 수준의 특징

 

깊은 층에서는

-global feature

-조금 더 복잡하고 포괄적인 개체 정보

 

Q : concat은 어떤 역할을 하게 될까? (그리고 그 역할이 의미하는것은?)

A : 얕은 층과 깊은 층에서 각각 가지고 있는 특징을 결합함으로써 더 좋은 품질을 가지게 되는듯

      그리고 up-sampling 할때 contracting path의 같은 층의 정보를 주면서 정보손실을 줄여주는게 아닐까?

 

 

(위의 답을 토대로) 다른 모델과 다른점은 무엇일까? 왜 segmentation에서 잘 작동했을까?

-  아마도 다양한 feature 결합을 통해 feature 추출에 특화된 학습을 했기 때문에 segmentation에 잘 작동한게 아닐까?

 

(위의 답 + 디퓨전 모델 이해를 토대로) 왜 디퓨전 모델은 u-net을 사용할까?