유넷 간단 정리 ...
디퓨전에서 사용되고 다른 비디오 관련 모델에서도 종종 보여서 궁금해서 공부하게 되었다
원래 목적은 Image Segmentation이었다고 함 (세포 영역 구분)
모델 구조가 U형태를 띄는데
Contracting Path와 Expanding Path로 이루어진다.
Contracting Path
- 입력 이미지의 Context 포착을 목적
- VGG based Architecture
- Relu, Batch norm
각 스탭마다
3x3 두번씩 반복 ( 패딩이 없어서 사이즈가 조금씩 줄어듦)
-> 2x2 max-pooling 수행 (stride: 2) ( 사이즈 절반으로 줄어듦)
-> 채널의 수가 2배로 늘어남
Expanding Path
- 세밀한 Localization
- 높은 차원의 채널을 갖는 Up-sampling
- Relu
- Transposed convolution
각 스탭마다
2x2 Up-Conv (사이즈 두배 커짐)
-> 필터 개수를 반으로 줄여서 채널을 줄임
-> 반대편 contracting path의 같은 스탭층에 있는 feature map과 concat
-> 3x3 두번 반복
장점
- 속도 빠름
- context 정보 잘 사용 및 지역화
생각할점 ~~
Q : 채널을 줄였다가 늘리는것의 장점은 무엇인가?? - con1x1과 연관있을까?
A: 얕은 층에서는
-local feature
-직선 및 곡선, 색상 등의 낮은 수준의 특징
깊은 층에서는
-global feature
-조금 더 복잡하고 포괄적인 개체 정보
Q : concat은 어떤 역할을 하게 될까? (그리고 그 역할이 의미하는것은?)
A : 얕은 층과 깊은 층에서 각각 가지고 있는 특징을 결합함으로써 더 좋은 품질을 가지게 되는듯
그리고 up-sampling 할때 contracting path의 같은 층의 정보를 주면서 정보손실을 줄여주는게 아닐까?
(위의 답을 토대로) 다른 모델과 다른점은 무엇일까? 왜 segmentation에서 잘 작동했을까?
- 아마도 다양한 feature 결합을 통해 feature 추출에 특화된 학습을 했기 때문에 segmentation에 잘 작동한게 아닐까?
(위의 답 + 디퓨전 모델 이해를 토대로) 왜 디퓨전 모델은 u-net을 사용할까?
'AI > 논문' 카테고리의 다른 글
[논문리뷰] A Universal Music Translation Network (1) | 2023.04.13 |
---|---|
[논문리뷰] Nsynth : WaveNet Autoencoder (0) | 2023.04.11 |
Music VAE (0) | 2023.03.09 |
VAE: Auto-Encoding Variational Bayes (0) | 2023.03.06 |
[논문 리뷰] Wavenet: A GENERATIVE MODEL FOR RAW AUDIO (0) | 2023.02.26 |