Deep supervision and atrous inception-based U-Net combining CRF for automatic liver segmentationn from CT

AI/Bio & Medical 2022. 12. 21. 16:17

Scientific reports

Deep supervision and atrous inception-based

U-Net combining CRF for automatic liver segmentation from CT

Peigqing Lv 2, Jinke Wang 1,2, Xiangyang Zhang 2 & Changfa Shi 3

AI의 발전은 디지털 헬스케어 분야에도 많은 영향을 주게 되었다. 헬스케어 4.0에 접어들며 인공지능을 활용하는 방법이 활발하게 진행되고 있으며 이는 병을 진단하는 분야도 마찬가지이다. 의사를 대체할 수는 없지만 보조 기구로서의 사용은 활발하게 되고 있으므로 매우 전망이 밝은 분야라고 생각한다.

doi : https://doi.org/10.1038/s41598-022-21562-0

본 논문은 U-Net을 활용한 간 CT 이미지를 segmentation 하는 방법을 제안하고 설명하고 있다.

1. Introduction

정확한 간 segmentation은 간암 진단 및 수술 계획에 필수적으로 필요하다. 진료소에서 방사선 전문의는 여전히 CT에서 간 분할을 수동으로 CT에서 slice-by-slice 단위로 진행하는데, 이는 노동 집약적이고 분할하는 전문의에 대한 의존성으로 인해 오류가 발생하기가 쉽다는 단점이 존재한다. 따라서 automatic liver segmentation은 실시간 임상 적용에서 매우 가치가 있다고 저자들은 이야기하고 있다.

그러나 아직 그 정확성은 만족스러운 성능을 달성하지 못하였다.

low contrast and the fuzzy boundry betwwen liver tissue
the nneighborinng organs sharing similar intensity values
severe pathology around the liver borders

위 세 가지 문제는 아직 해결해야하는 과제로 남아 있다고 한다.

이러한 문제를 해결하기 위해서 Deep Supervision(DS)과 Atrous Inception(AI)을 이용한 "DA-UNet"을 본 저자들은 제안하고 있다.

제안하는 방법의 contribution을 정리하면 다음과 같다.

U-Net의 2D convolution을 3D convolution으로 확장하여 인접한 slice의 spatial 정보를 효율적으로 사용하게 하였다. 또한 encoder의 standard convolution을 residual block을 교체하여 depth와 width를 늘려 gradient vanishing을 방지해 주었다.
coder와 decoder를 연결하기 위해서 atrous Inception (AI)를 사용하고 있다. 이는 multi-scale features를 얻을 수 있게 해 준다.
Deep supervision mechanism(DSM)을 통해서 초기 레이어 학습의 discrimination과 robustness을 향상시키고, grandient vanishing/explosion 문제를 해결하며, 훈련 효과를 향상시킬 수 있다.
Fully connected conditional random field(CRF)를 사용하였다. 이는 인접 데이터의 labeling 편차를 개선하는데 도움을 주고, liver 전체 boundary details를 추가로 세분화할 수 있다.

2. Method

2.1 Architecture

이들이 제안하는 DA-UNet의 architecture는 위 그림과 같다.

좌측의 down-sampling path는 sikp connection을 통해 우측의 up-sampling path와 연결되어 대칭 구조를 이루고 있다.

down-sampling path에서 feature가 추출되어 대칭되는 up-sampling path에 concatenation 되는 구조이다.

전체적으로 확인해 보면 8개의 residual bock, 4개의 down-sampling block, 1개의 AI module, 3개의 up-sampling, 4개의 output module과 DS mechanishm으로 이루어져 있다.

input size와 predict size는 각각 256 x 256 x 16과 512 x 512 x 16이다.

또한 DA-UNet에서는 max-pooling 대신 2 x 2 x 2 kernel로 convolution을 사용하며 모든 convolution 연산은 3 x 3 x 3 filter를 사용한다.

Nonlinear activation function으로는 parameterized rectification llinear unit (PReLU)를 사용한다.

2.2 AI module

U-Net의 convolution 연산을 residual module로 대체하여 더 깊은 network를 얻고 gradient vanishing 문제를 해결한다. 또한 encoder와 decoder를 연결하는 bridge layer로 AI module을 도입하였다.

이 AI module을 inception에서 아이디어를 받아서 만들었다고 한다. 또한 dilation rates가 2, 4, 8 인 atrous convolution을 3x3 convolution과 통합하여 다양한 scale의 contextual information을 maximize 하고 최종적으로 concatenation 해준다.

AI module의 세부적인 구조는 아래의 그림과 같다.

x는 input feature이며 W_11은 1x1 convolution(rate=1, padding=0)을 의미한다.

W_311, W_312, W_313은 각각 3x3 convolution(rate=(2, 4, 8), padding=0)를 나타낸다.

x_1, x_2, x_3, x_4를 각각의 convolution을 통해서 얻고 concatenate 하여 최종적인 Y를 얻게 된다.

Y의 계산 과정은 아래의 수식과 같이 정리할 수 있다.

2.3 DS mechanism

본 저자들은 decoder 단에서 deep supervision(DS) mechanism을 사용하였다.

각 decoding branch stage에서 point convolution이 input feature map을 process 하는 데 사용되며 upsampling에는 trilinear interpolation이 사용된다. 마지막으로 Sigmoid layer는 segmentation 결과의 probability를 계산하고 해당 label과 비교한다.

따라서 중간과 마지막단 output layers의 loss는 gradient backpropagation을 위해 결합되어 gradient vanishment/explosion의 영향을 효과적으로 줄이고 학습 효율성을 향상하며 최적화를 가속화한다.

아래와 같이 DS의 각 iteration에 대한 loss function을 제공한다.

여기서 L_main은 최종 decoder에서 출력되는 loss value를 나타내는 primary loss function이며, L_1, L_2, L_3는 각각 중간 decoder에서 출력되는 loss value를 의미하는 auxiliary loss functions를 의미한다.

Parameter α는 deep supervision 계수이다. deep layers는 일반적으로 shalllow layer보다 더 복잡한 feautre를 포함하고 있다. 그렇기 때문에 deep network의 loss에 더 높은 weight를 할당하여 segmentation 정확도를 향상할 수 있다.

본 논문에서는 α는 α = 0.8 x α로 40 epoch마다 업데이트된다.

2.4 Loss function

본 논문에서 Tversky-based similarity index를 최종 loss function으로 사용하였다.

이를 수식으로 아래와 같이 정의할 수 있다.

i는 ground truthh, j는 이미지의 pixel index, L은 segmentation class의 수, n은 총 pixel의 수를 나타낸다.

p_ij를 사용하여 pixel j가 예측 중에 class i에 속할 확률을 나타내며 g_ij를 사용하여 pixel j가 ground truth에서 class i에 속할 확률을 나타낸다.

input image의 pixel j가 category 0에 속하면

위와 같이 표현할 수 있다.

매개변수 α와 β가 FPs와 FNs의 비율에 의해서 조정되게 되는데 이때 α + β = 1이며, α = β = 0.5일 때, Tversky loss function은 Dice loss function과 같아진다.

3. Experiments and results

3.1 Ablation

위 그림은 Ablation 결과를 나타낸 것이다. 제안하는 방법이 가장 좋은 성능을 보이고 heat map을 통해 우리가 보고 싶은 특정 위치를 잘 보며 segmentation이 진행되는 것을 확인할 수 있다.

3.1 Comparisons

위 그림은 기존의 방법들과 비교실험한 결과를 그림으로 표현한 것이다.

제안하는 방법이 기존의 방법들 보다 더 세부적인 feature를 잘 표현하였음을 확인할 수 있다.

4. 정리

본 논문의 큰 contribution을 정리해보자면 다음과 같다.

2d convolution 기반의 기존 U-Net을 3d convolution으로 변경하였다.
각 layer에 residual block을 추가하여 depth와 width를 늘리며 gradient vannishing 문제도 해결하였다.
atrous inception(AI) module을 적용하였다. 이때 dilated convolution을 사용하였으며 multi-scale feature 정보를 취득할 수 있다는 이점이 있다.
Deep supervision mechanism(DSM)을 적용하여 gradient vanishing/explosion 문제를 해결하였으며, training 효율을 향상하고 최적화를 가속화시켜준다.
fully connnected conditional random field(CRF)를 통해 원활한 labeling이 가능하도록 도움을 준다.

위와 같은 장점을 통해 CT영상을 활용한 간암 segmentation에서 좋은 성능을 보였다.

구조 자체도 U-Net을 기반으로 하여 비교적 간단한 편이라 생각하여 한번 실험해보는 것도 좋다고 생각한다.

'AI > Bio & Medical' 카테고리의 다른 글

AlphaFold: Improved protein structure prediction using potentials form deep learning (1)	2023.02.06
Deep learning based drug-protein interaction (1) (1)	2022.12.26
MolTrans: Molecular Interaction Transformer for drug-target interaction predicti (0)	2022.11.29
바이오 0 - 인공지능 기술 개요 (1)	2022.11.03
Self-evolving vision transformer for chest X-ray diagnosis through knowledge distillation (2)	2022.09.29

ABOUT ME

JungSoo_AI_Study JungSoo_AI_Study

Scientific reports

Deep supervision and atrous inception-based