의료빅데이터 컨테스트 결과 보고서

서울 아산병원과 한국마이크로소프트가 함께 하는의료 빅데이터 분석 컨테스트 공모과제 결 과 보 고 서

1

1. 참여 과제 과제 1 번 , 흉부 전산화단층촬영 (CT) 영상에서의 고립성 폐결절 환자의 폐암 진단 알고리즘 개발

2. 참 가 자 이근영

2

연구주제 흉부 전산화단층촬영 (CT) 영상에서의 고립성 폐결절 환자의 폐암진단 알고리즘 개발

연구의 필요성 암 사망률 1 위인 폐암은 점차 증가하고 있는 질환으로 흉부 CT 를 통해 조기검진을 시행하고 있으나 CT 의 진단 정확도가 많이 떨어져 폐암을 예측할 수 있는 진단 보조 수단이 필요함 . 최근 각광받고 있는 빅데이터 + 영상 분석기법을 통해 폐암의 예측 가능성을 향상시킬 수 있다면 불필요한 검사를 줄일 수 있음

필요기술 CT DICOM 영상에서 폐를 segmentation 하고 이상 병변 추출 , 추출된 영상에서의 결절의 특성을 파악하고 폐암의 가능성을 예측하는 기법기대효과 폐암 조기 진단 및 판독 오류 감소

데이터 타입 임상정보 + CT 이미지데이터 건수 환자의 임상정보 ( 엑셀파일 ) CT 영상 (DICOM Image 한명당 120 장 ) 전체 환자수는 300 명 정도 예상

평가방법 폐암 병변 위치 디텍션 정확도 , 폐암확률 예측도

과제 1) 흉부 전산화단층촬영 (CT) 영상에서의 고립성 폐결절 환자의 폐암 진단 알고리즘 개발

3

연구 결론 및 성과Validation Set Benign/Malignant 판정 정확도 : 92 %

임상 테스트 준비 완료

4

1. 데이터 처리과정 512x512px 의 CT 이미지를 10px 간격으로 50x50px 로 crop

원본 이미지 Crop 을 통한 데이터 전처리• ROI 의 평균 width, height 가 약 25px 이며 , 최대 크기는 약 50px 이하임• 512x512 px 크기의 원본 이미지 1 장을 50x50 px 2,500 장으로 분할함• 일반적으로 CNN 에 활용되는 MNIST Data Set 의 이미지

(28x28px) 와 유사한 크기로 CT 이미지 데이터를 전처리하여 CNN 적용

5

1. 데이터 처리과정 Crop 한 이미지에 대한 판별 결과 Class 를 3 차원 One-Hot Vector 로 정의하고 , 아래와 같이

Labeling

Not ROIROI 를 포함하지 않는 이미지

Benign ROI양성 ROI 를 포함하는 이미지

Malignant ROI악성 ROI 를 포함하는 이미지

판별 결과에 따른 On-Hot Vector Label Training Set 구성

[1, 0, 0]

[0, 1, 0]

[0, 0, 1]

• Not ROI 이미지 중 Random Sampling 20,000 장 추출

• Benign ROI 이미지 약 3,000 장 생성• Malignant ROI 이미지 약 19,000 장 생성• 각 이미지 중 300 장은 Test Set 으로 분리

Benign Class 데이터가 다른 Class 에 비해 부족하여해당 클래스의 Classification 정확도 하락하는 것을방지하기 위함

Data augmentation 필요

6

1. 데이터 처리과정 Benign ROI 데이터 Augmentation 수행

Original Horizontal Flip

Zoom In 30’ Rotation 45’ Rotation X 0.7 Blur

• Benign ROI 를 포함하고 있는 하나의 원본 이미지를 수평 뒤집기 , 확대 , 회전 , 흐리게 처리하여 데이터 수를 증가시킴

• Not ROI Class 와 Malignant ROI Class 에 비해 상대적으로 수가 적은 Benign ROI Class 데이터를 5 배 증가시켜다른 Class 와 유사한 수준의 이미지 데이터를 확보한 후 , 이를 통해 Training Set 을 구성함 Not ROI약 20,000 장 Benign ROI

3,000 장 X 5= 15,000 장

Malignant ROI약 19,000 장

7

2. 분석 과정 Convolutional Neural Network 기법을 이용한 이미지 데이터 분석

• 5 개의 Conv + Relu Layer 와 2 개의 Max Pool, 2 개의 Fully Connected Layer 를 조합하여 네트워크를 구성

Conv+ Relu

• • •

InputImage

• • •

Conv+ Relu

• • •

Conv+ Relu

• • •

Conv+ Relu

• • •

Conv+ Relu

MaxPooling

MaxPooling

• • •

FC FC SoftmaxOutputVector

[1, 0, 0]

• • •

8

2. 분석 과정 위의 모델을 Python Tensorflow 로 구현

9

2. 분석 과정 6 만 여개의 데이터를 cost 가 일정값에 수렴할 때 까지 학습을 수행

• x 축 : 학습 횟수• y 축 : 평균 Cross Entropy Cost• AdamOptimizer 를 이용하여 Cost 함수 최적화 수행• 약 6 만개의 데이터를 400 개의 Batch 로 300 회 이상 학습• 200 회 이상 부터는 cost 가 0.55 에서 거의 줄어들지 않음

학습 수행에 따른 Cross Entropy 감소

Image Accuracy Test

Cost Optimization

• Benign 환자 89 - 93 번 , Malignant 환자 89 - 93 번의이미지 데이터를 Training Set 에서 분리하여 매 학습마다정확도를 측정함• Malignant 에 민감하게 반응하도록 조정

Class Not ROI Benign ROI

Malignant ROI

Error(%) 5% 이하 15% 이하 2% 이하

10

2. 분석 과정 Benign ROI, Malignant ROI 가 가장 많이 겹치는 후보를 최대 3 개까지 추출함

원본 CT 이미지 ROI Mask Prediction 결과

11

2. 분석 과정 종양의 위치 판독 및 Benign, Malignant 구분

Not ROIROI 를 포함하지 않는 이미지[1, 0, 0]

Benign ROI양성 ROI 를 포함하는 이미지[0, 1, 0]

Malignant ROI악성 ROI 를 포함하는 이미지[0, 0, 1]

동일한 ROI 를 포함하는Crop Image 의 판별 결과들 중더 많이 출현하는 클래스를 출력

12

3. 분석 결과 Validation Set ROI 위치 판독 결과• CT 사진을 입력하면 ROI 위치를 빨간색으로 추천함• 일반적으로 ROI 가 크면 하나의 위치를 출력하며 , ROI 가 작으면 여러개의 위치를 출력함

* 모든 환자에 대해 발견된 ROI 위치 결과는 첨부파일 참고

Validation Set 012 Validation Set 005

13

3. 분석 결과 Benign, Malignant 각 089~093 환자의 데이터 (Training 에 사용하지 않은 ) 로 모델을 평가

환자번호 B/M 구분 평가결과 일치여부089 Benign Benign TRUE

090 Benign Benign TRUE



093 Benign Malignant FALSE

089 Malignant Malignant TRUE





예측구분 양성 악성 Prevalence

= 50%

실제

양성 4 1 Recall= 80%

악성 0 5 Fall-Out= 0%

Accuracy= 90%

Precision= 100% FOR= 17%

14

3. 분석 결과 Validation Set Benign, Malignant 구분 결과Num Result Prob Num Result Prob Num Result Prob

1 Malignant 95% 22 Malignant 99% 43 Malignant 99%2 Malignant 99% 23 Benign 90% 44 Malignant 99%3 Benign 90% 24 Benign 90% 45 Malignant 99%4 Malignant 99% 25 Benign 90% 46 Benign 99%5 Benign 90% 26 Malignant 99% 47 Malignant 99%6 Benign 90% 27 Malignant 99% 48 Malignant 99%7 Benign 99% 28 Benign 99% 49 Malignant 99%8 Malignant 99% 29 Benign 90% 50 Malignant 99%9 Malignant 99% 30 Benign 90% 51 Malignant 95%

10 Benign 90% 31 Malignant 99% 52 Malignant 99%11 Benign 90% 32 Malignant 99% 53 Malignant 99%12 Malignant 95% 33 Malignant 99% 54 Malignant 99%13 Benign 90% 34 Malignant 99% 55 Malignant 99%14 Benign 99% 35 Malignant 99% 56 Malignant 95%15 Malignant 99% 36 Malignant 99% 57 Malignant 99%16 Malignant 99% 37 Benign 99% 58 Malignant 99%17 Malignant 99% 38 Benign 90% 59 Benign 90%18 Benign 90% 39 Malignant 99% 60 Malignant 95%19 Malignant 99% 40 Malignant 99% 61 Malignant 95%20 Malignant 99% 41 Malignant 99% 62 Malignant 99%21 Benign 99% 42 Malignant 99%

: 99% Malignant Prediction : 95% Malignant Prediction : 90% Benign Prediction : 99% Benign Prediction

15

3. 분석 결과 Validation Set Benign, Malignant 구분 결과

판정 정확도 : 62 개 중 57 개 정답 92% 정답율

오답 : 17, 27, 61 번 (Benign) / 18, 37 번 (Malignant)

16

4. 개선방향 어떻게 하면 정확도를 100% 로 향상 시킬 수 있을까 ?

ROI 가 작을 경우 지나쳐 버리는 경우가 있다 .

-> 50x50 px 뿐만 아니라 30, 40, 50 , 60 등 으로 다양하게 스캐닝 하면 더 정확한 판별 가능

Benign class 판별의 정확도가 낮다 .

-> 더 많은 양의 데이터와 시간이 주어지면 Overfitting 을 방지 할 수 있을 것이라 예상

17

5. 임상활용 가능성 및 사업화 임상에 바로 적용할 수 있는 특성

1. 90% 이상의 높은 정확도

2. CT 한장 당 10 초 내외로 스캐닝 가능

3. Web Application 으로 쉽게 배포 가능

4. 환자정보 없이 순수하게 이미지만으로 판별 가능 (5 번 과제도 동일하게 적용가능 )

18

5. 임상활용 가능성 및 사업화 수행환경 서버인 http://13.90.98.179/ 에서 Validation Set 의 환자번호를 “ 001” 형식으로 입력하여 , 분석 결과 조회 가능

http://13.90.98.179/

감사합니다

서울대학교 원자핵공학과 이근영

의료빅데이터 컨테스트 결과 보고서

Data & Analytics