의료빅데이터 컨테스트 결과 보고서

19
서서 서서서서서 서서서서서서서서서서 서서 서서 서서 서서서서 서서 서서서서 서서서서 서 서 서 서 서 1 1. 참참 참참 서서 1 서 , 서서 서서서서서서서 (CT) 서서서서서 서서서 서서서 서서서 서서 서서 서서서서 서서 2. 서서서

Upload: gy-lee

Post on 07-Apr-2017

4.235 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: 의료빅데이터 컨테스트 결과 보고서

서울 아산병원과 한국마이크로소프트가 함께 하는의료 빅데이터 분석 컨테스트 공모과제 결 과 보 고 서

1

1. 참여 과제 과제 1 번 , 흉부 전산화단층촬영 (CT) 영상에서의 고립성 폐결절 환자의 폐암 진단 알고리즘 개발

2. 참 가 자 이근영

Page 2: 의료빅데이터 컨테스트 결과 보고서

2

연구주제 흉부 전산화단층촬영 (CT) 영상에서의 고립성 폐결절 환자의 폐암진단 알고리즘 개발

연구의 필요성 암 사망률 1 위인 폐암은 점차 증가하고 있는 질환으로 흉부 CT 를 통해 조기검진을 시행하고 있으나 CT 의 진단 정확도가 많이 떨어져 폐암을 예측할 수 있는 진단 보조 수단이 필요함 . 최근 각광받고 있는 빅데이터 + 영상 분석기법을 통해 폐암의 예측 가능성을 향상시킬 수 있다면 불필요한 검사를 줄일 수 있음

필요기술 CT DICOM 영상에서 폐를 segmentation 하고 이상 병변 추출 , 추출된 영상에서의 결절의 특성을 파악하고 폐암의 가능성을 예측하는 기법기대효과 폐암 조기 진단 및 판독 오류 감소

데이터 타입 임상정보 + CT 이미지데이터 건수 환자의 임상정보 ( 엑셀파일 ) CT 영상 (DICOM Image 한명당 120 장 ) 전체 환자수는 300 명 정도 예상

평가방법 폐암 병변 위치 디텍션 정확도 , 폐암확률 예측도

과제 1) 흉부 전산화단층촬영 (CT) 영상에서의 고립성 폐결절 환자의 폐암 진단 알고리즘 개발

Page 3: 의료빅데이터 컨테스트 결과 보고서

3

연구 결론 및 성과Validation Set Benign/Malignant 판정 정확도 : 92 %

임상 테스트 준비 완료

Page 4: 의료빅데이터 컨테스트 결과 보고서

4

1. 데이터 처리과정 512x512px 의 CT 이미지를 10px 간격으로 50x50px 로 crop

원본 이미지 Crop 을 통한 데이터 전처리• ROI 의 평균 width, height 가 약 25px 이며 , 최대 크기는 약 50px 이하임• 512x512 px 크기의 원본 이미지 1 장을 50x50 px 2,500 장으로 분할함• 일반적으로 CNN 에 활용되는 MNIST Data Set 의 이미지

(28x28px) 와 유사한 크기로 CT 이미지 데이터를 전처리하여 CNN 적용

Page 5: 의료빅데이터 컨테스트 결과 보고서

5

1. 데이터 처리과정 Crop 한 이미지에 대한 판별 결과 Class 를 3 차원 One-Hot Vector 로 정의하고 , 아래와 같이

Labeling

Not ROIROI 를 포함하지 않는 이미지

Benign ROI양성 ROI 를 포함하는 이미지

Malignant ROI악성 ROI 를 포함하는 이미지

판별 결과에 따른 On-Hot Vector Label Training Set 구성

[1, 0, 0]

[0, 1, 0]

[0, 0, 1]

• Not ROI 이미지 중 Random Sampling 20,000 장 추출

• Benign ROI 이미지 약 3,000 장 생성• Malignant ROI 이미지 약 19,000 장 생성• 각 이미지 중 300 장은 Test Set 으로 분리

Benign Class 데이터가 다른 Class 에 비해 부족하여해당 클래스의 Classification 정확도 하락하는 것을방지하기 위함

Data augmentation 필요

Page 6: 의료빅데이터 컨테스트 결과 보고서

6

1. 데이터 처리과정 Benign ROI 데이터 Augmentation 수행

Original Horizontal Flip

Zoom In 30’ Rotation 45’ Rotation X 0.7 Blur

• Benign ROI 를 포함하고 있는 하나의 원본 이미지를 수평 뒤집기 , 확대 , 회전 , 흐리게 처리하여 데이터 수를 증가시킴

• Not ROI Class 와 Malignant ROI Class 에 비해 상대적으로 수가 적은 Benign ROI Class 데이터를 5 배 증가시켜다른 Class 와 유사한 수준의 이미지 데이터를 확보한 후 , 이를 통해 Training Set 을 구성함 Not ROI약 20,000 장 Benign ROI

3,000 장 X 5= 15,000 장

Malignant ROI약 19,000 장

Page 7: 의료빅데이터 컨테스트 결과 보고서

7

2. 분석 과정 Convolutional Neural Network 기법을 이용한 이미지 데이터 분석

• 5 개의 Conv + Relu Layer 와 2 개의 Max Pool, 2 개의 Fully Connected Layer 를 조합하여 네트워크를 구성

Conv+ Relu

• • •

InputImage

• • •

Conv+ Relu

• • •

Conv+ Relu

• • •

Conv+ Relu

• • •

Conv+ Relu

MaxPooling

MaxPooling

• • •

FC FC SoftmaxOutputVector

[1, 0, 0]

• • •

Page 8: 의료빅데이터 컨테스트 결과 보고서

8

2. 분석 과정 위의 모델을 Python Tensorflow 로 구현

Page 9: 의료빅데이터 컨테스트 결과 보고서

9

2. 분석 과정 6 만 여개의 데이터를 cost 가 일정값에 수렴할 때 까지 학습을 수행

• x 축 : 학습 횟수• y 축 : 평균 Cross Entropy Cost• AdamOptimizer 를 이용하여 Cost 함수 최적화 수행• 약 6 만개의 데이터를 400 개의 Batch 로 300 회 이상 학습• 200 회 이상 부터는 cost 가 0.55 에서 거의 줄어들지 않음

학습 수행에 따른 Cross Entropy 감소

Image Accuracy Test

Cost Optimization

• Benign 환자 89 - 93 번 , Malignant 환자 89 - 93 번의이미지 데이터를 Training Set 에서 분리하여 매 학습마다정확도를 측정함• Malignant 에 민감하게 반응하도록 조정

Class Not ROI Benign ROI

Malignant ROI

Error(%) 5% 이하 15% 이하 2% 이하

Page 10: 의료빅데이터 컨테스트 결과 보고서

10

2. 분석 과정 Benign ROI, Malignant ROI 가 가장 많이 겹치는 후보를 최대 3 개까지 추출함

원본 CT 이미지 ROI Mask Prediction 결과

Page 11: 의료빅데이터 컨테스트 결과 보고서

11

2. 분석 과정 종양의 위치 판독 및 Benign, Malignant 구분

Not ROIROI 를 포함하지 않는 이미지[1, 0, 0]

Benign ROI양성 ROI 를 포함하는 이미지[0, 1, 0]

Malignant ROI악성 ROI 를 포함하는 이미지[0, 0, 1]

동일한 ROI 를 포함하는Crop Image 의 판별 결과들 중더 많이 출현하는 클래스를 출력

Page 12: 의료빅데이터 컨테스트 결과 보고서

12

3. 분석 결과 Validation Set ROI 위치 판독 결과• CT 사진을 입력하면 ROI 위치를 빨간색으로 추천함• 일반적으로 ROI 가 크면 하나의 위치를 출력하며 , ROI 가 작으면 여러개의 위치를 출력함

* 모든 환자에 대해 발견된 ROI 위치 결과는 첨부파일 참고

Validation Set 012 Validation Set 005

Page 13: 의료빅데이터 컨테스트 결과 보고서

13

3. 분석 결과 Benign, Malignant 각 089~093 환자의 데이터 (Training 에 사용하지 않은 ) 로 모델을 평가

환자번호 B/M 구분 평가결과 일치여부089 Benign Benign TRUE

090 Benign Benign TRUE

091 Benign Benign TRUE

092 Benign Benign TRUE

093 Benign Malignant FALSE

089 Malignant Malignant TRUE

090 Malignant Malignant TRUE

091 Malignant Malignant TRUE

092 Malignant Malignant TRUE

093 Malignant Malignant TRUE

예측구분 양성 악성 Prevalence

= 50%

실제

양성 4 1 Recall= 80%

악성 0 5 Fall-Out= 0%

Accuracy= 90%

Precision= 100% FOR= 17%

Page 14: 의료빅데이터 컨테스트 결과 보고서

14

3. 분석 결과 Validation Set Benign, Malignant 구분 결과Num Result Prob Num Result Prob Num Result Prob

1 Malignant 95% 22 Malignant 99% 43 Malignant 99%2 Malignant 99% 23 Benign 90% 44 Malignant 99%3 Benign 90% 24 Benign 90% 45 Malignant 99%4 Malignant 99% 25 Benign 90% 46 Benign 99%5 Benign 90% 26 Malignant 99% 47 Malignant 99%6 Benign 90% 27 Malignant 99% 48 Malignant 99%7 Benign 99% 28 Benign 99% 49 Malignant 99%8 Malignant 99% 29 Benign 90% 50 Malignant 99%9 Malignant 99% 30 Benign 90% 51 Malignant 95%

10 Benign 90% 31 Malignant 99% 52 Malignant 99%11 Benign 90% 32 Malignant 99% 53 Malignant 99%12 Malignant 95% 33 Malignant 99% 54 Malignant 99%13 Benign 90% 34 Malignant 99% 55 Malignant 99%14 Benign 99% 35 Malignant 99% 56 Malignant 95%15 Malignant 99% 36 Malignant 99% 57 Malignant 99%16 Malignant 99% 37 Benign 99% 58 Malignant 99%17 Malignant 99% 38 Benign 90% 59 Benign 90%18 Benign 90% 39 Malignant 99% 60 Malignant 95%19 Malignant 99% 40 Malignant 99% 61 Malignant 95%20 Malignant 99% 41 Malignant 99% 62 Malignant 99%21 Benign 99% 42 Malignant 99%

: 99% Malignant Prediction : 95% Malignant Prediction : 90% Benign Prediction : 99% Benign Prediction

Page 15: 의료빅데이터 컨테스트 결과 보고서

15

3. 분석 결과 Validation Set Benign, Malignant 구분 결과

판정 정확도 : 62 개 중 57 개 정답 92% 정답율

오답 : 17, 27, 61 번 (Benign) / 18, 37 번 (Malignant)

Page 16: 의료빅데이터 컨테스트 결과 보고서

16

4. 개선방향 어떻게 하면 정확도를 100% 로 향상 시킬 수 있을까 ?

ROI 가 작을 경우 지나쳐 버리는 경우가 있다 .

-> 50x50 px 뿐만 아니라 30, 40, 50 , 60 등 으로 다양하게 스캐닝 하면 더 정확한 판별 가능

Benign class 판별의 정확도가 낮다 .

-> 더 많은 양의 데이터와 시간이 주어지면 Overfitting 을 방지 할 수 있을 것이라 예상

Page 17: 의료빅데이터 컨테스트 결과 보고서

17

5. 임상활용 가능성 및 사업화 임상에 바로 적용할 수 있는 특성

1. 90% 이상의 높은 정확도

2. CT 한장 당 10 초 내외로 스캐닝 가능

3. Web Application 으로 쉽게 배포 가능

4. 환자정보 없이 순수하게 이미지만으로 판별 가능 (5 번 과제도 동일하게 적용가능 )

Page 18: 의료빅데이터 컨테스트 결과 보고서

18

5. 임상활용 가능성 및 사업화 수행환경 서버인 http://13.90.98.179/ 에서 Validation Set 의 환자번호를 “ 001” 형식으로 입력하여 , 분석 결과 조회 가능

Page 19: 의료빅데이터 컨테스트 결과 보고서

감사합니다

서울대학교 원자핵공학과 이근영