최적의 서포트 벡터 머신을 이용한 유방암 분류 breast cancer...

14
한국보건정보통계학회지 제38권 제1ISSN 2287-3708(Print) ISSN 2287-3716(Online) Journal of The Korea Society of Health Informatics and Statistics 2013; 38(1): 108-121 Corresponding Author: Dong Hoon Lim, PhD Department of Information Statistics and RINS, Gyeongsang National University, 501 Jinju-daero, Jinju-si, Gyeongsangnam-do, 660-701, Korea. Tel: +82-55-772-1465 * This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(No.2011-0010089) [접수일: 2013년 05월 04일, 수정일: 2013년 06월 08일, 게재확정일: 2013년 06월 21일] Abstract Jin Soo Lim 1) , Jin-Young Sohn 2) , Ju-Tae Sohn 3) , Dong Hoon Lim 4) 임진수 1) , 손진영 2) , 손주태 3) , 임동훈 4)1) Department of Biological Sciences, Busan National University, 2) Department of Chemistry, KAIST, 3) Department of Anesthesiology and Pain Medicine, Gyeongsang National University Hospital, 4) Department of Information Statistics, Gyeongsang National University 1) 부산대학교 생명과학과, 2) KAIST 화학과, 3) 경상대학교 의학전문대학원 마취과교실, 4) 경상대학교 정보통계학과 Objectives: This paper is to examine breast cancer classification using support vector machine (SVM). SVM with optimal parameters obtained using the improved grid search with 5-fold cross validation has been proposed to reach the optimal classification performance. Methods: Two data sets, Wisconsin Original Breast Cancer (WOBC) and Wisconsin Diagnostic Breast Cancer (WDBC) data set, were used to classify tumors as benign and malignant. SVM model performs the classification tasks using optimal kernel parameter and penalty parameter using 5-fold cross validation. Dis - criminant analysis, logistic regression analysis, decision tree, support vector machines were applied to analyze two data sets. Performance of these techniques was compared through accuracy, ROC curves and c-statistics. Results: Our analysis showed that SVMs predicted breast cancer with highest accuracy and c-statistics among four classification models. A comparison of these SVMs indicated that SVM with optimal param- eters has much superior performance than SVM with default parameters. Conclusions: Research efforts have reported with increasing confirmation that SVMs have greater ac- curate diagnosis ability. In this paper, breast cancer diagnosis based on SVM with optimal parameters obtained using the improved grid search with 5-fold cross validation has been proposed. The performance of the method is evaluated using classification accuracy, ROC curves and c-statistics. Keywords: Classification, Breast cancer, Support vector machine, Performance evaluation, Optimal parameter Breast Cancer Classification Using Optimal Support Vector Machine 최적의 서포트 벡터 머신을 이용한 유방암 분류

Upload: others

Post on 09-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

한국보건정보통계학회지 제38권 제1호ISSN 2287-3708(Print) ISSN 2287-3716(Online)Journal of The Korea Society ofHealth Informatics and Statistics2013; 38(1): 108-121

† Corresponding Author: Dong Hoon Lim, PhD Department of Information Statistics and RINS, Gyeongsang National University, 501 Jinju-daero, Jinju-si, Gyeongsangnam-do, 660-701, Korea. Tel: +82-55-772-1465* This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(No.2011-0010089)

[접수일: 2013년 05월 04일, 수정일: 2013년 06월 08일, 게재확정일: 2013년 06월 21일]

Abstract

Jin Soo Lim1), Jin-Young Sohn2), Ju-Tae Sohn3), Dong Hoon Lim4)†

임진수1),손진영2),손주태3),임동훈4)†

1)Department of Biological Sciences, Busan National University, 2)Department of Chemistry, KAIST, 3)Department of Anesthesiology and Pain Medicine, Gyeongsang National University Hospital,

4)Department of Information Statistics, Gyeongsang National University

1)부산대학교 생명과학과, 2)KAIST 화학과, 3)경상대학교 의학전문대학원 마취과교실, 4)경상대학교 정보통계학과

Objectives: This paper is to examine breast cancer classification using support vector machine (SVM). SVM with optimal parameters obtained using the improved grid search with 5-fold cross validation has been proposed to reach the optimal classification performance.

Methods: Two data sets, Wisconsin Original Breast Cancer (WOBC) and Wisconsin Diagnostic Breast Cancer (WDBC) data set, were used to classify tumors as benign and malignant. SVM model performs the classification tasks using optimal kernel parameter and penalty parameter using 5-fold cross validation. Dis-criminant analysis, logistic regression analysis, decision tree, support vector machines were applied to analyze two data sets. Performance of these techniques was compared through accuracy, ROC curves and c-statistics.

Results: Our analysis showed that SVMs predicted breast cancer with highest accuracy and c-statistics among four classification models. A comparison of these SVMs indicated that SVM with optimal param-eters has much superior performance than SVM with default parameters.

Conclusions: Research efforts have reported with increasing confirmation that SVMs have greater ac-curate diagnosis ability. In this paper, breast cancer diagnosis based on SVM with optimal parameters obtained using the improved grid search with 5-fold cross validation has been proposed. The performance of the method is evaluated using classification accuracy, ROC curves and c-statistics.

Keywords: Classification, Breast cancer, Support vector machine, Performance evaluation, Optimal parameter

Breast Cancer Classification Using Optimal Support Vector Machine

최적의 서포트 벡터 머신을 이용한 유방암 분류

Page 2: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

109

1. 서 론

유방암은 전 세계 여성암 중에서 가장 흔한 암

이다. 미국에서는 해마다 20만 명 이상이 발병하

여 이들 중 약 4만 명 정도의 환자가 사망한다고

보고되고 있다 [1]. 2012년 12월 보건복지부가

발표한 중앙암등록본부의 통계에 따르면 2010년

우리나라에서 발생한 암은 연 202,053건으로 그

중 유방암은 남녀를 합쳐서 연 14,277건으로 전

체 암의 7.1%로 여섯 번째로 많이 발생한 암이고

여성에게 발생한 암 중에서는 갑상선암에 이어

두 번째의 발생빈도를 보이고 있고 매년 증가추

세를 나타나고 있다 [2].

유방암을 진단하는 방법으로 유방촬영술(mam-

mography), 유방초음파(ultrasonography), 미세

침흡인 검사(fine needle aspiration, FNA) 등이

있다 [3,4]. 이 중에서 미세침흡인 검사는 환자의

병변 부위에 주사침을 찔러서 조직이나 세포를 흡

인하여 광학현미경을 통해 특징들을 관찰하여 악

성 여부를 진단하는 방법으로 수술을 하지 않고

검사를 하기 때문에 간편하고 신속하여 널리 이용

되고 있다. 그러나, 미세침흡인 검사에서 악성 종

양인지 양성종양인지 구별하는 것은 Figure 1에

서처럼 구조적인 유사성 때문에 매우 어려운 일

이다.

지금까지 통계학에서 암의 존재 여부와 같은 분

류문제를 다루는데 여러 가지 방법들이 사용되

어 왔다. 대표적인 방법으로 판별분석(discrim-

inant analysis), 로지스틱 회귀분석(logistic

regression analysis), 의사결정나무(decision

tree), 신경망(neural network) 그리고 서포트

벡터 머신(support vector machine, SVM) 등이

있다 [5-9]. 판별분석은 설명변수들이 다변량

정규분포(multivariate normal distribution)를

따르고 동일한 공분산하에서 얻어진 판별함수를

이용하여 분석하는 방법이고 로지스틱 회귀분석

은 종속변수가 범주형인 경우 사용하는 회귀분

석의 확장방법으로 엄격한 가정을 요구하는 판

별분석에 대한 대안으로 많이 사용한다. 의사결

정나무는 분류함수를 의사결정규칙으로 이루어

진 나무모양으로 그려서 분류하는 방법으로 이

해가기 쉬운 장점을 갖고 있으나 가지분할을 위

한 변수 선택에 따라 결과가 달라지는 어려움이

있다. 신경망 방법은 사람의 두뇌가 의사 결정하

는 형태를 모방하여 분류하는 방법으로 과대적

합(over-fitting)과 국소최적화(local optimiza-

tion) 등의 한계점을 갖고 있다.

최근에 패턴 분류에 있어서 각광을 받고 있는

SVM은 Vapnik [6]에 의해 개발된 통계적 학습

이론으로서 학습과정에서 결정함수를 추정한 후

새로운 데이터를 분류하는 것으로 VC (Vapnik

Chervonenkis)이론이라고도 한다. 특히, 분류문

제에서 SVM 모형에 대한 일반화 능력이 높기 때

문에 많은 분야에서 응용되고 있다 [10-12].

본 논문에서는 SVM을 UCI (University of

California Irvine)의 유방암 자료에 적용하여 암

의 악성 혹은 양성여부를 분류하고자 한다(UCI

machine learning repository) [13]. SVM을 이

용한 분류모형의 성능은 추정된 결정함수가 여

러 개의 모수에 의해 영향을 많이 받음으로 적절

한 모수 선택이 매우 중요하다.

SVM의 모수 선택방법에는 그리드 탐색법(grid

search) [14-16]과 기울기 경사법(gradient de-

scent method) [17,18] 그리고 유전자 알고리즘

(genetic algorithm) [19], PSO (particle swan

optimization) [20], 시뮬레이티드 어닐링(sim-

Figure 1. Benign(right) and malignant(left) tumor by fine needle aspiration biopsy.

Page 3: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

임진수, 손진영, 손주태, 임동훈

한국보건정보통계학회지 제38권 제1호

110

에서는 실험을 통한 SVM에서 최적의 모수 선택

과 성능비교에 대해 살펴보고자 한다. 그리고 제

4절에서는 실험결과에 대한 고찰과 더불어 제5

절에서는 결론을 맺고자 한다.

2. 연구 방법

1)연구자료

본 연구에서는 UCI의 유방암에 대한 Wis-

consin original breast cancer (WOBC) 자료와

Wisconsin diagnostic breast cancer (WDBC)

자료에서 암의 악성과 양성 여부를 SVM 기반

최적의 분류모형을 이용하여 분류하고자 한다.

(1) WOBC 자료

WOBC 자료는 1992년 UCI Machine Learning

Repository [13]에 의해 제공되었고 많은 연구자

에 의해 패턴 인식과 기계학습에 사용되고 있다.

WOBC 자료는 699명에 의해 얻어졌고 Table 1과

같이 클래스를 나타내는 변수와 FNA의 세포특

성을 나타내는 9개의 변수로 구성되어 있다. 여

기서 세포특성은 1부터 10까지 스케일된 값을 갖

고 1에 가까울수록 양성을 나타내고 10에 가까울

수록 악성을 나타낸다.

ulated annealing) [21]과 같은 휴리스틱 방법

(heuristic method) 등이 있다. 그리드 탐색법은

가장 일반적이고 단순한 방법이지만 계산속도가

느리고 기울기 경사 방법은 초기해에서 시작하

여 반복적으로 해를 개선해 나가는 수치적 방법

으로 초기해에 민감하고 그리고 휴리스틱 방법

은 경험적인 최적화 방법으로 최적해를 찾지 못

할 수도 있는 단점을 갖고 있다.

본 논문에서는 계산속도 면에서 그리드 탐색

법을 개선한 CFG (coarse to fine grid) 탐색

법 [22-24]을 이용하여 최적의 모수를 선택하

고자 한다. CFG 탐색법은 전 영역에 걸쳐 거친

(coarse) 그리드 탐색을 한 다음 관심영역에 대

해 세밀한(fine) 그리드 탐색를 하는 방법으로

Figure 2와 같이 연한 회색 영역에서는 격자 간

격을 크게 하면서 거친 그리드 탐색을 하고 진한

회색 영역에서는 간격을 작게 하면서 세밀한 탐

색을 하는 방법이다.

본 논문에서는 과대적합 문제를 막기 위해 5-

조각 교차 타당성(5-fold cross validation)에 의

한 CFG 탐색법을 사용하여 SVM 모형의 모수를

선택한다 [25,26].

본 논문은 다음과 같이 구성되어 있다. 제2절

의 연구방법에서는 두 가지 UCI 유방암 자료와

SVM을 이용한 분석방법에 대해 살펴보고 제3절

Figure 2. Coarse to fine grid search.

Table 1. WOBC data attribute information

Variables Description Clump thickness 1 - 10 Uniformity of cell size 1 - 10 Uniformity of cell shape 1 - 10 Marginal adhesion 1 - 10 Single epithelial cell size 1 - 10 Bare nuclei 1 - 10 Bland chromatin 1 - 10 Normal nucleoli 1 - 10 Mitoses 1 - 10 Class 2=benign, 4=malignant

WOBC: Wisconsin original breast cancer

Page 4: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

111

(2) WDBC 자료

WDBC 자료는 1995년 UCI Machine Learning

Repository [13]에 의해 제공되었고 WOBC 자료와

함께 패턴 인식과 기계학습에 널리 사용되고 있는

자료이다. WDBC 자료는 569명에 의해 얻어졌고

2)SVM기반분석방법

(1) SVM

Table 2와 같이 양성과 악성을 나타내는 클래스 변

수 1개와 30개의 독립변수로 구성되어 있다. 30개

의 독립변수는 10개의 세포특징들에 대해 각각의

평균값과 표준편차 그리고 이상값(worst value)을

나타내는 3개의 변수로 구성되어 있다.

SVM을 이용한 분류모형을 설명하기 위해 다음

의 학습자료(learning data set)가 주어졌다고 가

정하자.

여기서 는 의 번째 벡터이고,

는 가 속하는 클래스를 나타내는 값으로 1 혹

은 -1이다. =1과 =-1을 가진 데이터 을 두

개의 클래스로 분류하는데 여러 개의 -1차원 초

평면이 존재할 수 있다. SVM은 Figure 3과 같

이 두 클래스를 분류하기 위한 최적 분리 초평면

(optimal separating hyperplane)은 각 클래스에

속하는 점들 중에서 분리 초평면에 인접한 서포

트 벡터(support vector)를 지나는 평행 분리 초

평면(parallel separating hyperplane)과의 거리

(margin)를 최대로 함으로서 결정된다 [6]. 이를 Figure 3. Optimal linear separating hyperplane and margin.

Table 2. WDBC data attribute information

Variables Description Radius Mean of distances from center to points on the perimeter Texture Standard deviation of gray-scale values Perimeter Area Smoothness Local variation in radius lengths Compactness Perimeter2 / area-1.0 Concavity Severity of concave portions of the contour Concave points Number of concave portions of the contour Symmetry

Fractal dimension “Coastline approximation” - 1 Class M=malignant, B=benign

WDBC: Wisconsin diagnostic breast cancer

Page 5: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

임진수, 손진영, 손주태, 임동훈

한국보건정보통계학회지 제38권 제1호

112

subject to

여기서 는 오분류된 자료에 대한 패널티

(penalty)를 조절하는 모수로, 높은 값은 모형

의 복잡도를 증가시켜 분류 오류율을 낮추는 반

면, 낮은 값은 모형의 복잡도를 감소시켜 단순

한 모형생성으로 분류 오류율을 높인다. 따라서

값은 마진(margin)의 최대화와 분류 오류율의

최소화 사이 트레이드 오프(trade off)를 결정하

는 모수로 모형의 성능에 큰 영향을 미치므로 최

적의 값을 찾는 것이 중요하다.

그러나 대부분의 패턴은 선형적으로 분리가 가

능하지 않다. 따라서 커널 함수(kernel func-

tion) 을 도입하여 위의 최적화 문제를

다음과 같이 나타낼 수 있다.

maximize

subject to

여기서 는 라그랑지 배수(lagrange multipli-

er)이다. 따라서 서포트 벡터를 사용하여 최적의

분리 평면을 다음과 같이 입력벡터 의 결정함

수를 나타낸다.

여기서 는 가 양수이면 1, 0이면 0, 음

수이면 -1을 갖는 함수이고 는 서포트 벡터의

인덱스(index)를 나타낸다.

커널함수는 원래의 저차원 입력 공간에 있는 자

료를 고차원 입력 공간으로 사상(mapping)시키

는 함수로 자주 사용되는 커널함수 로

는 다음의 4가지가 있다.

위해 임의의 선형 분리 초평면을 다음과 같이 표

현하자.

여기서 ● 는 dot product이고 벡터 는 초평면

에 수직인 정규벡터(normal vector)이다. 그리

고 평행인 초평면은 다음의 방정식에 의해 표현

할 수 있다.

학습자료가 선형분리가능하면 두 개의 초평

면 사이의 거리는 이므로 다음의 조건

을 만족하는 을 최소화하는 초평면을 찾는

다. 여기서 은 의 유클리디안 놈(euclidean

norm)이다.

위의 부등식을 다음의 하나의 부등식으로 표현

할 수 있다.

위의 문제를 SVM의 primal 문제로 다음과 같이

형식화할 수 있다.

minimize

subject to

학습자료가 선형분리 불가능한 경우는 슬랙변수

(slack variable) (≥0)을 도입하여 다음과 같이

최적화 문제를 형식화할 수 있다.

minimize

Page 6: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

113

여기서 , 그리고 는 커널의 형태를 결정하

는 모수들이다.

(2) 교차 타당성을 이용한 CFG 탐색법

SVM의 성능에 영향을 미치는 모수로는 패널티

모수 , 커널모수 그리고 커널함수

등이 있다.

본 논문에서 와 은 5-조각 교차 타당성에

의한 GFG 탐색법을 사용하여 선택한다. 먼저,

5-조각 교차 타당성을 Figure 4에서 보는 것처

럼 단계별로 설명하면 다음과 같다.

● linear 커널함수

● polynomial 커널함수

● radial basis function (RBF) 커널함수

● sigmoid 커널함수

Figure 4. Schematic diagram of the 5-fold cross-validation.

단계 1. 주어진 자료를 조각 크기가 같도록 5-조

각으로 분할한다.

단계 2. 분할된 5-조각 중에서 4 조각을 합쳐 하

나의 훈련용 자료로 이용하고 나머지 1 조각을 테

스트용 자료로 이용한다.

단계 3. 단계 2의 훈련용 자료에 CFG 탐색법을 이

용하여 SVM 모형을 추정한다.

단계 4. 단계 3에서 구한 추정된 SVM 모형을 단

계 2의 테스트용 자료에 적용하여 다음과 같이 정

의되는 분류 정확도(classification accuracy)를 계

산한다. 두 개의 집단을 , 라고 개의 자료로

구성되어 있는 경우 분류모형에 대한 분류 결과에

대한 교차표는 Table 3과 같다.

Table 3. Cross-classified table of classified group and observed group

Classified groupG1 G2

Observed group

G1 11 12

G2 21 22

Page 7: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

임진수, 손진영, 손주태, 임동훈

한국보건정보통계학회지 제38권 제1호

114

여기서 는 집단 의 자료가 집단 로 분류된

수를 나타낸다. 따라서 분류모형의 정확도는 다

음과 같이 전체 자료 중 올바로 분류된 수의 비

율로 정의한다.

단계 5. 다른 조각에 대해서도 단계 2-4를 반

복한다.

단계 6. 정확도가 최대가 되는 , 을 최적의 모

수로 선택한다.

위 단계 3에서 사용된 CFG 탐색법을 단계별로

설명하면 다음과 같다.

단계 3.1. 범위 ,

에서 거친 그리드 탐색을 수행한다. 즉, 16개의

( , ) 조합에 대해 탐색이 이루어진다.

단계 3.2. 단계 3.1에서 최적의 쌍 (0,

0)을 선

택된다.

단계 3.3. 단계 3.2에서 구한 (0,

0) 주위에 대

해 세밀한 그리드 탐색을 수행한다.

즉, 81개의 ( , ) 조합에 대해 탐색이 이루어

진다.

(3) 성능평가 방법

본 절에서는 WOBC 자료와 WDBC 자료에 대해

기존의 분류방법인 판별분석, 로지스틱 회귀분

석, 의사결정나무와 기본 모수를 사용한 SVM모

형 [26-28]과 본 논문에서 제안한 최적의 모수

를 사용한 SVM 모형에 의한 분류 방법들의 성능

평가를 성능 평가 측도인 정확도, ROC (receiver

operating characteristics) 곡선과 c-통계량(c-

statistics) 등을 가지고 비교하고자 한다.

ROC 곡선은 분류모형의 1-특이도(specific-

ity)를 x축으로 하고 민감도(sensitivity)를 y축

으로 한 그래프이다. 1-특이도를 오분류율(false

positive rate)이라하고 민감도를 정분류율(true

positive rate)이라고 한다. ROC 곡선은 분류모

형을 이용하여 주어진 모든 자료에 대해 클래

스에 속할 사후확률(posterior probability)을 계

산하고 계산된 사후확률을 정렬한 다음 임계값

(cut-point)이 변화함에 따라 오분류율과 정분

류율의 변화를 그래프로 나타낸 것으로 ROC 곡

선이 좌측 상단으로 더 위에 위치할수록 좋은 모

형이다 [30]. ROC 곡선 아래의 면적을 c-통계량

이라고 하는데 어떤 모형의 ROC 곡선 아래의 면

적이 다른 모형의 면적보다 크면 평균적으로 더

우수한 모형이라 할 수 있다 [31].

3. 연구 결과

1)최적SVM분류모형

본 실험은 통계 프로그램 R을 사용하였고 SVM

은 R 패키지 “e1071” [32]을 사용하여 구현하였다.

WOBC 자료와 WDBC자료에서 최적 SVM 분류

모형을 생성하기 위해 교차 타당성에 의한 CFG

탐색법을 사용하여 최적의 와 값을 Table 4

와 같이 얻었다.

Table 4. Optimal and values for WOBC data set

Kernel function Classification accuracy

Linear 1 0.9679

Polynomial 10 0.400 0.9679

RBF 8 0.002 0.9788

Sigmoid 1 0.400 0.9679

WOBC: Wisconsin original breast cancer, : penalty parameter,

: kernel parameter, polynomial: =3, =0,

RBF: radial basis function, sigmoid: =0

Page 8: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

115

Table 4의 WOBC 자료에서 최적의 와 는 RBF

커널에서 =8, =0.002일 때 가장 높은 정확도

0.9788을 보였고 다른 커널에서는 똑같은 정확도

를 보였다. 여기서 최적의 와 는 제2절의 단계

3에서 설명하였듯이 훈련용 자료에 적용하여 얻

어진 값이고 정확도는 단계 4에서 테스트용 자료

에 적용하여 얻어진 값이다. Table 5는 WOBC 자

료에서 기본값 와 을 사용했을 때 4가지 커널

함수에서 얻어진 분류 정확도를 보여주고 있다.

Table 5에서 보면 커널의 종류에 상관없이 =1이

고 =0.111로 똑같은 값을 사용하고 있음을 알 수

있다. WOBC 자료는 RBF 커널에서 가장 큰 정확

도 0.9714를 보였고 다음으로 linear 커널 순으로

나타났다.

Table 6은 WDBC 자료에서 최적의 와 값을 나

타내고 있다. Table 6의 WDBC 자료에서 최적의

와 는 RBF 커널에서 =8, =0.04일 때 가장

높은 정확도 0.9784를 보였다.

2)성능비교

Figure 5는 여러 가지 분류방법을 WOBC 자료

에 적용하여 얻은 ROC 곡선들을 나타내고 있다.

여기서 LDA는 판별분석, LOGISTIC은 로지스

틱 회귀분석, TREE는 의사결정나무, SVM (de-

fault)은 기본 모수를 사용한 SVM 그리고 SVM

(optimal)은 최적의 SVM을 나타낸다. 여기서 판

별분석은 R 패키지 “lda” [33], 로지스틱 회귀분

석은 “glm”함수 그리고 의사결정나무는 “rpart”

패키지 [34]를 사용하여 구현하였다.

Table 7은 WDBC 자료에서 기본값 와 을 사

용했을 때 4가지 커널 함수에서 얻어진 분류 정확

도를 보여주고 있다. Table 7에서 보면 모든 커널

에 대해 와 는 =1이고 =0.033로 똑같은 값

을 사용하고 있고 Table 5의 WOBC 자료와는 달리

linear 커널에서 가장 높은 정확도를 보였고 다음

으로 RBF 커널 순으로 나타났다.

Table 5. Accuracy with default and values for WOBC data set

Table 6. Optimal and values for WDBC data set

Table 7. Accuracy with default and values for WDBC data set

Kernel function Classification accuracy

Linear 1 0.9679Polynomial 1 0.111 0.9607RBF 1 0.111 0.9714Sigmoid 1 0.111 0.9643

Kernel function Classification accuracy

Linear 1 0.9737Polynomial 1 0.100 0.9519RBF 8 0.040 0.9784Sigmoid 10 0.006 0.9649

Kernel function Classification accuracy

Linear 1 0.9737Polynomial 1 0.033 0.9518RBF 1 0.033 0.9693Sigmoid 1 0.033 0.9430

WOBC: Wisconsin original breast cancer, : penalty parameter,

: kernel parameter, polynomial: =3, =0,

RBF: radial basis function, sigmoid: =0

WDBC: Wisconsin diagnostic breast cancer, : penalty parameter,

: kernel parameter, polynomial: =3, =0,

RBF: radial basis function, sigmoid: =0

WDBC: Wisconsin diagnostic breast cancer, : penalty parameter,

: kernel parameter, polynomial: =3, =0,

RBF: radial basis function, sigmoid: =0

Page 9: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

임진수, 손진영, 손주태, 임동훈

한국보건정보통계학회지 제38권 제1호

116

Figure 5로부터 성능의 가장 떨어지는 모형은 의

사결정나무이고 다음으로 로지스틱 회귀분석으로

보이고 기본 SVM과 최적 SVM은 판별분석과 함

께 ROC 곡선들이 왼쪽 위에 위치하고 있어 좋은

성능을 보이고 있으나 서로 중첩되어 있어서 가

시적으로 좋고 나쁨을 구별하는 것은 쉽지 않다.

Table 8은 여러 가지 분류방법을 WOBC 자료

에 적용하여 얻은 정확도와 c-통계량을 보여주

고 있다. 여기서 정확도는 분류모형을 전체 자료

에 적용하여 얻어진 값이다. 분류방법에 대한 정

확도면에서 보면 의사결정나무에 대한 정확도가

가장 떨어지는 반면에 기본 SVM과 최적 SVM은

로지스틱 회귀분석과 같이 높은 정확도를 나타

내고 있다. c-통계량을 보면 최적 SVM이 가장

높고 다음으로 기본 SVM 순이고 의사결정나무

가 가장 낮은 c-통계량을 보이고 있다.

Figure 5. ROC curves of classification models for WOBC data sets.

ROC: receiver operating characteristics, WOBC: Wisconsin original breast cancer, LDA: discriminant analysis, LOGISTIC: logistic regression

analysis, TREE: decision tree, SVM (default): SVM with default parameters, SVM (optimal): SVM with optimal parameters

Table 8. Performance comparison of classification models for WOBC data set

Classification model Classification accuracy C-statistics

LDA 0.9714 0.9921

LOGISTIC 0.9786 0.9914

TREE 0.9500 0.9559

SVM (default) 0.9786 0.9938

SVM (optimal) 0.9786 0.9947

WOBC: Wisconsin original breast cancer, LDA: discriminant analysis, LOGISTIC: logistic regression analysis, TREE: decision tree,

SVM (default): SVM with default parameters, SVM (optimal): SVM with optimal parameters

Page 10: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

117

Figure 6은 여러 가지 분류방법을 WDBC 자료에 적용하여 얻은 ROC 곡선들을 나타내고 있다.

Figure 6에서 보면 의사결정나무와 로지스틱 회

귀분석은 성능이 떨어지는 것처럼 보이고 판별분

석과 기본 SVM, 그리고 최적 SVM은 위의 분류

방법들보다 좋은 성능을 보이는 것으로 보인다.

Table 9는 여러 가지 분류방법을 WDBC 자료

에 적용하여 얻은 정확도와 c-통계량을 보여주

고 있다. 정확도면에서 보면 최적 SVM이 가장 높

고 다음으로 기본 SVM, 로지스틱 회귀분석 순이

고 c-통계량 면에서 보아도 최적 SVM이 가장 높

고 다음으로 기본 SVM 순으로 높음을 알 수 있다.

Figure 6. ROC curves of classification models for WDBC data sets.

ROC: receiver operating characteristics, WDBC: Wisconsin diagnostic breast cancer, LDA: discriminant analysis, LOGISTIC: logistic regression

analysis, TREE: decision tree, SVM (default): SVM with default parameters, SVM (optimal): SVM with optimal parameters

Table 9. Performance comparison of classification models for WDBC data set

Classification model Classification accuracy C-statistics

LDA 0.9211 0.9840

LOGISTIC 0.9386 0.9733

TREE 0.9211 0.9472

SVM (default) 0.9474 0.9846

SVM (optimal) 0.9561 0.9853

WDBC: Wisconsin diagnostic breast cancer, LDA: discriminant analysis, LOGISTIC: logistic regression analysis, TREE: decision tree,

SVM (default): SVM with default parameters, SVM (optimal): SVM with optimal parameters

Page 11: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

임진수, 손진영, 손주태, 임동훈

한국보건정보통계학회지 제38권 제1호

118

4. 고 찰

지금까지 SVM을 분류 문제에 응용하면서 모

수 와 에 대한 선택은 자료의 특성을 고려하

지 않고 기본값 즉, =1과 =1/차원의수를 사

용하는 경우가 종종 있다(예를 들어, Park and

Helmes [28], Zhang et al. [29]). 그러나 SVM

은 자료의 특성에 맞는 모수를 설정함으로써 모

형의 성능을 향상시킬 수 있으므로 SVM을 분류

문제에 적용할 때 최적 모수에 대한 탐색은 중

요하다. 특히, 유방암 자료처럼 많은 변수를 사

용하여 종양의 악성 혹은 양성여부를 구별하는

경우 자료의 특성에 맞는 SVM 모형개발이 필

요하다.

본 논문에서는 SVM에서 모수 와 는 분류성

능에 많은 영향을 미치므로 교차 타당성에 의한

CFG 탐색법을 사용하여 선택하였다. WOBC 자

료에서 얻은 Table 4와 Table 5 비교에서 최적의

와 을 사용한 SVM 모형이 기본값을 사용한

SVM 모형보다 높은 정확도를 갖고 있음을 알 수

있다. 최적의 SVM 모형은 기본모형보다 높은

값과 낮은 값을 사용하고 있으므로 기본 모형

보다 복잡한 모형을 사용하면서 오류에 대해서

는 높은 패널티를 부여하고 있고 커널함수의 분

산 또한 기본모형의 분산보다 큰 값을 사용하고

있음을 알 수 있다.

WDBC 자료에서 얻은 Table 6과 Table 7 비교

에서도 WOBC 자료와 마찬가지로 최적의 SVM

모형은 기본모형보다 높은 값과 낮은 값을 사

용하고 있음을 알 수 있다.

SVM 모형의 성능을 평가하기 위해 판별분석,

로지스틱 회귀분석, 의사결정나무와의 비교에서

WOBC 자료와 WDBC 자료 모두에서 의사결정나

무가 가장 성능이 떨어지고 다음으로 정확도 면

에서 판별분석 그리고 c-통계량에서 로지스틱

회귀분석이 성능이 떨어지는 것으로 나타났다.

그 이유는 의사결정나무는 비록 간편하지만 변

수가 많은 경우 예측력이 떨어지는 단점이 있고

판별분석은 각 범주 간에 변이가 심할 때 성능

이 떨어지는 경향이 있다. 로지스틱 회귀분석을

포함하여 위의 방법들은 모든 데이터 상에서 분

류함수를 구함으로서 과적합하는 경향이 있으나

SVM은 과적합에 덜 민감한 서포트 벡터에 의해

분류함수를 결정함으로서 뛰어난 일반화 기능을

갖고 있다 [35-37].

그러나 최적의 SVM 모형은 기본모형에 비해

높은 성능을 갖고 있지만 최적의 모형을 찾기 위

해 교차 타당성에 의한 CFG 탐색법을 사용함으

로서 그리드 탐색점이 증가하는 경우 계산시간

이 많이 걸리는 단점이 있다.

5. 결 론

지금까지 유방암 진단에 널리 이용되는 미세침

흡인 검사는 종양의 구조적인 유사성 때문에 악

성인지 혹은 양성인지 구별이 매우 어렵다. 따

라서, 의사로 하여금 검진 오류를 줄일 수 있는

보조 수단으로 통계적 분류분석이 널리 사용되

고 있다.

본 논문에서는 통계적 학습이론에 바탕을 둔

SVM을 사용하여 유방암의 악성 혹은 양성여부

를 분류하였다. SVM에서 커널함수와 더불어 두

개의 모수 즉, 패널티 모수와 커널모수는 분류문

제의 성능에 중대한 영향을 미치므로 모수의 선

택은 매우 중요하다. 본 논문에서는 그리드 탐색

법을 계산속도 면에서 개선한 CFS 탐색법을 사

용하여 모수를 선택하였고 과적합을 피하기 위

해 5-조각 교차 타당성을 수행하였다.

본 논문에서는 최적의 SVM 모형의 성능을 평

가하기 위해 UCI의 유방암 자료에 대해 기존의

분류방법인 판별분석, 로지스틱 회귀분석, 의사

결정나무뿐만 아니라 기본 모수를 사용한 SVM

모형과 성능평가 측도인 정확도, ROC 곡선 그리

Page 12: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

119

[8] Gupta S, Kumar D, Sharma A. Data mining classification techniques applied for breast can-cer diagnosis and prognosis. Indian Journal of Computer Science and Engineering (IJCSE) 2011; 2(2): 188-195.

[9] Kitbumrungrat K. Comparison logistic regres-sion and discriminant analysis in classification groups for breast Cancer. Indian Journal of Computer Science and Engineering (IJCSE) 2012; 12(5): 111-115.

[10] Anguita A, Boni A, Ridella S. Evaluating the generalization ability of support vector ma-chines through the bootstrap. Neural Processing Letters 2000; 11(1): 51-58.

[11] Lin CT, Yeh CM, Hsu CF. Fuzzy neural net-work classification design using support vector machine. Proceedings of the 2004 International Symposium on Circuits and Systems 2004, pp. 724-727.

[12] Martinez EF, Sanchez A, Velez J. Support vec-tor machines versus multi-layer perceptrons for efficient off-line signature recognition. Engi-neering Applications of Artificial Intelligence 2006; 19(6): 693-704.

[13] UCI Machine Learning Repository. Center for Machine Learning and Intelligent Systems. ac-cessed online on at http://archive.ics.uci.edu/ml/datasets.html

[14] Gestel TV, Suykens JAK, Baesens B, Viaene S, Vanthienen J, Dedene G. Benchmarking least squares support vector machine classifiers. Ma-chine Learning 2004; 54: 5-32.

[15] Hsu CW, Chang CC, Lin CJ. A practical guide to support vector classification. Technical re-port, Department of Computer Science and In-formation Engineering, University of National Taiwan, Taipei, 2003, pp. 1-12.

고 c-통계량을 가지고 비교분석하였다.

실제 자료에 적용 결과 정확도 면에서 최적

SVM이 가장 높고 다음으로 기본 SVM 순으로 나

타났고 ROC 곡선에서 최적 SVM과 기본 SVM이

높은 성능을 보였고 c-통계량에서도 최적 SVM

이 가장 높게 나타났다.

참고문헌

[1] National Cancer Institute at the National In-stitutes of Health. Breast Cancer. accessed on-line on at http://www.cancer.gov/cancertopics/types/breast

[2] Ministry of Health & Welfare, National Cancer Center. Annual report of cancer statistics in Ko-rea in 2010, 2012. (Korean)

[3] Sewak M, Vaidya P, Chan CC, Duan ZH. SVM approach to breast cancer classification. Inter-national Multi-Symposium of Computer and Computational Sciences (IMSCCS) 2007; 2: 32-37.

[4] Fiuzy M, Haddadnia J, Mollania N, Hashemian M, Hassanpour K. Cancer based on fine needle aspiration (FNA) test data and combining intel-ligent systems. Iranian Journal of Cancer Pre-vention 2012; 4: 169-77.

[5] Yuan Y, Shaw MJ. Induction of fuzzy decision trees. Fuzzy Sets and Systems 1995; 69(2): 125-139.

[6] Vapnik VN. The Nature of Statistical Learning Theory (2nd). John Wiley & Sons: New York, NY, 1996.

[7] Zhang GP. Neural networks for classification: a survey, IEEE transactions on systems, man and cybernetics—part C. Applications and Reviews 2000; 30(4), 451-462.

Page 13: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

임진수, 손진영, 손주태, 임동훈

한국보건정보통계학회지 제38권 제1호

120

Computers & Industrial Engineering 2011; 60: 760-768.

[25] Zhuang L, Dai H. Parameter optimization of kernel-based one-class classifier on imbalance learning. Journal of Computer 2006; 1(7): 32-40.

[26] Kim HH, Kang SH, Park JH, Ha HH, Lim DH. Noise removal using support vector regression in noisy document images. The Korean Jour-nal of Applied Statistics 2012; 25(4): 669-680. (Korean)

[27] Karatzoglou A, Meyer D, Hornik K. Support vector machines in R. Journal of Statistical Software 2006; 15(6): 1-28.

[28] Park Y, Helms V. On the derivation of propensi-ty scales for predicting exposed transmembrane residues of helical membrane proteins. Bioin-formatics 2007; 23(6): 701–708.

[29] Zhang W, Zou S, Song J. Term-tissue specific models for prediction of gene ontology biologi-cal processes using transcriptional profiles of aging in drosophila melanogaster. BMC Bioin-formatics 2008; 9: 129.

[30] Egan JP. Signal decision theory and ROC anal-ysis. Academic Press: San Diego, CA, 1975.

[31] Cook NR. Statistical evaluation of prognostic versus diagnostic models: beyond the ROC curve. Clinical Chemistry 2008; 54(1): 17-23.

[32] Meyer D, Dimitriadou E, Hornik K, Weinges-sel A, Leisch F. e1071: misc functions of the department of statistics (e1071), TU Wien. R package version 1.6-1. accessed online on 2012 at http://CRAN.R-project.org/package=e1071

[33] Chang J. lda: collapsed gibbs sampling methods for topic models. R package version 1.3.2. ac-cessed online on 2012 at http://CRAN.R-proj-ect.org/package=lda

[16] Kalyani S, Swarup KS. Static security evalua-tion in power systems using multi-class SVM with different parameter selection methods. International Journal of Machine Learning and Computing (IJMLC) 2011; 1(2): 193-198.

[17] Ayat NE, Cheriet M, Suen CY. Automatic model selection for the optimization of SVM kernels. Pattern Recognition 2005; 38(10): 1733-1745.

[18] Villa A, Fauvel M, Chanussot J, Gambaand P, Benediktsson JA. Gradient optimization for multiple kernel’s parameters in support vector machines classification. International Geosci-ence and Remote Sensing Symposium, 2008.

[19] Huang CL, Wang CJ. A GA-based feature se-lection and parameters optimization for support vector machines. Expert Systems with Applica-tions 2006; 31: 231-240.

[20] Lin SW, Ying KC, Chen SC, Lee ZJ. Particle swarm optimization for parameter determina-tion and feature selection of support vector ma-chines. Expert Systems with Applications 2008; 35: 1817-1824.

[21] Pai PP, Hong WC. Support vector machines with simulated annealing algorithms in elec-tricity load forecasting. Energy Conversion and Management 2005; 46(17): 2669-2688.

[22] Ratnayake RMCB, Hicks C, Akbari MA. A SVM based method to detect color shift defects in IC packages. Conference on Machine Vision Applications 2007, pp. 138-141.

[23] Cevikalp H. New clustering algorithms for the support vector machine based hierarchical clas-sification. Pattern Recognition Letters 2010; 31(11): 1285-1291.

[24] Yang CC. Constructing a hybrid Kansei en-gineering system based on multiple affective responses: application to product form design.

Page 14: 최적의 서포트 벡터 머신을 이용한 유방암 분류 Breast Cancer …e-jhis.org/upload/pdf/21400559.pdf · 해가기 쉬운 장점을 갖고 있으나 가지분할을

최적의 서포트 벡터 머신을 이용한 유방암 분류

Journal of The Korea Society of Health Informatics and Statistics, Vol. 38, No. 1, 2013

121

tor machines for medical classification prob-lems. Biocybernetics and Biomedical Engineer-ing 2009; 29(4): 63–81.

[37] Yoon HS, Jun SC, Hyun YJ, Bae GO, Lee KK. A comparative study of artificial neural networks and support vector machines for pre-dicting groundwater levels in a coastal aquifer. Journal of Hydrology 2011; 396(1-2): 128-138.

[34] Therneau T, Atkinson B, Ripley B. rpart: re-cursive partitioning. R package version 4.1-1. accessed online on 2013 at http://CRAN.R-project.org/package=rpart

[35] Burges CA. Tutorial on support vector ma-chines for pattern recognition. Data Mining and Knowledge Discovery 1998; 2: 121-167.

[36] Malorzata CJ. Performance of the support vec-