variable selection for propensity score models considering ...e-jhis.org/upload/pdf/21400609.pdf ·...

12
보건정보통계학회지 제40권제1ISSN 2287-3708(Print) ISSN 2287-3716(Online) Journal of Health Informatics and Statistics (JHIS) 2015; 40(1): 75-86 Corresponding Author: Kijun Song, PhD Department of Biostatistics, College of Medicine, Yonsei University, 50 Yonsei-ro, Seodaemun-gu, Seoul 120-749, Korea. Tel:+82-2-2228-2491 E-mail: [email protected] [Submitted: 2015년 02월 02일, Revised: 2015년 02월 21일, Accepted: 02월 23일] Abstract Seong Hun Park 1) , Kijun Song 1)† 박성훈 1) , 송기준 1)1) Department of Biostatistics, College of Medicine, Yonsei University 1) 연세대학교 의과대학 의학통계학과 Objectives: In the covariate selection for propensity score model (PSM), including all the covariates that can be observed has been recommended. However, there are problems that appear multi col- linearity and do not obtain the matching number needed using over fitted propensity score model. In this study, we studied the method of variable selection for PSM considering the correlations between covariates. Methods: All the covariates were classified according to the relation with treatment and outcome and generated considering the correlations each other. We examined the odds ratio and MSE (mean squared error) of PSM and the matching number of simulated data. Results: When there are correlations among covariates included in PSM, the matching number de- creased as the correlation of covariates was stronger. Also, the larger the strength of correlation among covariates was, the smaller MSE was and the matching number was. Conclusions: When including covariates in PSM, we found that it is more efficient to examine the cor- relation of covariates, treatment variable, and outcome variable than using all the covariates observed. Keywords: Propensity score, Matching, Simulation, Variable selection Variable Selection for Propensity Score Models Considering the Correlations between Covariates Propensity score model 구축에서 상관성을 고려한 변수선택

Upload: others

Post on 07-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

보건정보통계학회지제40권제1호ISSN 2287-3708(Print) ISSN 2287-3716(Online)Journal of Health Informatics and Statistics (JHIS)2015; 40(1): 75-86

† Corresponding Author: Kijun Song, PhD Department of Biostatistics, College of Medicine, Yonsei University, 50 Yonsei-ro, Seodaemun-gu, Seoul 120-749, Korea. Tel:+82-2-2228-2491 E-mail: [email protected]

[Submitted: 2015년 02월 02일, Revised: 2015년 02월 21일, Accepted: 02월 23일]

Abstract

Seong Hun Park1), Kijun Song1)†

박성훈1),송기준1)†

1)Department of Biostatistics, College of Medicine, Yonsei University

1)연세대학교의과대학의학통계학과

Objectives: In the covariate selection for propensity score model (PSM), including all the covariates that can be observed has been recommended. However, there are problems that appear multi col-linearity and do not obtain the matching number needed using over fitted propensity score model. In this study, we studied the method of variable selection for PSM considering the correlations between covariates.

Methods: All the covariates were classified according to the relation with treatment and outcome and generated considering the correlations each other. We examined the odds ratio and MSE (mean squared error) of PSM and the matching number of simulated data.

Results: When there are correlations among covariates included in PSM, the matching number de-creased as the correlation of covariates was stronger. Also, the larger the strength of correlation among covariates was, the smaller MSE was and the matching number was.

Conclusions: When including covariates in PSM, we found that it is more efficient to examine the cor-relation of covariates, treatment variable, and outcome variable than using all the covariates observed.

Keywords: Propensity score, Matching, Simulation, Variable selection

Variable Selection for Propensity Score Models Considering the Correlations between Covariates

Propensity score model 구축에서 상관성을 고려한 변수선택

Page 2: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

박성훈, 송기준

보건정보통계학회지 제40권 제1호

76

1. 서 론

보건의학분야에서사용되어지는관찰연구중에

서두군을비교하는연구는대부분비무작위시

험을기준으로되어왔다.이러한비무작위시험

은선택편의(selectionbias)를통제할수없는문

제점을가지고있다.선택편의는처리집단과대조

집단간의이질성으로인해발생되는것으로,처

리와결과의인과관계에대한올바르지못한추

론을하거나처리효과를과소혹은과대추정하

는오류를발생시키게된다.따라서처리군에대

응되는대조군을선정할때공변량(covariate)들

의불균형(unbalanced)을통제할수있는대상이

선정되어야할필요성이있다.두집단에서구

조적인군간의차이가발생하지않도록하기위

해처리변수와결과변수가이분형자료인경우,

로지스틱회귀모형을이용하여균등하게만들어야

할공변량들을모형에포함시킨PSM(propensity

scoremodel)을구축하여두군간개체들을대응

시키는방법이많이사용되어지고있다[1].이러

한PSM을이용할때기존의많은연구들에서는

측정할수있는가능한많은공변량들을PSM에

포함시켜잠재적혼란변수를통제하는것을제안

해왔다[2].그런데,최근의연구들에서가능한많

은공변량들을PSM에포함시키는것이불균형을

줄이는데반드시효율적이지는않다는결과를제

시하였다[3,4].Alanetal.[3]의연구에서는결

과변수에만상관성을가지는공변량은PSM에포

함이되어도편차를증가시키지않으며,처리변

수에만상관성이있는공변량은처리효과의분산

을증가시킨다고하였다.Austinetal.[4]의연

구에서는처리-결과변수와관계있는공변량만을

포함하여PSM을이용할것을제안하였다.본연

구에서는이러한최근의연구들을바탕으로PSM

에포함시킬공변량의선택기준을제시하고자한

다.Austinetal.[4]의연구실험설정을기본으로

이를확장하여각범주에서2개의공변량을생성

하여모의실험을수행하고,나누어진각범주별로

상관성(correlation)의조합을고려하여PSM에포

함할공변량의특성과상관성을제시하고자한다.

Austinetal.[4]의연구에적용된모의실험설정

틀은다음과같이정리할수있다.먼저,데이터

를생성하고몬테카를로(MonteCarlo)방법을적

용하여통계량평균값을구한다.데이터는특정

분포에서임의적으로공변량들을생성하고,생성

된공변량들을이용하여처리변수,결과변수간의

연관성과공변량간의상관성여부에고려하여처

리변수와결과변수를베르누이시행을통해생성

한다.PSM은로지스틱회귀를이용하며,포함되

는변수의특성에따라각기다른PSM을구축한

다.각모형으로PSmatching을수행한표본에서

오즈비(oddsratio),MSE(meansquarederror),

matchednumber,표준화차이계수(standardized

differences)값을구하고구해진통계량들의평균

을구한후이값들을통하여각모형에포함된변

수들의상관성을비교한다.

2. 연구 방법

1)Propensityscore

Propensityscore는관찰된공변량들이주어졌

을때,특정시험군에할당되도록영향을주는독

립변수에대한조건부확률로써다음과같이정의

된다.

여기에서 는처리수준을나타내며x는측정되

어진공변량이다.

강한무관성의가정이성립할경우,propensity

score를이용하여두군의개체들을matching을

하여각군의측정가능한특성들은동일한분

포를가지게된다.이러한것은무작위실험과

Page 3: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

Propensity score model 구축에서 상관성을 고려한 변수선택

Journal of Health Informatics and Statistics (JHIS), Vol. 40, No. 1, 2015

77

같이선택편의가없는효과를추정하게해준다.

RosenbaumandRubin[5]은propensityscore의

특성을제시하였다.Propensityscore는균형점

수(balancingscore)이며,propensityscore의임

의의값에서처리집단간의평균차이는평균처리

효과의불편추정량이다.이러한사실은propen-

sityscore가몇가지보정방법을통해관찰연구

자료에서편의를줄이는데사용할수있다는것

을뜻한다.Propensityscore의어떤특정한값에

서공변량들이주어졌을때처리할당의개념을무

시할수있는상황이라면,matching하거나층화,

혹은공분산보정등을통해처리효과의불편추

정량을구하는데사용할수있다.이렇게구해진

propensityscore의값들을가진집단별평균차이

는평균처리효과의불편추정치가된다[1].

2)Propensityscorematching을위한알고

리즘

본연구에서propensityscore를이용한matching을

위해적용된알고리즘은국소최적알고리즘(local

optimalgreedyalgorithm)으로이것은주로그리

디(greedy)알고리즘이라고불린다.또한match-

ing을위해서범위설정방법(calipermatching)을

이용하였다.이방법은비교가되는처리군A와

처리군B양쪽군의개체들을무작위로배열하고

처리군A의가장위에정렬된개체부터순차적으

로처리군B개체의propensityscore차이를구

하고이값들의절대값이가장작은것을선택한

다.이러한과정을처리군A의모든개체들에수

행한다.이알고리즘은모든처리군A의개체들

에수행시최적의처리군B와matching되는장

점이있지만,propensityscore의절대값차이의

총합은최소가되지못한다[5].범위설정방법

(calipermatching)은처리군A를중심으로일정

한propensityscore의범위를설정하여이범위

에들어오는모든처리군B의개체들중에서가장

가까운개체를선택하는방법이다.

3)균등화평가변수

(1)표준화차이계수

PSmatching에의해서대응된표본에서각군

간의변수들이균등하게분배된정도를확인하는

값으로표준화차이계수를사용한다[8].

이분형변수의표준화차이계수는

로정의되며,여기서 와 는처리군과

대조군에서의비율이다.

연속형변수의표준화차이계수는

로정의되며, , 와 는

처리군A,B의각각의평균값과분산을의미한다.

표준화차이계수 가10%이상의값을가지게되

면대응된표본의두군간의변수가균등하게배

분되었다고볼수없다[9].

(2)Matchedpair데이터에서의oddsratio

Matchedpair된데이터에서처리효과를추정

하기위해서다음의범주형테이블을설정할수

있다.Table1에서a는처리군A와처리군B양쪽

에서모두사건이발생한빈도값이며,b는처리

군B에만,c는처리군A에만사건이발생한빈도

값이다.d는양쪽모두에서발생하지않은빈도값

이다.

Page 4: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

박성훈, 송기준

보건정보통계학회지 제40권 제1호

78

Matchedpair된데이터의오즈비는조건부최

대우도추정량으로c/b로구해진다.이값은개

체특정적인 2×2× 테이블에서 공통오즈비의

Mantel-Haenszel추정값과동일하게된다[2,4].

(3)추정치에관한MSE

MSE의추정치는다음과같이계산된다.

여기서, 는 참 오즈비를 뜻하는 값이며,

는전체N번의모의실험에서n번째생성된

matchedpair데이터에서추정된오즈비이다[3].

4)PSM모형의설정

처리변수와결과변수에대한연관성설정을3

개로분류하였다.처리변수와결과변수에동시에

영향을주는공변량(V1),처리변수에만영향을주

는공변량(V2),결과변수에만영향을주는공변량

(V3)으로나누었다[3].상관성의영향을평가하

기위해각각의연관성을가진변수들을2개씩설

정하여총6개의변수를설정하였다.

PS를추정하기위해사용된PSM은로지스틱회

귀모형을기본으로사용하였으며,PSM으로는모

든변수를사용한모형과연관성에따른모형으

로설정하였다.PSM1은모든변수를넣은모형

이며,PSM2는처리변수에영향을주는변수들을

포함한모형이다.PSM3은결과변수에영향을주

는변수들을포함한모형이며,PSM4는처리변수

와결과변수에동시에영향을주는변수들을제거

한모형이다.PSM5는처리변수와결과변수에동

시에영향을주는두변수중에서한변수를제외

한모형이다.

Table 1. Frequency table of matched pair data

Matched pairTreatment A subject

Outcome=1 Outcome=0

Treatment B subject

Outcome=1 a b

Outcome=0 c d

Figure 1. Conceptual model affecting the relationship between treatment and outcome.

Table 2. Set up of propensity score model

Model Covariates included in the model

PSM 1 V11, V12, V21, V22, V31, V32

PSM 2 V11, V12, V21, V22

PSM 3 V11, V12, V31, V32

PSM 4 V21, V22, V31, V32

PSM 5 V12, V21, V22, V31, V32

V11: first covariate for treatment and outcome, V12: second covariate for treatment and outcome, V21: first covariate for treatment, V22: second covariate for treatment, V31: first covariate for outcome, V32: second covariate for outcome

Page 5: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

Propensity score model 구축에서 상관성을 고려한 변수선택

Journal of Health Informatics and Statistics (JHIS), Vol. 40, No. 1, 2015

79

5)공변량간의상관성설정및생성

공변량간의상관성은두가지경우로설정하였

는데,먼저동일한특성범주에포함된공변량들간

의관계에만상관성을설정한경우와,다른범주

에있는공변량간에도상관성을설정한경우로

나누었다.공변량들의상관성의정도는0.9,0.7,

0.5,0.3으로설정하였다.각공변량들은다음과

같이균일분포(0,1)에서독립적으로랜덤하게생

성하였다.

이때,공변량간의상관관계가있도록아래와

같이생성하였다.

여기서a값은각공변량별로상관관계의강도를

조정할수있도록설정된다.

데이터생성은Austinetal.[4]의논문에서제

시하는데이터생성과정을수행하였다.처리변수

에연관성을가지도록공변량들의계수를다르게

주어처리변수와의연관성의강도를설정하며,무

연관인공변량들은계수값을0을주어식에서제

외시켰다.

위의식에서처리변수에할당할확률을구하고

N개의개체에대해서Bernoulli분포를이용하여

처리변수( )를생성하였다.결과변수의생성은처

리변수의생성과동일하게진행되며 를포함하

여확률을구하고Bernoulli분포를이용하여다음

과같이생성시켰다.

여기에서 의값은처리변수와결과변수의로

그오즈비로나타난다.

6)모의실험설계

표본은10,000개의개체를생성시키며,생성된

표본에서PSmatching을사용하여대응된표본의

숫자와표준오차,oddsratio,개별변수의표준화

차이계수를구했다.이러한표본을100개를생

성하여평균값을구한다.PSmatching에서사용

하는Caliper의값은처리변수A군의propensity

score의표준편차의4분의1에해당하는값이적

당하다고제안하였다[8].표본데이터생성시처

리변수와결과변수를생성시킬때임의로정해주

는 와 는log(5)로설정하였고, 의값

은처리군A군과처리군B군의발생이비슷한비

율이되도록모의실험을통하여정하였으며,동일

한방법으로 의값은대조군에서발생비

율이25%가되도록하였다.이실험에서 의

값은오즈비가1이되도록하였으며,공변량들간

의상관성은0.3,0.5,0.7,0.9가되도록a값을

설정하였다.몬테카를로모의실험을수행시사

용한프로그램으로SAS9.2(SASInstituteInc.,

Cary,NC,USA)를사용하였으며,%PSMatching

SASmacro를실행하여표본의처리군A,B군을

1:1대응시켰다.

3. 결 과

1)상관성에따른모형비교

다음의Table3은상관성설정을달리한PSM의

모의실험결과이다.

Page 6: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

박성훈, 송기준

보건정보통계학회지 제40권 제1호

80

Table3의결과를보면,PSM4모형이V2,V3,

V1V2의경우를제외하고는상관성에서오즈비,

MSE,matchednumber가크게나타나는것을확

인할수있었는데,V3경우외에는PSM3와큰차

이를보이지는않았다.또한,V1에상관성이있는

PSM4의경우에오즈비의값이크게차이가났

다.PSM3과PSM4의결과를비교해보면PSM

3은처리변수에만영향을주는V2를제거한모형

임에도큰차이를보이지않으나처리-결과변수

에동시에영향을주는공변량인V1을제거할경

우에는결과에큰차이를줄수있다는것을확인

할수있었다.상관성이무상관관계에있는PSM

의결과들과V3에만상관성이있는PSM의결과

가유사하게나타나는것을확인할수있었다.이

것은결과변수에만영향을주는공변량들의상관

성여부는PSM의결과에큰영향을주지않는다

Table 3. Comparison of model according to correlations (correlation=0.7*)

PS model Odds ratio MSE Matched number

Correlation Model Mean SD Mean SD Mean SD

Uncorre lated PSM 1 1.02 0.08 0.01 0.01 3351.33 38.08

PSM 2 1.02 0.03 0.01 0.01 3351.70 38.42

PSM 3 1.01 0.05 0.01 0.01 3851.83 40.01

PSM 4 1.39 0.05 0.16 0.04 3851.40 46.40

V1 PSM 1 1.03 0.07 0.01 0.01 2912.23 44.81

PSM 2 1.02 0.05 0.01 0.01 2921.83 49.47

PSM 3 1.03 0.06 0.01 0.01 3216.37 36.77

PSM 4 2.14 0.15 1.33 0.36 3967.73 49.55

V2 PSM 1 1.00 0.07 0.01 0.01 2931.47 43.22

PSM 2 1.02 0.06 0.01 0.01 2916.43 48.24

PSM 3 0.99 0.04 0.01 0.01 3967.23 47.10

PSM 4 1.43 0.09 0.19 0.07 3227.10 45.87

V3 PSM 1 1.01 0.07 0.01 0.01 3348.43 36.69

PSM 2 0.99 0.05 0.01 0.01 3341.67 35.17

PSM 3 0.99 0.06 0.01 0.01 3865.13 51.1

PSM 4 1.37 0.11 0.15 0.08 3863.97 43.37

V1V2 PSM 1 1.01 0.07 0.01 0.01 2658.17 51.54

PSM 2 1.01 0.06 0.01 0.01 2670.43 30.43

PSM 3 0.99 0.04 0.01 0.01 3400.00 37.30

PSM 4 2.07 0.09 1.16 0.19 3377.07 44.10

*Pearson correlation coefficient

MSE: mean squared error, SD: standard deviation

Page 7: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

Propensity score model 구축에서 상관성을 고려한 변수선택

Journal of Health Informatics and Statistics (JHIS), Vol. 40, No. 1, 2015

81

는것을보여주는것이라고할수있다.각각의상

관성에서PSM1과PSM2를비교해보면,무상관

인경우보다V1과V2에서각각상관이있는경우

matchednumber가낮아지는것을확인할수있

으며,V1V2에서matchednumber가가장적은수

를가지는것을볼수있었다.Table4의결과를

보면,모형에포함되지않는공변량들의불균등성

을확인할수있는데,특히상관성을가지는공변

량들이모형에모두포함되지않을경우불균등성

이높게나타났다.두공변량들간에상관성이있

을때한공변량이모형에포함될경우이불균등

성이낮아졌다.본연구에서PSM설정시처리변

수를종속변수로사용하고결과변수는사용하지

않았기때문에V1과V1V3,V2와V2V3의결과가

거의동일하게나타나서V1V3와V2V3간의분석

결과는제시하지않았다.

Table 4. Standardized differences according to correlation structure

PS model V11 V12 V21 V22 V31 V32

Correlation Model Mean SD Mean SD Mean SD Mean SD Mean SD Mean SD

Uncorre-lated PSM 1 0.96 0.93 0.49 0.84 0.51 1.01 0.51 0.87 0.37 1.40 -0.19 1.14

PSM 2 0.47 0.79 0.90 0.98 0.58 0.75 0.50 1.12 0.36 2.29 -0.13 2.01

PSM 3 0.66 0.62 0.60 0.64 43.08 2.13 44.14 2.93 -0.07 0.82 -0.09 0.90

PSM 4 44.23 2.33 44.10 2.42 0.60 0.44 0.71 0.49 0.07 1.05 0.15 0.76

V1 PSM 1 1.15 0.82 1.35 0.93 0.49 1.46 0.57 1.07 0.24 1.12 0.09 1.35

PSM 2 1.16 0.79 1.40 1.11 0.55 1.50 0.51 1.13 -0.18 2.81 0.02 2.45

PSM 3 1.17 0.59 1.46 0.50 44.52 2.56 43.53 2.54 -0.05 1.22 0.24 1.10

PSM 4 86.08 1.78 90.67 2.45 0.45 0.51 0.72 0.53 -0.24 0.97 0.11 0.84

V2 PSM 1 0.46 0.98 0.73 0.92 1.14 0.88 1.35 1.07 -0.17 1.14 0.03 0.96

PSM 2 0.62 1.46 0.29 1.45 1.17 1.12 1.45 0.96 0.10 1.78 -1.19 2.37

PSM 3 0.68 0.55 0.51 0.58 86.65 2.74 90.87 2.47 0.06 0.82 0.08 0.81

PSM 4 43.53 3.29 43.66 2.92 1.21 0.52 1.44 0.40 -0.02 1.09 -0.10 1.29

V3 PSM 1 0.39 0.88 0.64 0.89 0.64 1.02 0.73 1.19 -0.15 0.73 -0.14 0.85

PSM 2 0.76 1.19 0.64 1.14 0.65 1.01 0.40 1.01 0.66 2.10 0.18 2.56

PSM 3 0.72 0.51 0.56 0.48 44.10 1.63 45.21 2.56 0.13 0.69 0.02 0.74

PSM 4 44.31 2.09 43.50 2.17 0.64 0.69 0.67 0.65 0.04 0.89 0.25 0.91

V1V2 PSM 1 1.03 1.22 1.29 1.17 1.03 1.29 1.16 0.88 0.02 1.29 -0.07 1.50

PSM 2 1.41 0.93 1.54 1.17 0.64 1.17 0.86 0.95 -0.02 3.23 0.03 2.83

PSM 3 1.38 0.62 1.18 0.46 86.01 2.62 90.53 2.97 -0.19 1.03 0.45 0.91

PSM 4 86.76 2.63 91.78 2.58 1.12 0.62 1.33 0.39 0.08 1.13 0.19 1.06

SD: standard deviation

Page 8: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

박성훈, 송기준

보건정보통계학회지 제40권 제1호

82

2)상관성의강도에따른비교

Table5는V12와V22간에상관성의강도를변화

시키면서PSM별로모의실험을수행한결과이다.

처리-결과변수에연관성을가진V12와처리변수

에만연관성을가진V22의상관성의강도를0.3,

0.5,0.7,0.9로변화시켰으며,PSM1,PSM2,

PSM3,PSM5에대해모의실험을수행하였다.

PSM4는V1범주의공변량이없는모형이므로분

석에서는제외시켰다.각조건에서PSM1과PSM

2의오즈비와MSE,matchingnumber가두모형

에서비슷하게나타나고있으며,PSM3은matching

number가가장크게나타나고있었다.PSM5는

Table 5. Comparison of model according to correlation strength

PS model Odds ratio MSE Matched number

Correlation Model Mean SD Mean SD Mean SD

Uncorre-lated PSM1 1.01 0.04 0.01 0.01 3354.03 33.12

PSM2 1.01 0.06 0.01 0.01 3334.33 45.03

PSM3 1.02 0.05 0.01 0.01 3861.87 38.79

PSM5 1.20 0.06 0.04 0.02 3581.93 38.80

0.3 PSM1 1.01 0.05 0.01 0.01 3228.50 45.13

PSM2 1.01 0.05 0.01 0.01 3228.27 46.37

PSM3 1.02 0.05 0.01 0.01 3685.57 43.16

PSM5 1.19 0.05 0.04 0.02 3447.87 33.49

0.5 PSM1 1.01 0.05 0.01 0.01 3134.43 47.92

PSM2 1.00 0.07 0.01 0.01 3133.37 39.51

PSM3 1.03 0.06 0.01 0.01 3524.83 38.56

PSM5 1.18 0.07 0.04 0.03 3306.73 45.18

0.7 PSM1 1.02 0.06 0.01 0.01 2923.70 36.29

PSM2 1.01 0.06 0.01 0.01 2931.23 42.58

PSM3 1.03 0.05 0.01 0.01 3241.30 45.28

PSM5 1.12 0.06 0.02 0.02 3042.97 45.04

0.9 PSM1 1.01 0.06 0.01 0.01 2437.90 36.27

PSM2 1.02 0.07 0.01 0.01 2446.13 30.47

PSM3 1.04 0.07 0.01 0.01 2660.20 32.76

PSM5 1.07 0.07 0.01 0.01 2465.23 45.33

MSE: mean squared error, SD: standard deviation

Page 9: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

Propensity score model 구축에서 상관성을 고려한 변수선택

Journal of Health Informatics and Statistics (JHIS), Vol. 40, No. 1, 2015

83

오즈비와MSE가다른모형에비해크게나타나는

것을확인할수있었다.이것은4.1의결과에서밝

혔듯이처리-결과변수에영향을미치는공변량이

PSM의결과에영향을많이준다는것을다시한

번확인할수있었다.상관성의강도가강할수록

PSM의MSE값들이작아지는것을확인할수있

었고,상관성의강도가0.5이하에서는matching

number가크게차이가나지않았지만0.7이상일

때부터는작아지는것을확인할수있었다.Table

6에서PSM5의V12공변량의표준화차이계수의

값은상관성의강도가높아질수록작아지고있으

며,V22는커지는것을확인할수있었다.

Table 6. Standardized differences according to correlation strength

PS model V11 V12 V21 V22 V31 V32

Correlation Model Mean SD Mean SD Mean SD Mean SD Mean SD Mean SD

Uncorre-lated PSM 1 0.19 1.02 0.64 0.72 0.80 0.99 0.76 1.16 0.10 0.99 -0.16 1.06

PSM 2 0.62 1.02 0.53 0.86 0.63 0.98 0.64 0.98 0.12 2.21 -0.16 1.89

PSM 3 0.64 0.58 0.65 0.58 43.89 1.91 43.53 2.08 0.10 0.97 0.25 0.91

PSM 5 0.84 0.67 46.24 2.55 0.66 0.79 0.38 0.78 0.06 0.82 -0.09 1.09

0.3 PSM 1 0.73 1.02 0.69 0.98 0.58 0.93 0.65 0.87 -0.15 1.05 0.10 1.28

PSM 2 0.52 1.05 0.74 1.10 0.49 1.05 0.97 0.99 -0.13 2.40 0.10 2.41

PSM 3 0.54 0.75 0.83 0.63 44.05 2.49 42.50 2.43 -0.02 1.08 0.45 1.07

PSM 5 0.53 1.09 43.31 2.64 1.21 1.09 0.38 0.83 0.19 1.17 0.35 1.24

0.5 PSM 1 0.61 1.28 0.93 0.98 0.95 0.98 0.60 0.89 -0.01 1.16 0.04 1.24

PSM 2 0.52 1.06 0.83 0.97 0.55 1.26 1.04 0.72 0.55 1.95 0.41 2.36

PSM 3 0.53 0.99 0.95 0.65 44.27 2.17 40.11 1.93 -0.24 0.97 0.11 1.22

PSM 5 1.20 1.10 38.17 1.99 0.70 1.23 0.47 0.85 -0.22 1.09 -0.14 1.16

0.7 PSM 1 0.65 1.20 1.07 1.04 0.83 1.27 1.12 0.95 0.09 1.29 0.09 1.31

PSM 2 0.97 1.35 0.85 1.01 0.15 1.18 1.47 0.81 -0.63 1.90 0.34 2.44

PSM 3 0.41 0.91 1.33 0.53 43.96 2.30 34.22 1.70 0.12 1.08 0.16 1.17

PSM 5 0.54 1.25 27.96 1.71 0.55 1.10 1.29 0.76 -0.05 1.24 0.15 1.34

0.9 PSM 1 1.03 1.30 1.44 0.78 0.34 1.37 1.80 0.89 -0.46 1.39 0.29 1.30

PSM 2 0.96 1.59 1.55 0.89 0.27 1.50 1.86 0.86 -0.46 3.32 0.25 3.52

PSM 3 -0.09 1.23 2.01 0.49 42.77 2.39 25.16 1.34 -0.19 1.24 0.37 1.55

PSM 5 0.49 1.39 13.73 1.25 -0.17 1.31 2.17 0.72 -0.05 1.44 0.21 1.39

SD: standard deviation

Page 10: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

박성훈, 송기준

보건정보통계학회지 제40권 제1호

84

4. 고찰 및 결론

PSM을이용하여matchingnumber를산출할

때,모형에들어가는공변량으로는처리변수에만

영향을주는공변량과결과변수에만영향을주는

공변량,그리고처리-결과두변수에동시에영향

을주는공변량으로나누어볼수있다.본연구

에서는공변량들중에서처리-결과변수에영향을

주는공변량이PSM결과에가장큰영향을주고,

그다음으로처리변수에만연관성이있는공변량

이영향을주었다.결과변수에만영향을주는공

변량의경우PSM결과에영향력이거의없다고

판단된다.PSM에포함되는공변량들간에상관

성이존재하고,이러한상관성이존재하는공변량

들이처리변수에연관성을가지고있으면match-

ingnumber가줄어드는것을확인할수있었다.

공변량들간에상관성의강도가높아질수록MSE

가낮아지는것을확인할수있었으며,matching

number가줄어드는것을확인할수있었다.상관

성이높은공변량들중에서하나의공변량이PSM

에서빠지더라도,빠진공변량의균형성의정도가

심하게불균형하지않게되었다.이러한결과들을

종합해보면,PSmatching을수행하기위해모든

공변량을사용하여과적합한모형을사용하기보

다는공변량들과처리변수,결과변수들간의관계

를확인하고상관성을고려하여PSM을구축하는

것이효율적이라고판단된다.

PSM구축시공변량선택에대한제안사항을다

음과같이정리할수있었다.

1.처리변수와결과변수에연관성을가진공

변량들을선별하여,처리-결과변수에영향을주

는공변량(V1),처리변수에만영향을주는공변량

(V2),결과변수에만영향을주는공변량(V3)으로

나눈다.

2.처리-결과에연관성이있는공변량(V1)들간

에상관성을구하고,상관성이강한공변량들을

묶어서분류한다.이공변량들중에서균형성이

반드시확보가되어야하며,연구의목적에합당

한변수들을남기고상관성이높은공변량을우선

적으로제거한다.

3.제거되지않은V1공변량들과V2공변량들

의상관관계를구하고,V1에상관관계가높은V2

공변량을제거한다.

4.V2간의공변량들중에서도상관관계가높은

공변량은제거한다.

5.결과변수에만영향을주는공변량(V3)도V2

방법과동일한방법으로V1에상관성이강한공

변량을제거한다.

Austinetal.[4]의연구에서처리변수와결과

변수에연관성의강도는log(5)를강한연관성으

로설정하였으며,log(2)를약한연관성으로설정

하였다.기존연구에서는PSM에포함되는공변량

을처리변수에연관성을가진공변량들만을넣는

방법,결과변수에관계된잠재적인모든공변량을

넣는방법,처리-결과변수모두에연관성을가진

변수를넣는방법들이제안되어왔다.Alanetal.

[3]의연구는,결과변수에만상관성을가지는공

변량은PSM에포함이되어도편차를증가시키지

않으며,처리변수에만상관성이있는공변량은처

리효과의분산을증가시킨다고하였다.Austinet

al.[4]의연구에서는처리-결과변수에상관된공

변량만을포함한PSM의matchingnumber가가

장크게가진다고보고되었다.본연구에서는기

존연구의설정에공변량들간의상관성을추가하

여수행하기위해공변량들을연속형변수로설정

하였으며,공변량들간의상관성여부와상관성의

강도가달라지면생성되는데이터가다르다는특

징을갖고있다.즉,기존의연구에서는각PSM을

설정할때한개씩만의공변량들을개별적으로생

성하였기때문에사용되는공변량은각모형에서

모두동일한값을가지게된다.예를들어공변량

Page 11: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

Propensity score model 구축에서 상관성을 고려한 변수선택

Journal of Health Informatics and Statistics (JHIS), Vol. 40, No. 1, 2015

85

V1을사용하였다면연구에서설정된PSM마다동

일한V1이포함된다.그러나본연구에서는PSM

1부터PSM5까지각각의모형에서사용하는공변

량은상관성여부와상관성의강도에따라모델별

로생성되기때문에모두다른값을가지게된다.

즉,PSM1의V11과PSM2의V11은서로다르게

생성된다는것이다.

보건의학관찰연구에서얻어지는자료,특히환

자-대조군연구와같이인위적으로무작위배정이

나matching등을통해얻어지지못한자료의경

우PSM을이용하여군간균형을유지하고자할

때,본연구에서제안한변수선택의방법을이용

하게되면보다효율적으로연구를수행할수있

는이점을얻을수있다.즉,PSM을이용해균형

을유지하고자한다면본연구에서제안한절차를

따라자료조사이전에이때필요한변수들이어

떠한것인지에대한정보를얻을수있으므로비

용,시간적인면에서도훨씬효율적으로연구를

수행할수있을것으로판단된다.

본연구에서는matching방법만을이용하였으나

층화와회귀보정등의방법에서도공변량의상관

성을고려한연구가이루어져야할것으로판단된

다.또한생성오즈비를변화시켜보면서결과를

분석해보아야할필요성이있다고생각한다.

References

[1] Sung YN. Reassessment of risk factors for the development of liver cirrhosis based on propensity score matching [dissertation]. Yonsei University; Korea, 2004.

[2] Alan A, Yongyi M. Effects and non-effects of paired identical observations in comparing proportion with binary matched-pairs data. Statistics in Medicine 2004; 23(1): 65-75.

[3] Alan B, Sebastian S, Kenneth JR, Robert JG,

Jerry A, Til S. Variable selection for propensity score models. American Journal of Epidemiology 2006; 163(12): 1149-1156.

[4] Austin PC, Grootendorst P, Anderson GM. A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: a Monte Carlo study. Statistics in Medicine 2007; 26(4): 734-753.

[5] Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983; 70(1): 41-55.

[6] Marcelo CP. Local and Global Optimal Propensity Score Matching. SAS Global Forum 2007, p. 184-185.

[7] Rosenbaum PR. Optimal matching for observational studies. Journal of the American Statistical Association 1989; 84(408): 1024-1032.

[8] Ralph BD'Agostino. Propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group. Statistics in Medicine 1998; 17(19): 2265-2281.

[9] Normand ST, Landrum MB, Guadagnoli E, Ayanian JZ, Ryan TJ, Cleary PD, McNeil BJ. Validating recommendations for coronary angiography following acute myocardial infarction in the elderly. Journal of Clinical Epidemiology 2001; 54(4): 387-398.

[10] Ming K, Rosenbaum PR. A note on optimal matching with variable controls using the assignment algorithm. Journal of the American Statistical Association 2001; 10: 455-463.

[11] Maldonado G, Greenland S. Estimating causal effects. International Journal of Epidemiology 2002; 31(2): 422-429.

[12] Binder K, Heermann DW. Monte Carlo Simulation in Statistical Physics. 3rd ed. Springer: New

Page 12: Variable Selection for Propensity Score Models Considering ...e-jhis.org/upload/pdf/21400609.pdf · 리와 결과의 인과관계에 대한 올바르지 못한 추 론을 하거나

박성훈, 송기준

보건정보통계학회지 제40권 제1호

86

York, 1997, p. 128-224.[13] Brokhart MA, Schneeweiss S, Rothman KJ,

Glynn RJ, Avorn J, Stürmer T. Variable selection for propensity score models. American Journal of Epidemiology 2006; 163(12): 1149-1156.

[14] Jones O, Maillardet R, Robinson A. Introduction to Scientific Programming and Simulation

Using R. Chapman & Hall CRC: London, 2009, p. 150-246.

[15] Weitzen S, Lapane KL, Toledano AY, Hume AL, Mor V. Principles for modeling propensity scores in medical research: a systematic literature review. Pharmacoepidemiology & Drug Safety 2004; 13(12): 841-853.