4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의...

66
패널자료분석(1): 개념적 이해 의료관리학 계량분석 방법론 2015. 9. 22. 서울대학교 의과대학 의료관리학교실 도영경

Upload: others

Post on 09-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널자료분석(1):개념적 이해

의료관리학 계량분석 방법론

2015. 9. 22.

서울대학교 의과대학 의료관리학교실

도 영 경

Page 2: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

국내 패널 조사

• 고령화연구패널 KLoSA• 국민노후보장패널 KReIS• 여성가족패널조사소개 KLoWF• 장애인고용패널• 청년패널 YouthPanel• 한국교육고용패널 KEEP• 한국노동패널 KLIPS• 한국복지패널 KoWePS• 한국아동패널 PSKC• 한국의료패널 KHP• 한국청소년패널조사 KYPS

Page 3: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Panel Study of Income Dynamics (PSID)

https://psidonline.isr.umich.edu/

Page 4: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Health and Retirement Study (HRS)

http://hrsonline.isr.umich.edu/

Page 5: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

National Longitudinal Study of Adolescentto Adult Health (Add Health)

http://www.cpc.unc.edu/projects/addhealth

Page 6: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

TERMINOLOGY & NOTATION

Page 7: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Terminology (1)

• Panel data

• Cross-sectional data

• Repeated cross-sectional data

• Time-series data

• Longitudinal data

• Cohort data

Page 8: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Time-series data:One unit, multiple time points

Tuberculosis incidence US 1953-2009 CC BY-SA 3.0

Source: http://en.wikipedia.org/wiki/Time_series

Page 9: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

“Unit”?

• 관찰의 단위

– 반드시 개인인 필요 없음: 예) 학교, 사업체

• “Group”이 같은 의미로 쓰이기도 함

– 사람들이 모여 있다는 의미의 group이 아님

– 개인 단위에서 반복 관찰되면 이 경우에는개인이 곧 group이 됨

Page 10: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Cross-sectional data (Wave 1 of what would later become panel data):One time point, multiple units

PID Wave ED d/tACSCs

MedicationAdherence

Fem Age SEP USC HT DM Chol. PHI

1 1 1 80 1 60 2 1 1 1 0 1

2 1 0 90 0 55 4 1 0 1 1 0

3 1 1 70 1 46 4 1 1 0 1 0

4 1 1 20 0 52 3 0 0 1 0 0

5 1 1 40 1 30 4 0 1 0 0 1

6 1 0 50 1 70 1 1 1 1 0 0

7 1 1 30 0 66 1 0 0 1 0 1

8 1 0 90 0 54 2 1 0 0 1 0

9 1 1 70 0 42 4 0 1 1 0 1

10 1 1 40 1 69 3 1 1 1 1 0

ACSCs: Ambulatory Care Sensitive Conditions; SEP: Socioeconomic position; USC: Usual Source of Care; PHI:Private Health Insurance

Page 11: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Suppose the same individuals (“units”) weresurveyed a year after Wave 1

PID Wave ED d/tACSCs

MedicationAdherence

Fem Age Edu USC HT DM Chol. PHI

1 2 1 70 1 61 2 1 1 1 1 1

2 2 1 95 0 56 4 0 0 1 1 0

3 2 - - - - - - - - - -

4 2 0 50 0 53 3 1 0 1 0 1

5 2 1 30 1 31 4 0 1 0 0 Missing

6 2 0 10 1 71 1 1 1 1 0 1

7 2 - - - - - - - - - -

8 2 1 80 0 55 2 1 0 0 1 0

9 2 0 70 0 43 4 0 0 1 0 1

10 2 1 50 1 70 3 1 1 1 1 1

Page 12: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Panel data:Multiple time points, same multiple units

PID Wave ED d/tACSCs

MedicationAdherence

Fem Age Edu USC HT DM Chol. PHI

1 1 1 80 1 60 2 1 1 1 0 1

1 2 1 70 1 61 2 1 1 1 1 1

2 1 0 90 0 55 4 1 0 1 1 0

2 2 1 95 0 56 4 0 0 1 1 0

3 1 1 70 1 46 4 1 1 0 1 0

3 2 - - - - - - - - - -

4 1 1 20 0 52 3 0 0 1 0 0

4 2 0 50 0 53 3 1 0 1 0 1

5 1 1 40 1 30 4 0 1 0 0 1

5 2 1 30 1 31 4 0 1 0 0 Missing

Page 13: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Repeated cross-sectional data:Multiple time points, multiple units that are NOT the same over time

• 국민건강영양조사

• 청소년건강행태온라인조사

• 지역사회건강조사

Page 14: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널 자료와 횡단 자료

• Panel data는 언제든지 single cross-sectional data또는 repeated cross-sectional data로 쓸 수 있음

– 자료는 panel data이나 panel data analysis 방법론을적용하지 않는 경우

• Repeated cross-sectional data는 각 조사 시점에서다른 unit을 대상으로 조사되므로, 그 unit 수준의panel data로는 쓸 수 없음

Page 15: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Terminology (2)

• Balanced (N×T) vs. unbalanced

• Attrition

• Retention, maintenance

Page 16: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Terminology (3)

• Observable vs. unobserved

• Time-invariant vs. time-varying

• Error component model

• Pooled OLS (Ordinary Least Squares)

• Fixed-effects, random-effects, mixed-effects

• Random-intercepts, random-coefficients

• Multilevel analysis

Page 17: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널 자료 분석 시 부딪히는 실존적인(?) 구분:보이는 것과 보이지 않는 것, 변화하는 것과 변화하지 않는 것

Time-varying Time-invariant

Observable Income,Self-reported health,Number of teeth,Number of computers

Place of birth,SEP at year 16,Gender,Education (adults),

Unobserved Cognitive function,True health status,Hard-working

Genetic traits,“Ability”,Attitudes

Notes. Classification is not always clear-cut but rather context-specific; for example, education and attitudesmay change over time. Also, the distinction between observable vs. unobserved depends on specific data.Observable typically means “observable to the researcher” using particular data.

Page 18: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Unobserved (관측되지 않는/않은)

• 누구에게?: 연구자에게 (to the investigator)

• 이유

– 원래 측정하기가 기술적으로 어려워 자료 수집단계에서 포함되지 않아서

– 측정하려면 할 수는 있었으나 어떤 이유에서든현재 사용하려는 이차자료에 포함되어 있지않아서

Page 19: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Notation• OLS for cross-sectional data in wave 1

EDi = βUSCi + βXi + εi , where i=1, …, N

• OLS for cross-sectional data in wave 2EDi = βUSCi + βXi + εi , where i=1, …, N

• Pooled OLS for repeated cross-sectional dataEDi = βUSCi + βXi + εi , where i=1, …, N, N+1, …, 2N

• Panel data model (“error component model”)EDit = βUSCit + βXit + εit , where i=1, …, N, & t=1, 2

EDit = βUSCit + βXit + i + νit , where i=1, …, N, & t=1, 2

(it가 아님에 주목; i 대신 μi 를 쓰기도 함)

Page 20: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널자료의 장단점

Page 21: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Attractive features of panel data

1. Panel data can be used to deal withheterogeneity in the micro unit.

2. Panel data create more variability.

3. Panel data can be used to examine issuesthat cannot be studied using time series orcross-sectional data alone.

4. Panel data allow better analysis of dynamicadjustment.

Kennedy 5th Ed.

Page 22: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널 자료의 주요 장점

• Causal inference

– By controlling for unobserved heterogeneity

– 주로 고정효과(fixed-effects: FE) 모형

• More data

– More information, more variability, more efficiency

– 일반적, 특히 임의효과(random-effects: RE) 모형

• Better able to study dynamics

– Changes over time: Lead/lag and time to event

Page 23: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널 자료의 단점

자료 수집 측면

• Attrition

• Recall bias

• Fatigue

• Changing instruments

분석 측면

• More efforts to createusable datasets than forcross-sectional data– Consistency in variable names

and response categories

• Deal with attrition

• More methods knowledgerequired

Page 24: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

REGRESSION & PANEL DATA

Page 25: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

생활의 발견: 패널 자료 분석

• 직장 동료 A와 B의 오후 6시 대화A. 오늘 저녁은 제가 쏘겠습니다.

B. 무슨 좋은 일 있어요?

• 환자 병력 청취를 하는 의사의 질문– 유발요인(precipitating factor)

– 악화요인(aggravating factor)

– 완화요인(relieving factor)

Page 26: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (1)

• 회귀분석의 궁극적인 관심사– 변수 x가 변수 y에 “독립적인” 영향을 미치는가,

미친다면 그 크기는?

– 예: 만성질환자의 상용치료원 보유가 응급실방문을 줄이는가? 얼마나?

• “독립적인” 영향 = “인과적” 영향

• 정책적 관심과 직결– x를 변화시킨다면 y가 개선될 수 있을 것인가

– 예: (정책적 노력으로) 상용치료원 보유가 높아지면불필요한 응급실 방문이 줄어들 것인가?

Page 27: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (2):Simple regression

• ED = βUSC + ε– ED: 응급실 방문, USC: 상용치료원, ε: the error term

– 독립적/인과적 영향 추정의 핵심 조건은 Cov(USC, ε) = 0• USC와 ε는 직교(orthogonal): USC ⊥ ε

– 수학의 정석 용어를 쓰면, USC와 ε 벡터의 내적이 0

• 쉽게 말하자면, USC 외에 ED를 설명하는 다른 중요한 요인은남아 있지 않음

Page 28: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (3):Simple regression and RCT

• ED = βUSC + ε– 반복: 인과적 영향 추정의 핵심 조건은 Cov(USC, ε) = 0

– 이 조건은 잘 설계된 Randomized Controlled Trial (RCT)의경우 달성

• RCT: 처치군 USC(+), 대조군 USC(-)로 배정 후 ED 관찰

• USC(+)와 USC(-) 사이 t-test 등을 이용하여 ED를 비교하는것만으로도 인과적 추론 가능

– 위의 simple regression에서 β의 통계적 유의성 검증은 본질상 t-test

• 즉, RCT의 목적은 (regression model 관점에서 보자면) USC와 ε가완전히 독립적이도록 연구설계 단계에서 그러한 조건을 만드는것임

Page 29: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (4):Issue with simple regression

• RCT를 항상 수행할 수는 없음(비용, 시간, 윤리)– USC와 ED 정보가 포함된 기존 비실험자료(nonexperimental data)를

찾아 사용(예: 의료패널, 국민건강영양조사)

• ED = βUSC + ε– 이 경우 대부분 Cov(USC, ε) = 0을 만족하기 어려움

– USC(+)와 USC(-) 두 군은 여러 요인 면에서 다를 것임(비교:RCT에서는 USC 보유 외 다른 요인 면에서 다르지 않음)

• USC(+) 군과 USC(-) 군 간 인구학적, 사회경제적 차이

• USC(+) 군이 USC(-) 군에 비해 만성질환으로 의료이용 risk가높아 스스로 USC를 보유하려고 하였을 가능성(selection)

• USC(+) 군은 USC(-) 군에 비해 원래 의료서비스 애착(affinity)이높을 가능성

• USC(+) 군은 USC(-) 군에 비해 원래 의료에 대한 literacy가 높은사람이어서 ED 방문을 덜 할 가능성

Page 30: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (5):Simple regression to Multiple regression

• 이런 요인을 교란변수(confounder)라 함

• 일부 요인들에 대한 정보가 다행히 해당 자료 내에존재한다면 중회귀모형(multiple regression model)에서공변인(covariate)으로 포함하고 그 요인들을통제(control)/보정(adjust)하였다고 말함

• ED = βUSC // 관심 설명변수

+ βAge + βFem + βSEP // 인구, 사회경제적

+ βHT + βDM + βChol // 만성질환

+ ε

Page 31: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (6):CIA in Multiple regression

• ED = βUSC // 관심 설명변수

+ βAge + βFem + βSEP // 인구, 사회경제적

+ βHT + βDM + βChol // 만성질환

+ ε• USC의 인과적 효과를 추정하기 위해 필요한 가정은 여전히

Cov(USC, ε) = 0임• 좀더 정확하게 표현한다면 Cov(USC, ε | X) = 0, 여기서 X는 위

중회귀모형에 포함된 모든 공변인의 집합(set) 또는 벡터 X(Age, …, Chol)• 이 가정을 조건부 독립가정(Conditional Independence Assumption,

CIA)이라 부름• X에 포함된 모든 공변인이 같다(all else being equal)고 조건화하였을

때(conditional) USC와 ε은 독립(independence)이라는 가정임• 인과적 추론을 위한 중회귀분석의 목표는, 중요한 모든 교란요인을 이

X 안으로 포함, 더 이상 ε에 중요한 교란요인이 남아 있지 않도록함으로써 CIA, 즉 Cov(USC, ε | X) = 0를 달성하는 것으로 볼 수 있음

Page 32: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (7):Omitted/unobserved variables in multiple regression

• ED = βUSC // 관심 설명변수

+ βAge + βFem + βSEP // 인구, 사회경제적

+ βHT + βDM + βChol // 만성질환

+ ε

• 이 multiple regression의 문제점– 의료서비스에 대한 애착(affinity), 의료에 대한 literacy, 기타 다른

요인들이 USC보유 여부와 ED 이용에 중요한 영향을 줄 것으로짐작되나 현 자료에서는 연구자에게 관측되지 않고(unobserved)따라서 모형에 누락되어 있음(omitted variable bias)

– 따라서 이들 관측되지 않은 요인들은 ε안에 포함되어 있을 것임

– 그렇다면 여전히 Cov(USC, ε | X) ≠ 0

– 즉, β를 통해 USC가 ED에 미치는 인과적 영향을 추정할 수는 없음

Page 33: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

USC

X

ED

Unobserved

β

(Affinity, Literacy, OTH)

Observable and unobserved

Page 34: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (8):Imagine including unobserved variables in MR

• ED = βUSC // 관심 설명변수

+ βAge + βFem + βSEP // 인구, 사회경제적

+ βHT + βDM + βChol // 만성질환

+ βAffinity + βLit + βOTH // unobserved

+ ε(OTH: all other important but unobserved variables)

• 목표– 마침내 Cov(USC, ε | X) = 0 도달!

– 이 가정이 충족된다면 βUSC를 USC가 ED에 미치는 인과적영향으로 추론할 수 있을 것임

Page 35: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (9):From cross-sectional data analysis to panel data analysis

• 패널 자료 분석(고정효과 모형)– 실제로는, 관측되지 않는(unobserved) 교란요인은 변수가

없으므로 직접 모형에 포함할 수 없음

– 대신, 시간에 따라 변화하지 않는(time-invariant) 개인의특성(i , 고정효과 fixed-effects ) 속에 일괄 포함하여 통제함

• 패널 자료 분석 모형EDit = βUSCit // 관심 설명변수

+ βAgeit + βFemi + βSEPit // 인구, 사회경제적

+ βHTit + βDMit + βCholit // 만성질환

+ i // unobserved, time-invariant

+ νit

• Cov(USCit , νit | X, i) = 0 달성

Page 36: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

중요하지만 관측되지 않는 고정효과, i

• 민간의료보험 보유가 의료이용에 미치는 효과HCUit = βPHIit + βXit + i + νit

• 시험 공부 시간이 시험 성적에 미치는 효과Scoreit = βStudyHourit + βXit + i + νit

• 실업이 정신건강에 미치는 효과MHit = βUnempit + βXit + i + νit

• 청소년 아르바이트가 흡연 시작에 미치는 영향Smkit = βParttimeit + βXit + i + νit

Page 37: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Regression model (10):Key components of regression model for panel data analysis

• yit = βxit // Explanatory variable of interest (USC)

+ βTVit // Observable, time-varying v. (DM/HT/Chol)

+ βTIi // Observable, time-invariant v. (Female)

+ i // Unobserved, time-invariant v. (Affinity, Literacy, OTH)

+ εit // Unobserved, time-varying v. (omitted risk) and noise

• 고정효과(FE) 모형에 의한 패널 자료 분석– Time-invariant 요인은 observable (TI)이건 unobserved

()이건 그 효과 추정이 관심사가 아님, 단지 통제해야할 교란요인임

– Time-varying (x와 TV)의 coefficient만 추정

Page 38: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

INTUITIVE EXAMPLES OF PANELDATA ANALYSIS (FIXED-EFFECTS)

Page 39: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Examples

• Ex1. Does number of hours studied have apositive effect on exam score?

• Ex2. Does higher income lead to greaterhappiness?

• Ex3. Does snowfall increase road traffic injuryrates?

Page 40: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Ex1. Does number of hours studied have apositive effect on exam score?

• You have acquired cross-sectional data on 4 students(midterm score, daily study hours before midterm,and other family and individual characteristics)

• Model: Score = βStudyHour + βX + ε– X includes gender, family affluence, parents’ education,

and other important confounders that are available in thedata used

Page 41: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Study hours

Score

• 4 observations• OLS (ordinary least squares)regression was conducted,adjusting for observableconfounders• βStudyHour < 0, suggesting thatlonger study hours mayworsen exam score• What might have gonewrong?

Single cross-sectional data analysis

Model: Score = βStudyHour + βX + ε

Page 42: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Additional data acquired, and pooled OLS

• Two months later, you acquired additional data on thesame 4 students for their final exam score, daily studyhours before final, and other family and individualcharacteristics (that were asked for midterm)

• 8 (= 4×2) observations, which are treated as if theywere from 8 different students

• Model: Score = βStudyHour + βX + βFinal + ε– X includes gender, family affluence, parents’ education, and

other important confounders that are available in the data used

– Final is a dummy (=1 if final, 0 midterm)

Page 43: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

• 8 observations• βStudyHour < 0

Repeated cross-sectional data analysis:

“Pooled OLS” analysis

Study hours

Score

Score = βStudyHour + βX + βFinal +ε

Page 44: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Panel data analysis learned

• Model: Scoreit = βStudyHourit + βXit + βFinalt + i + νit

– X includes gender, family affluence, parents’ education,and other important confounders that are available in thedata used

– Final is a dummy (=1 if final, 0 midterm)

– i : unobserved, time-invariant fixed-effects

Page 45: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

F

F

F

Panel data analysis:“Fixed-effects (within)” estimator

Study hours

F

M

M

M

Score

M

M=midterm, F=final

• 8 observations (2observations each nestedwithin 4 students)

• Now it becomes evidentthat, for a given student(“within” estimator), studyhours are positivelyassociated with examscores

• βStudyHour > 0

Student 1

Student 2

Student 3

Student 4

Scoreit = βStudyHourit + βXit + βFinalt + i + νit

Page 46: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

F

F

F

어떻게 가능?:Unobserved, time-invariant fixed-effects (i )를 통제

Study hours

F

M

M

M

Score

M

• Better-performing studentsappear to spend fewer hours onpreparing for exams, whilepoorer-performing studentsspend more hours

• In other words, study hours arenegatively associated withunobserved, time-invariantfactors (“fixed-effects”)influencing their overallacademic performance

• Cov(StudyHours, i) <0

1

2

3

4

Scoreit = βStudyHourit + βXit + βFinalt + i + νit

Page 47: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Compare and contrast:

Panel FE vs Pooled OLS

F

F

F

Study hours

F

M

M

M

Score

M

Scoreit = βStudyHourit + βXit + βFinalt + i + νit

Cov(StudyHourit, i) < 0, Cov(StudyHourit, νit) = 0

1

2

3

4

Study hours

Score

Score = βStudyHour + βX + βFinal + εCov(StudyHour, ε) < 0

Page 48: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

F

F

F

Intuition behind FE mechanics

Study hours

F

M

M

M

Score

M

itiitit vaXY ∆+∆+∆=∆ β

∆Study hours

∆Score

What’s going to happen to ∆alpha?

itiitit vaXY ++= β

Page 49: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

FE mechanic: two ways• First-difference (FD)

• Deviation from the mean (DfM)

StudyHour

B

C

D

A

Score

FD may be preferred in the presence of serial correlation

FD requires balanced panel

Page 50: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Q: Coefficient estimate on Female?

∆Female

∆ScoreImplication: Panel FE estimation does NOTgive coefficients on time-invariant observedvariables, such as gender or race, which maybe of interest, particularly for inequalityresearch. FE controls for individualheterogeneity but does not study it.

itiiit vaXFemaleScore it ∆+∆+∆+∆=∆ ββ

Page 51: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Q: What if each student spent exactly the same hoursfor midterm and final exams (that is, ∆StudyHourit =0)?

itiitit vaXStudyHoursScore it ∆+∆+∆+∆=∆ ββ

∆StudyHour

∆ScoreImplication: Better to have greater within-group variation

Page 52: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Q: Coefficient estimate on Age? (∆Age = k)

itiitit vaXAgeScore it ∆+∆+∆+∆=∆ ββ

∆Age

∆ScoreImplication: All individuals age the sameamount between waves. Even if within-group variation exists (1 if annual panel), theeffect cannot be distinguished from theperiod (year) effect, if any.

Page 53: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Q. What if Final was much easier than Midterm?

Study hours

M

M

M

Score

• ∆Finalt = 1 for all

• Period effects– Same as dummies for survey

waves

M

M=midterm, F=final

FF

F

F

itiit vaFinalXScore tit ∆+∆+∆+∆=∆ ββ

Page 54: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Ex2. Does higher income lead to greater happiness?

Income

B

C

D

A

Happiness

• Pooled OLS: biased due tothe omitted variable i

• i could contain reportinghabit and otherunobserved individualheterogeneity

• Correcting for i revealsthat money buys happiness

Happinessit = βIncomeit + βXit + i + νit

Page 55: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Ex3a. Does snowfall affect road traffic injury rates?

snowfall

C

B

A

D

RTI rate

RTIct = βSnowfallct + βXct + c + νct, where c denotes city

• Pooled OLS: upward bias dueto the omitted variable i

• Cities with heavier snowfallalready had higher RTI rates

• Correcting for i in panel FEestimation reveals thatsnowfall may not affect RTIinjury rates

Page 56: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Ex3b. Does snowfall affect road traffic injury rates?

snowfall

C

B

A

D

RTI rate

RTIct = βSnowfallct + βXct + c + νct, where c denotes city

• Pooled OLS: downward("morenegative") bias due to theomitted variable i

• Cities with heavier snowfallalready had lower RTI rates

• Correcting for i in panel FEestimation reveals thatsnowfall may not affect RTIinjury rates

Page 57: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Summary from examples

• The effect of x (snowfall, income) on y (RTI rates,happiness) can be estimated by controlling for fixed-effects when examined within groups (city,individual).

• “First difference” and “deviations from means” aremethods to do that by sweeping out unobserved,time-invariant individual heterogeneity, i.

• In a sense, we can regard both methods as using partof each own as controls.– for FD, own value from t-1

– for DfM (FE), own mean within subject

Page 58: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

CONDUCTING PANEL DATAANALYSIS

Page 59: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Panel data analysis ≠ FE

이 강의에서 지금까지는고정효과(fixed-effects) 모형만

소개하였으나, 패널 자료는 다양한방법으로 활용할 수 있다

Page 60: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널 자료 활용 (1): FE, RE, OLS

• 패널 자료 분석의 두 가지 주요 추정 방법

– Fixed-effects (고정효과)

– Random-effects (임의효과)

• Repeated cross-sectional data로 활용할 수 있음

– Pooled OLS

Page 61: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

패널 자료 활용 (2)

• 다른 활용법1. Lead and lag: cross-sectional data에서 역인과성 명시적 배제

• Regression of Healtht+1 on Xt

예) Baseline 특성(Xt )이 F/U 건강상태(Healtht+1)를 설명?

• Regression of Healtht on SEPt-1 and Xt예) 성인기 특성(Xt)을 통제 후 아동기 SEP(SEPt-1)가 현재 건강(Healtht )을 설명?

2. Discrete time hazard model: time to wave of event를 모델링• Survival analysis : time to event = DTH : time to wave of event

3. Dynamic

• 연구 사례에서, Dynamic 외 간단한 예를 몇 가지 소개

Page 62: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

FE, RE, OLS:i 에 대한 가정/테스트 결과의 차이

Error component model

yit = βXit + εit

yit = βXit + i + νit

YESNO

NO YES

Var(i) = 0?(B-P)

Cov(Xit, i ) = 0?(Hausman test)

Page 63: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Group-effects i가 존재?

• Statistical test: Breusch-Pagan test• H0: Var(i) = 0; If not rejected, then Pooled OLS

• H0 rejected, then RE/FE

• FE 추정 후 제시되는 Bottom F-test도 비슷한 기능 수행• H0: All i = 0; If not rejected, Pooled OLS

• H0 rejected: Pooled OLS is not okay

• H0 기각 안되면 group-effects i가 존재하지 않음– νit = εit : 즉 , 개별 observation들의 unit 내 동질성이 없다

– 패널 자료는 repeated cross-sectional data와 다를 바 없다

– 따라서 분석도 pooled OLS로도 충분하다

• 이런 경우는 흔치 않다

Page 64: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Cov(X, i ) = 0?:Specification test: Hausman test (H0: FE=RE)

Fixed-effects

• 앞에서 든 많은 예에서처럼Cov(X, i) ≠ 0라면 추정치는omitted variable bias

• i 를 각 unit에 “고정”된 효과로보고 FE 모형에서 통제함

• 모든 time-invariant 변수(성,인종 등)는 i와 함께 날아가기(swept out) 때문에 해당 변수효과 추정 불가

• Use FE if Hausman rejects H0

Random-effects

• Cov(X, i) = 0라면 추정치는omitted variable bias 위험 없음

• i 가 각 unit별로 다르기는 하나고정된 효과가 아니라임의적인(random) 분포를따른다고 가정

• time-invariant 변수의 계수 추정가능

• When Hausman fails to reject H0,RE preferred to FE on theefficiency ground

Page 65: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

Summary of specification tests

R=Rejected, NR=Not rejected

Test H0 Test statistic(Df)

Does tell Does not tell

Bottom F-test Groupdummies arenot jointlysignificant.

F(Number ofgroups-1, No. ofobs- No. ofgroups-k)

R: FE preferred toOLS withoutgroup dummies

NR: OLS okay.

R: Whether FE ispreferred to RE

B-P test Variance ofgroup errorcomponent (αi)is zero.

Chi2(1) R: RE preferredto OLS

NR: OLS okay.

R: Whether RE ispreferred to FE

Hausman test Two sets ofFE/RE coeffare notdifferent.

Chi2(The numberof commoncoefficients beingcompared)

R: FE preferred toRE

NR: RE preferredto FE

NR: Restrictiveassumptions ofRE are allsatisfied.

Page 66: 4 패널자료 분석(1) 강의 후 수정snu-dhpm.ac.kr/pds/files/4 패널자료 분석(1)_강의 후 수정.pdf• 패널자료분석(고정효과모형) – 실제로는, 관측되지않는(unobserved)

다음 시간까지 읽어 올 논문

• Do YK, Finkelstein EA. Youth employment, income,and smoking initiation: results from Korean paneldata. Journal of Adolescent Health. 2012 Aug21;51:226–32.

• Winkelmann, L., & Winkelmann, R. (1998). Why are theunemployed so unhappy? Evidence from panel data.Economica, 65, 1 – 15.

• Kim MH, Do YK. Effect of husbands’ employment statuson their wives' subjective well-being in Korea. Journalof Marriage and Family. 2013 Apr;75:288–299.