기상및대기오염의건강영향 평가를위한역학연구방법론...
TRANSCRIPT
기상 및 대기오염의 건강영향평가를 위한 역학연구 방법론
및 분석 예
김호
서울대학교 보건대학원
Contents• Methods
– GAM
– Case-crossover Design
• Examples
• On-going projects
– 뇌수막염
– 기상보건지수
• Discussion (기후변화와 건강)
Two approaches to see the relationship between air pollution level and health outcome
1) Population based study Y: # events (daily death counts or # hospital admissions)
X : air pollution level
Estimates pop'n risk (% change in daily death counts corresponding to the change in air pollution)
2) Individual based study Y : =1 if some event occur, 0 otherwise
X : air pollution level
Estimates individual risk (% change in individual probability of event or odds ratio corresponding to the change in air pollution)
Nonpapametric Smoothing (1)Smoothing
• Consider X Y plot.
• Draw a regression line which requires no parametric assumptions
• The regression line is not linear
• The regression line is totally dependent on the data
Two components of smoothing
• Kernal function : How to calculate weighted mean
• Bandwidth : width of the window (span), determines the smoothness of the regression line; wider > smoother
Nonpapametric Smoothing (2)
Uniform Kernel
Nonpapametric Smoothing (3)
Triangular Kernel
Nonpapametric Smoothing (4)
Normal Kernel
Nonpapametric Smoothing (5)
Default Lowess line : Span=0.5
Nonpapametric Smoothing (6)
Lowess line : Span=0.2
Nonpapametric Smoothing (7)
Lowess line : Span=0.1
S plus 예제 프로그램과 결과 1
try_gam(Y~lo(DATE,.2)+lo(TEMP)+lo(HUMD)+TSP+WEEK+AR, data=final, family=robust(poisson), na=na.omit) summary.glm(try)$coefficients
Value Std. Error t value
(Intercept) 1.990476649 0.0477555899 41.680495
lo(DATE, 0.2) 2.819368582 0.4169018605 6.762667
lo(TEMP) -2.870006999 0.4635374728 -6.191532
lo(HUMD) -0.638176031 0.4511556565 -1.414536
TSP 0.001930825 0.0004561078 4.233265
W1 -0.551036940 0.0615092904 -8.958597
W2 0.364498448 0.0489565913 7.445340
W3 0.052309458 0.0521203637 1.003628
W4 0.070266654 0.0519487457 1.352615
W5 0.068116062 0.0521106766 1.307142
W6 0.103575218 0.0515499095 2.009222
AR 0.103565218 0.0314497095 1.039222
* Some Issues of GAM (or Time-series) analysis
LAG
Multicolinearity
Nonlinearity
Interaction
Subgroup analysis (질병별, 지역별, 나이별)
Autocorrelation
CaseCase--Crossover AnalysisCrossover Analysis• Popular tool for estimating the effects of
acute outcomes by environmental exposures.
• Only cases are sampled, estimates are based on within-subject comparisons of exposures at failure times vs. control times
• Controls for time-invariant confounders by design
• Problems: selection bias
confounding by time-varying factors
Time trends in exposure of interest -> bias
eventcontrolRetrospective
case-crossover
event control Prospective
case-crossover
eventcontrol controlcontrolBi-directional
case-crossover
eventcontrol controlcontrolcontrol control
Bi-directional case-crossover with multiple controls
Reference (1)Reference (1)• Maclure(1992) Am J Epi 133:144-153
The case-crossover design : a method for studying transient effects on the risk of acute events
• Mittleman, Maclure, Bobinson(1995) Am J Epi 142:91-98
Control sampling strategies for case-crossover studies :
an assessment of relative efficiency
• Lee, Kim, Schwartz(2000) Environ Health Persp 108:1107-1115
Bidirectional Case-crossover studies of air pollution:
Bias from skewed and incomplete waves
• Bateson and Schwartz(2001) Epidemiology 12:654-661
Selection bias and confounding in case-crossover analyses of environmental time-series data
Reference (2)Reference (2)• Navidi & Weinhandl(2002) Epidemiology 13:100-105
Risk set sampling for case-crossover design
• Lee, Schwartz(1999) Environ Health Persp 170:633-636
Reanalysis of the effects of air pollution on daily mortality in Seoul, Korea: A case-crossover design
• Kwon, Cho, Nyberg, Pershagen(2001)
Epidemiology 12:413-419
Effects of ambient air pollution on daily mortality in a cohort of patients with congestive heart failure
Examples
PEDIATRICS 2003; 111(2) :284-290
Stroke 2002;33:2165-2169
Bidirectional CaseBidirectional Case--crossover Studies of Air Pollution:crossover Studies of Air Pollution:Bias from Skewed and Incomplete WavesBias from Skewed and Incomplete Waves
Lee, Kim, Schwartz (Environ Health Persp, 2000) 108:1107-1115
• Sampling selection strategy Unidirectional(retrospective,prospective),Bidirectional
num.of controls(1,2)
• Exposure pattern Left, right skewed
Cup of Cap shape
• Incompleteness
• Bidirectional is better than unidirectional.
• Bidirectional fails with incomplete exposure.
On-going Projects
Drinking Water Turbidity and Aseptic Meningitis in Children in Urban
Communities in Korea:Bi-directional Case-Crossover Analysis
Ho Kim1, Hae-Kwan Cheong2, Sue Kyung Park3, Geun-Ryang Bae2, Ok-Jin Kim1
School of Public Health, Seoul National University, Korea1; Dongguk University College of Medicine, Korea2; Konkuk University College of Medicine, Korea3
This study was supported by Korea Research Foundation Grant (KRF-2001-042-F00060). Ho Kim was also partially supported by Korea Institute of Environment Science and Technology (Grant # 2002-02310-0002-0)
Previous studies of water quality and health
• P Beaudeau et al. “A time series study of anti-diarrheal drug sales and tap-water quality” Int J. Environ. Health Res 1999;9:293
• RD Morris et al. “Temporal variation in drinking water turbidity and diagnosed gastroenteritis in Milwaukee” Amer J. Public Health 1996; 86: 237
• J Schwartz, R Levin, K Hodge “Drinking water turbidity and Pediatric hospital use for Gastrointestinal Illness in Philadelphia”Epidemiology 1997;8:615-620
• J Schwartz, R Levin “Drinking water turbidity and health”Epidemiology 1999;10:86-90
• J Schwartz, R Levin, R Goldstein “Drinking water turbidity and gastrointestinal illness in the elderly of Philadelphia” J EpidemiolCommunity Health 2000;54:45-51
Onset time
5 % 5 %5 %
Early 20 % Water to person ?
Late 70 % : Person to person ?
Methods
Time series analysis
• Design of previous studies• Y : # events (health outcomes) in a day• Regress daily turbidity level on Y after
controlling for possible confounders• Problems using time series analysis
– Heavy seasonal pattern, i.e. most cases occur in the summer and no cases in the winter
– Distribution of residual is far from Poisson
Case-crossover design
• Compares the exposure to certain agent during the interval when the event does not occur (control period), to the exposure during the interval when the event occurs (hazard period)
• Several methods to select control periods• When there is time trend in exposure (like air
pollution) bi-directional case-crossover design is widely used
Bi-directional case-crossover design • For each patients, an admission day (case day)
is matched with two control days (35, 42 days apart) before and two control days after the case day.
• Control days should be farther apart from the admission day than the possible lag period.
• Case-crossover analysis controls time-independent (individual) risk factors such as age and sex.
• Covariates: times trends (linear, and trigonometric functions), pH, rain fall (cumulative for seven days), temperature, treated water turbidity
• Bidirectional case-crossover design was applied for all subjects
• Bidirectional case-crossover design was applied for subsets (stratified by area=(P,G), year=(2001,2002), onset time=(early 20%, later 70%), age=(pre-schooler, students) )
• Bidirectional case-crossover design with interactions with turbidity and other risk factors was applied (Interaction Model)
Subjects and Methods• Study Period :2001/1/1 ~ 2002/8/31• Patients
– Patients under 15 years old who were diagnosed by aseptic meningitis (at 4 Hospitals in 2 urban areas, 1 from G and 1 from P covers 95% of local pts)
• Water quality (5 plants of Korea Water Resources Corporation)– Water turbidity (pre-treated, treated), pH measured 4
times/day -> daily mean • Weather data (Korea Meteorological Administration)
- Temperature and rainfall measured at Pohangmeteorological observatory
Cases N=669
2001 2002
0
20
40
60
80
100
120
140
160
180
200
3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8
No.
of c
ases
Raw water turbidity
0
20
40
60
80
100
Jan0
1
Feb0
1
Mar
01
Apr0
1
May
01
Jun0
1
Jul0
1
Aug0
1
Sep0
1
Oct
01
Nov
01
Dec
01
Jan0
2
Feb0
2
Mar
02
Apr0
2
May
02
Jun0
2
Jul0
2
Aug0
2
Date
Turb
idity
(m
g/l)
Tap-dongBomunBukgukTap-dong+BomunYugangYangdeok
P1P3P2P1+P2G1G2
Treated water turbidity
0.00
0.20
0.40
0.60
0.80
1.00
Jan0
1
Feb0
1
Mar
01
Apr
01
May
01
Jun0
1
Jul0
1
Aug
01
Sep0
1
Oct
01
Nov
01
Dec
01
Jan0
2
Feb0
2
Mar
02
Apr
02
May
02
Jun0
2
Jul0
2
Aug
02
Date
Turb
idity
(m
g/l)
Tap-dongBomunBulgukTap-dong + BomunYugangYangdeok
P1P3P2P1+P2G1G2
Summary Statistics of the Patients
PohangGyeongju
Later 70%
Early 20%
>7
4~6
1~3
0
403 (60.24)303 (61.34)100 (57.14)266 (39.76)191 (38.66)75 (42.86)Region
460 (77.57)336 (76.89)124 (79.49)
133 (22.43)101 (23.11)32 (20.51)Onset
374 (55.90)261 (52.83)113 (64.57)
181 (27.05)145 (29.35)36 (20.57)
86 (12.86)72 (14.57)14 (8.00)
28 (4.19)16 (3.24)12 (6.86)Age669 (100.00)494 (73.84)175 (26.16)Total
(N / %)20022001TotalYear
Summary Statistics of Weather and Water Quality Index (Jan. 2001~ Aug. 2002)
0.300.250.210.060.26Treated Water
4.482.851.995.474.11Raw WaterTurbidity (mg/l)
7.187.097.000.177.11pH
Water Quality index
0.000.000.0012.513.38Rainfall
22.8815.957.728.9215.15Temperature (℃)
Weather
75%Median25%Percentile
SDMeanIndex
For all subjects
Maximum OR of 1.99 (1.55-2.54) with lag of 18 day; OR for 0.3 NTU increment of treated water turbidity
0
1
2
3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
LAG
OR
5 10 15 20 25 300100
102
104
Temperature (°F)
Stratified Model
포항 전체 환자
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9101112131415161718192021222324252627282930
LAG
OR
경주 전체 환자
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9101112131415161718192021222324252627282930
LAG
OR
2001년도 환자
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9101112131415161718192021222324252627282930
LAG
OR
2002년도 환자
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9101112131415161718192021222324252627282930
LAG
OR
AREA=G
AREA=P
Year=2001
Year=2002
초기20% 환자
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
LAG
OR
70% 환자
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
LAG
OR
전학령기 환자
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
LAG
OR
학령기 환자
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
LAG
OR
Early 20%
Later 70%
Pre-School
Students
Conclusion and discussion
• Association between drinking water turbidity and aseptic meningitis in children in urban communities in Korea
• OR = 1.99 (1.55-2.54) with lag of 18 day associated with 0.3 NTU increment of purified water turbidity
• Stratified analysis shows different lag patterns for different area, year, onset time, and age.
• Interaction models do not show different lag patterns
• Regional effect for late lag period, and onset time effect for early lag period were found in the interaction model
• Periodic and age effects were not found in the interaction model
• LM Neas, J Schwartz, D Dockery “A Case-Crossover Analysis of Air Pollution and Mortality in Philadelphia” Environ Health Perspect1999; 107:629-631
• Y Hong, J Rha, J Lee, E Ha, H Kwon, H Kim “Ischemic Stroke Associated with Decrease in Temperature” Epidemiology 2003; 14(4): 473-478
• T Bateson, J Schwartz “Selection Bias and Confounding in Case-Crossover Analyses of Environmental Time-Series Data”Epidemiology 2001;12:654-661
• J Lee, H Kim, J Schwartz “Bidirectional Case-Crossover Studies of Air Pollution: Bias from Skewed and Incomplete Waves” Environ Health Perspect 2000; 108:1107-1111
• S Greenland “Confounding and Exposure Trends in Case-Crossover and Case-Time-Control Designs” Epidemiology 1996;7(3): 231-239
References
보건기상지수개발
프로젝트의 목표 : 보건기상지수를 웹을통해서 서비스 한다.
연구목표 : 기상예측치를 이용하여서 기상과 관련있는 보건 index를 예측한다. 이를 이용하여서 warning system을 개발한다.
1. 기상자료 설명
2. 사망자료 설명
3. 입원자료 설명
4. Analysis Method
(1) Synoptic Analysis
(2) Regression
(3) PCA & Regression
5. Real Analysis
1. 기상 자료 설명• 해설- Daily 자료로서 특정 지역/기상변수/시간에 따른 관측 값이 있음
• 기간 (1994-2003 : 10년)
• 지역 (전국 : 68지역-기상대 33개 , 관측소 35개)
• 주요 변수 (매일 03, 09, 15, 21시 자료)
- 기온(℃)
- 해면기압(hPa)
- 이슬점 온도(℃)
- 상대습도(%)
- 시정(Km)
- 전 운량 (10 단위 : 구름 없음-0 ,구름 많음-10)
- 풍향, 풍속(m/s) : 동서성분, 남북성분으로 변환
그림1. 서울 일별 기상성분의 추세(10년)
Daily mean temperature
Time
Cen
tigra
de
0 1000 2000 3000
-10
010
2030
Daily mean pressure
Time
Hp
0 1000 2000 3000
990
1010
1030
Daily mean dew temper
Time
Cen
tigra
de
0 1000 2000 3000
-20
010
20
Daily mean humidity
Time
perc
ent(%
)
0 1000 2000 3000
2040
6080
100
DATE V.S. ALL VARIABLES with df=40
그림2. 서울 일별 기상성분의 추세(10년)
Daily mean visibility
Time
km
0 1000 2000 3000
05
1015
2025
Daily mean ns_component
Time
m/s
0 1000 2000 3000
-4-2
02
4
Daily mean ew_component
Time
m/s
0 1000 2000 3000
-6-4
-20
24
Daily mean cloud
Time
10 u
nit
0 1000 2000 3000
02
46
810
DATE V.S. ALL VARIABLES with df=40
2. 사망 자료 설명
• 해설- 개인별 자료로서 사망자의 사망일/사망원인/거주지역 값이 있음.
• 기간 ( 1991-2002 :12년 )
• 주요 변수- 사망날짜 (date)
- 사망원인 (d_cause)
- 거주지역 (j_si)
- 나이 (age)
표1. 지역과 질환에 따른 Daily 사망자수
0.547 ( 0 , 6 )9.578 ( 1 , 672 )48.558 ( 25 , 81 )부산
0.354 ( 0 , 4 )3.913 ( 0 , 15 )30.089 ( 13 , 121 ) 대구
1.519 ( 0 , 11 )16.737 ( 4 , 35 )104.522 ( 65 , 268 )서울
8.375 ( 0 , 39 )94.648 ( 45 , 171 )667.051 ( 522 , 942 )전국
Mean ( Min , Max)Mean ( Min , Max)Mean ( Min , Max)
일별 호흡기계 사망자수일별 심혈관계 사망자수일별 사망자수
단위 : 명
기간 ( 1994 – 2002 : 3287 일 )
심혈관계 질환 : G45 , G46 , I60-I66 , I21
호흡기계 질환 : J00-J06 , J10-J18 , J20-21 , J30
그림2. 전국 Daily 사망자수 추세(9년)Daily Mortality Number in Korea
Time
Num
ber
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
550
600
650
700
750
800
850
900
3. 입원 자료 설명• 해설
- 개인별 자료로서 입원자의 입원일, 입원원인 등의 관측 값이 있음.
• 기간 (1994-2003 : 10년 )
• 주요 변수- 개시일(recu_fr_dt) : 입원 일자
- 주 진단(dx1) : 입원 주요 원인
- 가산일수(gs) : 입원의 긴급 정도
- 지역구분코드(zn_cd) : 입원 병원의 위치
• 특징- 입원자의 자료는 1996년부터 이용가능.
- 가산일수(gs)의 자료는 1999년부터 이용가능.
표2. 지역과 질환에 따른 Daily 입원 자 수
49.488 ( 3, 420 )30.270 ( 6 , 74 )195.9429 ( 38 , 812 )부산
21.703 ( 1 , 161 ) 13.969 ( 1 , 40 )92.4560 ( 8 , 342 )대구
98.096 ( 10 , 427 )74.023 ( 22 , 156 )504.4528 ( 125 , 1255 )서울
517.361 ( 74 ,3222)327.435 ( 120 , 758 )2089.700 ( 469 , 6981 )전국
Mean ( Min , Max)Mean ( Min , Max)Mean ( Min , Max)
일별 호흡기계입원자수
일별 심혈관계입원자수
일별 심혈관 & 호흡기입원자수
단위 : 명
모든 입원환자 ( 가산일수 = 0 or 1)
기간 ( 1996 – 2002: 2557일)
심혈관 & 호흡기 질환 : I~ , J~
심혈관계 질환 : G45 , G46 , I60-I66 , I21
호흡기계 질환 : J00-J06 , J10-J18 , J20-21 , J30
그림3. 전국 Daily 입원자수 추세(7년)Daily Haspital Number in Korea
Time
Num
ber
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1
1996 1997 1998 1999 2000 2001 2002 2003
1000
2000
3000
4000
5000
6000
7000
표3. 지역과 질환에 따른 Daily 긴급 입원 자 수
7.851 ( 0 , 106 )9.266 ( 0 , 33 )30.208 ( 3 , 191 )부산
4.188 ( 0 , 54 ) 5.341 ( 0 , 20 )17.943 ( 2 , 105 )대구
16.565 (1 , 143 )20.234 ( 3 , 67 )67.508 (22 , 321)서울
102.994 ( 23 , 959 )110.600 ( 45 , 292 )385.079 ( 178 , 1888)전국
mean ( min , max)mean ( min , max)mean ( min , max)
일별 호흡기계입원자수
일별 심혈관계 질환입원자수
일별 심혈관 & 호흡기입원자수
단위:명
긴급 입원환자 ( 가산일수 = 1)
기간 ( 1999 – 2002: 1461일)
심혈관 & 호흡기 질환 : I~ , J~
심혈관계 질환 : G45 , G46 , I60-I66 , I21
호흡기계 질환 : J00-J06 , J10-J18 , J20-21 , J30
그림4. 전국 Daily 긴급 입원자수 추세(4년)
Daily Haspital Number in Korea
Time
Num
ber
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q11999 2000 2001 2002 2003
200
400
600
800
1000
1200
1400
1600
1800
4. 분석 방법 소개
1 . Synoptic Analysis (종관분석)
2 . Regression (General Additive Model)
3 . PCA (Principal Component Analysis)
& Regression (GAM)
4-1. Synoptic Analysis
• Synoptic Analysis 란?
- PCA 와 CLUSTERING analysis을 이용하여 유사한 기상조건을
보이는 Day들을 서로 묶어 그것의 특징을 알아보는 분석방법.
• Method
- step1 : 고려하고자 하는 기상 변수의 선택.
- step2 : PCA 를 이용한 전체 기상 요인을 설명하면서 독립적인
주성분을 선택 ( 보통 고유치>1인 주성분 선택).
- step3 : 선택된 주성분의 점수 이용하여 Clustering analysis 실시.
- step4 : 분할 할 cluster의 수를 결정.
- step5 : 관심 있는 cluster을 구성하는 Day들을 분석하여
기상 특성을 파악.
4-2. Regression (GAM)
• General Additive Model 란?- 전통적인 Regression model과는 달리 독립변수의 non-linear를
가정하여 독립변수의 non-linear function 값을 이용하는
Regression Model를 말함.
• Method- step 1: 고려할 독립변수의 선택과 비선형으로 가정 할 독립변수의
선택.
- step 2 : 독립변수의 non-linear function 선택
- step 3 : 가능한 조건을 모두 고려한 최적의 fitting model 선택
- step4 : 선택된 모형의 분석
- step5 : 새로운 자료를 이용한 Validation 실시
4-3. PCA & GAM
• PCA & GAM- PCA 를 이용한 독립변수들의 collinearlity(다중공선성) 을제외
시킨 주성분 점수를 이용하여 GAM 실시.
• Method- step1 : 주성분을 할 독립변수의 선택.
- step2 : PCA를 한 후 주성분을 선택(보통 고유치>1인 주성분)
- step3 : 주성분 점수는 linear term, 그 외 독립변수는 non-linear
function 값을 이용하여 GAM 실시.
• PCA 장점- 고려할 독립변수들의 다중 공선성을 제거 할 수 있음.
중간 결론 및 토론
• 지역별, 질병별로 다른 모형을 고려함
• 결과변수(일별 건강변수)를 둔감한(robust)한척도로 변환하여 시도 (예. 3, 5일 평균값)
• 경험적으로 기단을 나누는 방법을 고려함 (통계적이 방법이 아닌)
• 모든 분석에서 요일, 공휴일 등의 요인을 고려함
• 외국의 예 등을 고려하여 현실에 적합한warning system을 개발함
뇌졸중 지역1 여름
전체적인 분석 방법
1> 일별 기상청의 기상 측정 자료를 이용하여 주성분 분석을 실시.
2> 일별 기상 측정 자료로 설명이 안 되는 변수를 찾아내어 회귀분석을 실시.
- 회귀분석 시 일차변수 : 모형에 꼭 들어가야 하는 변수들 선정
이차변수 : 모형에 들어가 유의한 효과를 나타내는
변수의 선정.
단계1.주성분 분석
1> 주성분 분석에 이용된 변수
temp03 temp09 temp15 temp21
giyab03 giyab09 giyab15 giyab21
humi03 humi09 humi15 humi21
visi03 visi09 visi15 visi21
ns03 ns09 ns15 ns21
ew03 ew09 ew15 ew21
cloud03 cloud09 cloud15 cloud21 ( 28개의 변수)
2>주성분의 개수 선택 : ( 6개 선택 ) 전체의 77.72% 설명
단계2. 회귀분석에서의 투입 변수1> 회귀분석의 투입 변수
prin1 prin2 prin3 prin4 prin5 prin6 - 주성분 분석에서 나온 6개의 성분요일변수 월요일- mond=1 , tue=0 , wed=0 , thu=0 , fri=0 , sat=0
화요일- mond=0 , tue=1 , wed=0 , thu=0 , fri=0 , sat=0 수요일- mond=0 , tue=0 , wed=1 , thu=0 , fri=0 , sat=0목요일- mond=0 , tue=0 , wed=0 , thu=1 , fri=0 , sat=0금요일- mond=0 , tue=0 , wed=0 , thu=0 , fri=1 , sat=0토요일- mond=0 , tue=0 , wed=0 , thu=0 , fri=0 , sat=1
일요일과공휴일- mond=0 , tue=0 , wed=0 , thu=0 , fri=0 , sat=0ynum - 연도에 대한 연속변수 ( 1995=1 , 1996=2 ,……)
diff_temp_mean - 온도차이 ( = 당일의 평균 온도 - 전날의 평균온도)diff_temp_max - 온도차이 ( = 당일의 최고온도 - 전날의 최고 온도)diff_temp_min - 온도차이 ( = 당일의 최저 온도 – 전날의 최저 온도)day_change - 당일의 온도 차이 ( =당일의 최고 온도- 당일의 최저 온도)break – 2000년 6월~12월 =0 , 그 외의 기간 =1
2> 변수 선택 방법 : 주성분6개 & 연도변수 & 요일변수 무조건 포함 하고그 외의 변수는 stepwise selection 을 이용.
회귀 분석의 결과1
1> 모형의 설명력 : 77.53%
2> 추정된 모형E[y]=30.81882-0.99871*prin1+0.06100*prin2-0.92948*prin3
-0.01591*prin4-0.42440*prin5-0.16701*prin6
+6.16616*ynum +71.32969*mond+48.50813*tue
+45.68074*wed +42.11083*thu+44.18369*fri
+25.41692*sat
+1.28914*diff_temp_mean+0.96332*day_change
+6.74480*break
회귀분석 결과2.Analysis of Variance
Sum of MeanSource DF Squares Square F Value Pr > FModel 16 414030 25877 135.22 <.0001Error 627 119985 191.36396Corrected Total 643 534015
Parameter StandardVariable Estimate Error Type II SS F Value Pr > F
Intercept 30.81882 4.51292 8924.37531 46.64 <.0001* Prin1 -0.99871 0.35454 1518.46977 7.93 0.0050* Prin2 0.06100 0.29000 8.46822 0.04 0.8335* Prin3 -0.92948 0.36620 1232.82317 6.44 0.0114* Prin4 -0.01591 0.38162 0.33241 0.00 0.9668* Prin5 -0.42440 0.38063 237.90704 1.24 0.2653* Prin6 0.16701 0.51465 20.15285 0.11 0.7457* ynum 6.16616 0.31224 74628 389.98 <.0001* mond 71.32969 1.96208 252910 1321.62 <.0001* tue 48.50813 1.97497 115444 603.27 <.0001* wed 45.68074 1.98407 101440 530.09 <.0001* thu 42.11083 1.98498 86126 450.06 <.0001* fri 44.18369 1.97718 95564 499.38 <.0001* sat 25.41692 1.96599 31985 167.14 <.0001
diff_temp_mean 1.28914 0.46664 1460.47026 7.63 0.0059day_change 0.96332 0.39660 1129.01823 5.90 0.0154break 6.74480 1.69999 3012.34517 15.74 <.0001
* Forced into the model by the INCLUDE= optionBounds on condition number: 5.396, 455.77
분석 모형의 추정 값과 실제값predict standard count VS Real standard count of PCA + regression
Real daily standard count of patients
Pre
dict
dai
ly s
tand
ard
coun
t of
pat
ient
s
60 80 100 120 140 160 180
6080
100
120
140
160
180
453452
31451
450
69
277
507478
555
431
435
예측 치와 많이 벗어나는 관측 값
1133.51 171.00 화요일02001-07-03555
0121.34 160.45 수요일02000-08-16507
0126.40 165.63 화요일02000-07-18478
0151.30 184.77 월요일02000-06-05435
0127.02 175.44 목요일02000-06-01431
1114.51 161.16 수요일01998-07-01277
1101.24 137.57 금요일01996-06-0769
의약분업일자여부예측치표준화 일별 환자수요일공휴일 여부date관측 번호
0120.13 65.19 금02000-06-23453
0117.34 75.31 목02000-06-22452
0126.68 82.86 수02000-06-21451
0130.55 88.12 화02000-06-20450
1122.23 81.33 월01995-07-3131
의약분업일자여부예측치표준화 일별 환자수요일공휴일 여부date관측 번호
시계열 그림 time plot of real and predict
time
coun
t
0 100 200 300 400 500 600
5010
015
020
0
예측 값과 실제 값의 차이time plot of difference in predict and real
time
coun
t
0 100 200 300 400 500 600
-40
-20
020
40
Validation
방법 : 2002년과 2003년의 여름 91일을 가지고 예측된모형을 이용 실제 값과 비교.
1>회귀 분석에 투입된 주성분 점수의 계산
- 모형의 개발 시 이용된 주성분 계수를 이용
2> 2002 & 2003 에 대한 주성분 점수를 구하기 위한 표준화
- 모형의 분석에 이용된 자료의 각 변수에 대한 평균과 표준편차이용
2002 & 2003 summer predict standard count VS Real standard count of PCA + regression
Real daily standard count of patients
Pre
dict
dai
ly s
tand
ard
coun
t of
pat
ient
s
60 80 100 120 140 160 180
6080
100
120
140
160
180
6877
84
6
32472 18
7586
문제점들
• 각 자료별로 정밀도가 다름• 지역으로 세분하다 보니 건강변수의 일별관측값이 너무 작은 경우가 많음• 기술과 예측은 전혀 다른 문제임
기후변화와 건강
• 기온기록이 가능한 1860년대 이후 가장 높은 기온
• 지난 1000년 동안 20세기가 가장 높은 기온
• 고위도 지역일수록 상대적으로 높은 증가
• 한국도 상대적으로 높은 증가를 보이는 지역
우리나라도 기후변화로 인한 건강영향 발생가능성 높음
자료출처:서울대 대기과학부
한반도한반도 기온기온 변화변화
향후 기온변화 예측(IPCC)
불확실성
장주기의 기온변동
도시 열섬효과로 인한 관측 오차
명확하게 증명된 것
인간의 활동으로 인한 CO2 등의 온실가스 증가(지난 수천년간 지구의 대기는 매우 안정적이었으나 산업혁명 후 시작된 과학기술의 급진적 발전과 산업화로 대기중
온실가스의 농도가 급격히 증가하여 지구온난화를 유발, 현재 대기중 이산화탄소 농도는 450ppm으로 산업혁명 이전
과 비교하여 50% 이상 증가하였고, 전체 증가의 30% 이상이 1960년대 이후에 발생)
관측결과전지구적인 기온상승
극지방 빙하의 감소
최근까지 확인된 사실
기후변화로 인한 건강영향
기후변화
•기온
•강수량
•날씨패턴
성층권
오존감소
직접적
건강영향
간
접
적
건
강
영
향
•극단적인 온도에 노출,혹서(heat wave)
•기상재해 발생빈도 및강도의 변화 (홍수, 폭풍 등)
열 또는 추위 관련 질병 및 사망률의변화
사망, 상해, 정신적 장애,공중보건 기반기설의 손상
생태계 교란매개곤충과 전염성 기생충의 범위와활동에 영향
•수인성과 음식물 매개 전염병의국소적 생태환경 변화
•농작물 생산량 변화
해수면 상승, 인구이동, 공중보건기반시설 손상
대기오염 수준, 꽃가루와 포자 등알레르기 유발물질의 확산
매개곤충으로 인한 전염성질환의 지형적 범위와 발병률
설사와 기타 수인성 전염병
영양결핍, 기아, 어린이 성장
상해, 전염성질병의 위험성증가, 정신적 장애
천식, 알레르기 장애, 급만성호흡기 질환과 사망
자외선량 증가, 대기오염 수준,생태학적 변화
피부암, 대기질변화를 통한 간접영향
Open Questions
• 건강 기후 대기오염