환경보건학회세미나...

44
Make Analysis Fast and Easy Contents 환경보건학회 세미나 Rex를 활용한 환경보건통계 II 이보라 (렉스소프트 연구부장) 시계열 분석 연관성 분석 상관분석

Upload: others

Post on 29-Dec-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

M a k e A n a l y s i s F a s t a n d E a s y

Contents

환경보건학회세미나

Rex를활용한환경보건통계 II이보라 (렉스소프트연구부장)

• 시계열 분석

• 연관성 분석

• 상관분석

Page 2: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

M a k e A n a l y s i s F a s t a n d E a s y

01 시계열분석

Page 3: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

시계열자료 (time-series data)

– 특정 관측치를 시간에 따라 연속적으로 모은 자

료에 대한 분석

– 예 : 시간에 따른 주식 변동, 계절별·월별·일별

기온 및 강우량 변화, 발생률의 변화 등

– 시간에 따라 뚜렷한 주기성을 보이는 수온, 기

온, 일사량 등을 예측함으로써, 이와 관련된 연

구에 도움

01 시계열분석

개요

시계열분석 (time-series analysis)

– 특정 변수에 대한 연속적인 관측치를 기반으로, 자

료가 보여주는 경향성을 통해 미래시점의 관측값을

예측하는 방법

– 시계열 자료의 대표적인 분석방법

① Smoothing

② Decomposition

③ ARIMA modelling

출처 : https://www.manitobacooperator.ca/weather/springcasting-and-other-interesting-websites/ 4

Page 4: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

Smoothing

– 시계열 자료의 불규칙한 변동을 완화시켜서

전체적인 추세를 확인하기 위한 방법

① 고정평균법 (box average, BA)

특정 간격 내의 관측값들을 묶어 평균을

계산한 뒤, 특정 간격내의 관측치들을 모

두 동일한 해당 평균으로 대체

② 이동평균법 (moving average, MA)

특정 간격의 관측치로 평균을 계산하는 것

은 같지만, 매 시점마다 연속적으로 평균

을 계산하여 시점마다 대체

- 단순이동평균법

- 가중이동평균법

01 시계열분석

개요

고정평균법 vs. 이동평균법

5

Page 5: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

Decomposition

– 데이터를 요소별로 분리하는 과정

– 요소

① 추세요소 (trend)

선형적 또는 지수적 증가 또는 감소패턴

② 계절요소 (seasonality)

특정한 주기로 규칙적으로 반복되는 패턴

③ 불규칙요소 (random)

전체 시계열 자료에 내포된 미세한 변동

불규칙적이고 비체계적인 변동

추세나 계절성으로 설명되지 않는 일종의 오

01 시계열분석

개요

6

Page 6: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

AR 모형과 MA 모형

– 선형회귀모형

𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑋𝑋𝑖𝑖 + 𝜖𝜖𝑖𝑖 where 𝜖𝜖𝑖𝑖~𝑖𝑖. 𝑖𝑖.𝑑𝑑.𝑁𝑁 0,𝜎𝜎𝜖𝜖2

– 자기회귀모형 (AR(1))

𝑌𝑌𝑡𝑡 = 𝜙𝜙𝑌𝑌𝑡𝑡−1 + 𝜖𝜖𝑡𝑡 where 𝜖𝜖𝑡𝑡는 백색잡음

– 이동평균모형 (MA(1))

𝜖𝜖𝑡𝑡 = 𝑊𝑊𝑡𝑡 + 𝜃𝜃𝑊𝑊𝑡𝑡−1 where 𝑊𝑊𝑡𝑡는 백색잡음

– 자기회귀이동평균 (ARMA)

𝑋𝑋𝑡𝑡 = 𝜙𝜙𝑋𝑋𝑡𝑡−1 + 𝑊𝑊𝑡𝑡 + 𝜃𝜃𝑊𝑊𝑡𝑡−1

즉, 현재 관측값은 과거 관측값을 이용하여 자

기회귀를 하고 남은 잔차의 상관관계를 필터링

하여 백색잡음을 만드는 모형 (단, 정상성이 만

족된다는 가정 필요)

7

01 시계열분석

개요

ARMA 모형과 ARIMA 모형

– ARMA(p, q)

𝑌𝑌𝑡𝑡 = 𝜙𝜙1𝑌𝑌𝑡𝑡−1 + ⋅⋅⋅ +𝜙𝜙𝑝𝑝𝑌𝑌𝑡𝑡−𝑝𝑝 + 𝑊𝑊𝑡𝑡 + 𝜃𝜃1𝑊𝑊𝑡𝑡−1 +⋅⋅⋅ +𝜃𝜃𝑞𝑞𝑊𝑊𝑡𝑡−𝑞𝑞

– ARIMA(p, 1, q)

𝑌𝑌𝑡𝑡 − 𝑌𝑌𝑡𝑡−1 = 𝜙𝜙1 𝑌𝑌𝑡𝑡−1 − 𝑌𝑌𝑡𝑡−2 + ⋅⋅⋅ +𝜙𝜙𝑝𝑝(𝑌𝑌𝑡𝑡−𝑝𝑝−𝑌𝑌𝑡𝑡−𝑝𝑝−1) +

𝑊𝑊𝑡𝑡 + 𝜃𝜃1𝑊𝑊𝑡𝑡−1 +⋅⋅⋅ +𝜃𝜃𝑞𝑞𝑊𝑊𝑡𝑡−𝑞𝑞

𝑌𝑌𝑡𝑡−1을 우변으로 이동한뒤, 정리하면 ARMA(p+1, q)모형이 됨

𝑌𝑌𝑡𝑡

= (1 − 𝜙𝜙1)𝑌𝑌𝑡𝑡−1 + 𝜙𝜙2 − 𝜙𝜙1 𝑌𝑌𝑡𝑡−1 + ⋅⋅⋅ +(𝜙𝜙𝑝𝑝−𝜙𝜙𝑝𝑝−1)𝑌𝑌𝑡𝑡−𝑝𝑝

− 𝜙𝜙𝑝𝑝𝑌𝑌𝑡𝑡−𝑝𝑝−1 + 𝑊𝑊𝑡𝑡 + 𝜃𝜃1𝑊𝑊𝑡𝑡−1 +⋅⋅⋅ +𝜃𝜃𝑞𝑞𝑊𝑊𝑡𝑡−𝑞𝑞

즉, 비정상 시계열에서 자료를 d번 차분하여 정상시계열로 변환

하였을 때, ARMA(p, q)를 적용한다면 ARIMA(p, d, q)에 해당

Page 7: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

ARIMA model

– Box-Jenkins에 의해 제안

– Autoregressive integrated moving

average

– 분포를 기반으로 시계열 자료를 모형화하는 방

– AR : autoregressive (자신의 과거 관측치)

– MA : moving average (과거시점별 예측오차)

8

01 시계열분석

개요

ARIMA model의기본가정

– stationary series

with no trend, no seasonality

homogeneity of variance

– no obvious outliers

모형식별과정

– ARIMA 모형 적합시 필요한 차수를 찾는 과정

– AR(p) : PACF를 통하여 확인

– MA(q) : ACF를 통하여 확인

– I (d) : 단위근 검정을 통하여 확인

출처 : https://towardsdatascience.com/unboxing-arima-models-1dc09d2746f8

Page 8: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

Time series plot

– 시간의 경과에 따라 시계열 자료가 변하는 것을 그

린 그림

– 가로축에 시간, 세로축에 관측값을 표기

– 시계열 자료의 특징을 살펴보는데 사용

01 시계열분석

시계열자료탐색 - 그래프

Seasonal plot

– 계절에 따라 시계열 자료가 변하는 것을 확인하

기 위한 시계열 그림

– 가로축에 계절, 세로축에 관측값을 표기

– 한 계절주기를 포함하는 시간구역별로 나누어

그림을 제시하기도 함

9

Page 9: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

Monthly plot

– seasonal plot의 일종

– seasonal subseries plot

– 각 계절별로 개별 time series plot을 표기

– 중간에 표기된 horizontal line은 각 계절의 평균값

을 의미함

– seasonal pattern 뿐만 아니라, 시간에 따른

seasonality의 변화까지 확인할 수 있음

01 시계열분석

시계열자료탐색 - 그래프

Lag plot

– 시차에 따른 상관관계를 보여주는 그림

– 가로축이 yt, 세로축은 y(t-k)의 관측치

– strong quarterly seasonality

– strongly positive at lag 4

– strongly negative at lag 2, 6

10

Page 10: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

ACF (autocorrelation function)

– lagged value와의 autocorrelation

01 시계열분석

시계열자료탐색 - 그래프

PACF (partial ACF)

– conditional correlation의 일종

– 다른 lagged value들의 영향을 배제한 뒤, 계

산된 해당 시차에서의 autocorrelation

출처 : https://slideplayer.com/slide/4283449/

11

Page 11: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

Stationary time series

– 시계열의 특성이 관측시점에 영향을 받지 않음

– trend나 seasonality가 없음

– 등분산(homogeneity of variance)를 만족함

– White noise는 stationary

01 시계열분석

시계열자료탐색 - Stationary

White noise

– 평균 0을 중심으로 랜덤하게 독립적으로 관측됨

– 퍼짐 정도가 일정 (constant variance)

– 예측 불가능 / 모델링 불가능

– 예측오차가 WN이면 이상적인 모형이라고 판단

– Ljung-Box test를 통해 해당 시계열이 WN인

지 판단

출처 : https://machinelearningmastery.com/white-noise-time-series-python/

12

Page 12: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

01 시계열분석

시계열자료탐색 - Stationary

Example

출처 : https://icim.nims.re.kr/post/easyMath/68

13

Page 13: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

Stationary로만들기 1

(분산안정화)

– 음수가 있을 경우 양수 c를 더하여 양수로 만든

뒤 적용

① Box-Cox 변환

𝑍𝑍 = 𝑋𝑋 + 𝑐𝑐 𝜆𝜆, 𝜆𝜆 > 0

𝑍𝑍 = log(𝑋𝑋 + 𝑐𝑐) , 𝜆𝜆 = 0

- 최적 모수 탐색 가능

② 로그변환 (𝜆𝜆 = 0)

③ 제곱근변환 (𝜆𝜆 = 0.5)

01 시계열분석

시계열자료탐색 - Stationary

Stationary로만들기 2

(차분, differencing)

– 현시점 자료에서 이전 시점 자료를 빼는 것

– 단위근 검정을 통해 최적 차분 수 결정 가능

14

Page 14: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

모형적합과정

단위근검정 / Augmented Dickey-Fuller test (ADF 검정)

– 정상성 조건 하에서는 𝜙𝜙 𝐵𝐵 = 1 − 𝜙𝜙1𝐵𝐵 − 𝜙𝜙2𝐵𝐵2 −⋅⋅⋅ −𝜙𝜙𝑝𝑝𝐵𝐵𝑝𝑝 = 0의 모든 근의 절대값이 1보다 커야 함

이때 크기가 1인 근이 있으면 그 근이 단위근

– 귀무가설 : 단위근이 존재한다. 시계열이 비정상적이다. 확률적 추세를 갖는다

– 대립가설 : 단위근이 존재하지 않는다. 시계열이 정상적이다.

– 즉, 귀무가설을 기각 (p<0.05) 해야만 정상성을 만족한다.

15

01 시계열분석

ARIMA 모형적합

Page 15: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

ACF와 PACF를이용한 AR과 MA

차수결정

– 수식적 증명 및 정상성 가정 필요에 대한 설명

은 아래 링크 참고

https://datascienceschool.net/view-

notebook/8030f5931c1b4cf68a46c2a1

94b3a1c6/

01 시계열분석

ARIMA 모형적합

예시 1 (강우량시계열)

– k=0을 제외하고 유의미한 acf나 pacf를 갖는

시차를 찾을 수 없음

– 시계열 자체가 white noise

AR(p) MA(q)

ACF 점차적으로 감소 시차 q 이후에 0

PACF 시차 p 이후에 0 점차적으로 감소

출처 : https://datascienceschool.net/view-notebook/b39ccd2da3e64d6e91981e23e01816c4/

16

Page 16: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

예시 2 (황체호르몬수치시계열)

– ACF가 지수적으로 감소하고 PACF가 1차항에

서 유의한 값을 가지므로 AR(1)로 판단

01 시계열분석

ARIMA 모형적합

예시 3 (운송량시계열)

– 추세가 있으므로 비정상 시계열 → 차분

– 시차 12를 두고 강한 상관관계 보임

– seasonal 모형 사용 고려출처 : https://datascienceschool.net/view-notebook/b39ccd2da3e64d6e91981e23e01816c4/

17

Page 17: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

모형적합과정

최적모형결정

– R의 경우, 모수 추정 방법 중 하나인 Maximum likelihood방법 적용

– 후보모형 중 관측된 값의 관측확률이 가장 클 것으로 예상되는 모형의 차수 p, d, q를 선택

– 선택 기준 통계량이 information criteria로 후보모형들의 log-likelihood를 기반으로 계산

– Goodness of Fit measure : AIC, AICc, BIC

18

01 시계열분석

ARIMA 모형적합

Page 18: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

모형적합과정

잔차진단 (Ljung-Box test)

– 잔차가 White noise인지 확인 / 평균 0을 중심으로 독립적으로 랜덤하게 분포하는지 확인

– 귀무가설 : 차수 k까지 ACF값이 모두 0이다.

– 대립가설 : 차수 k내에 적어도 1개 이상 시점에서 ACF가 0이 아닌 것이 있다.

– 즉, 귀무가설을 기각하지 않아야 (p>0.05) 자기상관이 존재하지 않는다고 판단

19

01 시계열분석

ARIMA 모형적합

Page 19: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

모형적합과정

예측성능비교 (시계열모형의정확성척도)

20

01 시계열분석

ARIMA 모형적합

ME mean error MPE mean percentage error

RMSE root mean squared error MAPE mean absolute percentage error

MAE mean absolute error MASE mean absolute scaled error

Page 20: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

데이터시트 Drug의자료는 1991년 7월부터 2008년 6월까지호주에서의월별

corticosteroid drug 판매량에대한시계열자료이다. 이자료에대해 ARIMA 모

형을적합시키고, 다음 6개월간의예측판매량을계산하시오.

21

01 시계열분석

ARIMA 모형적합

Page 21: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

입력

22

01 시계열분석

ARIMA 모형적합

Rex ▶ 시계열분석 ▶ 시계열자료탐색

Page 22: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

23

01 시계열분석

ARIMA 모형적합

분산안정화필요 : Box-Cox 변환또는로그변환ACF와 PACF가 12에서 peak : 계절성고려필요 (계절주기 : 12) ACF가지수적으로감소및증가반복 : 추세및계절성고려필요

Page 23: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

입력

24

01 시계열분석

ARIMA 모형적합

Rex ▶ 시계열분석 ▶ ARIMA 모형

Page 24: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

25

01 시계열분석

ARIMA 모형적합

Page 25: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

26

01 시계열분석

ARIMA 모형적합

Page 26: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

27

01 시계열분석

ARIMA 모형적합

Page 27: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

M a k e A n a l y s i s F a s t a n d E a s y

03 로지스틱회귀분석

59

Page 28: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

RR (relative risk)

– 위험인자의 유무를 알고 있는 코호트 연구에서

주로 사용

– 위험인자가 있는 경우 질병 발생율과 위험인자

가 없는 경우 질병 발생율의 비

– RR =( a / (a+b) ) / (c / (c+d) ) = p1 / p2

60

03 로지스틱회귀분석

개요

OR (odds ratio)

– 환자대조군 연구에서는 질병 발생 여부에 따라

군을 결정하므로, 위험인자가 있는 사람에서 질

병 발생울과 위험인자가 없는 사람에서 질병 발

생율을 계산하는 것이 옳지 않음

– Odds = 승산 : 전체 중 성공할 확률이 아니라

실패할 확률 대비 성공할 확률의 비를 의미

– 질병이 있을 때 위험인자에 대한 Odds와 질병

이 없을 때 위험인자에 대한 Odds 의 비

– OR = (a / c) / (b / d) = ad/bc = (p1(1-p2) )

/ (p2(1-p1))

– 드문 질병이라서 p1과 p2가 매우 작을 경우 OR

≒ p1 / p2 = RR

Page 29: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

일반선형모형

– General linear model

– 연속형 종속변수에 대한 선형 모형

– 다중선형회귀모형이 대표적

03 로지스틱회귀분석

개요

일반화선형모형

– Generalized linear model

– 종속변수가 질병 유무 (이분형), 질병의 발생률

(계수형)과 같이 연속형이 아닌 경우

– 종속변수를 적절한 함수를 이용하여 연속형 변

수로 변형시킴

Page 30: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

로지스틱회귀분석절차

회귀식추정방법

– 이분형 종속변수에 대한 로지스틱 회귀분석에서는

– 선형회귀모형 추정 시 사용하였던 최소제곱법이 그대로 적용될 수 없다.

– 이항분포(Binomial distribution)를 가정하여 최대우도추정법 (Maximum likelihood estimation, ML) 적

62

03 로지스틱회귀분석

개요

회귀식설정

결정계수R2

회귀식의유의성

회귀계수유의성

회귀 진단

Page 31: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

로지스틱회귀분석절차

결정계수 R2

– 선형 회귀분석에서와 같이, y의 전체 변동 중 회귀식에 의해 설명되는 변동

– 로지스틱 회귀분석에서는 Cox & Snell R2와 Nagelkerke R2을 사용

– Cox & Snell R2 : 0 ≤ R2 < 1 (1에 가까울수록 설명력이 높은 것)

– Nagelkerke R2 : 0 ≤ R2 ≤ 1 (1에 가까울수록 설명력이 높은 것)

– 일반적으로 위의 두 값은 선형회귀분석의 결정계수보다 값이 작은 편

63

03 로지스틱회귀분석

개요

회귀식설정

결정계수R2

회귀식의유의성

회귀계수유의성

회귀 진단

Page 32: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

로지스틱회귀분석절차

회귀식의유의성

– 모형 계수 전체 테스트 (Model chi-square test)를 통해 추정된 회귀식 전체의 유의성 검정

– p<0.05이면 추정된 회귀식이 통계적으로 유의하다고 판단

변수선택법 (Variable selection)

– 회귀식에 포함될 독립변수를 선택하는 방법

– 다중 선형 회귀분석과 동일하게 입력, 제거, 전진선택법, 후진선택법, 단계선택법 존재

– 변수 결정 시, 이용되는 검정방법에 따라 조건, LR(우도비, Likelihood ratio), Wald 등이 있으며, 주로 LR 이

용64

03 로지스틱회귀분석

개요

회귀식설정

결정계수R2

회귀식의유의성

회귀계수유의성

회귀 진단

Page 33: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

로지스틱회귀분석절차

다중공선성 (Multicollinearity)

– 다중 선형회귀분석에서와 마찬가지로 독립변수 간의 연관성에 대한 다중 공선성 검정 필요

– GVIF (Generalized VIF)를 이용

65

03 로지스틱회귀분석

개요

회귀식설정

결정계수R2

회귀식의유의성

회귀계수유의성

회귀 진단

Page 34: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

http://rexsoft.org

로지스틱회귀분석절차

Hosmer-Lemeshow’s goodness-of-fit test

– 로지스틱 회귀모형의 적합도 판별하는 방법 중 한 가지

– 전체 표본을 일정한 크기로 순서대로 나누어 관측 빈도와 예측 빈도를 비교하는 분할표를 통해 적합도 검정

– 귀무가설 : 회귀모형이 결과변수를 예측하기에 적합하다

– 대립가설 : 회귀모형이 결과변수를 예측하기에 적합하지 않다

– p≥0.05 이면 모형이 결과변수를 예측하기에 적합하다고 판단

분류표

– 로지스틱 회귀모형의 판별 정확도를 평가하는 방법 중 한 가지

– 개체별 사건이 일어날 예측 확률 0.5를 기준으로 실제 사건 여부와 비교하는 표 구성

66

03 로지스틱회귀분석

개요

회귀식설정

결정계수R2

회귀식의유의성

회귀계수유의성

회귀 진단

Page 35: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

심장병센터를방문한성인 33명에게서관상동맥질환발병여부와연령, 성별, 체중,

흡연력을조사하였다. 관상동맥질환의위험요인을파악하기위한로지스틱회귀분

석을수행하라. (데이터 : CHD)

– CHD = 관상동맥질환 유무 (0=없음 / 1=있음)

– Age = 연령 (year)

– Sex = 성별 (1=남자 / 2=여자)

– Weight = 체중 (kg)

– Smoking = 흡연력 (0=비흡연 / 1=흡연)

03 로지스틱회귀분석

로지스틱회귀분석

67

Page 36: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

입력

68

03 로지스틱회귀분석

로지스틱회귀분석

Rex ►회귀분석 ►이항자료회귀분석

Page 37: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

69

03 로지스틱회귀분석

로지스틱회귀분석

Page 38: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

70

03 로지스틱회귀분석

로지스틱회귀분석

• 오즈비 (OR) 추정치 : 3.0857

• 해석 : 여성의 CHD에대한오즈는남성의오즈의 3.0857배로높아짐 (p=0.1242)

Page 39: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

입력

71

03 로지스틱회귀분석

로지스틱회귀분석

Rex ►회귀분석 ►이항자료회귀분석

Page 40: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

72

03 로지스틱회귀분석

로지스틱회귀분석

Page 41: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

73

03 로지스틱회귀분석

로지스틱회귀분석

연령 : OR=1.1738 (95% CI, 1.0640 to 1.3792, p=0.0118)흡연 (참조범주=비흡연) : OR=5.1813 (95% CI, 1.6541 to 26.7197, p=0.0149)

관상동맥질환은연령과흡연력이위험요인인것으로판단됨

흡연력이보정된상태에서연령이 1단위증가할때관상동맥질환에대한승산은 1.1738배증가하며, 이는통계적으로유의하다연령이보정된상태에서흡연력이있는경우, 흡연력이없는경우에비해관상동맥질환에대한승산은 5.1813배 증가하며, 이는통계적으로유의하다

Page 42: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

74

03 로지스틱회귀분석

로지스틱회귀분석

예측확률계산p = Prob(CHD=1) 이라고할때,

log 𝑝

1 − 𝑝= −7.8203 + 1.6451 ∗ 𝐼 𝑠𝑚𝑜𝑘𝑖𝑛𝑔 + 0.1603 ∗ 𝐴𝑔𝑒

판별예측도 = 30/33 = 90.91(%)

실제관상동맥질환자 14명중 12명, 정상인 19명중 14명이회귀식에의해옳게예측전체적으로는 33명중 30명, 즉 90.91%가정확하게예측되었다.

Page 43: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

실습http://rexsoft.org

출력

75

03 로지스틱회귀분석

로지스틱회귀분석

0.5 < AUC < 0.6 : fail0.6 < AUC < 0.7 : poor0.7 < AUC < 0.8 : fair0.8 < AUC < 0.9 : good0.9 < AUC <1 : excellent

검사의성능(예측력)을평가하기위한척도

Page 44: 환경보건학회세미나 Rex를활용한환경보건통계rexsoft.org/wp-content/uploads/2018/11/PPT_20181116-추가분-1.pdf시간에따른주식변동, 계절별 · 월별 ·

문의

M a k e A n a l y s i s F a s t a n d E a s y

홈페이지 ‘질문과 답변’ 게시판을 통해 Rex 설치, 다운로드, 기능 등 사용문의를 남겨주세요.

신속하고 친절한 상담을 통해 사용자들의 궁금증에 답변해 드립니다.

[email protected]://rexsoft.org

76