disclaimer -...

95
저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약 ( Legal Code) 을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

Upload: others

Post on 13-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

저 시-비 리- 경 지 2.0 한민

는 아래 조건 르는 경 에 한하여 게

l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.

다 과 같 조건 라야 합니다:

l 하는, 저 물 나 포 경 , 저 물에 적 된 허락조건 명확하게 나타내어야 합니다.

l 저 터 허가를 면 러한 조건들 적 되지 않습니다.

저 에 른 리는 내 에 하여 향 지 않습니다.

것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.

Disclaimer

저 시. 하는 원저 를 시하여야 합니다.

비 리. 하는 저 물 리 목적 할 수 없습니다.

경 지. 하는 저 물 개 , 형 또는 가공할 수 없습니다.

Page 2: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

이 학 석 사 학 위 논 문

위암의 위험요인에 대한 사례 대조군 연구

A Case-Control Study

on Risk Factors of Gastric Cancer

2015년 2월

서울대학교 대학원

통계학과

김 지 아

Page 3: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

위암의 위험요인에 대한 사례 대조군 연구

A Case-Control Study

on Risk Factors of Gastric Cancer

지도교수 장 원 철

이 논문을 이학석사 학위논문으로 제출함

2014년 10월

서울대학교 대학원

통계학과

김 지 아

김지아의 이학석사 학위논문을 인준함

2014년 12월

위 원 장 이 상 열 (인)

부위원장 장 원 철 (인)

위 원 원 중 호 (인)

Page 4: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

국 문 초 록

위암의 위험요인에 대한 사례 대조군 연구

A Case-Control Study on Risk Factors of Gastric Cancer

내시경진단은위암의조기발견에중요한역할을하고있다.본연구의

목적은위암의발병가능성이높은환자들을식별하는내시경검사지침을

제공하는 것이다. 데이터는 2003년 1월과 2013년 5월 사이에 분당 서울대

병원에서후향적으로수집되었다.우리는일반화가법모형을이용하여고

위험 요인을 확인한다. 최종 모형은 13개의 위험 요인과 나이와 다른 위험

요인 사이의 교호작용 4개의 오즈비에 기반한 간단한 점수이다. 이 정보는

고위험 요인을 가진 환자들에 대한 현재의 위암 검사 지침을 변경하는데

사용될 수 있다.

주요어 : 사례-대조 연구, 로지스틱 회귀분석, 모형 선택, 일반화가법모형

학 번 : 2013-20214

1

Page 5: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Contents

1 서론 1

2 데이터 설명 3

3 방법론 6

3.1. Generalized Linear Model . . . . . . . . . . . . . . . . . . . . 6

3.2. Model selection . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.3. Generalized Additive Model . . . . . . . . . . . . . . . . . . . 8

3.4. Selection Bias의 보정 . . . . . . . . . . . . . . . . . . . . . . . 9

3.5. 점수화 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4 결과 13

4.1. 위암의 유형에 따른 결과 . . . . . . . . . . . . . . . . . . . . 13

4.1.1. Logistic regression 결과 . . . . . . . . . . . . . . . . . 16

4.1.2. Generalized additive model 결과 . . . . . . . . . . . . 22

4.2. 일반적인 위암에 대한 결과 . . . . . . . . . . . . . . . . . . . 28

4.2.1. Logistic regression 결과 . . . . . . . . . . . . . . . . . 28

4.2.2. Selection Bias의 보정 결과 . . . . . . . . . . . . . . . . 31

4.2.3. Generalized additive model 결과 . . . . . . . . . . . . 37

i

Page 6: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

4.3. 점수화 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5 맺음말 47

A R code 51

ii

Page 7: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

List of Tables

2.1 성별에 따른 데이터 . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 직계가족력에 따른 데이터 . . . . . . . . . . . . . . . . . . . . 4

2.3 위암의 종류에 따른 데이터 . . . . . . . . . . . . . . . . . . . 5

4.1 자료에 포함된 변수 설명 . . . . . . . . . . . . . . . . . . . . 15

4.2 Intestinal type 위암에 대한 Logistic regression 결과 . . . . . . 17

4.3 Diffuse type 위암에 대한 Logistic regression 결과 . . . . . . . 19

4.4 Intestinal type 위암의 나이에 대한 표 . . . . . . . . . . . . . 23

4.5 Diffuse type 위암의 나이에 대한 표 . . . . . . . . . . . . . . . 23

4.6 Intestinal type 위암의 GAM 결과 . . . . . . . . . . . . . . . . 26

4.7 Diffuse type 위암의 GAM 결과 . . . . . . . . . . . . . . . . . 27

4.8 위암에 대한 Logistic regression 결과 . . . . . . . . . . . . . . 30

4.9 FDs0에서 위암에 대한 Logistic regression 결과 . . . . . . . . 33

4.10 FDs1에서 위암에 대한 Logistic regression 결과 . . . . . . . . 34

4.11 가족력이없는경우공통변수들을사용한 Logistic regression

결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.12 가족력이있는경우공통변수들을사용한 Logistic regression

결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.13 위암 직계가족력 관련 변수의 오즈와 95%신뢰구간 . . . . . . 36

iii

Page 8: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

4.14 위암의 나이에 따른 표 . . . . . . . . . . . . . . . . . . . . . . 38

4.15 일반적인 위암의 GAM 결과 . . . . . . . . . . . . . . . . . . . 39

4.16 나이 관련 변수를 제외한 점수화 결과 . . . . . . . . . . . . . 40

4.17 나이와 관련된 변수에 대한 Group . . . . . . . . . . . . . . . 41

4.18 나이와 관련된 점수화 결과 . . . . . . . . . . . . . . . . . . . 43

4.19 나이와 관련된 점수화 결과 . . . . . . . . . . . . . . . . . . . 44

iv

Page 9: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

List of Figures

4.1 Intestinal type 위암의 Lasso plot . . . . . . . . . . . . . . . . 20

4.2 Diffuse type 위암의 Lasso plot . . . . . . . . . . . . . . . . . . 21

4.3 Logistic regression plot 예시 . . . . . . . . . . . . . . . . . . . 22

4.4 Empirical logit plot . . . . . . . . . . . . . . . . . . . . . . . . 25

4.5 Empirical logit plot for both types . . . . . . . . . . . . . . . . 25

4.6 일반적인 위암에 대한 Lasso plot . . . . . . . . . . . . . . . . 29

4.7 Empirical logit plot for Gastric cancer . . . . . . . . . . . . . 37

4.8 Score plot for age . . . . . . . . . . . . . . . . . . . . . . . . . 45

v

Page 10: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Chapter 1

서론

국가암정보센터 (2014) 에 따르면 2012년 위암으로 인한 사망자는 암

으로 인해 사망한 사람의 12.2%로 국내에서 3위를 차지하고 있다. 또한

위암의 5년 생존율은 지속적으로 증가하고 있지만 암의 전이 정도에 따라

5년 상대생존률은 급격하게 감소한다. 이를 통해 위암의 조기 발견이 중요

함을알수있고위내시경검사는위암의조기발견에중요한역할을하고

있다.

하지만다양한위험요인을고려하여검사주기를적용하는유방암과는

달리 위 내시경 검사는 일률적으로 40세 이상 2년 주기로 행해지고 있다.

위내시경검사의주기를개선하기위해위암의다양한위험요인들을찾고

그에따른점수를계산하는방법을고려해볼수있다.따라서본논문에서

는 사례-대조 연구 자료를 이용하여 위 내시경 검사주기의 지침을 만들기

위한 통계적인 정보를 제공하고자 한다.

본 논문의 2장에서는 분석에 사용된 자료에 대해 소개한다. 3장에서는

사례-대조연구자료의분석을위해사용한로지스틱회귀분석방법과변수

선택방법, 선택 편향 (selection bias) 을 보정하기 위한 방법, 일반화 가법

1

Page 11: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

모형에 대해 소개한다. 이어서 4장에서는 이를 이용한 분석 결과에 대해

논의한다.

2

Page 12: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Chapter 2

데이터 설명

본 논문에서 사용된 자료는 다음과 같이 수집되었다. 2003년 1월 분

당 서울대 병원이 개원한 이래로 2013년 5월까지 내과 외래 방문환자 중

자료수집에 동의한 환자를 대상으로 한다. 이 환자들에게 위내시경 검사

및 조직검사, 설문지와 혈액검사를 시행하고 위내시경 검사가 정상이거나

과증식성 용종같이 경미한 양성병변을 가진 환자들 (control, DU,BGU) 을

대조군으로 한다. 또 위암이 의심되어 조직검사 결과 위암으로 확진된 환

자들을 위암 환자군으로 둔다. 자료는 설문지 결과와 위암여부, H.pylori

균감염여부,장상피화생여부등의검사를통해얻어진정보를포함한다.

설문지는 나이, 성별 등의 기본 인적사항과 위암 직계가족력여부, 식습관

등의 정보를 포함하고 있다. 부모, 형제, 자식 중에 위암 환자가 있는 경우

에 위암 직계가족력이 있다고 한다. 사례군은 위암환자 1068명 대조군은

940명으로사례군은추가로위암의종류인 intestinal과 diffuse로구분된다.

추가로 위암 가족력이 있음을 알고 찾아온 환자들이 있는데 이 경우 위 내

시경 검사 결과가 정상인 경우 대조군으로 분류할 수 있고 이에 해당되는

환자가 246명이 있다.

3

Page 13: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

위암 대조군 위암 직계가족력 Total

n=1068 n=938 n=246 n=2252

남자 713 485 78 1276

여자 355 453 168 976

Table 2.1: 성별에 따른 데이터

위암 대조군 위암 직계가족력 Total

n=1068 n=938 n=246 n=2252

결측 11 9 0 20

직계가족력 (-) 836 835 2 1673

(+) 221 94 244 559

Table 2.2: 직계가족력에 따른 데이터

Table 2.1과 Table 2.2는성별과위암직계가족력에대해사례군,대조군,

위암직계가족력을 알고 내원한 대조군의 개수를 정리한 표이다. Table 2.1

로부터 남자와 여자의 비율은 6대 4 정도로 크게 편향되어 있지 않음을 알

수 있다. 또, 위암 직계가족력을 알고 내원했지만 실제 직계가족력은 (-)로

기록된 2명의대조군은부모,형제,자식이외의가족이위암환자인경우로

직계가족력에 포함되지 않았다. 기존 자료가 일반적인 사람들을 모집단으

로 한다면 Table 2.2에 나타난 위암 직계가족력을 알고 내원한 대조군은

위암 직계가족력을 가지고 있고 위암이 아닌 사람들을 모집단으로 한다.

따라서 이 데이터를 다른 조치없이 사용할 경우 자료가 선택된 모집단의

4

Page 14: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

차이로 인해 편향된 결과를 가져올 수 있다. 예를 들어 이 자료의 경우 위

암 직계가족력을 가지고 있지만 위암이 없는 사람들만이 추가되기 때문에

위암 직계가족력이 위암 발병률을 낮추는 요인으로 나타날 수 있다. 이를

보정하는 분석 방법에 대해서는 3장에서 소개한다.

위암의 종류

결측 Intestinal Diffuse Mixed

위암 7 624 424 13

Table 2.3: 위암의 종류에 따른 데이터

위의 Table 2.3은 위암 환자인 사례군을 위암의 종류에 따라 분류했을

때 개수를 정리한 것이다. Mixed의 경우 데이터의 수가 적어 본 논문에

서는 Intestinal과 Diffuse만을 다룬다. 두가지 유형의 위암을 각각 분석해

위험요인을 파악한다.

5

Page 15: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Chapter 3

방법론

3.1. Generalized Linear Model

Nelder and Wedderburn (1972) 는 선형 모형 (Linear Model) 에서 독립

변수를정규분포에서지수족분포로확장한일반화선형모형 (Generalized

Linear Model)을제시했다.대표적인지수족분포로는정규분포,지수분포,

베르누이분포,이항분포,감마분포등이있고주로분포에따른정준연결

함수 (canonical link function) 를 사용한다. 선형 모형과는 달리 연결 함수

에 조건부 기댓값을 넣은 것에 모형을 설정하며 대표적으로 독립변수가

이항변수인 경우에 베르누이 분포, 로짓 연결 함수 (logit link function) 를

사용한일반화선형모형을이용한회귀분석을로지스틱회귀모형 (logistic

regression)이라고한다.이연구에서는사례-대조자료를분석하기위해로

지스틱 회귀모형을 사용한다.

반응변수 Yi가지수족분포를따르고 µi ≡ E(Yi)라고할때일반화선형

모형은 아래와 같은 형태를 갖는다.

g(µi) = X∗i θ

6

Page 16: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

이 때 X∗i는 모수적 모형 성분에 대한 모형 행렬을 행, θ는 모수 벡터이고

g는 연결 함수이다.

본논문에서는로지스틱회귀모형을적합시키기위해 R-package ”stats”

의 glm 함수를 사용했다.

3.2. Model selection

모형 선택 (model selection) 은 여러가지 모형 중에서 특정 기준 (crite-

rion)을 이용하여 최적의 모형을 선택하는 것을 의미한다. 본 논문에서는

로지스틱 회귀모형에서 모형 선택을 위한 기준으로 AIC를 사용한 방법과

Lasso를 이용했다. 이번 장에서는 AIC와 Lasso에 대해 소개한다.

Akaike (1973)는모형선택을위한기준으로 Akaike Information Crite-

rion (AIC)를 제시했다. AIC = 2k − 2 ln(L)이고 이 때 k는 모형에 포함된

모수의 개수, L은 모형의 가능도 함수의 최댓값을 의미한다.

본 논문에서는 모형을 선택하는 방법으로 AIC를 사용한 단계적 모형

선택 방법을 이용하였다.

Tibshirani (1996)는선형회귀에대한축소와선택방법인 Lasso (least

absolute shrinkage and selection operator) 를 제시했다. Lasso는 선형 회귀

에서 사용하는 최소 제곱 (Least squres) 방법에 L1−norm을 이용한 벌점

항을 추가하여 벌점 최소 제곱 (Penalized least square) 방법을 사용한다.

이를 일반화 선형 모형에 대해 확장시킨 수식으로 나타내면 아래와 같다.n∑

i=1

(g(µi)−X∗iβ)2 + λ||β||1, λ > 0

위의 식을 최소화시키는 모수 β와 조율 모수 (tuning parameter) λ를 찾음

으로써 모형 선택을 할 수 있다.

7

Page 17: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

β의최소제곱추정량을 βLS라고하면 X∗가 orthogonal할때 Lasso로부

터구한추정량 βLassoi = sgn(βLS

i )(|βLSi |−λ)+로표현할수있다.이식으로

부터 절댓값이 λ보다 작은 βLS는 0이 되고 λ보다 큰 경우는 λ만큼 축소되

는 것을 확인할 수 있고 추정량이 정확히 0이 되는 성질을 이용하여 모형

선택을할수있다.또한 λ에따라추정값이변하게되므로여러 λ값에대해

추정량을 구해 벌점 최소 제곱의 값을 비교하여 최소가 되는 λ를 선택한

다. 이 때 주로 교차 타당성 입증 (cross-validation) 을 이용하여 위의 식이

최소화되는 λ를 찾는다.

기대 제곱 예측 오차 (expected squared prediction error) 는 편차 (bias)

의제곱과분산 (variance)의합으로정리할수있기때문에비편향추정량

의 경우 분산을 낮추는데 한계가 있다. 하지만 비편향성을 포기하면 기대

제곱 예측 오차가 비편향 추정량보다 작은 추정량이 존재한다. 위에서 언

급한 Lasso의 해에서도 알 수 있듯이 비편향 추정량인 최소 제곱 추정량을

축소, 선택하게 됨으로써 추정량의 비편향성이 깨지게 된다. 즉, Lasso는

비편향추정량을포기하는대신분산을낮춤으로써기대제곱예측오차를

낮춰 예측력이 더 좋은 추정량을 찾는 방법의 하나이다.

본 논문에서는 Lasso를 사용하기 위해 Park and Hastie (2007)에 의해

개발된 R-package “glmnet”을 사용했다.

3.3. Generalized Additive Model

Hastie and Tibshirani (1990)는일반화가법모형 (Generalized Additive

Model) 을 제시했다. 일반화 가법 모형은 공변량들의 평활함수들의 합을

포함하는 일반화 선형 모형이다. 일반적으로 일반화 가법 모형은 아래와

8

Page 18: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

같은 형태를 갖는다.

g(µi) = X∗i θ + f1(x1i) + f2(x2i) + f3(x3i, x4i) + · · ·

이 때 반응변수 Yi는 지수족 분포를 따르고 µi ≡ E(Yi)라고 한다. X∗i는

모수적 모형 성분에 대한 모형 행렬을 행, θ는 모수 벡터, fj는 공변량들의

평활함수들을의미한다.평활함수는비모수적 (non-parametric)방법을통

해추정되고국소가중평균 (local weighted mean)등을평활함수로사용할

수 있다.

일반화가법모형은공변량들의평활함수를통해일반화선형모형과는

달리곡선형태의적합이가능하기때문에자료에더나은모형을적합시킬

수 있다.

일반화 가법 모형의 추정 방법은 원래 backfitting algorithm이었지만

평활함수의 자유도를 선택하는 방법의 통합이 어려운 단점이 있다. 이에

대한대안으로벌점회귀스플라인이제시되었고본논문에서는일반화가

법모형을적합시키는데벌점회귀스플라인을사용하는 R-package “mgcv”

를 사용했다.

3.4. Selection Bias의 보정

Chapter 2에서 언급했듯이 위암 직계가족력을 알고 내원한 대조군은

데이터의 모집단이 기존의 데이터와 다르기 때문에 다른 조치없이 사용할

경우 편향된 결과를 가져올 수 있다. 이 장에서는 추가 대조군을 사용했을

때 편향되는 계수들을 보정하기 위한 방법을 소개한다.

Langholz and Goldstein (2001)는복합표집된사례-대조연구에서조건

부로지스틱분석방법을제시했다.또 Lin and Paik (2001)는선택편향이

9

Page 19: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

있는 대응 사례-대조 자료 분석에 대해 연구했다. 하지만 이 논문에서 사

용한 자료는 앞의 논문들과 달리 위암여부와 위암 직계가족력여부로 2×2

table을 만들었을 때 하나의 칸에만 자료가 추가되는 형태를 보인다. 아

래에서는 이런 특이한 형태의 자료를 분석하기 위해 제시한 방법에 대해

설명한다.

Step 1 기존 자료에 추가된 자료를 합친 자료를 위암 직계가족력의 여

부에 따라 각각 2개의 자료로 분할한다.

Step 2 직계가족력이 있는 자료와 직계가족력이 없는 자료에 각각 로

지스틱 회귀모형을 적합시키고 AIC를 이용한 모형 선택을 진행한다.

Step 3 Step 2에서 선택된 모형을 각각 최종모형 1, 최종모형 2라고 할

때 최종모형 1과 최종모형 2에 공통으로 포함된 변수들을 찾고 그 벡터

를 Zs라고 한다.

Step 4직계가족력이있는자료와직계가족력이없는자료에서각각 Zs

를 갖는 로지스틱 회귀모형을 적합시킨다.

Step 5 Step 4에서 적합시킨 두 모형에서의 절편의 값을 비교하여 차이

가 0인지 검정한다.

X라는 변수와 Zs라는 변수들의 집합이 있을 때 이를 이용한 full model

은 아래의 식과 같이 표현할 수 있다.

logit(P (Y = 1|X,Zs)) = β0 + βx x+

p∑i=1

βi zi

이때 X가관심변수, Zs = (z1, z2, · · · , zp)이고 zi, i = 1, · · · , p는 confounder

이다. 관심 변수 X가 0 또는 1을 갖는다고 할 때 X가 1인경우 β0 + βx +∑pi=1 βi zi, 0인경우 β0+

∑pi=1 βi zi를값으로갖는다.따라서 X의값에따라

자료를 분할하고 각각 Zs를 사용한 모형을 적합시킨다면 X가 1인 모형의

절편에 X의 계수가 반영된다는 것을 알 수 있다. 그러므로 이 full model에

10

Page 20: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

서 βx = 0인지를 검정하는 것이 아래에 제시된 방법에서 나온 두 로지스틱

회귀 모형에서 α1 − α0 = 0인지를 검정하는 것과 같다. 이 방법에 사용한

자료와 같이 선택 편향 (selection bias) 이 있는 경우 위암 직계가족력이

있고 위암이 아닌 사람들만 추가되어 위암 직계가족력이 위암 발생위험을

낮추는 것으로 결과가 나올 수 있어 full model을 적합시킬 수 없기 때문에

위에 제시한 방법을 통해 βx = 0을 검정한다.

Y를 1일 때 위암인 위암여부변수, X를 1일 때 위암 직계가족력인 직

계가족력여부 변수라고 하면 이렇게 얻어진 로지스틱 회귀모형은 다음과

같이 표현할 수 있다.

logit(P (Y = 1|X = 1, Zs)) = α1 + γt1Zs

logit(P (Y = 1|X = 0, Zs)) = α0 + γt0Zs

이 때 로지스틱 회귀모형의 특성상 절편은 표집편향을 반영하므로 차이

를 검정하기에 앞서 알려져있는 유병률을 이용하여 보정해주어야 한다.

일반적인 위암의 유병률은 0.3806%, 직계가족력이 있는 경우의 유병률은

1.08471%로 유병률을 p, 표본비율을 sp라고 할 때 α∗ = α+ log

(p

1− p

)−

log

(sp

1− sp

)를 이용하여 절편을 보정한다.

이 자료에서는 α1과 α0의 차이가 0이 아닌 경우 위암 직계가족력 변수

가 유의한 변수인 것을 의미하며 이 때 α1 − α0가 위암 직계가족력 변수의

계수가 된다. 또 γ1과 γ0의 차이가 0이 아닌 경우 해당 변수와 위암 직계가

족력 변수 간에 상관관계가 있다고 볼 수 있다.

하지만 위암의 경우 유형에 따른 유병률이 알려져있지 않기 때문에 이

방법은 일반적인 위암에 대한 분석에서만 사용할 수 있다.

11

Page 21: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

3.5. 점수화 방법

앞서 언급했듯이 본 논문은 위암 조기발견을 위해 위 내시경 검사 주

기의 지침을 제공하는 것을 목표로 하고 이를 위해 앞의 방법들을 사용한

결과를 이용해 점수화 (scoring) 를 진행한다.

Ebell et al. (2013) 은 로지스틱 회귀모형의 결과를 이용해 GO-FAR

Score 방법을 제시했다. 계수를 10배해 반올림한 값을 해당 변수의 점수로

하는 이 방법은 본 논문의 로지스틱 회귀모형의 결과에도 적용할 수 있다.

하지만 일반화 가법 모형의 경우 나이, 나이와 다른 변수간의 교호작용을

로지스틱 회귀모형처럼 간단하게 점수화 할 수 없다. 따라서 일반화 가법

모형의결과를이용해각나이에따른점수표를작성해다른변수의점수화

결과와 합산하는 방법을 취한다.

12

Page 22: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Chapter 4

결과

4.1. 위암의 유형에 따른 결과

본 논문에서 사용한 자료는 중복된 변수들을 포함해 29개의 독립 변

수들이 있고 위암의 유형에 따라 구분되어있는 종속변수와 일반적인 위암

여부를 나타내는 종속변수 2개가 있다. 중복된 변수들은 범주형 변수들의

범주를 나누는 방식에 따라 2∼3개로 나뉘어 있다. 예를 들어 흡연 이력을

나타내는변수는비흡연자/과거흡연자/현재흡연자의 3가지범주로이루

어진변수와비흡연자/과거또는현재흡연자로구분된변수의 2개가있다.

중복된변수들중어떤변수를사용할지를결정하고불필요한변수들을제

외하기위해다변량분석을진행하기에앞서일변량분석을통해유의하지

않은 변수들을 제외하는 작업을 통해 분석에 사용할 변수를 걸러내었다.

또한 걸러내고 남은 변수들과 유일한 연속형 변수인 나이 사이의 교호작

용을 확인하기 위해 각각 나이와 변수들과의 교호작용을 넣어 로지스틱

회귀모형을 적합시키고 교호작용이 유의하게 나타나는 변수들은 다변량

분석시 모형에 나이와의 교호작용을 추가해 분석하였다.

13

Page 23: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables Category

IL RN 1/1, not 1/1

IL 1B511 C/T or T/T, C/C

C/C or C/T, T/T

C/C or T/T, C/T

TGF-β C/T or T/T, C/C

C/C or C/T, T/T

C/C or T/T, C/T

성별 (sex) Female, Male

나이 (Age)

위암 직계가족력

(Overall familial history of gastric cancer) No, Yes

유년기 거주지

(Rural residency during childhood) Urban, Rural

흡연 이력

(Positive smoking history) Never, current-smoker, ex-smoker

Never, current/ex-smoker

음주 이력 (Positive alcohol history) Never, current-drinker, ex-drinker

non-drinker, drinker

월 수입 (Current income (만원/월)) < 300,≥ 300

< 100, < 500& ≥ 100,≥ 500

< 500,≥ 500

매운 음식 (Spicy food) low, moderate, severe

low, moderate & severe

low & moderate, severe

14

Page 24: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables Category

Antrum에서의 위축성 위염

(Atrophic Gastritis-Antrum) No,Yes

Body에서의 위축성 위염

(Atrophic Gastritis-Body) No,Yes

Antrum에서의 장상피화생

(Intestinal Metaplasia-Antrum) No,Yes

Body에서의 장상피화생

(Intestinal Metaplasia-Body) No,Yes

H.pylori 감염 이력

(Current/past HP infection) No,Yes

혈액형 (Blood type) not B, B

일반적인 위암 (General gastric cancer) control, cancer

유형에 따른 위암 (Gastric cancer for type) control, Intestinal, Diffuse

Table 4.1: 자료에 포함된 변수 설명

15

Page 25: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

자료에 포함된 변수들의 이름과 범주에 대한 설명은 앞의 Table 4.1에

나타나 있다.

Intestinal type 위암의 경우 성별, 나이, 위암 직계가족력, 유년기 거주

지, 흡연 이력, 음주 이력, 매운음식, Antrum과 Body에서의 위축성 위염,

Antrum과 Body에서의 장상피화생, H.pylori 감염 이력, TGF-β, 월 수입,

혈액형이일변량분석에서유의하게나타났고이중성별과흡연이력이나

이와의 교호작용이 유의하게 나왔다. 또 Diffuse type 위암의 경우 IL 1RN,

성별, 나이, 위암 직계가족력, 유년기 거주지, 흡연 이력, 음주 이력, 매운

음식, Antrum과 Body에서의위축성위염, Antrum과 Body에서의장상피화

생, H.pylori감염이력, TGF-β,월수입, IL 1B511,혈액형이일변량분석에

서유의하고이중 IL 1RN,성별, H.pylori감염이력이나이와의교호작용이

유의하게 나타났다. 추가된 자료를 사용하는 선택 편향 보정의 결과를 제

외한 나머지 분석에서는 위의 결과를 이용하였다.

4.1.1. Logistic regression 결과

다음의 Table 4.2는 Intestinal type 위암에 대해 AIC를 이용해 모형 선

택을한로지스틱회귀모형의결과이다. Table 4.2의결과를살펴보면유의

수준 5%에서 유의하게 나타난 변수들 중 남성, 나이의 증가, 위암 직계가

족력, 유년기 시골 거주, 각각 Antrum과 Body에서의 Intestinal Metaplasia

(장상피화생), H.pylori 감염 이력에 대해서 유병률이 높게 나타나 위암의

위험요인으로 나타났고 TGF-β의 T/T 유전자형이 있는 경우 유병률이 낮

게 나타났다.

16

Page 26: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Adjusted OR* (95% CI)

성별 (Male) <0.001 3.68 (2.12-6.48)

나이 (Age) <0.001 1.05 (1.03-1.08)

위암 직계가족력 .

(Overall familial history of gastric cancer) 0.008 1.88 (1.18-3.03)

유년기 거주지 .

(Rural residency during childhood) 0.006 1.64 (1.15-2.34)

흡연 이력 .

(Positive smoking history (current/ex-smoker)) 0.115 5.21 (0.69-42.25)

매운 음식 (Spicy food(moderate/severe)) 0.064 1.50 (0.98-2.30)

Antrum에서의 장상피화생 .

(Intestinal Metaplasia-Antrum) <0.001 3.98 (2.73-5.83)

Body에서의 장상피화생 .

(Intestinal Metaplasia-Body) <0.001 2.30 (1.58-3.35)

H.pylori 감염 이력 .

(Current/past HP infection) 0.024 1.73 (1.08-2.80)

TGFB1-509T/T genotype 0.029 0.64 (0.42-0.95)

월 수입 (Current income (만원/월) (≥500)) 0.081 0.69 (0.46-1.04)

나이*흡연 이력 .

(Age*Positive smoking history (current/ex-smoker)) 0.076 0.97 (0.94-1.00)

Table 4.2: Intestinal type 위암에 대한 Logistic regression 결과

나이와 흡연 이력의 교호작용과 흡연 이력은 유의수준 5%에서 유의하

17

Page 27: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

게 나타나진 않았다. 하지만 흡연 이력의 오즈가 5.21으로 매우 높게 나타

났는데 이는 흡연 이력과 나이 사이의 교호작용으로 인한 것으로 보인다.

나이와의교호작용을고려하면흡연이력의오즈는 5.21 (0.97)Age로계산할

수 있다. 이 때 Intestinal type 위암의 경우 자료에서 30세 이전의 암 환자

가 나타나지 않은 것을 고려하면 30세 일 때 약 2.09의 오즈를 갖는다. 또

나이가증가함에따라계속오즈가감소해 90세일때는약 0.34로나이가증

가하면위암의위험을줄이는요인으로나타난다.흡연이력은비흡연자와

과거 또는 현재 흡연자로 구분되어 있는 변수이므로 이런 결과가 나이가

들면서건강이좋지않은사람들이금연을해서나타나는경향은아닌지살

펴볼필요가있다.추가로흡연이력이유의하게나타나지않은만큼실제로

나이에따른흡연이력의영향이일정하지않은데로지스틱회귀모형의경

우 나이가 증가할 때 교호작용의 계수만큼 일정하게 더해지므로 변화량이

일정하게 나타나 생기는 문제일 수도 있다.

다음의 Table 4.3는 Diffuse type위암에대해 AIC를이용해모형선택을

한 로지스틱 회귀모형의 결과이다.

유의수준 5%에서 위암 직계가족력, 유년기 거주지, 흡연 이력, Body

에서의 위축성 위염, Body에서의 장상피화생, H.pylori 감염 이력, 월 수입

이 유의하게 나타났다. 이 중 위암 직계가족력, 유년기 거주지, 흡연 이력,

Body에서의위축성위염, Body에서의장상피화생, H.pylori감염이력은위

암 발생 위험을 높이는 요인이고 500만원 이상의 월 수입은 위험을 낮추는

요인이다. 또한 유의수준 5%에서 유의하진 않지만 성별과 나이가 일반적

으로 알려져있는 것과는 달리 위험을 낮추는 요인으로 나온 것으로 보아

Diffuse type의 위암은 Intestinal type의 위암과 다른 모습을 보인다는 것을

알 수 있다.

18

Page 28: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Adjusted OR* (95% CI)

IL-1RN (not 1/1) 0.090 0.67 (0.42-1.06)

Male 0.061 0.59 (0.33-1.02)

Age 0.060 0.99 (0.97-1.00)

Overall familial history of gastric cancer 0.001 2.25(1.41-3.59)

Rural residency during childhood 0.038 1.44 (1.02-2.03)

Positive smoking history (current/ex-smoker) <0.001 2.68 (1.55-4.72)

Atrophic Gastritis-Body 0.040 1.65 (1.02-2.67)

Intestinal Metaplasia-Body 0.034 1.78 (1.05-3.04)

Current/past HP infection <0.001 3.27 (2.00-5.52)

TGFB1-509T/T genotype 0.062 0.69 (0.46-1.01)

Current income (만원/월) (≥500) 0.001 0.51 (0.33-0.77)

Blood type B 0.070 0.70 (0.47-1.03)

Table 4.3: Diffuse type 위암에 대한 Logistic regression 결과

19

Page 29: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

AIC를 이용한 모형 선택은 일반적으로 많이 쓰이는 방법이지만 과대

적합된 모형을 준다는 것이 이미 알려져있다. 따라서 Lasso를 이용해 모형

선택을 하고 선택된 모형과 앞의 결과를 비교해보았다.

Lasso를 사용하면 축소 (shrinkage) 성질을 이용하여 모형 선택을 할 수

있지만비편향추정값 (unbiased estimate)을주지않는다.또한교호작용을

포함한모형에서모형선택을했을때선택된모형에교호작용에해당하는

변수는 남아있지만 원래 변수는 빠지는 경우가 생길 수 있다. 이런 경우

Lasso를 통해 선택된 변수들에 추가로 교호작용의 원래 변수를 추가하여

새롭게 모형을 적합시킨다.

본 논문에서는 앞서 일변량 분석을 통해 걸러낸 변수들에 Lasso를 사

용하고 교차 타당성 입증 (cross-validation) 을 사용해 찾은 가장 작은 λ를

최종 선택된 모형의 λ로 사용해 모형 선택을 하였다.

0 2 4 6

−0.5

0.00.5

1.01.5

2.0

L1 Norm

Coeff

icien

ts

0 9 14 15Intestinal Lasso Plot

−6 −4 −2 0 2

1.01.1

1.21.3

1.4

log(Lambda)

Binom

ial D

evian

ce

16 15 14 7 3 3 2 2 1Intestinal Lasso CV Plot

Figure 4.1: Intestinal type 위암의 Lasso plot

Figure 4.1은 Intestinal type 위암에 대해 Lasso 방법을 사용했을 때의

20

Page 30: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

그림이다. 오른쪽에 나와있는 교차타당성 입증에 대한 그림에서 점선으로

표시된 것 중 왼쪽의 것이 가장 작은 λ를 표시한 것이다. 가장 작은 λ가

0.0007816249로나왔고이렇게찾은 λ에서선택된변수들은 Intestinal type

의 경우 나이, 위암 직계가족력, 유년기 거주지, 흡연 이력, 음주 이력, 매

운 음식, 두 가지의 위축성 위염 여부, 두가지의 장상피화생 여부, H.pylori

감염 이력, TGF-β, 월 수입, 혈액형, 성별과 나이의 교호작용, 나이와 흡연

이력의 교호작용으로 성별만이 제외되었다. 하지만 나이와 성별의 교호작

용이 남아있기 때문에 로지스틱 회귀 모형을 적합시킬 때 성별도 포함해

분석해야한다.

이 경우 모형 선택을 위해 Lasso를 사용했으나 나온 결과가 선택이 이

뤄지지않아 Lasso가 이 자료에 사용하기 적합하다고 보기 힘들다.

0 2 4 6 8

−10

12

L1 Norm

Coeff

icien

ts

0 13 17 19 19Diffuse Lasso Plot

−8 −6 −4 −2 0

1.15

1.20

1.25

1.30

log(Lambda)

Binom

ial D

evian

ce

19 19 19 13 6 4 4 3 1Diffuse Lasso CV Plot

Figure 4.2: Diffuse type 위암의 Lasso plot

Figure 4.2은 Diffuse type위암에대해 Lasso방법을사용했을때의그림

이다.앞과마찬가지로교차타당성입증에대한그림에서점선으로표시된

21

Page 31: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

것 중 왼쪽의 것이 가장 작은 λ이고 0.0006004864로 나왔다. 이 때 선택된

변수들은 성별, 나이, 위암 직계가족력, 유년기 거주지, 흡연 이력, 음주

이력, 매운 음식, 두 가지의 위축성 위염 여부, 두가지의 장상피화생 여부,

H.pylori 감염 이력, TGF-β, 월 수입, IL 1B511,혈액형, IL 1RN과 나이의

교호작용, 나이와 성별, 나이와 H.pylori 감염 이력의 교호작용으로 IL RN

만이 제외되었다. 하지만 나이와 IL RN의 교호작용이 남아있기 때문에 로

지스틱회귀모형을적합시킬때는결국모든변수를포함해분석해야한다.

Intestinal type과 마찬가지로 Diffuse type에서도 선택이 이뤄지지 않아

Lasso가 이 자료에 사용하기 적합하다고 보기 힘들다.

4.1.2. Generalized additive model 결과

Logistic regression이잘맞으려면유병률 (p)또는유병률의 logit에대해

그림을그렸을때아래의 Figure 4.3와같은모습을보여야한다. Intestinal과

diffuse 각각의 데이터에 대해 empirical logit을 계산해 그림을 그려 Figure

4.3과 같은 모습이 나타나는지 확인해보았다.

Figure 4.3: Logistic regression plot 예시

22

Page 32: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

앞에서 언급한 empirical logit은 Empirical logit of p = log

(p

1− p

)를

이용해 계산했다. 이 때 p는 나이별 표본 유병률이다.

나이(이상∼미만) 30세 미만 30∼40 40∼50 50∼60 60∼70 70∼80 80세 이상

Total 40 103 223 360 497 274 54

Intestinal 0 7 52 134 244 159 28

p 0 0.068 0.223 0.372 0.491 0.580 0.519

Table 4.4: Intestinal type 위암의 나이에 대한 표

나이(이상∼미만) 30세 미만 30∼40 40∼50 50∼60 60∼70 70∼80 80세 이상

Total 48 141 283 327 346 178 38

Diffuse 8 45 102 101 93 63 12

p 0.167 0.319 0.360 0.309 0.269 0.354 0.316

Table 4.5: Diffuse type 위암의 나이에 대한 표

위의 Table 4.4와 Table 4.5는 각각 Intestinal type과 Diffuse type에 대해

나이에따른각구간별총데이터수,위암환자수, p을정리한표이다.이를

이용하여 empirical logit을계산하고그림을그린결과는 Figure 4.4에있다.

또한 Figure 4.5은 Figure 4.4의 두 그림을 하나에 나타낸 것으로 Intestinal

type의 경우 위암 환자가 없던 30세 미만은 제외하고 표시했다. 이 그림을

통해 Intestinal type의위암이 Diffuse type에비해나이에따른영향이강할

것이라고 짐작해 볼 수 있으며 위암의 발생과 나이의 관계가 선형이라고

단정지을 수 없다는 것을 알 수 있다. Diffuse type의 경우 나이와 empirical

23

Page 33: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

logit이 선형으로 나타나지 않아 앞의 로지스틱 회귀모형에서 나이가 유의

하지 않게 나타난 것으로 보인다.

Empirical logit의 그림을 통해 비선형 모형을 적합시킬 필요가 있음을

알 수 있고 비선형 모형을 적합시키기 위해 일반화 가법 모형을 사용했다.

벌점회귀스플라인을사용하는 R-package “mgcv”는단계적선택 (stepwise

selection) 을 지원하지 않는다. 따라서 일변량 분석을 통해 걸러낸 변수들

을 사용해 일반화 가법 모형을 적합하고 그 모형에서 변수를 추가하거나

제외한내포모형 (nested model)을적합한다.두모형을편차 (deviance)를

이용한카이제곱검정 (chi-square test)으로비교하고선택한다.이과정을

반복해찾은최종적인일반화가법모형이 Table 4.6과 Table 4.7이다. Table

4.6은 Intestinal type의최종적인일반화가법모형, Table 4.7은 Diffuse type

의최종적인일반화가법모형이고 edf는추정된자유도 (estimated degrees

of freedom), Ref.df는 추정된 잔차 자유도 (estimated residual degrees of

freedom) 를 의미한다.

Table 4.6을보면 Intestinal type위암의경우성별,위암직계가족력,유

년기거주지,두가지의장상피화생, H.pylori감염이력,월수입이유의수준

5%에서 유의하게 나타났다. 그 외 변수들은 유의수준 10%에서 유의하거

나나이와의교호작용이모형에포함되어있어유의수준 5%에서유의하지

않아도 모형에 포함시켜 놓았다.

Table 4.6과 마찬가지로 Table 4.7을 살펴보면 Diffsue type 위암의 경

우 위암 직계가족력, 유년기 거주지, 흡연 이력, Body에서의 위축성 위염,

Body에서의 장상피화생, H.pylori 감염 이력, 월 수입, 혈액형이 유의수준

5%에서 유의하게 나타났다. 그 외 변수들은 유의수준 10%에서 유의하거

나나이와의교호작용이모형에포함되어있어유의수준 5%에서유의하지

않아도 모형에 포함시켜 놓았다.

24

Page 34: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Figure 4.4: Empirical logit plot

Figure 4.5: Empirical logit plot for both types

25

Page 35: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Estimate Std.Error

Intercept <0.001 -3.27367 0.37689

Male <0.001 1.33644 0.30656

Overall familial history of gastric cancer 0.033 0.81719 0.38284

Rural residency during childhood 0.004 0.53997 0.18777

Positive smoking history (current/ex-smoker) 0.646 -0.13938 0.30333

Spicy food(moderate/severe) 0.132 0.38584 0.25647

Positive alcohol history (current/ex-drinker) 0.921 -0.02888 0.29206

Intestinal Metaplasia-Antrum <0.001 1.45423 0.20194

Intestinal Metaplasia-Body <0.001 0.86716 0.20094

Current/past HP infection 0.024 0.56726 0.25169

TGFB1-509T/T genotype 0.158 -0.38834 0.27478

Current income (만원/월) (≥500) 0.072 -0.39208 0.21824

Variables P-value edf Ref.df

s(age) 0.556 1.000 1.000

s(age):No familial history of gastric cancer 0.672 1.000 1.000

s(age):Overall familial history of gastric cancer 0.107 2.252 3.06

s(age):Negative smoking history 0.999 0.000 0.000

s(age):Positive smoking history (current/ex-smoker) 0.027 1.000 1.000

s(age):Negative alcohol history 0.391 1.000 1.000

s(age):Positive alcohol history (current/ex-drinker) 0.134 4.378 5.252

s(age):Non spicy food 0.038 1.520 2.210

s(age):Spicy food(moderate/severe) 0.705 1.000 1.000

s(age):TGFB1-509C/C or C/T genotype 0.887 1.000 1.000

s(age):TGFB1-509T/T genotype 0.022 5.329 6.003

Table 4.6: Intestinal type 위암의 GAM 결과26

Page 36: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Estimate Std.Error

Intercept <0.001 -2.3108 0.3049

Male 0.235 -0.3639 0.3067

Overall familial history of gastric cancer <0.001 1.1581 0.2803

Rural residency during childhood 0.044 0.3664 0.1822

Positive smoking history (current/ex-smoker) 0.009 0.7897 0.3021

Atrophic Gastritis-Body 0.038 0.5301 0.2558

Intestinal Metaplasia-Body 0.017 0.6776 0.2841

Current/past HP infection <0.001 1.2197 0.2695

TGFB1-509T/T genotype 0.063 -0.3927 0.2112

Current income (만원/월) (≥500) 0.006 -0.6047 0.2186

Blood type B 0.016 -0.5157 0.215

Variables P-value edf Ref.df

s(age) 0.999 0.000 0.000

s(age):Female 0.001 6.709 7.688

s(age):Male 0.998 0.000 0.000

s(age):No familial history of gastric cancer 0.281 4.697 5.617

s(age):Overall familial history of gastric cancer 0.996 0.000 0.001

s(age):Negative smoking history 1.000 0.000 0.000

s(age):Positive smoking history (current/ex-smoker) 0.012 1.903 2.381

s(age):Blood type(not B) 0.681 1.000 1.000

s(age):Blood type B 0.311 3.956 4.866

Table 4.7: Diffuse type 위암의 GAM 결과

27

Page 37: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

4.2. 일반적인 위암에 대한 결과

본 논문은 위암에 걸리지 않은 사람이 위암에 걸릴 위험이 얼마나 큰지

에 따라 위 내시경 검사 주기의 지침을 제공하는 것을 목표로 한다. 앞의

결과를 통해 위암의 유형에 따라 위험 요인이 다르게 나타날 수 있음을 확

인 할 수 있었다. 하지만 위암에 걸리지 않은 사람이 어떤 유형의 위암에

걸리게 될지 알 수 없으므로 위 내시경 검사 주기의 지침을 마련하기 위해

서는유형을구분하지않은일반적인위암에대한분석의결과가필요하다.

4.2.1. Logistic regression 결과

다음의 Table 4.8는일반적인위암에대해 AIC를이용해모형선택을한

로지스틱회귀모형의결과이다.유의수준 5%에서위암직계가족력,유년기

거주지, 매운 음식, 각각 Antrum과 Body에서의 장상피화생, H.pylori 감염

이력, TGF-β,월수입,혈액형,성별과나이의교호작용,나이와 H.pylori감

염이력의교호작용이유의한변수로나타났다.이중위암직계가족력,유

년기 거주지, 매운 음식, 각각 Antrum과 Body에서의 장상피화생, H.pylori

감염이력,성별과나이의교호작용이위암의발생위험을높이는요인으로

나타났고 TGF-β의 T/T유전자형, 500만원이상의월수입, B형의혈액형,

나이와 H.pylori감염이력의교호작용이위험을낮추는요인으로나타났다.

이결과에서나이와성별의교호작용을고려하면남자인경우 0.50 (1.02)Age

로 오즈를 계산할 수 있고 약 35세를 전후로 발생 위험을 낮추는 요인에서

높이는 요인으로 바뀌게 된다. 또 나이와 H.pylori 감염 이력의 교호작용

을 고려하면 감염이력이 있을 때 12.87 (0.97)Age로 오즈를 계산할 수 있고

나이를 먹을수록 점차 오즈가 감소해 약 84세를 전후로 오즈가 1보다 작아

28

Page 38: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

지게된다.이결과는성별과나이가유의하지않은만큼나이에따른성별,

H.pylori 감염 이력의 영향이 일정하지 않은데 로지스틱 회귀모형의 경우

나이가 증가할 때 교호작용의 계수만큼 일정하게 더해지므로 변화량이 일

정하게 나타나 생기는 문제일 수도 있다.

위암의유형에따라분석한것과마찬가지로 Lasso를이용해모형선택

을 하고 선택된 모형과 AIC를 이용한 모형의 결과를 비교해보았다.

0 2 4 6 8

−0.5

0.00.5

1.01.5

2.0

L1 Norm

Coeff

icien

ts

0 14 17 20 20Lasso Plot

−8 −6 −4 −2 0

1.10

1.15

1.20

1.25

1.30

1.35

log(Lambda)

Binom

ial D

evian

ce20 20 15 8 4 3 3 3 3

Lasso CV Plot

Figure 4.6: 일반적인 위암에 대한 Lasso plot

Figure 4.6은 일반적인 위암에 대해 Lasso 방법을 사용했을 때의 그림

이고 가장 작은 λ는 0.0004238151로 나타났다. 이 경우 선택된 변수들은

교호작용을 포함한 모든 변수로 전혀 선택이 이루어지지 않았다. 따라서

Lasso가 이 자료에 사용하기 적합하다고 보기 힘들다.

29

Page 39: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Adjusted OR* (95% CI)

IL-1RN (not 1/1) 0.131 0.75 (0.52-1.09)

Male 0.289 0.50 (0.14-1.80)

Age 0.597 1.01 (0.98-1.04)

Overall familial history of gastric cancer 0.001 2.02 (1.37-3.02)

Rural residency during childhood 0.002 1.55 (1.17-2.06)

Positive alcohol history (current/ex-drinker) 0.124 1.29 (0.93-1.78)

Spicy food(moderate/severe) 0.032 1.44(1.03-2.02)

Atrophic Gastritis-Antrum 0.123 0.36 (0.10-1.32)

Atrophic Gastritis-Body 0.123 1.38 (0.92-2.08)

Intestinal Metaplasia-Antrum <0.001 2.35 (1.60-3.46)

Intestinal Metaplasia-Body 0.010 1.79 (1.15-2.79)

Current/past HP infection 0.005 12.87 (2.32-82.06)

TGFB1-509T/T genotype 0.010 0.65 (0.47-0.90)

Current income (만원/월) (≥500) 0.001 0.58 (0.42-0.81)

Blood type B 0.049 0.73 (0.54-1.00)

Male*Age 0.047 1.02 (1.00-1.04)

Age*Atrophic Gastritis-Antrum 0.146 1.02 (0.99-1.04)

Age*Current/past HP infection 0.046 0.97 (0.94-1.00)

Table 4.8: 위암에 대한 Logistic regression 결과

30

Page 40: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

4.2.2. Selection Bias의 보정 결과

기존의 자료에 위암 직계가족력이 있음을 알고 내원한 사람의 자료 중

정말 위암 직계가족력을 가진 244명을 추가하여 분석을 진행했다. 먼저 자

료를위암직계가족력이있는사람들과없는사람들로분할하고각자료를

FD1과 FD0이라고 두었다.

앞과 마찬가지로 FD1과 FD0에서 각각 일변량 로지스틱 회귀 분석을

하고 유의하게 나온 변수들만으로 다변량 분석을 진행했다. 이 때 위암 직

계가족력에 의한 문제로 자료를 분할해서 분석하는 것이고 목적은 하나의

모형을찾는것이므로 FD0와 FD1에서각각유의하게나온변수들을사용

하지않고 FD0와 FD1에서한번이라도유의하게나온변수들을사용했다.

따라서 FD0와 FD1에서 선택된 변수들은 IL RN, 성별, 나이, 유년기 거주

지,흡연이력,음주이력,매운음식,두가지의위축성위염변수,두가지의

장상피화생 변수, H.pylori 감염 이력, TGF-β, 월 수입, 혈액형으로 동일하

고 이 변수들만 존재하는 자료를 각각 FDs0 ,FDs1이라고 두었다.

추가로 FDs0와 FDs1에서 각각 나이와 각 변수들간의 교호작용을 포함

한 로지스틱 회귀분석을 진행해 유의하게 나온 변수들을 파악했다. FDs0

에서는나이, Antrum에서의위축성위염, H.pylori감염이력이 FDs1에서는

유년기거주지, Antrum에서의장상피화생,혈액형이나이와의교호작용이

유의한변수들로나타났다.다변량분석에서는일변량분석에서선택된변

수들에 앞서 언급한 6개의 나이와의 교호작용항을 추가한 모형으로부터

AIC를 이용한 모형 선택을 진행한다.

다음의 Table 4.9과 Table 4.10은각각 FDs0와 FDs1에서다변량분석을

한결과이다.각변수의유의성여부와관계없이 FDs0와 FDs1의로지스틱

모형에서 공통으로 나타난 변수들은 성별, 나이, 유년기 거주지, Antrum

에서의 장상피화생, H.pylori 감염 이력, 월 수입, 혈액형이다. 두 모형을

31

Page 41: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

이용하여하나의모형을얻기위해두모형에서공통으로나타난변수들을

이용하여 각각 로지스틱 회귀모형을 적합시킨다.

Table 4.11과 Table 4.12는 이렇게 공통으로 나타난 변수들을 이용하여

적합시킨두모형에서절편을보정한결과이다. Table 4.11은일반적인위암

의 유병률 0.3806%와 가족력이 없는 자료의 표본 비율 50.03%를 이용하여

절편을 보정하고 Table 4.12는 가족력이 있는 경우 위암을 유병률 1.0847%

와 가족력이 있는 자료의 표본 비율 39.53%를 이용하여 절편을 보정했다.

32

Page 42: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Adjusted OR* (95% CI)

Male 0.903 0.91 (0.21-4.03)

Age 0.667 1.01 (0.98-1.04)

Rural residency during childhood 0.005 1.56 (1.14-2.14)

Positive smoking history (current/ex-smoker) 0.001 3.79 (1.72-8.71)

Spicy food(moderate/severe) 0.077 1.39 (0.97-2.01)

Atrophic Gastritis-Antrum 0.083 0.28 (0.07-1.18)

Atrophic Gastritis-Body 0.111 1.43 (0.92-2.23)

Intestinal Metaplasia-Antrum <0.001 2.22 (1.45-3.41)

Intestinal Metaplasia-Body 0.002 2.12 (1.30-3.43)

Current/past HP infection 0.005 14.65 (2.44-101.81)

Current income (만원/월) (≥500) 0.016 0.64 (0.45-0.92)

Blood type B 0.065 0.73 (0.52-1.02)

Male*Positive alcohol history (current/ex-drinker) 0.003 0.22 (0.08-0.59)

Male*Age 0.088 1.02 (1.00-1.04)

age*Atrophic Gastritis-Antrum 0.070 1.02 (1.00-1.05)

age*Current/past HP infection 0.038 0.97 (0.94-1.00)

Table 4.9: FDs0에서 위암에 대한 Logistic regression 결과

33

Page 43: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Adjusted OR* (95% CI)

IL-1RN (not 1/1) 0.004 0.31 (0.14-0.67)

Male 0.042 1.90 (1.02-3.55)

Age 0.232 1.02 (0.99-1.06)

Rural residency during childhood 0.013 0.02 (0.00-0.44)

Positive alcohol history (current/ex-drinker) 0.020 2.18 (1.13-4.25)

Intestinal Metaplasia-Antrum 0.038 1.80 (1.03-3.16)

Current/past HP infection 0.001 4.93 (1.98-13.54)

TGFB1-509T/T genotype 0.101 0.58 (0.30-1.10)

Current income (만원/월) (≥500) 0.006 0.38 (0.18-0.74)

Blood type B 0.139 0.04 (0.00-2.15)

Age*Rural residency during childhood 0.002 1.08 (1.03-1.14)

Age*Blood type B 0.154 1.06 (0.98-1.14)

Table 4.10: FDs1에서 위암에 대한 Logistic regression 결과

34

Page 44: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Estimate Std.Error

Intercept <0.001 -7.402 0.330

Male <0.001 0.681 0.126

Age 0.038 0.010 0.005

Rural residency during childhood 0.004 0.366 0.127

Intestinal Metaplasia-Antrum <0.001 1.144 0.132

Current/past HP infection 0.001 0.529 0.164

Current income (만원/월) (≥500) 0.003 -0.433 0.144

Blood type B 0.017 -0.333 0.140

Table 4.11: 가족력이 없는 경우 공통 변수들을 사용한 Logistic regression

결과

Variables P-value Estimate Std.Error

Intercept <0.001 -9.788 0.740

Male <0.001 0.877 0.229

Age <0.001 0.060 0.011

Rural residency during childhood 0.007 0.633 0.234

Intestinal Metaplasia-Antrum <0.001 0.880 0.231

Current/past HP infection 0.001 1.107 0.340

Current income (만원/월) (≥500) 0.006 -0.758 0.278

Blood type B 0.320 -0.269 0.271

Table 4.12: 가족력이 있는 경우 공통 변수들을 사용한 Logistic regression

결과

35

Page 45: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

앞의결과를이용하여절편을포함한각변수들에대해두변수의차

이를 검정하면 유의수준 5%에서 절편과 나이만이 유의하게 나타난다. 즉,

위암 직계가족력 변수와 위암 직계가족력과 나이의 교호작용이 유의하게

나타난다.아래의 Table 4.13은위암직계가족력변수와위암직계가족력과

나이의 교호작용에 대한 오즈와 95% 신뢰구간을 나타낸 표이다.

Variables Adjusted OR* (95% CI)

Overall familial history of gastric cancer 0.09 (0.02-0.45)

Age*Overall familial history of gastric cancer 1.05 (1.03-1.08)

Table 4.13: 위암 직계가족력 관련 변수의 오즈와 95%신뢰구간

이 결과를 이용하면 위암 직계가족력의 오즈는 0.09 (1.05)Age로 계산할

수 있고 50세부터 1이상의 오즈를 가지며 나이를 먹을 수록 계속해서 오즈

가 증가하는 모습을 보인다. 하지만 50세 미만의 경우 1보다 작은 오즈를

가져 위암 발생의 위험을 줄이는 요인으로 해석된다는 문제가 있다. 이는

일반적으로 나이가 많은 경우에 위암이 발병하는 경우가 많아 나타난 경

향이 아닌지 고려해볼 필요가 있다. 또는 나이에 따른 위암 직계 가족력의

영향이일정하지않은데로지스틱회귀모형의경우나이가증가할때교호

작용의 계수만큼 일정하게 더해지므로 변화량이 일정하게 나타나 생기는

문제일 수도 있다.

36

Page 46: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

4.2.3. Generalized additive model 결과

앞에서 언급했듯이 로지스틱 회귀모형이 잘 맞으려면 p 또는 logit에

대해 그림을 그렸을 때 Figure 4.3와 같은 모습을 보여야한다. 앞과 마찬

가지의 방법으로 일반적인 위암에 대해 empirical logit을 계산해 그림을

그리고 Figure 4.3과 같은 모습이 나타나는지 확인해보았다.

Figure 4.7: Empirical logit plot for Gastric cancer

앞의 Figure 4.7은 나이에 대해 일반적인 위암에 대한 empirical logit을

그린 결과이다. empirical logit을 계산하기 위한 정보를 정리해 둔 표가 다

37

Page 47: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

음의 Table 4.14이다. 이 그림을 통해 위암 발생과 나이의 관계를 선형으로

단정지을 수 없다는 걸 알 수 있고 비선형적 방법인 일반화 가법 모형을

적용해 분석하였다.

나이 [10,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,100)

Total 48 148 337 469 596 341 66

Intestinal 8 52 156 243 343 226 40

p 0.167 0.351 0.463 0.518 0.576 0.663 0.606

Table 4.14: 위암의 나이에 따른 표

다음의 Table 4.15가 일반적인 위암의 경우에 일변량 분석을 통해 걸러

진 변수들로 일반화 가법 모형을 적합시킨 결과이다. 위암의 유형에 따른

분석과 마찬가지로 편차를 이용한 카이 제곱 검정으로 내포 모형을 비교

하여 최종적으로 선택된 모형이다.

Table 4.15의결과를통해유의수준 5%에서남성,위암직계가족력,유년

기시골거주,매운음식섭취,장상피화생존재, H.pylori감염이력존재시

유병률이 높게 나타나고 TGF-β T/T 유전자형이 있거나 월 수입이 500만

원이상인경우유병률이낮게나타난것을알수있다.또매운음식,성별,

흡연 이력이 나이와의 교호작용이 유의하게 나타났다.

38

Page 48: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Variables P-value Estimate Std.Error

Intercept <0.001 -1.8670 0.2628

Male 0.041 0.4702 0.2300

Overall familial history of gastric cancer <0.001 0.8904 0.2170

Rural residency during childhood 0.002 0.4513 0.1472

Positive smoking history (current/ex-smoker) 0.284 0.2458 0.2293

Spicy food(moderate/severe) 0.043 0.3493 0.1726

Intestinal Metaplasia-Antrum <0.001 0.9011 0.1590

Intestinal Metaplasia-Body <0.001 0.8938 0.1693

Current/past HP infection <0.001 0.8401 0.1928

TGFB1-509T/T genotype 0.015 -0.4021 0.1660

Current income (만원/월) (≥500) 0.002 -0.5293 0.1697

Blood type B 0.068 -0.2930 0.1604

Variables P-value edf Ref.df

s(age) 0.217 1.000 1.000

s(age):Non spicy food 0.999 0.000 0.000

s(age):Spicy food(moderate/severe) 0.015 3.282 4.105

s(age):Female 1.000 0.000 0.000

s(age):Male <0.001 2.544 3.230

s(age):Negative smoking history <0.001 1.000 1.000

s(age):Positive smoking history (current/ex-smoker) 1.000 0.000 0.000

s(age):No familial history of gastric cancer 0.813 1.000 1.000

s(age):Overall familial history of gastric cancer 0.367 1.215 1.789

Table 4.15: 일반적인 위암의 GAM 결과

39

Page 49: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

4.3. 점수화 결과

위암의 일반화 가법 모형 결과를 이용하여 점수화 방법을 적용한다.

다음의 Table 4.16은 Table4.15의 결과에서 나이, 나이와 다른 변수의 교호

작용을 제외한 변수들에 대해 점수화결과를 정리한 표이다.

Variables Estimate Score

Male 0.4702 5

Overall familial history of gastric cancer 0.8904 9

Rural residency during childhood 0.4513 5

Positive smoking history (current/ex-smoker) 0.2458 2

Spicy food(moderate/severe) 0.3493 3

Intestinal Metaplasia-Antrum 0.9011 9

Intestinal Metaplasia-Body 0.8938 9

Current/past HP infection 0.8401 8

TGFB1-509T/T genotype -0.4021 -4

Current income (만원/월) (≥500) -0.5293 -5

Blood type B -0.2930 -3

Table 4.16: 나이 관련 변수를 제외한 점수화 결과

Table 4.15의일반화가법모형에서나이및나이와의교호작용은비모수

적인부분으로로지스틱회귀모형과는달리일정한추정값을갖지않는다.

따라서 점수화를 하기 위해서는 다른 변수들이 지정되어있을 때 나이에

대한 추정값을 각각 계산해 표로 정리할 필요가 있다. 이 경우 나이와의

교호작용이 있는 변수는 성별, 위암 직계가족력, 흡연 이력, 매운 음식의 4

40

Page 50: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

가지로 이 4가지 변수의 값을 다르게 지정해가며 나이의 추정값을 계산해

야한다.

Group Number Sex Family history Smoking history Spicy food

1 x x x x

2 o x x x

3 x o x x

4 x x o x

5 x x x o

6 o o x x

7 o x o x

8 o x x o

9 x o o x

10 x o x o

11 x x o o

12 o o o x

13 o o x o

14 o x o o

15 x o o o

16 o o o o

*Sex에서 x는 여성 (Female), o는 남성 (Male)을 의미한다.

Table 4.17: 나이와 관련된 변수에 대한 Group

Table 4.16에 나와있는 변수들 중 나이와 관련이 있는 4개의 변수 (성

41

Page 51: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

별, 위암 직계가족력, 흡연 이력, 매운 음식) 에 따라 나이의 점수를 계산할

그룹을 구분했다. 총 16개의 그룹으로 구분되었고 각 그룹에 대한 정보는

앞의 Table 4.17에 정리되어있다.

Table 4.17에 정리된 각 그룹에서 나이의 추정값을 계산해 점수화한

결과는 다음의 Table 4.18에 있다. 40세부터 80세까지에 대해 성별, 위암

직계가족력, 흡연 이력, 매운 음식을 제외한 나머지 변수들은 기저 범주

(baseline category) 로 지정하고 4개의 변수들 중 포함되는 변수에 따라

해당 변수들과 절편의 추정값을 빼 나이의 추정값을 계산했다. 예를 들어

Group 2에서 나이에 대한 추정값을 계산하는 경우 유년기 거주지, 두가지

의장상피화생, H.pylori감염이력, TGF-β,월수입,혈액형은기저범주로

지정하고 성별은 남성, 가족력, 흡연이력, 매운 음식을 기저변수로 둔다.

이 때 모형 전체의 추정값에서 절편의 추정값, 성별의 추정값을 뺀 값이

나이에 대한 추정값이 된다.

42

Page 52: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Age Group Number

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

40 2 -11 11 14 0 -3 0 -13 22 9 12 9 -4 -1 21 7

41 2 -10 10 13 1 -2 1 -12 21 8 11 9 -4 -1 19 7

42 2 -9 9 12 1 -2 1 -11 19 8 11 8 -3 0 18 7

43 2 -8 8 11 1 -2 1 -10 18 7 10 8 -3 0 17 7

44 2 -7 8 11 0 -1 2 -9 17 6 9 8 -3 0 15 6

45 2 -7 7 10 0 -1 2 -8 15 6 9 7 -2 1 14 6

46 1 -6 6 9 0 -1 2 -7 14 5 8 7 -2 1 13 5

47 1 -5 5 8 0 -1 2 -6 12 4 7 6 -2 1 11 5

48 1 -4 5 8 0 -1 2 -6 11 3 6 6 -2 1 10 4

49 1 -3 4 7 0 -1 2 -5 10 2 5 5 -2 1 8 3

50 1 -3 3 6 -1 -1 2 -4 8 1 4 4 -2 1 6 3

51 1 -2 2 5 -1 -1 2 -4 7 0 3 4 -3 0 5 2

52 1 -1 1 5 -1 -1 2 -3 5 -1 2 3 -3 0 3 1

53 1 -1 1 4 -2 -1 2 -3 4 -1 2 2 -3 0 2 0

54 0 0 0 3 -2 -1 2 -3 2 -2 1 2 -3 0 0 -1

55 0 0 -1 2 -2 -1 2 -2 1 -3 0 1 -3 0 -1 -1

56 0 1 -2 1 -2 -1 2 -2 0 -4 -1 0 -3 0 -3 -2

57 0 2 -2 1 -3 -1 2 -1 -2 -5 -2 0 -3 -1 -4 -3

58 0 2 -3 0 -3 -1 2 -1 -3 -6 -3 -1 -3 -1 -6 -4

59 0 3 -4 -1 -3 -1 2 0 -4 -6 -4 -1 -3 -1 -7 -4

60 0 3 -4 -2 -3 -1 2 1 -6 -7 -4 -2 -3 -1 -8 -5

61 0 4 -5 -2 -3 -1 2 1 -7 -7 -5 -3 -3 -1 -9 -5

Table 4.18: 나이와 관련된 점수화 결과

43

Page 53: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Age Group Number

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

62 -1 4 -5 -3 -3 0 1 2 -8 -7 -5 -3 -3 -1 -10 -5

63 -1 5 -5 -4 -2 0 1 3 -9 -7 -6 -4 -2 -1 -11 -5

64 -1 5 -6 -5 -2 0 1 4 -10 -7 -6 -4 -1 0 -11 -5

65 -1 5 -6 -6 -2 0 1 4 -11 -7 -6 -4 -1 0 -11 -5

66 -1 6 -6 -6 -1 0 0 5 -11 -6 -7 -5 0 0 -12 -5

67 -1 6 -6 -7 -1 1 0 6 -12 -6 -7 -5 1 0 -12 -5

68 -1 6 -6 -8 0 1 -1 7 -13 -5 -7 -5 2 0 -12 -4

69 -1 6 -6 -9 0 2 -1 8 -13 -4 -7 -6 3 1 -12 -4

70 -1 6 -6 -9 1 2 -1 9 -14 -3 -7 -6 5 1 -11 -3

71 -2 7 -6 -10 2 3 -2 10 -14 -2 -7 -6 6 2 -11 -2

72 -2 7 -6 -11 3 3 -2 11 -15 -1 -6 -6 7 2 -10 -2

73 -2 7 -5 -12 4 4 -3 13 -15 0 -6 -6 9 3 -10 -1

74 -2 7 -5 -12 4 4 -3 14 -16 1 -6 -6 11 3 -9 0

75 -2 8 -5 -13 5 5 -4 15 -16 2 -6 -6 12 4 -9 1

76 -2 8 -5 -14 6 5 -4 16 -16 4 -6 -7 14 4 -8 2

77 -2 8 -4 -15 7 6 -5 17 -17 5 -5 -7 15 5 -8 3

78 -2 8 -4 -16 8 6 -5 18 -17 6 -5 -7 17 5 -7 4

79 -3 8 -4 -16 9 7 -5 20 -18 7 -5 -7 18 6 -6 5

80 -3 9 -4 -17 10 8 -6 21 -18 9 -5 -7 20 6 -6 5

Table 4.19: 나이와 관련된 점수화 결과

44

Page 54: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

30 40 50 60 70 80

−20

−10

010

20

age

score

Score for age

G1

G2

G3

G4

G5

G6

G7

G8

G9

G10

G11

G12

G13

G14

G15

G16

Figure 4.8: Score plot for age

앞의 Table 4.18과 Table 4.19는 각 Group에서 계산된 나이에 대한 점

수이며 Figure 4.8 은 이 두개의 표를 그림으로 나타낸 것이다. 앞서 다른

변수들의 점수를 계산한 결과인 Table 4.16과 Table 4.18, Table 4.19를 이

용하면 점수를 계산할 수 있다. 예를 들어 유년기에 시골에 거주했고 위암

45

Page 55: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

직계가족력을 가진 50세 여성이 매운 음식을 선호하며 두가지의 장상피화

생이 모두 없다고 하자. 또 과거에 H.pylori에 감염된 적이 있고 월 수입은

500만원 이상, A형, TGF-β C/C 유전자형을 가졌다면 이 여성의 점수는

9+5+3+8-5+1로 21점이 된다. 이 결과는 위 내시경 검사 주기를 결정하는

데 활용 될 수 있다. 예를 들어 그룹 3와 그룹 9은 모두 여성이고 위암 직계

가족력이 있는 집단이다. 그룹 9는 흡연 이력이 있고 그룹3은 흡연 이력

이 없다는 차이가 있는데 그룹 9의 경우 점수가 초기에 더 높게 증가하는

모습을 보여 위암 직계 가족력과 흡연 이력이 만나면 더 어린 나이에 암이

발생할상승적인효과가있다고할수있다.남성의경우에도그룹 6과그룹

12를 비교해보면 마찬가지의 결론을 얻을 수 있다. 이런 결과를 이용하면

위암직계가족력과흡연이력이모두있는경우 40대에더자주위내시경

검사를 받을 필요가 있다고 할 수 있다.

점수를 계산할 때 모든 정보를 알지 못하는 경우 어떻게 계산해야하는

가에 대한 문제가 있다. 예를 들어 TGF-β의 경우 검사를 통해 확인하지

않으면 일반적으로 알기 힘든 정보이다. C/C나 C/T인 경우는 0점, T/T인

경우 -4점을 해야하는데 정보가 없을 경우 0점으로 보는 것이 맞는지 아니

면 평균값을 반올림한 -1점을 하는 것이 맞는지는 좀 더 고려해 볼 필요가

있다.

위 내시경 검사 주기를 개선하기 위해서는 이 점수가 몇점 이상일 경

우 위 내시경 검사를 1년에 한번씩 받아야 한다와 같은 결정을 내릴 수

있어야한다. 하지만 점수화 결과는 위암 발생의 위험이 얼마나 높은지를

보여주는 수단일 뿐이고 이 결과에 의학적인 소견을 더해 점수에 따라 위

내시경 검사 주기를 권장하는 지침을 만들어야 한다.

46

Page 56: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Chapter 5

맺음말

본논문에서는위암에대한사례-대조자료를이용해로지스틱회귀모

형과 일반화 가법 모형을 적합시켰다. 일반적으로 사례-대조 자료의 경우

로지스틱회귀모형이많이사용된다.하지만자료에연속형변수가포함되

어있을경우로지스틱회귀모형은연속형변수의추정값을일정한값으로

주기 때문에 연속형 변수의 값이 변함에 따라 영향이 달라지는 경우를 잘

적합시키지못한다.본논문에서는이런문제를해결하기위해일반화가법

모형을사용했고이결과를이용하여점수화한결과를제시했다.이점수화

결과에 의학적인 소견을 추가한다면 위 내시경 검사 주기에 대한 지침을

제공할 수 있을 것이다.

47

Page 57: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Bibliography

Akaike, H. (1973). Information theory and an extension of the maximum

likelihood principle, in Petrov, B.N.; Csaki, F., 2nd International Sym-

posium on Information Theory, Tsahkadsor, Armenia, USSR, September

2-8, 1971, Budapest: Akademiai Kiado, 267–281.

Ebell, M. H., Jang, W., Shen, Y. and Geocadin, R. G. (2013). Develop-

ment and Validation of the Good Outcome Following Attempted Resus-

citation (GO-FAR) Score to P redict Neurologically Intact Survival After

In-Hospital Cardiopulmonary Resuscitation. Journal of American Medical

Association Internal Medicine, 173, 1872-1877.

Hastie, T. J. and Tibshirani, R. J. (1990). Generalized Additive Models. Chap-

man & Hall/CRC.

Langholz, B. and Goldstein, L. (2001). Conditional logistic analysis of case-

control studies with complex sampling. Biostatistics, 2, 63-84.

Lin, I. F. and Paik, M. C. (2001). Matched Case-Control Data Analysis with

Selection Bias. Biometrics, 57, 1106-1112.

48

Page 58: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Nelder, J. and Wedderburn, R. (1972). Generalized Linear Models. Journal

of the Royal Statistical Society. Series A (General), 135, 370-384.

Park, M. Y. and Hastie, T. (2007). An L1 Regularization-path Algorithm for

Generalized Linear Models. Journal of the Royal Statistical Society. Series

B (Methodological), 69, 659-677.

Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.

Journal of the Royal Statistical Society. Series B (Methodological), 58,

267-288.

국가암정보센터 (2014). http://www.cancer.go.kr/mbs/cancer/

subview.jsp?id=cancer\_040102000000. Accessed December 20,

2014.

49

Page 59: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Abstract

Ji A Kim

The Department of Statistics

The Graduate School

Seoul National University

Endoscopic diagnosis plays an crucial role in early detection of gastric

cancer. The aim of this study is to provide endoscopy screen guidelines that

identify patients likely to develop gastric cancer. Data were collected retro-

spectively between January 2003 and May 2013 at Seoul National University

Bounding Hospital. We identify high risk factors using generalized additive

models. The final model was a simple point score based on odds ratios of 13

risk factors and 4 interactions between age and other risk factors. This infor-

mation can be used to change the current gastric cancer screening guideline

for patients with high risk factors.

Keywords : Case-Control Study, Logistic regression, Model Selection, Gen-

eralized Additive Model

Student Number : 2013-20214

Page 60: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

Appendix A

R code

setwd("~/Desktop/project/R")

load("arrange_data_12.14.RData")

###############1.gp_category로 분석 진행#####################

###############UNIVARIATE##################

result<-list()

for(i in c(1:39,43:51)){

datam<-subset(Ologit_data,select=i)

formula <- formula(paste("gp_category ~",colnames(datam)))

fit<-glm(formula,family="binomial",data=Ologit_data)

result[[i]]<-fit

}

result_summary<-lapply(result,summary)

Robj2txt(result_summary) #list를 txt파일로 내보내는 함수

51

Page 61: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

result_OR<-list()

for(i in c(1:39,43:51)){

C.I_u<-confint(result[[i]])

C.I_u<-cbind(summary(result[[i]])$coeff[,1],C.I_u)

C.I_u<-exp(C.I_u)

C.I_u<-round(C.I_u,digits=2)

C.I_u<-cbind(C.I_u,round(summary(result[[i]])$coeff[,4],digits=3))

result_OR[[i]]<-C.I_u

}

result_OR

selected_Ologit_data <- subset(Ologit_data, select=-c(#univariate 에

서 무의미한 변수

m1,smoking_year, smoking_pack, Lauren_final,TGF_B1,TGF_B3,IL_1B511_2,

IL_1B511_3,

#가족력 관련변수 제거

brother, sister, offspring,others,

#중복되는 변수 제거

smoking_1, alcohol_1, c_income_1,c_income_2, salty_1,salty_2, salty_3,

#alcohol_2, smoking_2,salty_3사용, c_income_3사용

spicy_1, spicy_3, fruit_intake_1, fruit_intake_2, AG_either, IM_either,

HP_c_infection,#spicy_2사용, fruit_intake사용x

#interaction꼴의 변수들 제거

smoking_total,location

))

52

Page 62: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

summary(selected_Ologit_data)

colnames(selected_Ologit_data)

result_1<-list()

for(i in c(1:4,6:18,20:23)){

datam<-subset(selected_Ologit_data,select=i)

formula <- formula(paste("gp_category ~age*",colnames(datam)))

fit<-glm(formula,family="binomial",data=selected_Ologit_data)

result_1[[i]]<-summary(fit)

}

Robj2txt(result_1) #list를 txt파일로 내보내는 함수

##m2, sex, AG_A, HP_cp_infection가 age와 interaction term이 유의

하게 나옴

library(MASS)

colnames(selected_Ologit_data)

summary(selected_Ologit_data)

selected_Ologit_data_IM<-na.omit(selected_Ologit_data[,-c(2,3,7:9)])

full_logit_IM<-glm("gp_category~.+age*sex+age*AG_A+age*HP_cp_infection",

family="binomial",data=selected_Ologit_data_IM)

summary(full_logit_IM)

53

Page 63: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

reduced_logit_IM<-stepAIC(full_logit_IM)

summary(reduced_logit_IM)

C.I_IM<-confint(reduced_logit_IM)

C.I_IM<-cbind(summary(reduced_logit_IM)$coeff[,1],C.I_IM)

C.I_IM<-exp(C.I_IM)

C.I_IM<-round(C.I_IM,digits=2)

C.I_IM<-cbind(C.I_IM,round(summary(reduced_logit_IM)$coeff[,4],digits=3))

C.I_IM

############################Empirical logit###################################

selected_Ologit_data<-selected_Ologit_data[-which(is.na(selected_Ologit_data$age)

==TRUE),]

summary(selected_Ologit_data)

binage<-cut(selected_Ologit_data$age,breaks=c(10,seq(30,80,by=10),100),

right=FALSE)

summary(binage)

ind<-list()

for(i in 1:7){

bin<-c(10,seq(30,80,by=10),100)

row<-which(selected_Ologit_data$age>=bin[i] &

selected_Ologit_data$age < bin[i+1])

ind[[i]]<-row

}

54

Page 64: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

p<-c()

case<-c()

for(i in 1:7){

a<-selected_Ologit_data$gp_category[ind[[i]]]

case[i]<-sum(a==1)

p[i]<-case[i]/length(a)

}

table_age<-rbind(summary(binage),case)

rownames(table_age)<-c("total","Cancer")

p<-round(p,digits=3)

table_age

p

#install.packages("binomTools")

library(binomTools)

elogit<-empLogit(p)

plot(c(20,seq(35,75,by=10),90),elogit,xlab="age",ylab="empirical logit",

ylim=c(-3,1))

title("empirical logit v.s. age for Gastric Cancer")

############################Lasso#################################

#install.packages("glmnet")

library(glmnet)

summary(selected_Ologit_data_IM)

b<-selected_Ologit_data_IM

55

Page 65: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

levels(b$IL_1RN)<-c("0","1")

levels(b$TGF_B2)<-c("0","1")

levels(b$IL_1B511_1)<-c("0","1")

levels(b$B)<-c("0","1")

summary(b)

a<-as.matrix(b)

summary(a)

c<-c()

for(i in 1:dim(a)[2]){

c<-cbind(c,as.numeric(a[,i]))

}

head(c)

colnames(c)<-colnames(b)

dim(c)

cv_lasso<-cv.glmnet(c[,-14],c[,14],family="binomial",standardize=FALSE)

gp_lasso<-glmnet(c[,-14],c[,14],family="binomial",standardize=FALSE,

lambda=cv_lasso$lambda.min)

names(gp_lasso)

gp_lasso$beta

gp_lasso$a0

exp(coef(gp_lasso))

lasso_formula<-formula("gp_category~.+age*sex+age*AG_A+age*HP_cp_infection")

mmat_lasso<-model.matrix(lasso_formula,data.frame(c))

head(mmat_lasso)

56

Page 66: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

cv_lasso_inter<-cv.glmnet(mmat_lasso[,-1],c[,14],family="binomial",

standardize=FALSE)

gp_lasso_inter<-glmnet(mmat_lasso[,-1],c[,14],family="binomial",

standardize=FALSE)

par(mfrow=c(1,2))

plot(gp_lasso_inter)

title("Lasso Plot",line=2)

plot(cv_lasso_inter)

title("Lasso CV Plot",line=2)

gp_lasso_inter<-glmnet(mmat_lasso[,-1],c[,14],family="binomial",

standardize=FALSE,

lambda=cv_lasso_inter$lambda.min)

names(gp_lasso_inter)

gp_lasso_inter$beta

gp_lasso_inter$a0

exp(coef(gp_lasso_inter))

############################GAM analysis###################################

library(MASS)

library(mgcv)

summary(selected_Ologit_data_IM)

colnames(selected_Ologit_data_IM)

##m2, sex, AG_A, HP_cp_infection가 age와 interaction term이 유의

하게 나옴

57

Page 67: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

result_2<-list()

for(i in c(1:2,4:13,15:18)){

datam<-subset(selected_Ologit_data_IM,select=i)

formula <- formula(paste0("gp_category ~s(age,k=10)

+s(age,by=",colnames(datam),",k=10)"))

fit<-gam(formula,family="binomial",data=selected_Ologit_data_IM)

result_2[[i]]<-summary(fit)

}

Robj2txt(result_2)

#spicy_2, IM_A

gam.age <- gam(gp_category ~ s(age,k=10) + s(age,by=spicy_2,k=10)

+ s(age,by=sex,k=15)+s(age,by=FHx,k=10)+B +sex + FHx+resi_child + smoking_2

+ spicy_2 +IM_A+IM_B+HP_cp_infection+

TGF_B2+c_income_3, family="binomial", data=selected_Ologit_data_IM)

summary(gam.age)

#spicy_2, AG_A, smoking_2

b <- gam(gp_category ~ s(age,k=10) + s(age,by=spicy_2,k=10)+ s(age,by=sex,k=15)

+ s(age,by=smoking_2,k=10) +s(age,by=FHx,k=10)+B+ sex + FHx+resi_child

+ smoking_2 + spicy_2 +IM_A+IM_B+HP_cp_infection+ TGF_B2+c_income_3,

family="binomial", data=selected_Ologit_data_IM)

summary(b)

58

Page 68: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

anova(gam.age,b,test="Chisq")

###############2.Lauren_final로 분석 진행#####################

###############UNIVARIATE_intestinal##################

summary(Ologit_data_1)

Ologit_data_1<-Ologit_data_1[-which(is.na(Ologit_data_1$Lauren_final)==TRUE),]

result1<-list()

for(i in c(1:39,43:51)){

datam<-subset(Ologit_data_1,select=i)

formula <- formula(paste("Lauren_final ~",colnames(datam)))

fit<-glm(formula,family="binomial",data=Ologit_data_1)

result1[[i]]<-fit

}

result1_summary<-lapply(result1,summary)

Robj2txt(result1_summary) #list를 txt파일로 내보내는 함수

result1_OR<-list()

for(i in c(1:39,43:51)){

C.I_u<-confint(result1[[i]])

C.I_u<-cbind(summary(result1[[i]])$coeff[,1],C.I_u)

C.I_u<-exp(C.I_u)

C.I_u<-round(C.I_u,digits=2)

C.I_u<-cbind(C.I_u,round(summary(result1[[i]])$coeff[,4],digits=3))

59

Page 69: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

result1_OR[[i]]<-C.I_u

}

result1_OR

selected_Ologit_data_1 <- subset(Ologit_data_1, select=-c(#univariate 에

서 무의미한 변수

IL_1RN,m1,CagA,smoking_year, smoking_pack, gp_category,TGF_B1,TGF_B3,

IL_1B511_1,IL_1B511_2,IL_1B511_3,

#가족력 관련변수 제거

brother, sister, offspring, others,

#중복되는 변수 제거

smoking_1, alcohol_1, c_income_1,c_income_2, salty_1,salty_2, salty_3,

#alcohol_2, smoking_2,salty_3사용, c_income_3사용

spicy_1, spicy_3, fruit_intake_1, fruit_intake_2, AG_either, IM_either,

HP_c_infection,#spicy_2사용, fruit_intake사용x

#interaction꼴의 변수들 제거

smoking_total,location

))

summary(selected_Ologit_data_1)

colnames(selected_Ologit_data_1)

result1_1<-list()

for(i in c(1:2,4:16,18:20)){

datam<-subset(selected_Ologit_data_1,select=i)

60

Page 70: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

formula <- formula(paste("Lauren_final ~age*",colnames(datam)))

fit<-glm(formula,family="binomial",data=selected_Ologit_data_1)

result1_1[[i]]<-summary(fit)

}

Robj2txt(result1_1) #list를 txt파일로 내보내는 함수

##sex,smoking_2 가 age와 interaction term이 유의하게 나옴

colnames(selected_Ologit_data_1)

summary(selected_Ologit_data_1)

###############MULTIVARIATE_intestinal##################

library(MASS)

selected_Ologit_data_1_IM<-na.omit(selected_Ologit_data_1[,-c(1,5:7)])

full_logit1_IM<-glm("Lauren_final~.+age*sex+age*smoking_2",family="binomial",

data=selected_Ologit_data_1_IM)

summary(full_logit1_IM)

reduced_logit1_IM<-stepAIC(full_logit1_IM)

summary(reduced_logit1_IM)

C.I1_IM<-confint(reduced_logit1_IM)

C.I1_IM<-cbind(summary(reduced_logit1_IM)$coeff[,1],C.I1_IM)

C.I1_IM<-exp(C.I1_IM)

C.I1_IM<-round(C.I1_IM,digits=2)

61

Page 71: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

C.I1_IM<-cbind(C.I1_IM,round(summary(reduced_logit1_IM)$coeff[,4],digits=3))

C.I1_IM

###############UNIVARIATE_DIFFUSE##################

summary(Ologit_data_2)

Ologit_data_2<-Ologit_data_2[-which(is.na(Ologit_data_2$Lauren_final)==TRUE),]

result2<-list()

for(i in c(1:39,43:51)){

datam<-subset(Ologit_data_2,select=i)

formula <- formula(paste("Lauren_final ~",colnames(datam)))

fit<-glm(formula,family="binomial",data=Ologit_data_2)

result2[[i]]<-fit

}

result2_summary<-lapply(result2,summary)

Robj2txt(result2_summary) #list를 txt파일로 내보내는 함수

result2_OR<-list()

for(i in c(1:39,43:51)){

C.I_u<-confint(result2[[i]])

C.I_u<-cbind(summary(result2[[i]])$coeff[,1],C.I_u)

C.I_u<-exp(C.I_u)

C.I_u<-round(C.I_u,digits=2)

C.I_u<-cbind(C.I_u,round(summary(result2[[i]])$coeff[,4],digits=3))

62

Page 72: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

result2_OR[[i]]<-C.I_u

}

result2_OR

selected_Ologit_data_2 <- subset(Ologit_data_2, select=-c(#univariate 에

서 무의미한 변수

m1,m2, smoking_year, smoking_pack, gp_category,TGF_B1,TGF_B3,

IL_1B511_2,IL_1B511_3,

#가족력 관련변수 제거

brother, sister, offspring,others,

#중복되는 변수 제거

smoking_1, alcohol_1, c_income_1,c_income_2, salty_1,salty_2, salty_3,

#alcohol_2, smoking_2,salty_3사용, c_income_3사용

spicy_1, spicy_3, fruit_intake_1, fruit_intake_2, AG_either, IM_either,

HP_c_infection,

#spicy_2사용, fruit_intake사용x

#interaction꼴의 변수들 제거

smoking_total,location

))#sex, age, 유의 x

summary(selected_Ologit_data_2)

colnames(selected_Ologit_data_2)

result2_1<-list()

for(i in c(1:3,5:17,19:22)){

datam<-subset(selected_Ologit_data_2,select=i)

63

Page 73: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

formula <- formula(paste("Lauren_final ~age*",colnames(datam)))

fit<-glm(formula,family="binomial",data=selected_Ologit_data_2)

result2_1[[i]]<-summary(fit)

}

Robj2txt(result2_1) #list를 txt파일로 내보내는 함수

##IL_1RN,sex,HP_cp_infection이 age와 interaction term이 유의하게 나옴

colnames(selected_Ologit_data_2)

summary(selected_Ologit_data_2)

###############MULTIVARIATE_DIFFUSE##################

library(MASS)

selected_Ologit_data_2_IM<-na.omit(selected_Ologit_data_2[,-c(2,6:8)])

full_logit2_IM<-glm("Lauren_final~.+age*IL_1RN+age*sex+age*AG_A

+age*HP_cp_infection",family="binomial",data=selected_Ologit_data_2_IM)

summary(full_logit2_IM)

reduced_logit2_IM<-stepAIC(full_logit2_IM)

summary(reduced_logit2_IM)

C.I2_IM<-confint(reduced_logit2_IM)

C.I2_IM<-cbind(summary(reduced_logit2_IM)$coeff[,1],C.I2_IM)

64

Page 74: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

C.I2_IM<-exp(C.I2_IM)

C.I2_IM<-round(C.I2_IM,digits=2)

C.I2_IM<-cbind(C.I2_IM,round(summary(reduced_logit2_IM)$coeff[,4],digits=3))

C.I2_IM

##################Empirical logit_intestinal###########################

selected_Ologit_data_1<-selected_Ologit_data_1[-which(is.na(selected_Ologit_data_1$age)==TRUE),]

summary(selected_Ologit_data_1)

binage1<-cut(selected_Ologit_data_1$age,breaks=c(10,seq(30,80,by=10),100),right=FALSE)

summary(binage1)

ind1<-list()

for(i in 1:7){

bin<-c(10,seq(30,80,by=10),100)

row<-which(selected_Ologit_data_1$age>=bin[i] & selected_Ologit_data_1$age < bin[i+1])

ind1[[i]]<-row

}

p1<-c()

case1<-c()

for(i in 1:7){

a<-selected_Ologit_data_1$Lauren_final[ind1[[i]]]

case1[i]<-sum(a==1)

p1[i]<-case1[i]/length(a)

}

table_age1<-rbind(summary(binage1),case1)

65

Page 75: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

rownames(table_age1)<-c("total","Intestinal")

p1<-round(p1,digits=3)

table_age1

p1

#install.packages("binomTools")

library(binomTools)

elogit1<-empLogit(p1)

plot(c(20,seq(35,75,by=10),90),elogit1,type="b",xlab="age",

ylab="empirical logit",ylim=c(-8,1))

title("empirical logit v.s. age for Intestinal Gastric Cancer")

###################Empirical logit_diffuse########################

selected_Ologit_data_2

<-selected_Ologit_data_2[-which(is.na(selected_Ologit_data_2$age)==TRUE),]

summary(selected_Ologit_data_2)

binage2<-cut(selected_Ologit_data_2$age,breaks=c(10,seq(30,80,by=10),100),

right=FALSE)

summary(binage2)

ind2<-list()

for(i in 1:7){

bin<-c(10,seq(30,80,by=10),100)

row<-which(selected_Ologit_data_2$age>=bin[i] &

selected_Ologit_data_2$age < bin[i+1])

66

Page 76: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

ind2[[i]]<-row

}

p2<-c()

case2<-c()

for(i in 1:7){

a<-selected_Ologit_data_2$Lauren_final[ind2[[i]]]

case2[i]<-sum(a==2)

p2[i]<-case2[i]/length(a)

}

table_age2<-rbind(summary(binage2),case2)

rownames(table_age2)<-c("total","Diffuse")

p2<-round(p2,digits=3)

table_age2

p2

#install.packages("binomTools")

library(binomTools)

elogit2<-empLogit(p2)

plot(c(20,seq(35,75,by=10),90),elogit2,type="b",xlab="age"

,ylab="empirical logit",xlim=c(20,90),ylim=c(-3,1))

title("empirical logit v.s. age for Diffuse Gastric Cancer")

plot(c(seq(35,75,by=10),90),elogit1[-1],type="b",col="red",xlab="age",

ylab="empirical logit",xlim=c(20,90),ylim=c(-3,1))

title("empirical logit v.s. age for Gastric Cancer")

67

Page 77: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

par(new=T)

plot(c(20,seq(35,75,by=10),90),elogit2,type="b",col="blue",xlab="age",

ylab="empirical logit",xlim=c(20,90),ylim=c(-3,1))

legend("topleft",legend=c("Intestinal type","Diffuse type"),pch=c(1,1),

col=c("red","blue"))

############################Lasso_intestinal#################################

#install.packages("glmnet")

library(glmnet)

summary(selected_Ologit_data_1_IM)

b_1<-selected_Ologit_data_1_IM

levels(b_1$TGF_B2)<-c("0","1")

levels(b_1$B)<-c("0","1")

summary(b_1)

a_1<-as.matrix(b_1)

summary(a_1)

c_1<-c()

for(i in 1:dim(a_1)[2]){

c_1<-cbind(c_1,as.numeric(a_1[,i]))

}

head(c_1)

colnames(c_1)<-colnames(b_1)

dim(c_1)

cv_lasso_1<-cv.glmnet(c_1[,-13],c_1[,13],family="binomial",standardize=FALSE)

68

Page 78: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

gp_lasso_1<-glmnet(c_1[,-13],c_1[,13],family="binomial",standardize=FALSE)

plot(gp_lasso_1)

title("Intestinal Lasso Plot")

plot(cv_lasso_1)

title("Intestinal Lasso CV Plot")

gp_lasso_1<-glmnet(c_1[,-13],c_1[,13],family="binomial",standardize=FALSE,

lambda=cv_lasso_1$lambda.min)

names(gp_lasso_1)

gp_lasso_1$beta

gp_lasso_1$a0

exp(coef(gp_lasso_1))

lasso_formula_1<-formula("Lauren_final~.+age*sex+age*smoking_2")

mmat_lasso_1<-model.matrix(lasso_formula_1,data.frame(c_1))

head(mmat_lasso_1)

cv_lasso_1_inter<-cv.glmnet(mmat_lasso_1[,-1],c_1[,13],family="binomial",

standardize=FALSE)

gp_lasso_1_inter<-glmnet(mmat_lasso_1[,-1],c_1[,13],family="binomial",

standardize=FALSE)

par(mfrow=c(1,2))

plot(gp_lasso_1_inter)

title("Intestinal Lasso Plot",line=2)

plot(cv_lasso_1_inter)

title("Intestinal Lasso CV Plot",line=2)

69

Page 79: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

gp_lasso_1_inter<-glmnet(mmat_lasso_1[,-1],c_1[,13],family="binomial",

standardize=FALSE,lambda=cv_lasso_1_inter$lambda.min)

names(gp_lasso_1_inter)

gp_lasso_1_inter$beta

gp_lasso_1_inter$a0

exp(coef(gp_lasso_1_inter))

############################Lasso_DIFFUSE#################################

#install.packages("glmnet")

library(glmnet)

summary(selected_Ologit_data_2_IM)

b_2<-selected_Ologit_data_2_IM

levels(b_2$IL_1RN)<-c("0","1")

levels(b_2$TGF_B2)<-c("0","1")

levels(b_2$IL_1B511_1)<-c("0","1")

levels(b_2$B)<-c("0","1")

summary(b_2)

a_2<-as.matrix(b_2)

summary(a_2)

c_2<-c()

for(i in 1:dim(a_2)[2]){

c_2<-cbind(c_2,as.numeric(a_2[,i]))

}

head(c_2)

70

Page 80: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

colnames(c_2)<-colnames(b_2)

cv_lasso_2<-cv.glmnet(c_2[,-14],c_2[,14],family="binomial",standardize=FALSE)

gp_lasso_2<-glmnet(c_2[,-14],c_2[,14],family="binomial",standardize=FALSE,

lambda=cv_lasso_2$lambda.min)

names(gp_lasso_2)

gp_lasso_2$beta

gp_lasso_2$a0

exp(coef(gp_lasso_2))

lasso_formula_2<-formula("Lauren_final~.+age*IL_1RN+age*sex+age*HP_cp_infection")

mmat_lasso_2<-model.matrix(lasso_formula_2,data.frame(c_2))

head(mmat_lasso_2)

cv_lasso_2_inter<-cv.glmnet(mmat_lasso_2[,-1],c_2[,14],family="binomial",

standardize=FALSE)

gp_lasso_2_inter<-glmnet(mmat_lasso_2[,-1],c_2[,14],family="binomial",

standardize=FALSE)

plot(gp_lasso_2_inter)

title("Diffuse Lasso Plot",line=2)

plot(cv_lasso_2_inter)

title("Diffuse Lasso CV Plot",line=2)

gp_lasso_2_inter<-glmnet(mmat_lasso_2[,-1],c_2[,14],family="binomial",

standardize=FALSE,lambda=cv_lasso_2_inter$lambda.min)

names(gp_lasso_2_inter)

71

Page 81: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

gp_lasso_2_inter$beta

gp_lasso_2_inter$a0

exp(coef(gp_lasso_2_inter))

#####################GAM analysis_intestinal#########################

library(MASS)

library(mgcv)

summary(selected_Ologit_data_1_IM)

colnames(selected_Ologit_data_1_IM)

##sex,smoking_2 가 age와 interaction term이 유의하게 나옴

result1_2<-list()

for(i in c(1:12,14:16)){

datam<-subset(selected_Ologit_data_1_IM,select=i)

formula <- formula(paste0("Lauren_final ~s(age,k=10)

+s(age,by=",colnames(datam),",k=10)+",colnames(datam)))

if(colnames(datam)=="age") formula <- formula("Lauren_final ~s(age,k=10)")

fit<-gam(formula,family="binomial",data=selected_Ologit_data_1_IM)

result1_2[[i]]<-summary(fit)

}

Robj2txt(result1_2)

#FHx,smoking_2,AG_A,IM_B

72

Page 82: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

gam.age <- gam(Lauren_final ~ s(age,k=10) + s(age,by=FHx,k=10)

+ s(age,by=smoking_2,k=10)+s(age,by=alcohol_2,k=10)+s(age,by=spicy_2,k=10)

+s(age,by=TGF_B2,k=10)+alcohol_2+ sex +FHx+ resi_child + smoking_2 + spicy_2

+IM_A+IM_B+HP_cp_infection+TGF_B2+c_income_3, family="binomial",

data=selected_Ologit_data_1_IM)

summary(gam.age)

b <-gam(Lauren_final ~ s(age,k=10) + s(age,by=FHx,k=10)

+ s(age,by=smoking_2,k=10)+s(age,by=alcohol_2,k=10)+s(age,by=spicy_2,k=10)

+s(age,by=TGF_B2,k=10)+alcohol_2+ sex +FHx+ resi_child + smoking_2 + spicy_2

+IM_A+IM_B+HP_cp_infection+ TGF_B2+c_income_3, family="binomial",

data=selected_Ologit_data_1_IM)

summary(b)

anova(b,gam.age,test="Chisq")

gam.age_1<-gam.age

##################GAM analysis_DIFFUSE############################

library(MASS)

library(mgcv)

summary(selected_Ologit_data_2_IM)

colnames(selected_Ologit_data_2_IM)

##IL_1RN,sex,HP_cp_infection이 age와 interaction term이 유의하게 나옴

result2_2<-list()

for(i in c(1:13,15:18)){

73

Page 83: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

datam<-subset(selected_Ologit_data_2_IM,select=i)

formula <- formula(paste0("Lauren_final ~s(age,k=10)

+s(age,by=",colnames(datam),",k=10)+",colnames(datam)))

if(colnames(datam)=="age") formula <- formula("Lauren_final ~s(age,k=10)")

fit<-gam(formula,family="binomial",data=selected_Ologit_data_2_IM)

result2_2[[i]]<-summary(fit)

}

Robj2txt(result2_2)

#alcohol_2, spicy_2, HP_cp_infection

gam.age <- gam(Lauren_final ~ s(age,k=10)+s(age,by=sex,k=10)+s(age,by=FHx,k=10)

+s(age,by=smoking_2,k=10)+s(age,by=B,k=10)+ sex + FHx + resi_child + smoking_2

+AG_B+IM_B+HP_cp_infection+ TGF_B2+c_income_3+B, family="binomial",

data=selected_Ologit_data_2_IM)

summary(gam.age)

b <- gam(Lauren_final ~ s(age,k=10)+s(age,by=sex,k=10)+s(age,by=B,k=10)

+s(age,by=smoking_2,k=10)+ sex + FHx + resi_child + smoking_2 +AG_B+IM_B

+HP_cp_infection+ TGF_B2+c_income_3+B, family="binomial",

data=selected_Ologit_data_2_IM)

summary(b)

anova(b,gam.age,test="Chisq")

gam.age_2<-gam.age

74

Page 84: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

###############selection bias#####################

######################### 1(cancer) vs 2,3,4,5(control) #####################

# "0": 대조군, "1": cancer

FD_data <- subset(logit_data, gp_category==1 | gp_category==2 | gp_category==3 |

gp_category==4| gp_category==5)

FD_data<-FD_data[-which(FD_data$gp_category==4 & FD_data$FHx==0),]

summary(Ologit_data)

summary(FD_data)

for (i in c(2:5)){

FD_data$gp_category[FD_data$gp_category==i] <- 2

}

summary(FD_data$gp_category)

FD_data<-droplevels(FD_data)

levels(FD_data$gp_category)<-c("1","0")

FD_data$gp_category<-factor(FD_data$gp_category,c("0","1"))

summary(FD_data)

#####################For analysis 1######################

summary(FD_data)

F0_data<-FD_data[which(FD_data$FHx==0),]

75

Page 85: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

F1_data<-FD_data[which(FD_data$FHx==1),]

summary(F0_data)

colnames(F0_data)

summary(F1_data)

colnames(F1_data)

F0_data<-F0_data[,-c(7:13,47)] #가족력관련변수 모두 제거

F1_data<-F1_data[,-c(7:13,47)]

##################UNIVARIATE##############################

##################FHx==0##############################

FD_result_F0<-list()

for(i in c(1:32,36:43)){

datam<-subset(F0_data,select=i)

formula <- formula(paste("gp_category ~",colnames(datam)))

fit<-glm(formula,family="binomial",data=F0_data)

FD_result_F0[[i]]<-fit

}

FD_result_F0_summary<-lapply(FD_result_F0,summary)

Robj2txt(FD_result_F0_summary) #list를 txt파일로 내보내는 함수

FD_result_F0_OR<-list()

for(i in c(1:32,36:43)){

C.I_u<-confint(FD_result_F0[[i]])

C.I_u<-cbind(summary(FD_result_F0[[i]])$coeff[,1],C.I_u)

C.I_u<-exp(C.I_u)

76

Page 86: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

C.I_u<-round(C.I_u,digits=2)

C.I_u<-cbind(C.I_u,round(summary(FD_result_F0[[i]])$coeff[,4],digits=3))

FD_result_F0_OR[[i]]<-C.I_u

}

FD_result_F0_OR

##################FHx==1##############################

FD_result_F1<-list()

for(i in c(1:32,36:43)){

datam<-subset(F1_data,select=i)

formula <- formula(paste("gp_category ~",colnames(datam)))

fit<-glm(formula,family="binomial",data=F1_data)

FD_result_F1[[i]]<-fit

}

FD_result_F1_summary<-lapply(FD_result_F1,summary)

Robj2txt(FD_result_F1_summary) #list를 txt파일로 내보내는 함수

FD_result_F1_OR<-list()

for(i in c(1:32,36:43)){

C.I_u<-confint(FD_result_F1[[i]])

C.I_u<-cbind(summary(FD_result_F1[[i]])$coeff[,1],C.I_u)

C.I_u<-exp(C.I_u)

C.I_u<-round(C.I_u,digits=2)

C.I_u<-cbind(C.I_u,round(summary(FD_result_F1[[i]])$coeff[,4],digits=3))

FD_result_F1_OR[[i]]<-C.I_u

77

Page 87: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

}

FD_result_F1_OR

##################둘 중 하나에서라도 유의하면 포함##############################

selected_F0_data <- subset(F0_data, select=-c(#univariate 에서 무

의미한 변수

m1,m2,CagA, smoking_year, smoking_pack, Lauren_final,TGF_B1,TGF_B3,

IL_1B511_1,IL_1B511_2,IL_1B511_3,

#중복되는 변수 제거

smoking_1, alcohol_1, c_income_1,c_income_2, salty_1,salty_2, salty_3,

#alcohol_2, smoking_2,salty_3사용, c_income_3사용

spicy_1, spicy_3, fruit_intake_1, fruit_intake_2, AG_either, IM_either,

HP_c_infection,#spicy_2사용, fruit_intake사용x

#interaction꼴의 변수들 제거

smoking_total,location

))

summary(selected_F0_data)# IL_1RN, 유의하지 않지만 살려놓음

selected_F1_data <- subset(F1_data, select=-c(#univariate 에서 무

의미한 변수

m1,m2,CagA,smoking_year, smoking_pack, Lauren_final,TGF_B1,TGF_B3,

IL_1B511_1,IL_1B511_2,IL_1B511_3,

#중복되는 변수 제거

smoking_1, alcohol_1, c_income_1,c_income_2, salty_1,salty_2, salty_3,

#alcohol_2, smoking_2,salty_3사용, c_income_3사용

spicy_1, spicy_3, fruit_intake_1, fruit_intake_2, AG_either, IM_either,

78

Page 88: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

HP_c_infection,#spicy_2사용, fruit_intake사용x

#interaction꼴의 변수들 제거

smoking_total,location

))

summary(selected_F1_data)# TGF_B2, B 유의하지 않지만 살려놓음

##################나이와 교호작용 있는 경우 찾기, 둘 중 하나에서

라도 유의하면 두 모형 모두에 포함######################

colnames(selected_F0_data)

FD_result_F0_1<-list()

for(i in c(1:2,4:12,14:16)){

datam<-subset(selected_F0_data,select=i)

formula <- formula(paste("gp_category ~age*",colnames(datam)))

fit<-glm(formula,family="binomial",data=selected_F0_data)

FD_result_F0_1[[i]]<-summary(fit)

}

Robj2txt(FD_result_F0_1)

##SEX, AG_A, HP_cp_infection##

colnames(selected_F1_data)

FD_result_F1_1<-list()

79

Page 89: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

for(i in c(1:2,4:12,14:16)){

datam<-subset(selected_F1_data,select=i)

formula <- formula(paste("gp_category ~age*",colnames(datam)))

fit<-glm(formula,family="binomial",data=selected_F1_data)

FD_result_F1_1[[i]]<-summary(fit)

}

Robj2txt(FD_result_F1_1)

##resi_child,IM_A, B##

selected_F0_data_sub<-na.omit(selected_F0_data)

full_logit_F0<-glm("gp_category~.+sex*smoking_2+age*sex+age*resi_child

+age*AG_A+age*IM_A+age*HP_cp_infection+age*B",family="binomial",

data=selected_F0_data_sub)

summary(full_logit_F0)

reduced_logit_F0<-stepAIC(full_logit_F0)

summary(reduced_logit_F0)

C.I_F0<-confint(reduced_logit_F0)

C.I_F0<-cbind(summary(reduced_logit_F0)$coeff[,1],C.I_F0)

C.I_F0<-exp(C.I_F0)

C.I_F0<-round(C.I_F0,digits=2)

C.I_F0<-cbind(C.I_F0,round(summary(reduced_logit_F0)$coeff[,4],digits=3))

C.I_F0

80

Page 90: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

selected_F1_data_sub<-na.omit(selected_F1_data)

full_logit_F1<-glm("gp_category~.+sex*smoking_2+age*sex+age*resi_child

+age*AG_A+age*IM_A+age*HP_cp_infection+age*B",family="binomial",

data=selected_F1_data_sub)

summary(full_logit_F1)

reduced_logit_F1<-stepAIC(full_logit_F1)

summary(reduced_logit_F1)

C.I_F1<-confint(reduced_logit_F1)

C.I_F1<-cbind(summary(reduced_logit_F1)$coeff[,1],C.I_F1)

C.I_F1<-exp(C.I_F1)

C.I_F1<-round(C.I_F1,digits=2)

C.I_F1<-cbind(C.I_F1,round(summary(reduced_logit_F1)$coeff[,4],digits=3))

C.I_F1

###############intersection#################

#sex,age,resi_child,IM_A,HP_cp_infection,c_income_3,B

inter_logit_F0<-glm("gp_category~sex+age+resi_child+IM_A+HP_cp_infection

+c_income_3+B",family="binomial",\data=selected_F0_data)

inter_logit_F1<-glm("gp_category~sex+age+resi_child+IM_A+HP_cp_infection

+c_income_3+B",family="binomial",data=selected_F1_data)

81

Page 91: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

sum.F0<-summary(inter_logit_F0)

sum.F1<-summary(inter_logit_F1)

######################################################test진행.

#유병률 : 0.003806

#가족력 있는 경우 : 0.0108471

p<-0.003806

p1<-0.0108471

sp<-sum(selected_F0_data$gp_category==1)/dim(selected_F0_data)[1]

sp1<-sum(selected_F1_data$gp_category==1)/dim(selected_F1_data)[1]

#가족력의 odds ratio test

sum.F1$coef[1,1]<-sum.F1$coef[1,1]+log(p1/(1-p1))-log(sp1/(1-sp1))

sum.F0$coef[1,1]<-sum.F0$coef[1,1]+log(p/(1-p))-log(sp/(1-sp))

round(sum.F0$coef,digits=3)

round(sum.F1$coef,digits=3)

stat.alpha<-(sum.F1$coef[1,1]-sum.F0$coef[1,1])

/sqrt(sum.F1$coef[1,2]^2+sum.F0$coef[1,2]^2)

p.alpha<-(1-pnorm(abs(stat.alpha)))*2#기각. FHx의 coefficient는 0

이 아님.

p.alpha

#그외의 coef.가 FHx와 교호작용이 있는지 test i.e.두 모델에서 coef

가 같은지 test.

82

Page 92: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

dim(sum.F0$coef)

stat.gamma<-c()

p.gamma<-c()

for(i in 2:dim(sum.F0$coef)[1]){

stat.gamma[i-1]<-(sum.F1$coef[i,1]-sum.F0$coef[i,1])

/sqrt(sum.F1$coef[i,2]^2+sum.F0$coef[i,2]^2)

p.gamma[i-1]<-(1-pnorm(abs(stat.gamma[i-1])))*2

}

p.gamma#age, IM_B 만 기각됨. age, IM_B만 FHx와 교호작용이 있다고 볼 수 있음.

p.value<-c(p.alpha,p.gamma)

p.value

rownames(sum.F0$coef)[p.value<0.05]

C.I<-c()

for(i in which(p.value<0.05)){

C.I.i<-c(sum.F1$coef[i,1]-sum.F0$coef[i,1]-1.96*sqrt(sum.F1$coef[i,2]^2

+sum.F0$coef[i,2]^2), sum.F1$coef[i,1]-sum.F0$coef[i,1]

+1.96*sqrt(sum.F1$coef[i,2]^2+sum.F0$coef[i,2]^2))

C.I<-rbind(C.I,C.I.i)

}

C.I<-cbind(sum.F1$coef[which(p.value<0.05),1]

-sum.F0$coef[which(p.value<0.05),1],C.I)

rownames(C.I)<-c("FHx","age*FHx")

colnames(C.I)<-c("Estimate","LowerBound","UpperBound")

83

Page 93: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

C.I

round(exp(C.I),digits=2)

##########score plot#####################

score<-read.csv("C:\\Users\\owner\\Documents\\score.csv",header=F)

head(score)

colnames(score)<-c("age",paste0("G",1:16))

attach(score)

col<-c("black","red","blue","green","yellow","orange","brown","purple",

"gray","pink","skyblue","navy","violet","coral","gold","lightgreen")

plot(age,G1,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="black")

par(new=T)

plot(age,G2,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="red")

par(new=T)

plot(age,G3,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="blue")

par(new=T)

plot(age,G4,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="green")

par(new=T)

plot(age,G5,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="yellow")

par(new=T)

84

Page 94: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

plot(age,G6,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="orange")

par(new=T)

plot(age,G7,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="brown")

par(new=T)

plot(age,G8,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="purple")

par(new=T)

plot(age,G9,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="gray")

par(new=T)

plot(age,G10,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="pink")

par(new=T)

plot(age,G11,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="skyblue")

par(new=T)

plot(age,G12,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="navy")

par(new=T)

plot(age,G13,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="violet")

par(new=T)

plot(age,G14,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

85

Page 95: Disclaimer - s-space.snu.ac.krs-space.snu.ac.kr/bitstream/10371/131296/1/000000025812.pdf저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는

lwd = 2,col="coral")

par(new=T)

plot(age,G15,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="gold")

par(new=T)

plot(age,G16,xlab="age",ylab="score",xlim=c(30,80),ylim=c(-20,23),type="l",

lwd = 2,col="lightgreen")

title("Score for age")

legend("topleft",legend=paste0("G",1:16),lty=rep(1,16),lwd = 2,col=col)

86