introduction to statistics, 2nd edition

40
Excel Minitab Eviews SPSS SAS Matlab R 김 동 일 Philosophy & Art 2통계학입문 Introduction to Statistics

Upload: dongil-kim

Post on 30-Mar-2016

246 views

Category:

Documents


15 download

DESCRIPTION

sample pages of Introduction to Statistics, 2nd Edition

TRANSCRIPT

Page 1: Introduction to Statistics, 2nd Edition

Excel Minitab Eviews SPSS SAS Matlab R

김 동 일

Philosophy & Art

제2판

통계학입문Introduction to Statistics

Page 2: Introduction to Statistics, 2nd Edition

제2판통계학입문

Introduction to Statistics2nd Edition

김동일

홍익대학교

Philosophy & Art

Page 3: Introduction to Statistics, 2nd Edition

통계학입문제2판

저자 |김동일

발행인 |이미애

발행처 | Philosophy & Art

출판등록 | 2008년 1월 8일제152호

주소 |대전시유성구도룡동 380-39

홈페이지 | http://philosophyart.com

c© 2010,김동일

값 20,000원

ISBN 978-89-961425-3-9 93320

2008년 8월 20일 1판 1쇄발행

2010년 2월 10일 2판 1쇄발행

Page 4: Introduction to Statistics, 2nd Edition

제2판머리말

제2판은 제1판의 수많은 오타를 교정하였고, 제6장-제8장의 글과 수식을 알

기 쉽게 가다듬었으며, 연습문제의 해답과 수학 등의 참고자료를 부록에 추가하

였다. 이 책에서 발견되는 오류들에 대한 정오표와 강의용 프리젠테이션 파일은

http://philosophyart.com에서 제공될 예정이다. 제2판의 교정작업에 많은 도움을

준홍익대학교의강민수학생에게따뜻한감사의마음을전하고싶다.

김동일

2010년 2월

Page 5: Introduction to Statistics, 2nd Edition

차례

차례 vii

표차례 xv

그림차례 xvii

제1장 통계학과통계프로그램 1

1.1 통계학 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 통계프로그램 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

제2장 데이터의요약 7

2.1 그래프와표를이용한데이터의요약 . . . . . . . . . . . . . . . . . . . . 8

도수분포와히스토그램 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

산점도와두변수의도수분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 11

시계열그림 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 통계를이용한데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . 13

위치에대한통계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

스케일에대한통계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

선형상관에대한통계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

상자그림 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

vii

Page 6: Introduction to Statistics, 2nd Edition

viii 차례

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

제3장 확률이론의기초 19

3.1 표본공간과사건 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

표본공간 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

사건,사건들의집합체 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

상호배반,집합적으로포괄,분할 . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 확률 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

확률의정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

고전적확률이론 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

통계적확률 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

확률의덧셈법칙 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

조건부확률과확률의곱셈법칙 . . . . . . . . . . . . . . . . . . . . . . . . 30

독립 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

제4장 확률변수와확률분포 37

4.1 확률변수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.2 이산확률변수의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

확률질량함수와분포함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

평균과기댓값 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

분산과표준편차 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

표준화된확률변수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.3 이산확률변수의결합확률분포와주변확률분포 . . . . . . . . . . . . . . 49

결합확률분포와주변확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . 49

기댓값과분산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

공분산과상관계수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

조건부확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

반복기대의법칙과독립 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Page 7: Introduction to Statistics, 2nd Edition

차례 ix

이산확률변수가셋이상인경우의결합확률분포와주변확률분포 . . 63

4.4 연속확률변수의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

확률밀도함수와분포함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

결합확률밀도함수와주변확률밀도함수 . . . . . . . . . . . . . . . . . . . 67

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

제5장 확률분포의예 71

5.1 베르누이분포와이항분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

베르누이분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

이항분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.2 정규분포와다변량정규분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 76

정규분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

다변량정규분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.3 카이제곱분포, t-분포,그리고 F -분포 . . . . . . . . . . . . . . . . . . . . 84

카이제곱분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

t-분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

F -분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

제6장 통계의확률분포 95

6.1 표본과통계의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

표본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

통계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

통계의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.2 정규분포통계의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

표본평균과표본분산의확률분포 . . . . . . . . . . . . . . . . . . . . . . . 101

표본평균의차이의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 103

표본분산의비율의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 104

대응표본에서표본평균의차이의확률분포 . . . . . . . . . . . . . . . . 105

Page 8: Introduction to Statistics, 2nd Edition

x 차례

6.3 대표본에서통계의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 106

확률수렴과분포수렴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

큰수의법칙과중심극한정리 . . . . . . . . . . . . . . . . . . . . . . . . . 108

표본평균의점근분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

표본평균의차이의점근분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 112

대응표본에서표본평균의차이의점근분포 . . . . . . . . . . . . . . . . 113

표본비율의차이의점근분포 . . . . . . . . . . . . . . . . . . . . . . . . . . 113

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

제7장 추정과가설검정 115

7.1 추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

추정과추정량 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

추정량의성질 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

7.2 구간추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

구간추정,신뢰수준과신뢰구간 . . . . . . . . . . . . . . . . . . . . . . . . 120

평균에대한구간추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

비율에대한구간추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

구간추정의표본추출오차와표본의크기 . . . . . . . . . . . . . . . . . . 126

평균의차이에대한구간추정 . . . . . . . . . . . . . . . . . . . . . . . . . 131

대응표본에서평균의차이에대한구간추정 . . . . . . . . . . . . . . . . 134

비율의차이에대한구간추정 . . . . . . . . . . . . . . . . . . . . . . . . . 138

7.3 가설검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

귀무가설과대립가설 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

가설검정의원리와평균에대한가설검정 . . . . . . . . . . . . . . . . . 141

비율에대한가설검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

평균의차이에대한가설검정 . . . . . . . . . . . . . . . . . . . . . . . . . 153

두정규분포의분산에대한가설검정 . . . . . . . . . . . . . . . . . . . . 157

대응표본에서평균의차이에대한가설검정 . . . . . . . . . . . . . . . . 159

Page 9: Introduction to Statistics, 2nd Edition

차례 xi

비율의차이에대한가설검정 . . . . . . . . . . . . . . . . . . . . . . . . . 163

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

제8장 회귀모형의분석 169

8.1 선형회귀모형 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

회귀란용어의유래 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

선형회귀모형 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

8.2 회귀모형의추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

8.3 LS추정량의성질 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

선형추정량 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

비편향성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

분산과공분산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

가우스-마르코프정리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

총변동의분해와결정계수 . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

예측과예측오차 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

8.4 구간추정및가설검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

LS추정량의확률분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

구간추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

회귀모형의계수에대한가설검정 . . . . . . . . . . . . . . . . . . . . . . 198

회귀모형의유의성에대한가설검정 . . . . . . . . . . . . . . . . . . . . . 201

LS추정량의점근분포 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

8.5 기타 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

LS추정의보고와해석 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

변수의단위 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

선형모형의의미 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

연습문제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

부록 A 통계프로그램 209

Page 10: Introduction to Statistics, 2nd Edition

xii 차례

A.1 Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

Excel의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 218

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

A.2 Minitab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

Minitab의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 230

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

A.3 Eviews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

Eviews의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 240

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

A.4 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

SPSS의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 250

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

A.5 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

SAS의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 265

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

A.6 Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

Matlab의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275

Page 11: Introduction to Statistics, 2nd Edition

차례 xiii

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 279

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

A.7 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

R의기본 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

데이터의요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

확률계산과확률표본의추출 . . . . . . . . . . . . . . . . . . . . . . . . . . 292

회귀모형의 LS추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294

부록 B 분포표 297

B.1 표준정규분포표 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298

B.2 카이제곱분포표 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

B.3 t-분포표 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300

B.4 F -분포표 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

부록 C 참고자료 307

C.1 수학 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307

일변수함수와도함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307

다변수함수와편도함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

미분과전미분 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312

일변수함수의극대화와극소화문제 . . . . . . . . . . . . . . . . . . . . . 313

다변수함수의극대화와극소화문제 . . . . . . . . . . . . . . . . . . . . . 314

등식제약하의극대화와극소화 . . . . . . . . . . . . . . . . . . . . . . . . 316

C.2 그리스알파벳 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319

부록 D 연습문제해답 321

D.1 제1장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321

D.2 제2장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321

D.3 제3장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

D.4 제4장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

Page 12: Introduction to Statistics, 2nd Edition

xiv 차례

D.5 제5장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335

D.6 제6장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

D.7 제7장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337

D.8 제8장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348

용어찾아보기 353

인명찾아보기 365

Page 13: Introduction to Statistics, 2nd Edition

제1장

통계학과통계프로그램

사람들은같은사물을제각기다른모습으로인식한다.

통계학은사물의인식에따르는불확실성을평가하고,그를통해사물의

참모습을과학적으로추론한다.

1

Page 14: Introduction to Statistics, 2nd Edition

2 1. 통계학과통계프로그램

1.1 통계학

정의 1.1. (모집단,표본,표집)관심의대상이되는전체를모집단(population)

이라고 하며, 모집단에서 관측된 부분을 표본(sample), 모집단으로부터 표본

을뽑는것을표집또는표본추출(sampling)이라고한다.

정의 1.2. (통계,통계적추론,통계학)표본의데이터에산술적연산을적용한

결과를통계(statistic)라고하며,표본의데이터에서통계를만들고,그통계를

분석하여표본의모집단에대해통계적추론(statistical inference)을하는학문

을통계학(statistics)이라고한다.

만약모집단전체를관측할수있다면,즉표본이바로모집단이라면,표본의데이

터를정리하여통계를만드는것으로통계학의역할은끝난다.그러나일반적으로

모집단 전체를 관측하는 것은 매우 비효율적이거나 또는 아예 불가능하여, 모집

단의 일부인 표본만이 관측되는 경우가 대부분이며, 관측된 표본의 데이터로부터

관측되지 않은 모집단의 특성에 대해 통계적 추론을 하는 것이 통계학의 또 다른

역할이다.그림 1.1은모집단으로부터표본을추출하고,표본의데이터로부터통계

그림 1.1:통계학의역할

1,010,998

1125

98.234

%

모집단

표본추출

통계적추론

표본/데이터통계

Page 15: Introduction to Statistics, 2nd Edition

1.2. 통계프로그램 3

를 만들며, 통계를 이용하여 모집단의 특성에 대해 통계적 추론을 하는 통계학의

역할을요약하고있다.

1.2 통계프로그램

현재우리나라에서는 Excel, Minitab, Eviews, SPSS, SAS, Matlab, R등이통계프로그

램으로많이사용되고있다.

그림 1.2는 Excel과 Minitab의 첫 실행화면이다. Excel은 1987년 Microsoft가 스

그림 1.2: Excel과 Minitab

(a) Excel (b) Minitab

프레드시트(spreadsheet) 프로그램으로 개발하였지만, 통계프로그램 기능을 지원

하며무엇보다도 MS Office에포함되어누구나쉽게구할수있기때문에통계프로

그램으로도널리사용되고있다. Minitab은 1972년펜실베이니어주립대학(Pennsyl-

vania State University)의연구원들이교육용통계프로그램으로개발하였고,통계에

자주사용되는명령문이아이콘형태로툴바에알기쉽게정리되어있어서교육용

으로널리사용되고있다.

그림 1.3은 Eviews의첫실행화면이다. Eviews는 1994년 Quantitative Micro Soft-

ware가개발하였고,시계열의분석에유용한도구가많이내장되어있어시계열분

석통계프로그램으로널리사용되고있다.

Page 16: Introduction to Statistics, 2nd Edition

4 1. 통계학과통계프로그램

그림 1.3: Eviews

그림 1.4는 SPSS와 SAS의 첫 실행화면이다. 사회과학용 통계패키지(Statistical

그림 1.4: SPSS와 SAS

(a) SPSS (b) SAS

Package for the Social Sciences)란 의미를 가진 SPSS는 1968년 SPSS가 개발하였으

며,설문조사기관,정부기관,교육기관,금융기관등에서본격적인통계프로그램으

로널리사용되고있다.통계분석시스템(Statistical Analysis System)란의미를가진

SAS는 1966년 SAS Institute가 개발하였다. SAS는 통계프로그램 이외에도 우수한

데이터마이닝(data mining) 기능을 가지고 있어서 큰 사이즈의 데이터를 다루는

데 적합하여, 설문조사기관, 정부기관, 교육기관, 금융기관 등에서 널리 사용되고

있다.

Page 17: Introduction to Statistics, 2nd Edition

1.2. 통계프로그램 5

그림 1.5는 Matlab과 R의 첫 실행화면이다. 행렬실험실(matrix laboratory)이란

그림 1.5: Matlab과 R

(a) Matlab (b) R

의미를 가진 Matlab은 1970년대 말에 뉴멕시코대학(University of New Mexico)의

컴퓨터과학 교수인 몰러(Moler, C.)가 Fortran을 사용하지 않고 행렬계산을 할 수

있는 프로그램으로 처음 개발하였으며, 교육기관, 이미지프로세싱 관련 산업에서

널리사용되고있다. R은 1997년이하카(Ihaka, Ross)와젠틀맨(Gentleman, Robert)

이 통계계산 및 그래프 프로그램으로 개발하였으며, 두 개발자의 이름 첫 글자를

따서 이름이 지어졌다. R 프로그램은 GNU 일반공중라이선스(GNU General Public

License)에따라무료로배포되고있으며,통계프로그램개발과데이터분석에널리

사용되고있다.

Excel, Minitab, Eviews, SPSS, SAS, Matlab, R의통계프로그램들은서로다른장

단점을갖고있기때문에,작업의성격에따라보다효율적인통계프로그램을선택

하여 사용하는 것이 바람직하다. 예를 들어, Excel은 대부분의 컴퓨터에 설치되어

있어어디서든사용하기쉽다는장점이있고,교육용으로개발된 Minitab은본격적

인통계프로그램중에서는가장쉽게배울수있으며, SPSS는마케팅이나설문조사

기관에서사용하기편하게특화되어있고, SAS는큰데이터를다룰수있는우수한

데이터마이닝 기능이 있고, Matlab과 R은 수학적 연산을 자유롭게 할 수 있다. 그

러나 이 책에서 다루는 통계학의 기초적인 내용은 어떤 통계프로그램으로도 쉽게

Page 18: Introduction to Statistics, 2nd Edition

6 1. 통계학과통계프로그램

다룰수있기때문에,굳이특정통계프로그램을선택할이유는없다.이책은위의

어떤 통계프로그램으로도 통계학을 학습할 수 있도록, 위의 모든 통계프로그램을

소개할것이다.

연습문제

문제 1.1 다음의질문에답하라.

(1) 통계학의역할을설명하라.

(2) 모집단,표본,통계의예를들어보라.

Page 19: Introduction to Statistics, 2nd Edition

제2장

데이터의요약

우리는데이터를통해서사물을인식한다.

데이터는우리가세상을바라보는창이다.

7

Page 20: Introduction to Statistics, 2nd Edition

8 2. 데이터의요약

2.1 그래프와표를이용한데이터의요약

도수분포와히스토그램

천체의 외관상 밝기는 외관등급(apparent magnitude)으로 측정되는데, 외관등급

이 낮을수록 더 밝게 보이며, 외관등급의 단위는 로그스케일로 1단위 작으면 약

2.512배 더 밝게 보이는 것을 의미한다. 태양의 외관등급은 -26.73, 달의 외관등급

은 -12.6,금성의외관등급은 -3.7,도시에서육안으로볼수있는가장희미한별의

외관등급은 3,가장완벽한조건에서육안으로볼수있는가장희미한별의외관등

급은 6.5이다.그림 2.1은지구의밤하늘에서가장밝게보이는별인큰개자리(Canis

Major)의시리우스(Sirius)인데,시리우스의외관등급은 -1.44이다.1 시리우스가가

그림 2.1:시리우스와큰개자리

(a) 시리우스 (b) 큰개자리

장 밝게 보이는 것은 실제로 가장 밝기 때문이 아니라 지구에서 가깝기 때문이다.

별의실제밝기는절대등급(absolute magnitude)으로측정되는데,외관등급과삼각

시차(parallax,단위는 arcsec또는 ′′이며 1′′ = 13600

◦)의함수로다음과같이주어지

며,

절대등급=외관등급+ 5(log10삼각시차+ 1) (2.1)

1그림 (a)는 NASA와 ESA, 그림 (b)는 Zwergelstern가 만들었으며, 공용도메인이다.

Page 21: Introduction to Statistics, 2nd Edition

2.1. 그래프와표를이용한데이터의요약 9

지구에서 10pc(10parsec,약 32.616광년)떨어진거리에있을경우별의외관등급을

나타낸다.

Hipparcos 폴더의 Sirius.csv 파일은 시리우스를 중심으로 하는 밤하늘의 일부

에서 도시에서 육안으로 볼 수 있는 별 22개의 히파르코스 고유번호(HIP), 외관

등급(Vmag), 삼각시차(Plx)의 데이터이다.2 표 2.1은 Sirius 데이터를 보여주는데,

절대등급(Amag)은식 (2.1)에따라계산된것이다.3 시리우스의 HIP는 32349이다.

표 2.1: Sirius데이터

HIP Vmag Plx Amag23875 2.78 36.7 0.6024436 0.18 4.2 -6.6925336 1.64 13.4 -2.7225606 2.81 20.5 -0.6325930 2.25 3.6 -4.9925985 2.58 2.5 -5.4026241 2.75 2.5 -5.3026311 1.69 2.4 -6.3826634 2.65 12.2 -1.9326727 1.74 4.0 -5.2627366 2.07 4.5 -4.6527989 0.45 7.6 -5.1430324 1.98 6.5 -3.9532349 -1.44 379.2 1.4533579 1.50 7.6 -4.1034444 1.83 1.8 -6.8735264 2.71 3.0 -4.9235904 2.45 1.0 -7.5136188 2.89 19.2 -0.7037279 0.40 285.9 2.6839429 2.21 2.3 -5.9539757 2.83 52.0 1.41

21997년 유럽우주기구(European Space Agency)는 그리스 천문학자 히파르코스(Hip-parchus)의 이름을 딴 인공위성 히파르코스(Hipparcos)를 이용하여 별 12만개의 외관등급과 삼각시차 등을 측정한 히파르코스 카탈로그(Hipparcos Catalogue)를 발표하였다.Hipparcos 폴더의 Hipparcos.csv는 히파르코스 카탈로그의 118,218개의 모든 별들에 대한 데이터이며, Sirius.csv는 시리우스를 중심으로 좌우상하로 30도 이내의 밤하늘에서도시에서 육안으로 볼 수 있는, 외관등급 3이하의 별들을 고른 표본이다.

3히파르코스카탈로그의삼각시차의단위는 11000

′′이므로,절대등급은 Amag= Vmag+

5(log10Plx

1000+ 1)로 계산된다.

Page 22: Introduction to Statistics, 2nd Edition

10 2. 데이터의요약

표 2.1에서 시리우스의 외관등급은 -1.44로 표본에서 가장 밝게 보이는 별이지만,

절대등급은 1.45로실제로는표본에서두번째로어두운별임을알수있다.

표 2.2는절대등급(Amag)의도수(frequency,변수값이관측된횟수)와상대도수

(relative frequency, 도수의 비율)를 구간별로 기록한 도수분포(frequency distribu-

tion)이다.

표 2.2: Sirius데이터의절대등급의도수분포

절대등급 도수 상대도수

[-8, -6) 4 0.18[-6, -4) 9 0.41[-4, -2) 2 0.09[-2, 0) 3 0.14[0, 2) 3 0.14[2, 4) 1 0.05

구간별 도수분포를 그래프로 나타낸 것을 히스토그램(histogram)이라고 한다.

그림 2.2는표 2.2의도수분포의히스토그램이다.히스토그램의가로축에는변수값

그림 2.2: Sirius데이터의절대등급의히스토그램

420-2-4-6-80

2

4

6

8

0

0.045

0.090

0.135

0.180도수밀도

의구간을표시하고,세로축에는도수또는밀도를표시하고,구간별로그에해당하

는높이의막대를그린다.밀도(density)는상대도수를구간의폭으로나눈것이다.

히스토그램을 그릴 때에는 막대의 면적이 상대도수에 비례하도록 그려야 구간의

Page 23: Introduction to Statistics, 2nd Edition

2.1. 그래프와표를이용한데이터의요약 11

상대적인 비중에 대해 올바른 정보를 전달할 수 있다. 밀도의 높이로 막대를 그릴

경우, 막대의 면적은 구간의 폭과 밀도를 곱한 것이다. 그런데 밀도는 상대도수를

구간의 폭으로 나눈 것이기 때문에, 막대의 면적은 상대도수와 일치하고, 따라서

구간의상대적인비중에대해올바른정보를전달할수있다.표 2.2의구간별도수

분포는구간의폭이일정하다.이런경우에는도수의높이로막대를그려도막대의

면적이상대도수에비례하는면적을가지게되어밀도의높이로막대를그린경우

와마찬가지로구간의상대적인비중에대해올바른정보를전달할수있다.

산점도와두변수의도수분포

Karl Pearson(1857–1936)통계학자

1896년 통계학자 피어슨은 키의 유전에 대한 우생학자 갈톤(Galton, Francis)의 주

장을 확인하기 위해 영국의 1078명의 아버지와 아들의 키를 조사하였다. Pearson

Francis Galton(1822-1911)우생학자

폴더의 Pearson.csv 파일은 피어슨이 조사한 아버지의 키(Fheight, 단위는 인치)와

아들의 키(Sheight)의 데이터이다. 두 변수의 분포를 그래프로 나타낸 것을 산점

도(scatter plot)라고한다.그림 2.3은 Pearson데이터의두변수의산점도로,가로축

그림 2.3: Pearson데이터의아버지의키와아들의키의산점도

75706560

60

65

70

75

아버지의키

아들의키

은아버지의키,세로축은아들의키를나타낸다.

Page 24: Introduction to Statistics, 2nd Edition

12 2. 데이터의요약

표 2.3은 아버지의 키와 아들의 키의 도수를 구간별로 기록한 도수분포이다.

가운데셀의숫자는특정조합의아버지의키와아들의키의구간이관측되는도수

표 2.3: Pearson데이터의아버지의키와아들의키의도수분포

아버지의키 아들의키

[55,60) [60,65) [65,70) [70,75) [75,80)[55,60) 0 3 1 0 0 4[60,65) 2 36 130 13 0 181[65,70) 2 47 438 177 7 671[70,75) 0 4 86 122 8 220[75,80) 0 0 0 2 0 2

4 90 655 314 15 1078

이다.맨오른쪽열은세로축변수인아들의키의구간별도수분포이며,맨아래쪽

행은가로축변수인아버지의구간별도수분포이다.표 2.3과같은두변수의구간

별도수분포는 3차원히스토그램으로나타낼수있지만,일반적으로널리사용되지

않는다.

시계열그림

Stock폴더의 Stock.csv파일은 2007년한국종합주가지수(Kospi)와코스닥지수(Kos-

daq)의일별데이터인데,이렇게시간에순서에따라관측된데이터를시계열데이

터(time series data)라고한다.

시계열데이터의 경우 시간에 따른 추이를 이해하는 것이 매우 중요한데, 시계

열데이터의 추이를 보여주는 그래프를 시계열그림(time series plot)이라고 한다.

그림 2.4은 2007년한국종합주가지수의추이를보여주는시계열그림이다.시계열

그림의가로축은시간,세로축은변수값을나타내고,변수값들은시간의순서대로

선으로연결하여그린다.

Page 25: Introduction to Statistics, 2nd Edition

2.2. 통계를이용한데이터의요약 13

그림 2.4: 2007년한국종합주가지수의시계열그림

12월6월1월

1400

1600

1800

2000

2.2 통계를이용한데이터의요약

변수의주요한특성은변수값의위치(location)와스케일(scale)로요약된다.위치와

스케일에대한측도는모집단과표본에대해각각따로정의되는데,표본의데이터

로정의되는측도(measure)가통계(statistic)이다.

위치에대한통계

위치에대한측도는평균(mean),중위수(median),사분위수(quartile)등이있고,변

수값의위치를측정한다.표본의평균은다음과같이정의되고,

정의 2.1. (표본평균)표본 {X i}ni=1의표본평균(sample mean) X은다음과같이

정의된다.

X =1

n

n∑

i=1

X i (2.2)

표본의중위수,제1사분위수와제3사분위수는다음과같이정의된다.

Page 26: Introduction to Statistics, 2nd Edition

14 2. 데이터의요약

정의 2.2. (표본의 중위수와 사분위수) 표본 {X i}ni=1의 관측값이 오름 순으로

X1 ≤ . . . ≤ Xn와같이정렬되어있다면,표본의중위수 XM (또는동등하게제2

사분위수 XQ2)는다음과같이정의된다.

XM =

X 12(n+1) n이홀수

12

X 12

n+ X 12(n+1)

n이짝수(2.3)

한편만약 n+1이 4의배수이면제1사분위수 XQ1와제3사분위수 XQ3는다음과

같이정의되고,

XQ1 = X 14(n+1) (2.4)

XQ3 = X 34(n+1) (2.5)

그렇지않은경우에는여러가지종류의선형보간법(linear interpolation)으로

정의된다.a

aExcel에서는 표본 {X i}ni=1의 X i를i−0.5

n분위수(quantile)로, Minitab과 SPSS에서

는 in+1분위수로, SAS와 Matlab에서는 i−1

n−1분위수로 가정하고, 0.25, 0.5, 0.75 주

위의 두 분위수의 변수값을 이용하여 선형보간법으로 사분위수를 구한다. R에서는기본적으로 Excel에서의 방법으로 구하지만 옵션을 지정하여 세 방법을 선택할 수있다.

스케일에대한통계

스케일에대한측도로는분산(variance),표준편차(standard deviation),범위(range),

사분위범위(interquartile range)등이있고,변수값의퍼진정도(dispersion)또는변

동성(variability)을측정한다.표본의분산과표준편차는다음과같이정의되고,

Page 27: Introduction to Statistics, 2nd Edition

제8장

회귀모형의분석

The owl of Minerva spreads its wings only with the falling of the dusk. -

Georg Wilhelm Friedrich Hegel

169

Page 28: Introduction to Statistics, 2nd Edition

170 8. 회귀모형의분석

8.1 선형회귀모형

회귀란용어의유래

회귀(regression, 回歸)란 용어를 처음 사용한 사람은 갈톤(Galton, Francis)과 피어

슨(Pearson, Karl)이다.피어슨은영국의 1078명의아버지와아들의키를조사했는

데, 키가 큰 아버지들의 그룹에서는 아들들의 평균 키가 아버지들의 평균 키보다

작고 키가 작은 아버지들의 그룹에서는 아들들의 평균 키가 아버지들의 평균 키

보다크다는것을발견했다.1 그림 8.1은피어슨의데이터의산점도인데,가로축은

그림 8.1:아버지와아들의키의관계

72.164.0

70.7

66.7

아버지의키,세로축은아들의키를나타낸다.예를들어아버지의키가 71.5-72.5인

치인 그룹에서 아버지들의 평균 키는 72.1인치인데 비해 아들들의 평균 키는 70.7

인치로 아버지들의 평균보다 1.4인치 작았고, 아버지의 키가 63.5-64.5인치인 그

룹에서, 아버지들의 평균 키는 64.0인치인데 비해 아들들의 평균 키는 66.7인치로

1Galton, Francis (1886). Regression towards mediocrity in hereditary stature, Journal ofthe Anthropological Institute of Great Britain and Ireland, 15, 246-263. Pearson, Karl (1896).Mathematical contributions to the mathematical theory of evolution. III. Regression, heredity,and panmixia, Philosophical Transactions of the Royal Society of London, 187, 253318.

Page 29: Introduction to Statistics, 2nd Edition

8.1. 선형회귀모형 171

아버지들의 평균보다 2.7인치 컸다. 피어슨은 아버지와 아들의 키의 이러한 관계

는자식들의키가 평범으로 회귀(regression towards mediocrity)하는경향이있다는

갈톤의견해를뒷받침한다고주장했다.

선형회귀모형

기본적인선형회귀모형(linear regression model)은다음과같은가정들로이루어진

다.

가정 8.1. (선형회귀모형) {X i , Yi}ni=1이확률표본이고,다음이성립하며,

Yi = β1+ β2X i + εi , i = 1, . . . , n (8.1)

E(εi|X i) = 0 i = 1, . . . , n (8.2)

Var(εi|X i) = σ2 i = 1, . . . , n (8.3)

{X i}ni=1은서로다른두개이상의값을가진다.

가정 8.1의선형회귀모형은다음과같은특징을가진다.

(1) 선형회귀모형에서 {Y }ni=1은종속변수(dependent variable)또는반응변수(re-

sponse variable)라고하며, {X }ni=1은독립변수(independent variable)또는설

명변수(explanatory variable)라고 한다. 선형회귀모형의 β1,β2,σ2는 파라미

터이고, {εi}ni=1는관측되지않는오차(error)를나타낸다.

(2) 식 (8.1)-(8.2)는 X가주어질때 Y의조건부평균이 E(Y |X ) = β1+β2X임을의

미한다.2 이모형을 회귀모형이라고부르는것은, Y가조건부평균 E(Y |X ) =

2E(ε|X ) = 0이면, E(Y |X ) = β1 + β2X + E(ε|X ) = β1 + β2X이다.

Page 30: Introduction to Statistics, 2nd Edition

172 8. 회귀모형의분석

β1+β2X로회귀한다고해석하기때문이다.3 회귀모형의파라미터 β1,β2,σ2

에 대한 통계적 추론을 회귀분석(regression analysis)이라고 한다. 이 모형을

선형회귀모형이라고 부르는 것은, Y의 조건부평균이 E(Y |X ) = β1 + β2X로

선형함수이기때문이다.

(3) 가정 8.1의선형회귀모형은독립변수가하나이기때문에단순선형회귀모형

(simple linear regression model)이라고 하며, 만약 독립변수가 둘 이상이면

다중선형회귀모형(multiple linear regression model)이라고한다.

(4) 가정 8.1의 선형회귀모형에서 E(Y |X ) = β1 + β2X를 회귀식(regression equa-

tion),또는회귀선(regression line)이라고하며,파라미터 β1,β2를회귀모형의

계수(coefficients)라고한다.회귀모형의계수 β2는특히다음과같이수학의

도함수(derivative)와같은의미를가지는데,

dE(Y |X )dX

= β2 (8.4)

즉, 독립변수 X가 한 단위 증가하면, 종속변수 Y가 평균적으로 β2 단위만큼

증가함을의미한다.

(5) 식 (8.2)의 E(εi|X i) = 0은독립변수 X의외생성(exogeneity)의조건이라고하

며, 식 (8.3)의 Var(εi|X i) = σ2는 등분산성(homoskedasticity)의 조건이라고

한다. {X i}ni=1이 서로 다른 두 개 이상의 값을 가져야 하는 것은 파라미터를

추정하기위해필요한식별성(identification)의조건이라고한다.

(6) {X i , Yi}ni=1이 확률표본이면, {εi}ni=1은 독립이므로 Cov(εi ,ε j) = 0, i 6= j이 성

립하고,이를자기상관(autocorrelation)의부재라고한다.

3조건부평균으로의 회귀를 의미하는 회귀모형의 회귀의 개념은 평균으로의 회귀를

의미하는 갈톤과 피어슨의 회귀의 개념과는 차이가 있다.

Page 31: Introduction to Statistics, 2nd Edition

8.1. 선형회귀모형 173

예제 8.1 가정 8.1의선형회귀모형에서식 (8.2)의 E(εi|X i) = 0이성립하면,다음이

성립함을증명하라.

E(εi) = 0 (8.5)

E(X iεi) = 0 (8.6)

Cov(X i ,εi) = 0 (8.7)

Var(εi) = σ2 (8.8)

증명 E(εi|X i) = 0이므로,반복기대의법칙에따라다음이성립하고,

E(εi) = E�

E(εi|X i)�

= 0

E(X iεi) = E�

X i E(εi|X i)�

= 0

Cov(X i ,εi) = E(X iεi)− E(X i)E(εi) = 0

한편 Var(εi|X i) = E(ε2i |X i)−

E(εi|X i)�2 = E(ε2

i |X i) = σ2이므로,다음이성립한다.

Var(εi) = E(ε2i )−

E(εi)�2 = E

E(ε2i |X i)

= σ2

가정 8.2. (정규선형회귀모형) {X i , Yi}ni=1이확률표본이고,다음이성립하며,

Yi = β1+ β2X i + εi , i = 1, . . . , n (8.9)

εi|X i ∼ N(0,σ2) i = 1, . . . , n (8.10)

{X i}ni=1은서로다른두개이상의값을가진다.

Page 32: Introduction to Statistics, 2nd Edition

174 8. 회귀모형의분석

εi|X i가 정규분포를 따르면, Yi|X i도 정규분포를 따르며, Yi|X i ∼ N(β1 + β2X i ,σ2)

이며,한편 {Yi}ni=1이독립이므로, {εi|X i}ni=1, {Yi|X i}ni=1은다변량정규분포를따른다.

그림 8.2는정규선형회귀모형의분포를보여주는데,그림의그늘진부분은 X가주

그림 8.2:정규선형회귀모형

X

Y

X3

X2

X1

Y3|X3Y2|X2Y1|X1

E(Y |X ) = β1 + β2X

어질때 Y |X의분포를나타낸다. Y |X는회귀선의점 E(Y |X ) = β1+β2X를중심으로

N(β1+β2X ,σ2)의분포를따르며,등분산의가정에따라분포의형태는모두같다.

Page 33: Introduction to Statistics, 2nd Edition

부록 A

통계프로그램

A.1 Excel

Excel의기본

Excel을실행하면그림 A.1과같은창이열린다. Excel은격자눈금(grid)으로구분되

는셀(cell)로이루어진여러개의워크시트(worksheet)로구성되며,창왼쪽아래의

시트탭(sheet tab)으로워크시트를선택한다.셀의위치는열과행으로구분되는데,

열의위치는알파벳,행의위치는숫자로표시된다.예를들어 A1은첫번째열,첫

번째 행의 셀을 가리키며, A1:B3은 A1과 B3의 셀을 두 꼭짓점으로 하는 직사각형

안의모든셀,즉 A1, A2, A3, B1, B2, B3의셀을가리킨다.5

Excel 기능은 크게 데이터를 셀에 입력하고, 입력된 데이터로 산술계산이나 그

래프를작성하는두단계로이루어진다.워크시트의열의위치를표시하는 A, B, C,

. . .바로위의줄에왼쪽상자를이름상자라고하고,오른쪽의긴상자를수식입력

줄이라고한다.원하는셀을클릭하면열의알파벳과행의숫자의색이변하고,이

5Sheet1의 A1 셀을 가리킬 때는 Sheet1!A1으로 표시한다. A1은 셀의 위치를 변경하면자동으로 변하는 상대참조(relative reference)이다. 만약 $A$1으로 표시하면 셀의 위치를변경해도 변하지 않는 절대참조(absolute reference)가 된다.

209

Page 34: Introduction to Statistics, 2nd Edition

284 부록 A. 통계프로그램

그림 A.61: R:첫실행화면

R에는 여러 가지 수학함수와 통계함수의 명령문이 있다. 예를 들어, sqrt()는

제곱근, log()는자연로그, exp()는지수함수이며,이를이용하여다음과같이산술

계산을 할 수 있다. 명령문이 끝나기 전에 Enter키를 치면 다음 줄에 +가 나오며,

나머지 명령문을 이어서 입력할 수 있다. help()를 이용하면 R Help 창에서 명령문

에대한설명을볼수있다.

Page 35: Introduction to Statistics, 2nd Edition

A.7. R 285

> sqrt(2); exp(1)

[1] 1.414214

[1] 2.718282

> log(exp(

+ 2)

+ )

[1] 2

> help(exp)

R프로그램은대문자와소문자를구별하므로주의를요한다.

R에서 =는 좌변의 변수에 우변의 변수값을 할당(assign)함을 의미한다. 다음

에서 x=0.2는 x에 0.2의 숫자를 할당함을 의미하며, x=x+1은 x에 x+1의 숫자를

할당함을, 그런데 x에 이미 0.2의 숫자가 할당되어 있었기 때문에 x에 0.2+1=1.2

의 새로운 숫자를 할당함을 의미한다. R에서 =는 수학에서 등호를 나타내는 =와

다르다는것을주의해야한다.변수에변수값을할당하는것으로어떤결과가출력

되지는않는다.

> x=0.2; x

[1] 0.2

> x=x+1; x

[1] 1.2

변수에 벡터의 변수값을 할당하려면 c()에 쉼표로 분리하여 변수값을 적어 넣

으면 된다. 일정한 변동폭으로 증가 또는 감소하는 벡터의 변수값을 할당하려면

seq()를이용하여시작하는숫자,끝나는숫자,변동폭의순서대로지정하면된다.

Page 36: Introduction to Statistics, 2nd Edition

286 부록 A. 통계프로그램

> x=c(9,3,3,7,2,8,0,6,4,5)

> x

[1] 9 3 3 7 2 8 0 6 4 5

> y1=seq(0,100,10);y2=seq(100,0,-20)

> y1;y2

[1] 0 10 20 03 40 50 06 07 80 90 100

[1] 100 80 60 40 20 0

Hipparcos 폴더의 Sirius.csv 파일은 시리우스를 중심으로 하는 밤하늘의 일부

에서 도시에서 육안으로 볼 수 있는 22개 별의 히파르코스 고유번호(HIP), 외관

등급(Vmag), 삼각시차(Plx)의 데이터이다. 첫째 줄의 머리부(header)에는 변수명

이 있고, 데이터는 둘째 줄부터 시작된다. 이 데이터파일은 변수값이 쉼표로 구분

된 CSV(comma separated value) 형식인데, 이런 형식의 데이터파일을 읽으려면,

read.csv()에데이터파일의경로를큰따옴표(" ")또는작은따옴표(’ ’)사이에지정

하면된다.이때변수명은프로그램에서지정한데이터명과데이터파일머리부의

변수명,그리고그사이에 $가추가된것으로정해진다.

> d1=read.csv("c:/data/Hipparcos/Sirius.csv")

> d1$Vmag[1] 2.78 0.18 1.64 2.81 2.25 2.58 2.75 1.69 2.65

[10] 1.74 2.07 0.45 1.98 -1.44 1.50 1.83 2.71 2.45

[19] 2.89 0.40 2.21 2.83

여기서 [1], [10], [19]는 첫 번째 숫자가 몇 번째 관측치인지를 나타낸다. 만약 데

이터파일에 머리부가 없고 데이터가 첫째 줄부터 시작되면, header=F란 옵션을

지정하면데이터파일의첫째줄부터읽는다.이때변수명은자동적으로정해진다.

절대등급 Amag의변수는다음과같이만들며,

> d1$Amag=d1$Vmag+5 * log10(d1$Plx/1000)+1)

Page 37: Introduction to Statistics, 2nd Edition

부록 D

연습문제해답

D.1 제1장

문제 1.1 (1) 통계학의역할은,모집단으로부터표본을추출하고,표본의데이터

로부터통계를만들며,통계를이용하여모집단의특성에대해통계

적추론을하는것이다.

(2) 제17대 대통령선거가 실시된 2007년 12월 19일 오전 한국갤럽은

만 19세 이상의 남녀 2,000명에게 오늘 누구에게 투표할 예정인지

를묻는전화여론조사를하였다.이때모집단은제17대대통령선거

유권자이고,표본은한국갤럽에서전화여론조사를한 2,000명이고,

통계는,예를들어,여론조사응답자중에서이명박후보를지지하는

비율이다.

D.2 제2장

문제 2.1 (1) IQ의 최솟값은 79.5, 최댓값은 142이므로, 구간의 범위를 70부터

150까지, 구간의 폭을 10으로 정하면, IQ의 구간별 도수분포는 다

321

Page 38: Introduction to Statistics, 2nd Edition

342 부록 D. 연습문제해답

(3) 귀무가설이참이면,검정통계와검정통계의분포는다음과같다.

t =(X1− X2)− 0r

s2X

1n1+ 1

n2

∼ t(n1+ n2− 2)

기각역은다음과같고,

R=�

−∞,−t0.05(25)�

= (−∞,−1.7081)

검정통계와기각역을비교하면,

t =(102.1667− 107.5)− 0r

(240.0333)�

115+ 1

12

=−0.8888 /∈ R

따라서귀무가설을기각할수없다.또는 p-값과유의수준을비교하

면(여기서 T ∼ t(25)),

p-값= P(T <−0.8888) = 0.1913> 0.05

따라서귀무가설을기각할수없다.

(4) 귀무가설이참이면,검정통계와검정통계의분포는다음과같다.

ν =s2X1

s2X2

∼ F(n1− 1, n2− 1)

기각역은다음과같고,

R=�

0, F0.975(14,11)�

∪�

F0.025(14, 11),∞�

= (0, 0.3231)∪ (3.3588,∞)

Page 39: Introduction to Statistics, 2nd Edition

D.7. 제7장 343

검정통계와기각역을비교하면,

ν =213.3095

274.0455= 0.7784 /∈ R

따라서귀무가설을기각할수없다.

(5) 가정: 서울시 남자중학생 3학년 학생들 중에서 아버지의 학력이

고졸이하인 학생들의 IQ와 영어성적의 차이가 정규분포를 따르고,

{X1i , Y1i}n1i=1이대응확률표본이다.

(6) IQ와 영어성적의 평균의 차이에 대한 신뢰수준 95%의 신뢰구간은

다음과같다.

s2d = s2

X1+ s2

Y1− 2sX1Y1

= (213.3095) + (487.8857)− 2(183.3929) = 334.4095

I0.95 =

(X1− Y1)− t0.025(n1− 1)

È

s2d

n1,

(X1− Y1) + t0.025(n1− 1)

È

s2d

n1

=

(102.1667− 59.8)− (2.1448)

r

334.4095

15,

(102.1667− 59.8) + (2.1448)

r

334.4095

15

= (32.2397,52.4936)

여기서 t0.025(15− 1) = 2.1448이다.

(7) 양측가설을 다음과 같이 다시 쓰면, H0 : µX1− µY1

= 35, H1 : µX1−

µY16= 35이고, 귀무가설이 참이면, 검정통계와 검정통계의 분포는

Page 40: Introduction to Statistics, 2nd Edition

9 788996 142539

9 3 3 1 0

ISBN 978-89-961425-3-9

값 2 0 0 0 0 원