ceo - hannam universitywolfpack.hannam.ac.kr/lecture/fall02/eda/eda_ch2-1.pdf기대값 2 1 0-1-2...

24
Exploratory Data Analysis Chapter 2. Stem and Leaf Sehyug Kwon, Dept. of Statistics, HANNAM University ;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 10 2.2. stem-leaf plot 그리기 (hand calculation) 다음은 벤처 기업 CEO 30 명의 나이와 연봉(단위: 백만)조사한 자료이다. [강의 노트: CEO.TXT] 나이 연봉 자료 정렬 그린 stem-leaf plot [그림 2.1] 자료 정렬 없이 그린 stem-leaf plot [그림 2.2] 자료를 크기 순으로 정리한다 자료의 수가 많을 때는 자료 정렬을 수작업하기 어려움으로 단계는 무시해도 되지만 자료를 크기 순으로 정렬해 놓으면 plot 그리기 편리하다.

Upload: others

Post on 16-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 10

2.2. stem-leaf plot 그리기 (hand calculation)

다음은 벤처 기업 CEO 30 명의 나이와 연봉(단위: 백만)을 조사한 자료이다. [강의 노트: CEO.TXT]

나이 연봉

자료 정렬 후 그린 stem-leaf plot

[그림 2.1]

자료 정렬 없이 그린 stem-leaf plot

[그림 2.2]

자료를 크기 순으로 정리한다

자료의 수가 많을 때는 자료 정렬을 수작업하기 어려움으로 이 단계는 무시해도 되지만 자료를 크기

순으로 정렬해 놓으면 plot 을 그리기 편리하다.

Page 2: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 11

자료를 살펴 줄기와 잎을 결정한다

CEO 연봉 자료를 살펴보면 100 단위를 줄기로 하고 10 단위 이하를 잎으로 하여 plot 을 그리면 될

것이라는 것을 알 수 있다.

한 열에 줄기(stem)를 먼저 그린다.

위에서 100 단위 이상을 줄기로 하기로 결정하였고 자료의 최소값이 58, 최대값이 1103 이므로 0 부터

11 까지 줄기를 한 열에 크기 순으로 적는다.

줄기(stem) 옆에 잎을 그린다.

잎을 그리는 방법은 간단하다. 줄기 바로 뒤의 숫자를 줄기 옆에 차례로 적으면 된다. CEO 연봉 자료는

잎이 두 자리이지만 앞에 것 하나만 적으면 된다. 굳이 반올림하는 수고를 할 필요는 없다. 줄기-잎

그림의 목적은 자료의 분포 형태와 이상치를 아는 것이므로…

Page 3: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 12

2.3. 통계 소프트웨어 사용하여 stem-leaf 그리기

강의 노트에 올려져 있는 CEO.txt 자료를 down 받아 D:\temp\CEO.txt 에 저장되어 있다고 하자. 아스키

파일(텍스트 파일) 자료를 SAS data 로 만드는 방법은 여러 가지가 있으나 INFILE 문을 사용하여

불러들이는 것이 편리하다.

2.3.1. 텍스트 파일 SAS data 만들기

DATA CEO; INFILE 'D:\TEMP\CEO.TXT'; INPUT AGE SALARY; RUN;

2.3.2. 아스키 자료è엑셀 파일 만들기

엑셀을 시작한 후 를 선택한 후 열기 화면(아래)

나타나면 파일 형식을 “텍스트 파일”로 선택하고 변환할 파일(CEO.txt)을 지정한다.

[선택 후 다음을 누른다]

Page 4: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 13

[화살표에 의해 읽어 들일 변수 측정치들이 적절히 나누어 누른다]

[오류 없이 변환 되었다면 엑셀 파일로 저장하면 된다. 여기서 주의해야

할 것은 반드시 척 행에 변수명이나 Label을 사용해야 한다는 것이다. 이유는 1] SAS는 첫 행을 변수

명이나 변수 레이블로 사용 2)첫 행이 영어로 되어 있으면 변수명으로 한글일 경우는 label로 이용되

므로 변수 정보를 알 수 있어 편리하다. CEO.xls]

2.3.3. 엑셀 파일 è SAS data 만들기

파일(F) 메뉴에서 데이터 가져오기 메뉴를 선택한다.

Page 5: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 14

파일 향식 선택 마법사 창이 나타나면 엑셀 파일 형태를 선택한다.

파일 선택 마법사 화면이 나타나면 불러올 파일을 선택하고 아무 옵션도 선택하지 말고 바로 Next>

선택한다.

SAS data 이름(CEO0 로 하였다)을 Member 에 입력하고 아무 옵션 선택 없이 Finish 를 선택한다.

성공적으로 SAS data 파일이 만들어지면 LOG 윈도우에 다음 설명이 출력된다.

파일 선택 후 바로 Next> 누른다.

SAS data 이름(CEO0) 입력 후 바로 Finish 누른다.

Page 6: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 15

PROC PRINT 를 이용하여 CEO0 를 출력해 보라. 변수명은 차례로 _COL0, _COL!, _COL2 … 식으로

자동 설정되어 있음을 알 수 있다. 만약 엑셀 파일의 첫 행에 변수명을 적어 주면(영어이고 공백 없음)

그 변수명대로 지정한다.

Page 7: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 16

2.3.4. Stem-leaf plot 그리기

PROC UNIVARIATE DATA=CEO PLOT NORMAL; VAR SALARY;

RUN;

p-값이 0.05 보다 작으므로 귀무가설(자료는 정규분포를 따른다)은 기각되어 자료의 정규성은 무너진다.

3 장에서 다루기로 한다

자료가 정규 분포를 따르는지

볼 수 있는 Q-Q plot이다.

* è 자료 값

+ è 정규분포 참조선

검정통계량: NORMAL 옵션

줄기 값에 100 을 곱한다는 의미

빈도

Page 8: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 17

Normal Quantile -Quantile plot

자료의 관측치를 크기 순으로 정렬 한 후 i 번째 관측치(Y 축)와 )25.0

375.0(1

+−

Φ−ni

(x 축)으로 정규 분포

선을 그리면 직선이 된다. 관측치는 i 번째 관측치와 (1/n)을 *로 plot 한다. 1−Φ 은 표준 정규 분포의 역

누적 함수 값이다. 평균과 표준 편차는 자료로부터 추정된다.

Normal(0, 1)

x

Output 보기

왜도(skewness): 3

3)(

σ

µ−XE분포의 치우침을 나타내는 값으로 0(정규분포, t-분포)이면 좌우 대칭이고

양의 값이면 우로 치우침(skewed to the right, positively skewed), 음의 값이면 좌로 치우침(skewed to the

left, negatively skewed) 이다. 검정 통계량 없음.

kurtosis(첨도): 4

4)(

σ

µ−XE분포의 첨예(뾰족하다) 정도 나타내는 값으로 정규분포는 3, 3 보다 크면

급첨(leptokurtic)하다고 하고 3 보다 적으면 완첨(platykurtic)하다 한다. 검정 통계량 없음.

표준 오차 평균(standard error): 표준 편차를 n 으로 나눈 값으로 표본 평균의 표준 편차를 의미한다.

변동 계수(variation coefficient): 측정 단위에 따라 표준 편차의 값의 크기가 달라지므로 단위가 다른

두 집단을 비교하는 경우 두 표준 편차의 단위를 같게 할 필요가 있다. 이를 위하여 표준편차를

확률 )(1 x−Φ

Page 9: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 18

평균으로 나눈 값에 100 을 곱한 값을 변동 계수(CV: Coefficient of Variation)라 하고 상대 변동(분산)

개념으로 정의하고 있다. 표본 자료의 평균이 x , 표준 편차가 s 인 경우 (%)100×=xsCV 이다.

;EXAMPLE; 고등학교 3학년인 A 학생과 B 학생의 공부 습관을 조사하여 한 달간 조사하여 A학생

은 평균 3시간, 표준 편차는 0.5, B 학생은 6시간 표준 편차 0.8인 결과를 얻었다. 어느 학생이

더 꾸준히 공부하는 습관을 가지고 있을까? 이에 대한 답을 위해 변동 계수를 계산하면 된다.

A 학생 공부시간에 대한 변동 계수 = (%)1003/5.0 × =16.7 (%)

B 학생 공부시간에 대한 변동 계수 = (%)1006/8.0 × =13.3 (%)

위의 계산 결과 B 학생이 더 꾸준히 공부하는 습관을 가지고 있다고 결론 지을 수 있다.

사분위 범위 IQR(Inter-Quartile Range)은 (3 분위 값-1 분위값)이다. 자세한 내용은 3 장 Box-plot 참고

일변량 모집단 평균(비모수 방법은 중앙값, Sign test, Rank test) ) 가설 검정을 위한 검정 통계량 값과 p-

값이 출력된다. 이 통계량은 0:0 =µH 에 대한 가설 검정 결과이다. 만약 연봉이 450 과 같은지

검정하려면 PROC TTEST procedure 를 시행한다.

PROC TTEST DATA=CEO H0=450; VAR SALARY; RUN;

Page 10: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 19

p-값이 0.05보다 크므로 유의수준 0.05(5%) 하에서는 귀무가설을 기각하지 못한다. 그러므로 연봉은

450이라 할 수 있다.

2.3.4. Q-Q plot 및 히스토그램 그리기

PROC UNIVARIATE DATA=CEO; VAR SALARY; title 'NORMAL DISTRIBUTION?'; HISTOGRAM SALARY /NORMAL(FILL L=3) CFILL=CYAN MIDPOINTS=100 TO 1100 BY 100; SYMBOL V=CIRCLE; PROBPLOT SALARY/normal(mu=est sigma=est);

RUN;

o title 문은 그래프나 출력 제목을 설정한다.

o NORMAL 은 normal 곡선을 히스토그램(histogram)에 표현한다. 평균과 표준편차는 자료로부터

추정된 (426, 231)을 이용한다.

o Fill L=3 정규분포 안을 채울 때 L=3 옵션으로 한다.

o CFILL=cyan 정규 분포 안의 색을 cyan 색으로

o MIDPOINT 옵션은 막대의 구간 중앙값을 사용자가 지정한다.

o SYMBOL V=circle 은 그래프의 점을 o 로 표현, C=red 를 옆에 쓰면 점들의 색이 red.

o PROBPLOT 은 Q-Q plot 그리는 문으로 normal 옵션이 있으므로 정규 분포 Q-Q plot을 그린다.

mu=est 와 sigma=est 는 자료로부터 추정된(estimated) 값을 사용하라는 의미이다.

Q-Q plot 이나 근사된 정규분포의 그래프만으로는(eye-ball method) 자료가 정규분포를 따르는지 알 수

없다.(우로 치우침을 알 수 있다) 검정 통계량이나 숫자를 사용하는 방법은 다음과 같다.

o 요약 숫자: 왜도는 0 인가? (1.08:우로 치우침) 첨도는 3 인가?(1.23: 완만) 평균과 중앙값은

같은가? (평균=426, 중앙값=365 우로 치우침)

Page 11: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 20

o 검정통계량: Shapiro-Wilks 검정, Kolmogorov-Simirnov 검정, 적합성 검정(Goodness-of-fits: 2χ -

검정)이 있다.

우로 치우침

정규 분포에서 벗어난 부분

Page 12: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 21

SPSS 이용하기

파일(F)è열기(O)è데이터(A) 메뉴를 선택하고 파일 열기 창이 열리면 파일 향식에서 텍스트 파일

형식을 정해 주면 된다. (상세한 내용은 통계학강의노트è고급통계è설문조사(02 년 1 학기)è7 장

자료입력(2) 참고하기 바란다)

Y축은 4 번째 크기의 208

직선: ==+

−Φ− )12.0

25.030375.04

(1

o: 4/30=13.3(%)

Page 13: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 22

일변량 분석을 위해서는 분석(A) è 기술 통계량(E) è 데이터 탐색(E) 선택한 후 다음과 같이 설정하면

된다.

결과는 SAS 출력 결과와 동일하므로 설명은 생략하기로 하자. 언급하고 싶은 것은 마지막 그래프는

기울기 없이 나타낸 그래프로 자료의 어느 부분에서 정규성이 많이 벗어났는지 쉽게 알 수 있다. 수평

막대 선에 가까울수록 정규성을 만족한다.

Page 14: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 23

V2

1100.0

1000.0

900.0

800.0

700.0

600.0

500.0

400.0

300.0

200.0

100.0

히스토그램

빈도

10

8

6

4

2

0

표준편차 = 231.33

평균= 426.1

N = 30.00

V2의 정규 Q-Q 도표

관측값

120010008006004002000-200

정규

기대값

2

1

0

-1

-2

V2의 기울기없는 정규 Q-Q 도표

관측값

120010008006004002000

정규

편차

1.2

1.0

.8

.6

.4

.2

0.0

-.2

-.4

2.4. 줄기 수 조정

일반적으로 자료의 분포 형태를 잘 파악하기 위해서는 줄기의 수가 8-10 개 정도 되어야 한다고 한다.

그러나 위의 예제에서 본 것처럼 줄기 수는 변수 측정치의 범위에 의해 결정된다.

2.4.1. 줄기 수가 너무 많으면 (squeezed stems)

줄기를 2-3 개 합치는 방법을 생각하면 된다. 만약 줄기가 1-20 까지 있다면 1-2, 3-4, 5-6, … , 19-20 을

각각 줄기로 하면 줄기 수가 20 개에서 10 개로 줄어든다.

Page 15: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 24

2.4.2. 줄기 수가 너무 적으면 (stretched stems)

줄기를 다음과 같이 2 등분(double stem) 혹은 5 등분(five-line stem)하여 사용하면 된다.

(예) double stem

1* è 1.0~1.4

1. è 1.5~1.9

(예) five-line stem

1* è 1.0~1.1

1t è 1.2~1.3

1f è 1.4~1.5

1s è 1.6~1.7

1. è 1.8~1.9

2.4.3. 줄기 수에 관한 공식

Sturges formula ]log1[ 2 nL += (예)n=30 è L=5

Velleman formula ]2[ nL = (예)n=30 è L=10

Dixon-Kronmal formula ]log10[ 10 nL ≤ (예)n=30 è L=14

그러나 위의 공식에 의해 줄기 수(L)를 결정하면 자료 값에 따라 줄기를 결정하기 어렵고 분포 형태를

제대로 알기 어려운 문제가 있어 이 공식들은 사용되지는 않는다. [x]의 의미는 x 보다 크지 않는 최대

정수 값을 의미한다. [2.9]=2 / [3.1]=3

Page 16: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 25

2.5. Stem-leaf plot 해석하기

2.5.1. 자료의 분포 형태

stem-leaf plot을 통하여 자료의 분포 형태를 알 수 있으므로

o 분포의 형태를 알 수 있다.è 히스토그램과 같은 역할

o 봉우리(최빈값) 위치 및 개수 è 봉우리의 개수가

o 좌우 대칭 여부

o 자료의 범위 및 분산

o 이상치 존재 여부 및 위치

histogram 과 비교

stem -leaf plot 을 90 도 회전하면 Histogram(히스토그램, 이를 bar chart 라고도 함)이 된다. 즉 자료의

분포의 형태를 알 수 있다.

o 히스토그램은 자료의 값의 정보가 상실되지만(실제 값은 알 수 없고 빈도만 바의 크기로

나타난다) stem-leaf plot은 자료 값이 나타난다. è 더 많은 정보

o stem-leaf plot은 수작업으로 그리기 편리하다. è 구간을 나눌 필요가 없으므로

o stem-leaf plot은 줄기(=구간)를

Page 17: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 26

분포 구하기

위의 stem-leaf plot의 정점을 연결하면 분포함수가 된다.

봉우리 위치 및 개수

히스토그램의 봉우리는 분포의 최빈값에 해당되는 부분으로 일반적으로 최빈값은 하나일 가능성이 가장

높다. 구간 설정에 따라 바로 옆의 구간이 동시에 최빈값이 되는 경향이 가끔 나타나기도 하지만…

다음의 경우는 bi-modal 분포 함수라 하지는 않는다. 왜냐하면 구간을 조정하면 봉우리가 하나로 될 수

있기 때문이다. 위의 그림 1 을 보면 봉우리는 하나임을 알 수 있다.

uni-modal bi-modal / multi -modal

그림 1

Page 18: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 27

봉우리가 2 개 이상인 의미는 모집단이 하나 이상일 가능성이 많다. 예를 들어 한남 대학생들

100 명의 몸무게를 조사하여 히스토그램을 그리면 bi-modal 형태가 될 가능성이 높다. 왜냐하면

여자와 남자 몸무게의 차이가 나기 때문에 그런 현상이 발생한다. 즉 측정 변수의 특성에 따라

모집단이 나누어진다. 용돈을 조사하여 히스토그램을 그려보면 아마 봉우리가 3-4 개일 가능성이

있다. 왜? 학년별 차이로 인하여… 이처럼 어떤 변수를 측정하느냐에 따라 같은 모집단이라도

봉우리의 개수가 다를 수 있다. 봉우리가 2 개 이상인 경우는 집단을 나누어 추정 및 검정을

시행하는 것이 바람직하다.

좌우 대칭

symmetric (bell-shaped)

좌우 대칭, 종 모양

skewed to the right

positively skewed

우로 치우침

skewed to the left

negatively skewed

좌로 치우침

평균과 중앙값 일치 평균>중앙값 평균<중앙값

좌우대칭으로 만들려면…

자료 변환을 하면 된다.

XX =* è mild pos.

)log(* XX = è pos.

XX /1* −= è severe pos.

XX /1* −= è more severe

2* XX = è mild neg.

3* XX = è extreme neg.

페이지 26 의 그림 1 을 보면 우로 치우쳐 있음을 알 수 있다. (페이지 17 의 왜도 값도 1.08 로 0 보다

크므로 우로 치우침을 나타낸다)

Page 19: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 28

왜 좌우 대칭이어야 하나?

1) 회귀 분석, 분산 분석 등 대부분의 통계 분석에서 종속변수는 정규분포를 따르고 있다는 가정을

한다. 만약 이것이 무너지면 t-검정, F-검정을 사용할 수 없다. è 3 학년 수업에서 배우기를…

2) 대표본 표본 크기 n 의 크기? : 자료 분석의 목적은 그래프 정리(bar chart, pie chart)나 숫자적

정리(평균, 표준편차)에서 끝나는 것이 아니라 이 정보를 가지고 모수(예:모집단의 평균)를

추정하거나 그에 대한 가설을 검정하게 된다. CEO 30 명의 연봉 자료를 이용하여 전체 CEO 의

연봉에 대해 알고 싶은 것이다.

A. 우리나라 CEO 들의 연봉의 평균(모수:parameter)은? 표본 평균이 426(백만)이었으므로 모평균

추정치는 426 이다.

B. 작년 CEO 들의 평균은 350(백만)이었다면 올해 CEO 와 차이가 있는지? 이 경우 30 명의

CEO 표본 평균을 이용하여 우리나라 CEO 들의 연봉 평균을 추정하고 이것을 이용하여

350:0 =µH 인가를 검정하면 된다. 가설 검정하려면 표본 평균의 분포만을 알면 되는데 이는

중심극한정리에 의해 이미 알려져 있다. CLT 에 의해 모집단의 분포(f(x))가 어떠하든 n 이

크면 정규분포를 따르니 분포가 찌그러져 있다고 무엇이 문제가 되는가? CLT 는 대표본(n 이

크다)을 가정한다. 여기에 답이 있다. 그럼 도대체 얼마나 n 이 얼마나 되어야 대표본이라고

하는가? n=30? 그러나 대표본 n 의 크기는 모집단의 분포 f(x)의 찌그러진 정도에 따라

정해진다. (시뮬레이션으로 살펴보기로 하자)

PROC TTEST DATA=CEO H0=350;

VAR SALARY; RUN;

통계 소프트웨어에서 출력되는 p-값은 two-sided(양측 검정) 가설 검정 시 값을 출력한다. 그러므로

위의 경우 대립 가설을 350: ≠µaH (양측 검정) 설정하면 p-값이 0.0821 로 0.05 보다 크므로

귀무가설을 기각할 수 없으나 대립 가설을 350: >µaH (단측 검정) 설정하면 p-값이 0.04105 이므로

0.05 보다 적어 귀무가설을 기각하고 연봉은 높아졌다고 결론 지을 수 있다. 그러므로 양측 검정 결과

귀무가설이 기각되면 같은 유의수준에서 단측 검정 결과도 귀무가설을 기각한다.

Page 20: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 29

범위와 흩어진 정도

분포의 형태를 알 수 있으므로 자료의 범위(range=최대값-최소값)와 흩어진(spread) 정도를 알 수 있다.

흩어진 정도(표준편차)

범위(range)

2.5.2. 이상치(outlier) 발견

다른 관측치에 비해 매우 크거나 적은 관측치를 이상치(outlier)라 한다. 이런 이상치는 히스토그램에서

쉽게 발견될 수 있다. 히스토그램이나 stem -leaf plot 의 경우 다른 관측치와 멀리 떨어져 있으면 이를

이상치라 한다. CEO 연봉 자료에서 이상치는 연봉이 1103(백만)인 사람이다. 물론 이 값이

이상치인지는 검정 통계량을 이용하여(Box-plot 이나 검정해야 하지만 우선 쉽게 찾을 수 있다는

장점이 있다. 다음은 페이지 26 의 그림 1 의 분포를 가져온 것이다. 페이지 20 의 히스토그램에서 더

자세히 볼 수 있다. 오른쪽에 막대 하나가 따로 떨어져 있다. 막대의 높이가 바로 빈도(비율)이다.

이상치(outlier)

이상치가 발견되면 그 해결책은

o 이상치를 살펴 입력 오류인지 살펴 오류가 있으면 정정한다. è 103 의 입력 오류

o 이상치의 대상인 개체를 조사해 문제가 있는 개체이면 자료에서 제외한다. 1103(백만) 연봉을

받는 사람을 조사하였더니 외국인 전문 사장이었다. 자료에서 제외

o 자료 변환을 통해 이 문제를 해결할 수 있다. è part of skewness

Page 21: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 30

2.6. CLT 시뮬레이션

DATA GAM; DO I=1 TO 5000; X=RANGAM(7933001,2)*0.5;OUTPUT; END; RUN; PROC GCHART DATA=GAM; title h=2 "GAMMA(a=2, b=0.5) distribution"; VBAR X; RUN; %MACRO PLOT(n, a, b); DATA CLT; DO I=1 TO 5000; SUM=0; DO J=1 TO &n; X=RANGAM(7933001,&a)*&b;

SUM=SUM+X; END; MEAN0=SUM/&N;OUTPUT; END; RUN; PROC GCHART DATA=CLT; TITLE H=2 "N=&N A=&A B=&B DIST. OF MEAN"; VBAR MEAN0; RUN; proc capability data=CLT noprint; cdf mean0 / normal(color=blue); run; %mend; %plot(20, 2, 0.5);

%plot(50, 2, 0.5);

o RANGAM(seed, a, x)는 Gamma ( 1,1 == βα )를 생성하는 함수, βααβα

βα /1

)(

1),:( xexxf −−

Γ=

평균=αβ 분산= 2αβ 이다. 1=β 인 경우 지수분포가 된다.

o PROC GCHART 는 히스토그램을 그리는 procedure 이다.

o %MACRO는 macro 문으로 어디서든 실행되는 일종의 함수 문이다. %MACRO 이름;에 의해

시작하고 %mend 에 의해 종료된다. 불러 사용할 때는 프로그램 내에서 %이름(값들); 로 사용하면

된다. %plot(20, 2, 0.5)의 의미는 plot 이라는 이름의 macro 문을 실행하되 n=20, a=2, ㅠ=0.5 로 하여

실행하라는 것이다. macro 문에서 macro 변수 지정은 & 사용한다.

Page 22: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 31

)5.0,2( == βαGAMMA è평균=1/분산=0.5

원래 모집단 자료는 오른쪽으로 치우친 분포를 갖는다. (Gamma 분포이다)

아래 프로그램은 이전 페이지 macro 프로그램에서 히스토그램을 그리는 프로그램이다.

PROC GCHART DATA=CLT; TITLE H=2 "N=&N A=&A B=&B DIST. OF MEAN"; VBAR MEAN0; RUN;

왼쪽 그림은 표본 크기가 n=20 인 표본 평균의 분포이고 오른쪽 그림은 표본 크기가 50 인 표본 평균의

분포로 n 인 큰 경우가 더 정규 분포에 가까워짐을 알 수 있다. 모집단의 치우침 정도에 따라 대표본의

표본 크기는 다소 다를 수 있다(중심 극한 정리를 만족하는 대표본의 의미).

Page 23: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 32

아래 프로그램은 이전 페이지 macro 프로그램에서 누적 확률 분포 함수를 그래프로 나타내는

프로그램이다. CDF(Cumulative Density Function) 변수명은 누적 함수를 그리려는 변수를 지정하는

곳이고 NORMAL(Color=Blue)는 정규 분포 누적 함수를 파란색으로 나타내라는 것이다.

PROC CAPABILITY DATA=CLT NOPRINT; CDF MEAN0 / NORMAL(COLOR=BLUE); RUN;

아래 그림이 더 파란 선에 가까우므로(정규 분포에 더 근사) 앞의 히스토그램 결과와 일치함을 알 수

있다.

Page 24: CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 33

2.7. Homework#1 due Sep 17 (Tuesday)

CLT simulation

1) 모집단 GAMMA( 1,1 == ba )인 분포에서 (seed 는 여러분의 학번)

A. 표본의 크기가 20 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

B. 표본의 크기가 50 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

C. A와 B 의 결과를 해석하시오.

2) 정규분포(평균=1, 분산=1)를 모집단으로 했을 경우 σµ *)7933001(rannorX +=

A. 표본의 크기가 20 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

B. 표본의 크기가 50 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

C. 1A와 B 의 결과를 해석하시오.

3) 1)과 2)의 결과를 해석하시오.

Stem-Leaf plot 그리기

BASEBALL.TXT 자료는 1920-1950 사이 미국 프로야구 leading hitter 들의 출루율을 조사한 것이다.

1) stem-leaf plot 그리시오.

2) stem-leaf plot에 이용하여 분포함수 형태를 그리고 해석하시오. (치우침, 단봉)

3) 그 분포가 정규분포를 따르는지 살펴보고(CAPABILITY)

4) 이상치 있는지 존재 여부 살펴보시오.