통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수,...

11
통계 분석 1. 기술통계 2. 가설검정 3. 두 집단 비교 4. 분산분석 5. 단순회귀분석 6. 다중회귀분석 6 1 기술통계 기술통계는 평균, 중앙값, 최빈값 등 데이터의 집중경향을 분석하는 기법으로 데이 터의 특성을 요약하여 의사결정을 위한 정보로 바꾸는 과정에 활용되는 통계이다. 다음은 제3장에서 사용된 통계 데이터로 통계학 수강생 25명의 나이, , 몸무게 를 조사한 것이다. 기술통계 함수를 이용하여 수집된 데이터에 대한 수강생들의 평 , 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를 구하고자 한다. 앞서 통계함수를 이용한 데이터 요약은 개별 함수들의 인수에 셀 범위를 일일이 적용해야 하는 불편이 있었다. 하지만 [데이터 분석(D)]에서 [기술통계법]을 이용한 요약은 데이터의 영역을 한 번만 지정하면 되기 때문에 계산이 훨씬 빨라진다.

Upload: others

Post on 06-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

통계분석

1. 기술통계

2. 가설검정

3. 두 집단 비교

4. 분산분석

5. 단순회귀분석

6. 다중회귀분석

6

1 기술통계

기술통계는 평균, 중앙값, 최빈값 등 데이터의 집중경향을 분석하는 기법으로 데이

터의 특성을 요약하여 의사결정을 위한 정보로 바꾸는 과정에 활용되는 통계이다.

다음은 제3장에서 사용된 통계 데이터로 통계학 수강생 25명의 나이, 키, 몸무게

를 조사한 것이다. 기술통계 함수를 이용하여 수집된 데이터에 대한 수강생들의 평

균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

구하고자 한다.

앞서 통계함수를 이용한 데이터 요약은 개별 함수들의 인수에 셀 범위를 일일이

적용해야 하는 불편이 있었다. 하지만 [데이터 분석(D)]에서 [기술통계법]을 이용한

요약은 데이터의 영역을 한 번만 지정하면 되기 때문에 계산이 훨씬 빨라진다.

Page 2: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

230 경영자료분석

❚그림 6-1 통계 데이터

위의 데이터를 요약하기 위해 [도구(T)]-[데이터 분석(D)]-[기술통계법]을 선택

한다.

❚그림 6-2 기술통계법 선택

다음으로 [기술통계법] 대화창에서 데이터의 [입력범위(I)]를 ‘E1:G26’으로 지정

하고, 데이터의 방향은 [열(C)]을 선택한다. 이때 [출력 옵션]을 [요약 통계량(S)]으로

선택한다.

Page 3: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

231제6장 통계분석

❚그림 6-3 기술통계법 대화창

기술통계를 통한 수강생들의 나이, 키, 몸무게에 대한 데이터 요약결과는 다음과

같다.

❚그림 6-4 데이터 요약결과

Page 4: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

232 경영자료분석

2 가설검정

추론통계는 모집단에서 선택된 표본을 분석하여 이를 기초로 모집단의 특성을 규명

하는 통계로 주로 가설검정을 통해 이루진다. 가설(hypothesis)은 연구에서 검정대

상이 되는 진술(statement)을 의미하며, 표본에서 얻어진 사실을 근거로 모집단에 대

한 가설이 맞는지 논리적으로 검정하는 통계분석을 통계적 가설검정(statistical

hypothesis test)이라 부른다.

통계적 가설에는 연구에서 직접적인 검정대상이 되는 귀무가설(歸無假說:null

hypothesis)과 귀무가설이 받아들여지지 않을 때 채택되는 대립가설(對立假說:

alternative hypothesis) 두 가지가 있다. 두 가설 사이의 관계는 귀무가설과 대립가설

이 동시에 사실일 수 없으며, 반드시 둘 중 하나는 사실이라는 것이다.

• 귀무가설(Ho):직접 검정대상이 되는 가설• 대립가설(H1):귀무가설이 기각될 때 받아들여지는 가설

예를 들어, 어느 대학의 학생들의 평균 IQ가 100이라고 알려진 경우 100명을 뽑아

IQ 검사를 한 결과 평균 110이었다. 이때 학생들의 평균 IQ가 100이라는 주장을 검

정하려면 귀무가설과 대립가설은 다음과 같이 수립된다.

• 귀무가설(Ho):학생들의 평균 IQ는 100이다(〓).

• 대립가설(H1):학생들의 평균 IQ는 100이 아니다(≠ ).

가설검정에서 귀무가설의 채택 또는 기각 여부는 유의수준(significant level) 알파

()에 의해 결정되며, 일반적으로 유의수준은 1%, 5%, 10% 중 하나가 사용된다. 연

구대상에 대한 가설검정 순서는 다음과 같다.

① 귀무가설(Ho)과 대립가설(H1)의 수립

② 유의수준 설정()③ 유의수준을 충족시키는 임계값의 결정

④ 통계량과 임계값의 비교

⑤ 결과해석

Page 5: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

233제6장 통계분석

3 두 집단 비교

사회현상에 대한 집단 간 비교 연구는 집단의 평균, 분산, 비율 등을 비교함으로써

가능하다. 이는 하나의 집단에 대한 추정과 검정보다 집단 간 비교가 더 많은 정보

를 제공할 수 있기 때문에 자주 활용되며, 대표적인 분석법으로 t-test가 있다.

t-test는 두 집단의 표본평균 간의 차이를 검증하고자 할 때 이용되는 방식으로 표

본의 성격에 따라 독립표본과 대응표본으로 나뉘게 된다. 독립표본은 서로 다른 두

집단으로부터 나온 표본으로 예를 들어, 남, 여 성별에 따라 선호하는 방송 프로그

램이 달라질 수 있다는 가정하에 남성과 여성을 따로 표본 조사하였다면 이는 독립

표본이 된다. 대응표본은 동일하거나 유사한 쌍으로부터 얻어지는 표본을 의미하며,

교수방식의 변경에 따른 학생들의 성적 변화를 측정할 경우 사용된다.

t-test는 각 집단의 표본들은 정규분포를 이루고 있는 모집단으로부터 추출된 것으

로 가정하며, 각 집단은 독립되어 있으며 집단의 분산은 동일하다고 가정한다.

1) 모평균의 차이에 관한 검정 및 추정

(1) 분석 데이터의 속성과 정의

다음의 데이터는 모바일 뱅킹에 관한 사용자 의도를 연구하기 위해 수집된 데이터

로 남, 여 50명씩 100명으로부터 향후 모바일 뱅킹의 사용의도에 대한 응답 결과이

다. 개별 항목에 대한 속성과 정의는 다음과 같다.

• 성별:남성(1), 여성(2)

• 연령:10대(1), 20대(2), 30대(3)• 학력:중/고 재학(1), 고졸(2), 대학 재학(3), 대졸(4), 대학원 재학(5), 대학원졸(6)

• 이통사:SKT(1), KTF(2), LGT(3)

• 유용성:모바일 뱅킹을 이용함으로써 기대되는 혜택의 믿음 정도• 용이성:모바일 뱅킹이 얼마나 편리한가에 대한 정도

• 태도:모바일 뱅킹에 대한 긍정 또는 부정적 인지의 정도

• 의도:모바일 뱅킹에 대한 미래의 사용의지 정도

Page 6: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

234 경영자료분석

❚그림 6-5 분석 데이터

(2) 두 모집단의 분산을 알고 있을 경우

모바일 뱅킹에 대한 사용자의 유용성 인지가 성별에 따른 모집단 분산이 각각 0.6과

0.7이라 할 경우 사용자 집단 간 유용성 인지에 차이가 있는지 분석하고자 한다. 이

때의 귀무가설(Ho)은 ‘모바일 뱅킹의 유용성 인지에는 모집단 간 평균의 차이가 없

다’이며, 대립가설(H1)은 ‘모바일 뱅킹의 유용성 인지에는 모집단 간 평균의 차이가

있다’는 것이다.

t-test를 통한 검정을 위해서는 메뉴에서 [도구(T)]-[데이터 분석(D)]을 선택하여

[z-검정:평균에 대한 두 집단]을 선택한다.

❚그림 6-6 Z-검정:평균에 대한 두 집단

• 귀무가설(Ho):〓• 대립가설(H1): ≠

Page 7: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

235제6장 통계분석

❚그림 6-8 z-검정결과

다음과 같이 [변수 1 입력범위(1)]에 남성 사용자의 유용성에 관한 데이터 범위

(E2:E51)를 입력하고, [변수 2 입력범위(2)]에 여성 사용자의 유용성에 관한 데이터

범위(E52:E101)를 입력한다. 이때 [가설 평균차(P)]는 표본평균이 동일하다고 가정

하므로 0을 입력한다.

다음으로 [변수 1의 분산-기지값(V)]은 0.6, [변수 2의 분산-기지값(A)]은 0.7을

입력하고, [유의수준(A)]은 0.05로 설정한다.

• 변수 1 입력범위(1):분석할 첫 번째 집단의 범위로 하나의 열 또는 행 데이터

• 변수 2 입력범위(2):분석할 두 번째 집단의 범위로 하나의 열 또는 행 데이터

• 가설평균차(P):표본평균의 차이로 0일 경우 표본평균은 같다는 의미• 변수 1의 분산-기지값(V):변수 1에 대한 모집단의 분산

• 변수 2의 분산-기지값(A):변수 2에 대한 모집단의 분산

• 이름표(L):입력 데이터의 첫 행이나 열에 이름표가 있을 경우 선택• 유의수준(A):t-test 검정의 신뢰수준으로 0에서 1까지 범위를 가짐

❚그림 6-7 z-검정 입력변수 설정

t-test 분석결과는 그림 6-8과 같이 나타나

며, 가설의 판정을 위해 유의수준과 비교할

확률 p값을 살펴보면 p값(양측검정)〓0.804

가 유의수준()〓0.05보다 크므로 귀무가설

(Ho)을 채택한다.

Page 8: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

236 경영자료분석

이는 두 집단의 모평균에 차이가 없다는 것을 의미하며, 남성과 여성 사용자 모두

모바일 뱅킹의 유용성을 인지하는 데 큰 차이가 없다.

• p값≦유의수준():귀무가설(Ho)을 기각한다.• p값>유의수준():귀무가설(Ho)을 기각하지 않는다.

(3) 두 모집단의 분산을 모를 경우

가) 등분산을 가정할 경우 검정

현실에서는 두 모집단의 분산을 알고 있는 경우보다 모르는 경우가 더 많다. 이 경

우 두 집단 간 차이를 분석할 때 등분산을 가정하느냐 또는 가정하지 않느냐에 따라

분석방법이 달라진다.

예를 들어, ‘성별에 따른 모바일 뱅킹의 용이성 인지에 차이가 발생하는지 분석’

하려면, 모집단의 분산을 모를 경우 귀무가설(Ho)은 ‘모바일 뱅킹의 용이성 인지에

는 모집단 간 평균의 차이가 없다’이며, 대립가설(H1)은 ‘모바일 뱅킹의 용이성 인지

에는 모집단 간 평균의 차이가 있다’로 수립한다. 이때 두 집단의 분산이 동일하다

고 가정하면 t-test를 통한 검정은 [t-검정:등분산 가정 두 집단]을 선택해야 한다.

❚그림 6-9 t-검정:등분산 가정 두 집단 선택

다음으로 [t-검정:등분산 가정 두 집단] 대화창에서 [변수 1 입력범위(1)]에 남성

사용자의 용이성에 관한 데이터 범위(F2:F51)를 입력하고, [변수 2 입력범위(2)]에

여성 사용자의 용이성에 관한 데이터 범위(F52:F101)를 입력한다. [가설 평균차(E)]

는 표본평균은 동일하다고 가정하므로 0을 입력하고, [출력범위(O)]는 J1 셀로 한다.

Page 9: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

237제6장 통계분석

❚그림 6-10 t-검정 등분산 가정 입력변수 설정

t-검정 등분산이 가정된 두 집단의 분석결과는 다음과 같으며, 가설판정을 위해

유의수준과 비교할 확률 p값을 살펴보면 p값(양측검정)〓0.249가 유의수준()〓

0.05보다 크므로 귀무가설(Ho)을 기각할 수 없다. 즉, 두 모평균이 차이는 없기 때

문에 남녀 사용자 사이의 모바일 뱅킹에 대한 용이성 인지에 차이가 없다.

❚그림 6-11 t-검정:등분산 가정 결과

나) 등분산을 가정하지 않을 경우 검정

앞서 등분산을 가정한 성별에 따른 모바일 뱅킹에 대한 용이성의 차이를 분석할 때

와 다르게 모집단의 분산을 모르고, 분산이 다르다고 가정한다면 [t-검정:이분산 가

정 두 집단]을 선택한다.

Page 10: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

238 경영자료분석

❚그림 6-14 t-검정:이분산 가정 결과

❚그림 6-12 t-검정:이분산 가정 두 집단 선택

다음으로 [t-검정:이분산 가정 두 집단] 대화창에서 [변수 1 입력범위(1)]에 남성

사용자의 용이성에 관한 데이터 범위(F2:F51)를 입력하고, [변수 2 입력범위(2)]에

여성 사용자의 용이성에 관한 데이터 범위(F52:F101)를 입력한다. [가설 평균차(E)]

는 표본평균은 동일하다고 가정하므로 0을 입력하고, [출력범위(O)]는 J1 셀로 한다.

❚그림 6-13 t-검정:이분산 가정 입력변수 설정

이분산 검정을 통한 t-test 결과는 다음과 같으며, p값(양측검정)〓0.249가 유의수

Page 11: 통계분석sigmapress.co.kr/shop/shop_image/g87776_1405042192.pdf · 균, 중앙값, 최빈수, 표준편차, 표본분산, 첨도, 왜도, 최대값, 최소값, 합계, 개수를

239제6장 통계분석

준()〓0.05보다 크므로 귀무가설(Ho)을 채택한다. 즉, 성별에 따른 모바일 뱅킹에

대한 용이성 인지에 차이가 없으며, 이는 등분산을 통해 검정한 결과와 동일하다.

4 분산분석

분산분석(analysis of variance:ANOVA)은 2개 이상의 모집단의 평균을 동시에 비교

하는 데 사용되는 통계기법으로 하나의 독립변수 또는 다수의 독립변수들에 대한

효과를 분석하는 데 사용된다. 분산분석의 검정대상은 표본평균 간의 차이지만, 실

제 검정대상은 모집단의 분산에 대한 2개의 추정된 표본분산이 사용되므로 분산분

석으로 불리고 있다.

분산분석에는 하나의 요인(factor)을 분석대상으로 하는 일원분산분석(one-way

ANOVA)과 2개의 요인을 분석대상으로 하는 이원분산분석(two-way ANOVA)이 있

다. 그리고 2개 이상의 요인을 분석하는 경우에는 다원분산분석(multi-way ANOVA)

이라 한다.

1) 일원분산분석(one-way ANOVA)

일원분산분석은 기본적인 분산분석 기법으로 한 가지 요인에 대해 분석하는 기법이

다. 종속변수가 연속변수이고, 집단이 2개 이상인 독립변수가 명목변수인 변수의 분

석에 사용된다. 보통 요인변수 값에 따라 종속변수가 유의한 차이를 보이는지 검정

하기 위해 사용되는 기법이다.

예를 들어, 국내 이동통신사업자 3사에 따라 모바일 뱅킹에 대한 사용자들의 사용

의도에 차이가 있는지 분석하고자 할 때 다음과 같이 분산분석을 수행한다. 국내

온라인 뱅킹을 하는 100명의 사용자를 대상으로 SKT 53명, KTF 35명, LGT 12명의

표본이 수집되었으며, 이들의 모바일 뱅킹 사용의도를 물어본 결과 다음과 응답하

였다.