Ⅳ. 확률 변수와 확률...

24
- 1 - . 확률 변수와 확률 분포 4.1. 확률 변수의 이해 4.2. 확률 분포함수의 이해 4.3. 결합 확률분포의 이해 4.4. 확률 변수의 요약 4.5. 엑셀 실습 4.1 확률 변수의(Random Variable) 이해 1. 확률 변수(Random Variable)의 기초 개념 (1) 숫자의 종류 · 상수 : 항상 똑같은(상) 숫자(수) · 변수 : 변하는(변) 숫자(수) (2) 숫자로의 변환 · 숫자로 표현되지 않은 사건들 - 동전던지기에서의 앞면/뒷면, 성별의 남/여 등 · 숫자로의 변환 필요성 - 통계학에서 요약, 정보 전달, 분석 등은 숫자를 이용한 계산을 통하여 이루어지므로 모 든 사건들이 수치로 표현되어져야 함 - 숫자로 전환한 사례 ; 앞면 = 0, 뒷면 = 1, 남 = 1, 여 = 2 등으로 표현 (3) 확률 변수의 정의 및 표현 · 확률 변수의 정의 - 특정 사건에서 여러 가지 결과들이 시현되는데, 시현되는 모든 가능한 결과들을 표현 ; 시현되는 결과들이 확정된 것이 아니라 변하면서 나타남 → 변수 ; 가능한 결과들이 일정한 규칙을 가짐 → 확률

Upload: others

Post on 03-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 1 -

Ⅳ. 확률 변수와 확률 분포

4.1. 확률 변수의 이해

4.2. 확률 분포함수의 이해

4.3. 결합 확률분포의 이해

4.4. 확률 변수의 요약

4.5. 엑셀 실습

4.1 확률 변수의(Random Variable) 이해

1. 확률 변수(Random Variable)의 기초 개념

(1) 숫자의 종류

· 상수 : 항상 똑같은(상) 숫자(수)

· 변수 : 변하는(변) 숫자(수)

(2) 숫자로의 변환

· 숫자로 표현되지 않은 사건들

- 동전던지기에서의 앞면/뒷면, 성별의 남/여 등

· 숫자로의 변환 필요성

- 통계학에서 요약, 정보 전달, 분석 등은 숫자를 이용한 계산을 통하여 이루어지므로 모

든 사건들이 수치로 표현되어져야 함

- 숫자로 전환한 사례

; 앞면 = 0, 뒷면 = 1, 남 = 1, 여 = 2 등으로 표현

(3) 확률 변수의 정의 및 표현

· 확률 변수의 정의

- 특정 사건에서 여러 가지 결과들이 시현되는데, 시현되는 모든 가능한 결과들을 표현

; 시현되는 결과들이 확정된 것이 아니라 변하면서 나타남 → 변수

; 가능한 결과들이 일정한 규칙을 가짐 → 확률

Page 2: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 2 -

- 따라서 확률을 가지고 변하는 사건들을 수치로 표현

- 이론적으로는 모집단에 속하는 개별 원소에 실수를 대응시키는 방법이라고도 함

· 확률 변수의 표현

- 어떤 값을 가질지 알 수 없으므로 영문으로 표시하며, 보통 대문자 로 표기

- 확률 변수 를 정의하는 사건으로 표시하고 가지는 값들을 열거

- 사례 : 동전던지기에서 앞면이 나타나는 경우의 수로 정의되는 확률 변수

동전 던지기에서 나타나는 앞면의 수

0, 1 (동전던지기에서 앞면은 1번 또는 0번 나타남을 표현하는 것임)

[예제 4.1] 동전을 3번 던지는 경우 나타나는 앞면의 수를 확률 변수 로 정의한다고 한다.

확률 변수 가 가질 수 있는 값은?

[예제 4.2] 주사위를 2번 던지는 경우 나타나는 짝수의 수를 확률 변수 로 정의한다고 한

다. 확률 변수 가 가질 수 있는 값은?

[예제 4.3] 주사위를 2번 던져서 나오는 값의 합을 확률 변수 로 정의한다고 한다. 확률

변수 가 가질 수 있는 값은?

2. 확률 변수(Random Variable)의 종류

· 확률 변수가 가질 수 있는 값의 형태에 따라 이산형 확률 변수와 연속형 확률 변수로 구분

· 이산형(Discrete) 확률 변수

- 확률 변수가 가질 수 있는 값들을 셀 수 있는 경우

- 사례 : 동전던지기, 주사위 던지기 등

· 연속형(Continuous) 확률 변수

- 확률 변수가 가질 수 있는 값들을 셀 수 없는 경우

- 사례 : 키, 몸무게 등

4.2 확률 분포 함수의 이해

Page 3: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 3 -

1. 확률 분포표의 개념

· 확률 변수는 확률이라는 규칙을 가지면서 변하는 수치를 표현

· 확률 분포표

- 확률 변수가 가지는 값에 대응하는 확률을 표로 정리한 것

· 확률 분포표의 활용 #1

- [예제 4.1]을 확률 분포표로 작성

- 확률 변수 가 가질 수 있는 값

; = 0, 1, 2, 3, 4, 5

- 확률 변수 가 가질 수 있는 값에 해당하는 확률을 계산

; 모든 경우의 수는 8가지 ( × × )

; 모든 경우를 사건 형태로 작성하는 경우

뒤뒤뒤, 앞뒤뒤, 뒤앞뒤, 뒤뒤앞, 앞앞뒤, 앞뒤앞, 뒤앞앞, 앞앞앞

; 정의된 확률 변수의 값으로 대응시키는 경우

뒤뒤뒤 → = 0 (앞면의 수는 0번)

앞뒤뒤, 뒤앞뒤, 뒤뒤앞 → = 1 (앞면의 수는 1번)

앞앞뒤, 앞뒤앞, 뒤앞앞 → = 2 (앞면의 수는 2번)

앞앞앞 → = 3 (앞면의 수는 3번)

; 대응된 의 값에 대한 확률을 계산

= 1/8 (8가지 경우에서 1번 발생)

= 3/8 (8가지 경우에서 3번 발생)

= 3/8 (8가지 경우에서 3번 발생)

= 1/8 (8가지 경우에서 1번 발생)

- 구한 결과를 하나의 표로 작성하면 완료

확률변수 0 1 2 3 합계

확률, 1/8 3/8 3/8 1/8 8/8=1

· 확률 분포표의 활용 #2

- [예제 4.2]을 확률 분포표로 작성

- 확률 변수 가 가질 수 있는 값

; = 0, 1, 2

- 확률 변수 가 가질 수 있는 값에 해당하는 확률을 계산

; 모든 경우의 수는 36가지 ( × )

Page 4: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 4 -

; 모든 경우를 사건 형태로 작성하는 경우

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

; 정의된 확률 변수의 값으로 대응시키는 경우

= 0 인 경우 9개 (첫번째도 홀수, 두 번째도 홀수인 경우)

= 1 인 경우 18개 (두가지 중 한가지만 짝수인 경우)

= 2 인 경우 9개 (첫번째도 짝수, 두 번째도 짝수인 경우)

; 대응된 의 값에 대한 확률을 계산

= 9/36 = 18/36 = 9/36

- 구한 결과를 하나의 표로 작성하면 완료

확률변수 0 1 2 합계

확률, 9/36 18/36 9/36 36/36=1

[예제 4.4] [예제 4.3]에 정의된 확률 변수에 대한 확률 분포표를 작성하시오

2. 확률 분포함수의 개념 및 활용

· 확률 변수는 확률이라는 규칙을 가지면서 변하는 수치를 표현

· 확률 변수가 가지는 규칙을 표로 표현한 것이 확률 분포표

· 확률 변수는 가지는 규칙을 수식으로 표현한 것이 확률 분포함수

· 확률 변수는 가지는 값의 특성에 따라 이산형과 연속형으로 구분됨

· 따라서 확률 분포함수는 확률 변수는 가지는 값의 특성에 따라 이산형 확률 분포함수와 연

속형 확률분포 함수로 구분됨

(1) 이산형 확률 분포함수

· 확률변수가 가질 수 있는 값들을 셀 수 있는 경우, 이를 함수식으로 표현한 것

· 이산형 확률 변수에서 확률 분포표는 확률 분포함수와 동일한 개념이며, 표현 방식이 다른

것 뿐임

· 이산형 확률변수의 확률 분포표는 다음과 같이 표현할 수 있으며,

확률변수 는 ,,...,... 의 값을 가지며, 이에 해당하는 확률이 ,,......임을 의미

Page 5: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 5 -

... ... 합

... ... 1

· 이를 수식으로 표현하면 다음과 같음

· 이산형 확률변수의 확률 분포함수를 확률 질량함수(Probability Mass Function)라고도 함

· 모든 이산형 변수의 함수가 확률 분포함수가 되는 것은 아니며, 확률 분포함수가 되기 위

한 조건을 만족하여야 함

· 이산형 확률 분포함수를 라고 할 때, 확률 분포함수의 조건은 다음과 같음

(1) ≤ ≤ ,

(2)

· 첫 번째 조건의 의미

; 이산형 확률변수의 특정 값이 가지는 함수값은 해당 값에 해당하는 확률을 의미하므로,

확률의 성질에 따라 0보다 크거나 같고 1보다 작거나 같아야 함

· 두 번째 조건의 의미

; 이산형 확률변수가 가지는 모든 값들에 해당하는 확률을 전부 더하는 경우, 즉 전체집단

또는 전체사건의 확률을 모두 더하는 경우, 그 합은 1이 됨

· 이산형 확률분포 함수의 표현 : 동전 던지기 사례

또는

앞면을 의미하는 0인 경우의 확률은 1/2, 뒷면을 의미하는 1의 경우의 확률은 1/2,

이외의 경우에는 확률을 가지고 있지 않음(확률이 0임을 의미)

[예제 4.5] 주사위 던지기에서 나타나는 값으로 정의되는 확률 변수에 대한 확률 분포함수

Page 6: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 6 -

를 작성하시오

(2) 이산형 확률 분포함수 활용

· [예제 4.1]에서 동전을 3번 던지는 경우 나타나는 앞면의 수를 확률 변수 로 정의하는

경우 확률 분포표를 다음과 같이 구함

확률변수 0 1 2 3 합

확률, 1/8 3/8 3/8 1/8 1

· 확률 분포함수의 2가지 조건을 만족하는지 여부의 확인

(1) 확률변수 의 값들이 가지는 함수 값들이 전부 0보다 큰 지 여부의 확인

(2) 확률변수 의 값들이 가지는 모든 함수 값의 합이 1인지 여부의 확인

[예제 4.6] 주사위 던지기에서 나타나는 값으로 정의되는 확률변수의 확률 분포함수가 확률

분포함수의 조건을 만족하는지 여부를 확인하시오

· 확률 분포함수에서 특정 변수 값에 해당하는 미지의 확률에 대한 계산이 가능

확률변수 1 3 5 7 9

확률, 1/9 3/9 1/9 1/9 A

확률 분포함수를 만족한다고 가정하는 경우 확률변수 의 9에 해당하는 확률을 모르는 경

우 확률 분포함수의 조건을 이용하여 확률의 계산이 가능

확률 분포함수에서 모든 변수값에 해당하는 확률의 합이 1이므로

[예제 4.7] 다음과 같은 표로 정의되는 확률 변수가 확률 분포의 조건을 만족한다고 한다.

확률변수 1 2 3 4 5 6 7 8 9 10

확률,

확률변수가 가지는 값에 대한 확률이 동일할 경우 확률 분포표를 완성하시오

(3) 연속형 확률 분포함수

· 확률변수가 가질 수 있는 값들을 셀 수 없는 경우, 이를 함수식으로 표현한 것

· 연속형 확률변수의 확률 분포함수를 확률 밀도함수(Probability Density Function)라고도

Page 7: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 7 -

· 이산형 확률 분포함수와 마찬가지로 연속형 확률 분포함수가 되기 위한 조건을 만족하여야

· 연속형 확률 분포함수를 라고 할 때, 확률 분포함수의 조건은 다음과 같음

(1) ≥ , for all

(2) ∞

· 첫 번째 조건의 의미

; 연속형 확률변수의 특정 값이 가지는 함수값은 0보다 크거나 같아야 함

* 이산형 확률 분포와 다른 점은 함수의 값이 확률을 의미하지 않음

따라서 1보다 큰 값을 가질 수 있음

· 두 번째 조건의 의미

; 연속형 확률변수가 가질 수 있는 값의 범위 전체에 해당하는 확률은 1이 됨

* 연속형 확률분포에서 확률의 계산은 적분이라는 공식을 통하여 이루어짐

(4) 연속형 확률 분포함수의 확률 계산 및 활용

· 이산형 확률 분포에서는 변수의 특정 값에 해당하는 확률이 존재하지만, 연속형 확률 변수

에서는 해당하는 확률 값이 Zero임

; 변수가 가질 수 있는 값이 셀 수 없다는 것은 무한개의 값을 가질 수 있다는 얘기임

; 따라서 무한개의 값에 해당하는 각각의 확률이 존재한다면, 모든 확률의 합도 무한대가

될 수 있으며, 이는 확률 분포함수의 조건에 위배됨

; 이를 수식으로는 다음과 같이 증명이 가능함

; 따라서 연속형 확률변수에 대한 확률 계산은 범위, 구간에 대한 확률 계산을 통하여 구

하여짐

; 이산형 확률 분포에서 범위에 대한 확률의 계산은 다음과 같음

≤ ≤

; 식이 의미하는 바는 a부터 b까지 범위에 해당하는 확률

; 이는 해당 구간에 대한 면적을 구하는 것이며, 이를 그림으로 표현하면 다음과 같음

Page 8: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 8 -

; a부터 b까지 범위에 해당하는 함수의 넓이를 구하고자 하는 것이며, 곡선으로 이루어진

부분에 대한 넓이를 계산해 주는 것이 적분의 공식임

; 이해를 돕기 위하여 직선으로 나타나는 연속형 확률 분포함수에 대하여 확인

; 확률 분포 함수와 다음과 같이 정의됨

; 이를 그림으로 표현하면 다음과 같음

; 첫 번째로 전체 구간에 해당하는 확률을 구하면,

밑변이 길이가 1이고 높이가 1인 사각형의 넓이와 같으므로 넓이는 1이 됨

즉 확률 분포함수의 두 번째 조건을 만족하는 것이며 이를 적분 공식으로 나타내면

≤ ≤

넓이를 계산하는 것과 동일한 결과로 나옴

Page 9: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 9 -

; 두 번째로 특정 구간에 해당하는 확률을 구하고 싶은 경우,

≤ ≤

즉, 0부터 0.5 구간에 포함될 확률을 구하고 싶은 경우, 마찬가지 해당하는 구간에 대

한 넓이를 계산하면 됨

이는 밑변이 길이가 0.5 이고 높이가 1인 사각형의 넓이와 같으므로 넓이는 0.5가 되

며, 따라서 0부터 0.5 구간에 해당하는 확률은 0.5임

이를 적분 공식으로 나타내면 다음과 같으며 동일한 결과가 나타남

≤ ≤

· 연속형 확률분포 함수의 조건과 확률 계산 방식을 활용하여 다양한 활용이 가능

- 다음과 같이 주어진 확률 분포함수에서 함수의 값을 모르는 경우

; 전체 범위에 해당하는 넓이가 1인 조건을 이용하면, 밑변의 길이가 0.5이므로 넓이가 1

이 되기 위해서는 a의 값은 2가 됨

; 여기서 연속형 확률 분포함수에 해당하는 함수 값은 확률이 아님을 확인할 수 있다

(확률이 1보다 크게 나타날 수는 없음)

- 다음과 같이 주어진 확률 분포함수에서 변수 구간의 범위를 모르는 경우

; 위와 마찬가지로 전체 범위의 넓이가 1이 되기 위한 조건을 만족하도록 구하면 b는 2로

계산되어짐

[예제 4.7] 다음과 같이 주어진 함수가 확률 분포함수의 조건을 만족하는지 확인하시오. 조

건이 만족하지 않을 경우 어떻게 변경하면 되는지 해당 방법을 제시하시오

[예제 4.8] 다음과 같이 주어진 함수가 확률 분포함수라고 하는 경우 미지수 c의 값을 구하

시고 확률 ≤ ≤ 를 구하시오

Page 10: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 10 -

3. 누적 분포함수의 이해 및 활용

· 지금까지 확률 분포함수는 해당 값에 대한 확률 또는 해당 구간에 해당하는 확률을 계산하

는데 활용됨

· 이를 변형하여 해당 값까지의 누적된 확률을 계산이 필요한 경우가 있음

; 70세까지 사망하지 않을 확률, 100mm 이하로 비가 올 확률 등

· 이러한 필요에 의하여 정의된 것이 누적 분포함수임

(1) 누적 분포함수의 개념 및 성질

· 이산형 확률분포의 누적분포 함수 표현

≤ ≤

; 즉, 원하는 특정 값보다 작거나 같은 값에 해당하는 모든 확률의 값을 합하는 개념

· 주사위 던지기에서 5이하의 값이 나타날 확률은 다음과 같이 표현할 수 있음

; ≤

· 연속형 확률분포의 누적분포 함수 표현

≤ ∞

· 이산형과 연속형 누적분포 함수의 다른 점

; 이산형 확률 분포함수의 경우 특정 값에 해당하는 확률이 존재할 수 있으므로

≤ 와 는 다른 확률로 계산 가능하지만,

; 연속형 확률 분포함수의 경우 특정 값에 해당하는 확률이 Zero 이므로

≤ 와 는 항상 동일한 확률로 계산됨

· 누적분포 함수의 성질

(1) 단조 증가함수 : → ≤

Page 11: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 11 -

(2) 우연속 함수 : lim→

(3) lim→ ∞

∞ lim→∞

; 첫 번째 성질의 의미는 누적 분포함수는 확률의 합으로 계산되는 함수이기 때문에 특정

값이 다른 특정 값보다 클 경우 이에 해당하는 확률도 크다는 의미임

; 두 번째 성질의 의미는 특정 값을 포함하는지 여부에 따라 누적 분포함수의 값이 결정된

다는 의미

; 세 번째 성질의 의미는 무한히 작은 값으로 가면 확률이 존재하지 않고 무한히 큰 값으

로 가면 모든 확률을 합하는 것이므로 전체 확률인 1의 값이 된다는 의미

(2) 누적 분포함수의 형태 및 활용

· 이산형 확률변수의 누적분포 함수

; 확률을 가지는 특정 값에서 Jump가 발생하는 계단식 형태를 가짐

; 최종 값은 확률의 전체 합인 1로 나타남

- 동전던지기 사례를 통한 이산형 확률변수의 누적분포 함수 형태 확인

; 누적분포함수를 그래프로 표현하면,

Page 12: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 12 -

; 누적분포함수 형태에 대한 의미를 살펴보면

(1) 0보다 작은 값에서는 확률을 가지지 않으므로 누적분포함수는 0의 값을 가짐

(2) 0이 포함되는 순간 1/2의 확률을 가지므로 Jump가 일어나고 0에서 1사의 값에서

는 확률을 가지지 않으므로 동일한 확률의 값 1/2를 유지함

(3) 1이 포함되는 순간 1/2의 확률을 가지므로 기존의 1/2 확률에 1/2 확률을 더한 1

의 값으로 Jump가 일어나고 1보다 큰 값에서는 아무런 확률이 없으므로 1의 값

이 계속됨 (이후에는 아무런 변화가 일어나지 않음)

(4) 함수 그래프를 보면 선의 오른쪽에서 접근하면 확률의 값을 가지나, 왼쪽에서 접

근하면 빈 공간이 생기게 되는데, 이것이 우연속 함수를 나타내는 특성임

(5) 함수 그래프에서 Jump일어나는 곳에서만 확률을 가지는 것으로 이해할 수 있으

며, 누적분포함수를 알고 있으면, 확률 분포함수도 알 수 있음

[예제 4.8] 주사위 던지기에서 나타나는 숫자에 해당하는 확률 변수의 누적분포함수를 구하

고 이에 해당하는 그래프를 그리시오

[예제 4.9] 다음과 같이 누적 확률분포 함수가 주어진 경우, 확률 분포함수를 구하시오

· 연속형 확률변수의 누적분포 함수

; 지속적으로 증가하는 연속형 형태를 가짐

; 최종값은 확률의 전체합인 1로 수렴하는 모습을 가짐

- 연속형 확률분포에 대한 누적분포함수 사례

Page 13: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 13 -

; 누적분포함수 형태에 대한 의미를 살펴보면

(1) 0보다 작은 값에서는 확률을 가지지 않으므로 누적분포함수는 0의 값을 가짐

(2) 0에서 1사에서는 라는 직선의 선이 나타나게 되고, 의 값이 1이 되면

는 1이 되고 이후

(3) 1 이후 구간에서는 확률이 존재하지 않으므로 1로 유지됨

(4) 그래프는 확률의 합이므로 항상 단조 증가하는 형태를 가짐

(5) 0에서 1사이의 누적분포함수를 구하는 방법은 다음과 같음

(6) 누적분포함수가 주어진 경우 확률 분포함수도 구할 수 있으며, 이는 누적분포함수

의 미분을 통하여 구하여 짐 (미분과 적분의 관계)

→ ′

[예제 4.10] 다음과 같이 확률 분포함수가 주어진 경우, 이에 해당하는 누적분포함수를 구하

고 이를 그래프로 표현하시오

4.3 결합 확률분포의 이해

1. 결합 확률 분포(Joint Probability Distribution)의 개념

· 지금까지는 한 개의 변수에 대한 분포에 대하여 학습하였고, 두 개 이상의 변수에 대한 확

Page 14: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 14 -

률 분포에 대하여 정의도 가능하며, 이러한 것을 결합 확률분포라고 함

· 여기에서는 두 개의 변수에 대한 확률본포에 대하여 학습함

(1) 이산형 확률변수의 결합 확률 분포

· 두 개의 변수( )로 구성된 확률 분포표는 다음과 같이 표현할 수 있음

... ...

... ...

... ... ... ... 1

· 확률 분포표의 는 확률 변수 이고 확률 변수 에 해당하는 교집합의 확

률을 의미하는 것이며, 이들 확률의 전체 합은 확률 분포의 조건을 만족하는 1이 됨

· 확률 분포표의 는 확률변수 인 경우 확률변수 가 가질 수 있는 모든 확률을

더한 것으로 해석할 수 있으며, 수식으로 표현하면 다음과 같으며, 이는 확률변수 의 확

률 분포함수가 됨을 알 수 있음

· 확률 분포표의 도 동일한 방식으로 구할 수 있음

· 이렇게 구한 확률 분포함수를 주변 확률 분포함수라고도 함

· 결합 확률 분포함수로는 다음과 같이 표현할 수 있음

· 동전던지기 와 주사위 던지기 의 결합 확률 분포표를 작성하면 다음과 같음

Page 15: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 15 -

1 2 3 4 5 6 합

0 1/12 1/12 1/12 1/12 1/12 1/12 1/2

1 1/12 1/12 1/12 1/12 1/12 1/12 1/2

합 1/6 1/6 1/6 1/6 1/6 1/6 1/6

· 주변 확률 분포를 의미하는 합은 동전던지기 와 주와 주사위 던지기 각각의 확률 분

포 함수와 동일함을 확인할 수 있음

[예제 4.11] 1번 주사위를 던져 나오는 숫자를 확률변수 , 2번 주사위를 던져 나오는 숫

자를 확률변수 라고 할 경우, 에 대한 결합 확률분포표를 작성하시오

(2) 연속형 확률변수의 결합 확률 분포

· 두 개의 연속형 변수( )로 구성된 확률 분포함수

· 이산형과 동일하게 주변확률 분포함수는 다른 변수에 대한 확률의 합으로 구하여 질 수 있

으며, 연속형에서 이러한 확률의 합은 적분을 통하여 이루어 짐

· 즉, 확률변수 의 확률 분포함수는 확률변수 에 대한 적분을 통하여, 확률변수 의

확률 분포함수는 확률변수 에 대한 적분을 통하여 구하여 짐

· 확률변수 , 의 전체 범위에 대한 확률은 1이 되며, 이는 두 변수에 대한 이중 적분을

통하여 구하여짐

4.4 확률 변수의 요약

1. 기댓값(Expectation)과 분산(Variance)

Page 16: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 16 -

(1) 기댓값의 정의와 계산

· 확률 변수의 값들이 가질 수 있는 확률을 가중치로 부여하여 계산한 가중 평균의 개념

· 즉, 확률변수가 어느 값을 가질 것으로 기대되는가를 구하는 것으로 분포의 중심위치를 계

산하는 것으로 이해할 수 있음

· 통상적으로 평균으로도 알려져 있으나, 값들을 전부 더하고 값들의 개수로 나누는 평균의

개념은 각각의 값들이 가지는 가중치가 동일하다는 가정을 하고 있는 것임

· 기댓값의 표현 ;

· 이산형 확률변수의 기댓값 계산

;

가 가지는 모든 값과 이에 해당하는 확률을 이용하여 계산됨

- 주사위 던지기에서 나오는 숫자에 대한 기댓값의 계산 사례

;

· 연속형 확률변수의 기댓값 계산

; 이산형과 동일하게 구해지며, 합하는 공식이 적분으로만 바뀌는 것임

;

- 다음의 연속형 확률분포에 대한 기댓값의 계산 사례

;

여기서 0과 1이외의 구간에서 확률변수 의 분포함수가 가지는 값은 0이므로 계산

을 해도 모두 0이 됨

· 확률변수 의 함수 의 기댓값 계산

; 확률변수 의 값만 변경되고 이에 해당하는 확률은 동일하므로 다음과 같은 식으로 표

Page 17: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 17 -

현할 수 있음

- 이산형 확률변수의 기댓값 계산

;

- 연속형 확률변수의 기댓값 계산

;

- 주사위 던지기에서 나오는 숫자 의 함수 에 대한 기댓값의 계산 사례

1 2 3 4 5 6

1 4 9 16 25 36

확률 1/6 1/6 1/6 1/6 1/6 1/6

; 확률변수 가 가지는 값이 으로 변경될 뿐, 이에 대한 확률은 동일함을 알 수

있음

;

[예제 4.12] 동전던지기 확률변수 의 기댓값과 의 기대값을 구하시오

(2) 분산의 정의와 계산

· 확률 변수의 값들이 평균으로부터 얼마나 퍼져있는지를 나타냄

· 분산의 표현 ;

· 이산형 확률변수의 분산 계산

;

와 평균 간의 거리 제곱에 대한 기댓값으로 이해할 수 있음

; 제곱으로 정의하는 이유는 양수와 음수로 퍼져있는 경우, 퍼짐이 더하고 빼져서 상쇄되

는 경우가 발생하므로 방향과 상관없이 퍼져있는 정도를 동일하게 판단하고자 하는 것임

; 분산은 제곱을 한 것이기 때문에 이에 대하여 루트를 적용한 값을 표준편차(Standard

Deviation) 이라고 함

· 연속형 확률변수의 분산 계산

Page 18: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 18 -

; 이산형과 동일하게 구해지며, 합하는 공식이 적분으로만 바뀌는 것임

;

- 다음의 확률분포에 대한 분산의 계산 사례

-1 1 합

확률 1/2 1/2 1

; 먼저 기댓값을 구하면,

×

×

; 분산의 정의에 따른 계산은 다음과 같음

×

×

[예제 4.12] 동전던지기 확률변수 의 분산을 구하시오

[예제 4.13] 주사위 던지기 확률변수 의 분산을 구하시오

(3) 기댓값과 분산의 성질

· 기댓값과 분산은 다음과 같은 성질을 가지고 있음

; 확률변수 의 기대값을 확률변수 의 기대값을 , 는 상수라고 가정

(1)

; 상수는 변하는 숫자가 아니고 확정된 숫자이므로 해당 숫자가 그대로 나올 수밖에 없

음 (기대되는 값이 해당 상수임)

(2)

; 확률변수에 상수를 곱한 함수의 기댓값은 확률변수의 기댓값에 해당 상수를 곱한 것

과 동일하며, 수식으로 증명하면 다음과 같음

;

(3)

; 두 확률변수의 합에 대한 기댓값은 각각의 기댓값의 합과 동일 (증명 생략)

Page 19: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 19 -

(4)

; 상수에 대한 분산은 0임 (상수는 하나의 값이므로 퍼지지 않는다)

;

(5)

; 확률변수에 상수를 곱한 함수의 분산은 해당 분산에 상수의 제곱을 곱한 것과 동일하

며 다음과 같이 증명됨

;

위의 성질들을 이용하면 다음과 같이 적용이 가능함

(6)

(7)

(8)

[예제 4.14] 두 확률변수에 대하여 , 라고 한다. 로 정의된

확률변수의 기댓값을 구하시오

· 분산의 다른 표현

; 기댓값과 분산의 성질을 이용하여 분산의 정의에 대하여 다음과 같이 표시할 수 있음

; 이에 대한 증명은 다음과 같음

[예제 4.15] 확률변수 에 대하여 , 라고 한다. 확률변수 의 분

산을 구하시오

[예제 4.16] 확률변수 에 대하여 , 라고 한다. 확률변수 의 기

댓값을 구하시오

Page 20: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 20 -

2. 두 변수의 관계 요약

· 두 확률변수가 어떤 관계가 있는지에 대하여 어떻게 설명할 것인지, 관계의 정도는 얼마나

되는지에 대하여 설명할 필요가 있음

; 키와 몸무게의 관계, 소득수준과 소비성향의 관계 등

· 이러한 관계를 설명하는 것이 공분산과 상관관계임

(1) 공분산(Covariance)의 개념 및 이해

· 두 확률변수의 값이 평균값으로부터 떨어져 있는 면적들의 평균으로 정의

· 공분산의 표현과 정의

;

; 이산형인 경우

; 연속형인 경우

· 공분산의 개념을 그래프로 이해하면, 평균과의 거리의 곱은 사각형의 넓이에 대한 기댓값

을 구하는 것으로 이해할 수 있으며, 이러한 사각형의 넓이가 1,3사분면에 있을 경우 넓이

Page 21: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 21 -

는 양의 값이 되고, 2,4분면에 있을 경우 음의 값이 됨

· 기댓값이 양의 값이라는 것은 1,3사분면에 해당 값들이 많이 존재한다는 것이며, 이런 경

우 점들이 양의 관계를 가진다는 것을 의미하는 것이고

· 기댓값이 음의 값이라는 것은 2,4사분면에 해당 값들이 많이 존재한다는 것이며, 이런 경

우 점들이 음의 관계를 가진다는 것을 의미하는 것으로 해석할 수 있음

· 따라서 두 변수의 관계가 양의 관계인지, 음의 관계인지에 대한 방향성을 파악할 수 있는

요약값으로 해석할 수 있음

· 결합확률 분포표로부터 공분산을 계산하는 사례

1 2 3 합

1 1/3 0 0 1/3

2 0 1/3 0 1/3

3 0 0 1/3 1/3

합 1/3 1/3 1/3 1

; 먼저 확률변수 와 의 기댓값을 구하면,

×

×

×

, 마찬가지로

; 위의 표를 에 대한 확률분포표로 변경하면, 다음 표와 같음

(1,1) (1,2) (1,3) (2,1) (2,2) (2,3) (3,1) (3,2) (3,3)

1 2 3 2 4 6 3 6 9

확률 1/3 0 0 0 1/3 0 0 0 1/3

; 위의 표를 가지고 를 다음과 같이 구할 수 있음

; 따라서 공분산은

×

· 공분산의 문제점

; 위의 확률분포표의 확률변수의 단위가 미터라고 가정하는 경우, 다른 사람은 cm로 적용

이 가능하며, 그럴 경우 1은 100, 2는 200, 3은 300이 됨

; 동일한 두 변수가 단위의 차이로 인하여 공분산의 값이 많은 차이가 발생하게 되나, 두

변수는 동일하며, 따라서 관계도 동일하다고 설명해야만 함

; 따라서 공분산은 관계의 방향은 설명할 수 있으나, 관계의 정도를 측정하여 설명해 주지

Page 22: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 22 -

는 못하는 것으로 확인됨

(2) 상관관계 계수(Correlation Coefficient)의 개념 및 이해

· 공분산이 가지는 문제점을 극복하고자 제안된 것이 상관관계 계수임

· 상관관계 계수의 표현과 정의

;

; 여기서 는 확률변수 의 표준편차를 의미하며, 공분산을 확률변수의 표준편

차들로 나눈 값으로 계산됨

· 상관관계 계수의 장점

; 정의된 상관관계 계수는 표준편차들로 나누어지면서 표준화가 이루어지는 것으로, 이렇

게 되는 경우 상관관계 계수의 모든 값은 –1 과 1 사이에 존재하게 됨

; 식에서 상관관계 계수의 부호를 결정하는 것은 분자에 있는 공분산으로, 관계의 방향을

결정하는 역할을 하고 있는 것임

; 따라서 양의 값이 커질수록 양의 관계가 크다는 것을 의미하며, 음의 값이 작아질수록

(-1로 가까워질수록) 음의 관계가 크다는 것을 의미하는 것으로 해석할 수 있음 (단, 여

기서는 선형의 관계만을 의미함)

[예제 4.17] 위에서 정의된 두 변수의 결합확률 분포표를 이용하여 두 변수간의 상관관계

계수를 구하시오

(3) 두 변수의 독립적(Independent) 관계 이해

· 두 변수가 독립적이다라는 의미는 하나의 변수가 다른 변수가 가지는 값에 대하여 영향을

미치지 못한다는 것으로 해석할 수 있으며 다음과 같은 식의로 정의함

· 독립의 정의 ;

여기서 는 확률변수 의 확률분포 함수를 의미함

· 독립과 상관관계 계수와의 관계

Page 23: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 23 -

; 독립인 경우 의 계산은 다음과 같이 계산됨

; 따라서 공분산과 상관관계 계수의 계산은

; 즉, 독립이다라는 의미는 두 변수의 공분산과 상관관계 계수가 0임을 의미

; 하지만 상관관관 계수가 0이라는 것이 독립임을 의미하지는 않는데, 이는 상관관계는 선

형의 관계만을 설명해 주고 있기 때문임

(참고로 원을 이루는 두 변수의 상관관계는 0이지만 두 변수는 독립적인 관계가 아님)

[예제 4.18] 위에서 정의된 두 변수의 결합확률 분포표를 이용하여 두 변수가 독립인지 여

부를 확인하시오

[예제 4.19] 다음과 같은 결합 확률 분포표가 주어졌다. 공분산과 상관관계 계수를 구하고

독립성 여부를 논하시오

1 2 3 합

1 1/9 1/9 1/9 1/3

2 1/9 1/9 1/9 1/3

3 1/9 1/9 1/9 1/3

합 1/3 1/3 1/3 1

Page 24: Ⅳ. 확률 변수와 확률 분포wolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_4장.pdf분포함수의 조건을 만족하는지 여부를 확인하시오 · 확률 분포함수에서

- 24 -

4.5 엑셀 실습

1. 기댓값의 계산

(1) 수식을 이용하는 방식

(2) 엑셀 함수를 이용하는 방식

2. 분산 및 표준편차의 계산

(1) 수식을 이용하는 방식

(2) 엑셀 함수를 이용하는 방식

3. 공분산 및 상관관계 계수의 계산

(1) 수식을 이용하는 방식

(2) 엑셀 함수를 이용하는 방식