뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

88
통통한 통계 이야기 01 | 통계적 분석 과정

Upload: newsjelly

Post on 17-Jan-2017

2.713 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

통통한 통계 이야기01 | 통계적 분석 과정

Page 2: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

출처_ 한국경제 http://goo.gl/GzfjYE

01

“한국인의평균기상시각은오전 6시 34분이다.”

Page 3: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

이런 결과를 어떻게 얻을 수 있을까요?

대한민국에 거주하는 모든한국인에게 일일이 물어볼 수 있을까요?“어? 나한텐안물어봤는데?”라는 생각을 해보지는 않았나요?

01

Page 4: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

이럴 때 필요한 것이 바로 통계!

Statistics = State + Arithmetic국가의 국민들에 대한 산술적인 조사에서 유래

01

이럴 때 필요한 것이 바로 통계!

Page 5: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

통계학이란무엇인가?데이터를다루는학문

정형데이터

비정형데이터

01

Page 6: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

통계학에서는 주로 정형데이터를 다룹니다!

01

통계학이란무엇인가?데이터를다루는학문

정형데이터

비정형데이터

Page 7: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

“한국인의 평균기상시각은오전 6시 34분이다.”

이 한 문장을 만들어 내기 위해 필요한 정보는한국인, 평균, 그리고 실제 기상시각입니다.

01

Page 8: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

“한국인의 평균기상시각은오전 6시 34분이다.”

그렇다면 통계를 이용해서 이 문장을 어떻게믿을수있는정보로 만들 수 있는지 살펴봅시다.

01

Page 9: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

Contents

I. 통계학 ABC

II. 데이터 분석과정

1.샘플링

2.측정

3.정리&요약

4.분석

Page 10: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

자료를 조사해서 유의미한 정보를 이끌어내려면통계학적 기법을 이용한 데이터분석과정을 거쳐야 합니다.

영어를 배우려면 알파벳부터 알아야 하듯,통계적 분석 과정을 알기 전에 기본개념을 먼저 소개합니다.

01

I. 통계학 ABC

Page 11: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체

표본집단표본조사를 통해 뽑아낸 모집단의 일부

데이터표본 집단을 조사해서 얻은 수치 또는 비정형 자료

통계량알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의 값

추측통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러 수치를 추측하는 일통계적 검정과 추정 따위가 있다.

01

I. 통계학 ABC

Page 12: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

어렵게만 보이는 이 개념들에,“한국인의기상시간”을 끼얹어 보겠습니다.

01

I. 통계학 ABC

Page 13: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단우리가 관심이나 흥미를 가지고 있는 집단, 즉 한국인 전체

표본집단표본조사를 통해 뽑아낸 한국인의일부

데이터표본 집단을 조사해서 얻은 기상시간이라는 자료

통계량알고자 하는 한국인의기상시간을 추정하기 위하여 표본에서 계산한 평균기상시간

추측통계적 추정을 거쳐 한국인의기상시간은오전 6시 34분이 타당하다는 추측

01

I. 통계학 ABC

모집단우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체

표본집단표본조사를 통해 뽑아낸 모집단의 일부

데이터표본 집단을 조사해서 얻은 수치 또는 비정형 자료

통계량알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의값

추측통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러수치를 추측하는 일, 통계적 검정과 추정

Page 14: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

그리고 이 개념들을 차례로 엮어주면바로 데이터 분석이 됩니다.

01

I. 통계학 ABC

Page 15: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

데이터분석

모집단한국인 전체

↓표본집단

한국인의 일부↓

데이터표본집단에 속한 일부 한국인의 기상시간

↓통계량

표본집단의 평균 기상시간↓추측

한국인의 기상시간은 오전 6시 34분이 타당하다

01

I. 통계학 ABC

Page 16: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

II. 데이터 분석과정

01

Contents

I. 통계학 ABC

1.샘플링

2.측정

3.정리&요약

4.분석

Page 17: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

이전의 데이터 분석을 도식화한 것입니다.

01

II. 데이터 분석과정

6시 34분평균

기상시간기상시간

한국인몇명

한국인

Page 18: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단= 한국인

표본집단= 한국인

몇명

데이터= 기상시간

통계량= 평균

추측= 6시 34분

01

II. 데이터 분석과정

Page 19: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약

그리고 각 개념과 개념을 이어주는화살표가 바로 분석의 과정이 됩니다.

01

II. 데이터 분석과정

Page 20: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

II. 데이터 분석과정

Contents

I. 통계학 ABC

1.샘플링

2.측정

3.정리&요약

4.분석

● 단순임의 추출법● 층화추출법● 집락추출법● 계통추출법

Page 21: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약

01

II. 데이터 분석과정 / 샘플링

Page 22: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

전수조사모집단 전체를 모두 조사하는 것

01

II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사

Page 23: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

1. 전수조사가불가능한 경우 (EX. 모든 한국인)2. 비용과 시간을 절감해야 하는 경우

01

II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사

Page 24: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

표본조사(샘플링)모집단의 일부인 표본을 추출하여 조사하는 것

01

II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사

Page 25: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

표본조사(샘플링)모집단의 일부인 표본을 추출하여 조사하는 것

01

II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사

Page 26: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

1.샘플링

Contents

I. 통계학 ABC

2.측정

3.정리&요약

4.분석

● 단순임의 추출법● 층화추출법● 집락추출법● 계통추출법

II. 데이터 분석과정

Page 27: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단에서 표본을 추출할 때,이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법

EX. 인형뽑기위에 있는 인형이 뽑힐 확률 > 밑에 있는 인형이 뽑힐 확률따라서 단순임의추출법이 아니다.

01

II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)

Page 28: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

“뽑힐 확률이 1/5로 동일”

= 단순임의 추출법

모집단에서 표본을 추출할 때,이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법

01

II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)

Page 29: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

난수표(Random number table) 이용

모집단에서 표본을 추출할 때,이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법

01

II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)

Page 30: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

쉽고 간단하다.

자료가 너무 심하게 들쭉날쭉일 수 있다.= 추정량의 분산이 너무 커질 수 있다.

01

II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)

Page 31: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

1.샘플링

Contents

I. 통계학 ABC

2.측정

3.정리&요약

4.분석

● 단순임의 추출법● 층화추출법● 집락추출법● 계통추출법

II. 데이터 분석과정

Page 32: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

레스토랑이 맛집인지 아닌지 알아보려고 합니다.

01

II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

Page 33: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

그러기 위해서 레스토랑에서 제공하는모든메뉴를 주문합니다.

01

II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

Page 34: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

다 먹는 것은 불가능하기 때문에한 접시에 두입씩만 먹어보기로 합니다.

01

II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

Page 35: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

레스토랑의 모든음식(=모집단)을메뉴(=층)로 구분해서두입씩(=층의 표본)조사하는 것입니다.

01

II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

Page 36: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

이런 조사방법이 바로 층화추출법입니다.

모집단을 동질적인 층으로 나눈 다음각 층에서 표본을 단순임의추출법으로 추출하는 방법

01

II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

Page 37: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

내부를 동질화 + 층간에는 이질화

= 단순임의추출법보다 추정량의 정확도가높아지고조사 비용과시간을절약할 수 있습니다.

01

II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

Page 38: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

1.샘플링

Contents

I. 통계학 ABC

2.측정

3.정리&요약

4.분석

● 단순임의 추출법● 층화추출법● 집락추출법● 계통추출법

II. 데이터 분석과정

Page 39: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

이번에는 레스토랑이 맛집인지 알아보기 위해먹을 메뉴를 랜덤하게 선정하기로 합니다.

01

II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

Page 40: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

즉, 아까와 달리 몇가지의메뉴만 골라서 주문하는 것이죠.

01

II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

Page 41: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

그리고 주문한 메뉴는 전부 먹습니다.

01

II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

Page 42: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

레스토랑의 모든음식(=모집단)을메뉴(=집락)로 구분해서그 중 몇 가지의 메뉴만 선정해서

선정된 메뉴는 다먹는것(=전수조사)이죠.

01

II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

Page 43: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

이런 조사방법이집락추출법입니다.

모집단을 몇 개의 집락(Cluster)으로 나누어전체 집락 중에서 몇 개의 집락을 표본추출하고

일단 추출된 집락은 전수조사*하는 방법

*때에 따라 다시 표본조사를 하기도 합니다.

01

II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

Page 44: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

집락안은 이질적 + 집락간에는 동질적= 층화추출법과 반대의 경우에 많이 사용

01

II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

Page 45: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

1.샘플링

Contents

I. 통계학 ABC

2.측정

3.정리&요약

4.분석

● 단순임의 추출법● 층화추출법● 집락추출법● 계통추출법

II. 데이터 분석과정

Page 46: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

계통추출법표본을 시간적 또는 공간적으로 일정한 간격으로

규칙적으로 추출하는 방법

01

II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)

Page 47: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

예를 들어, 선거 출입구 조사를 하거나공장 생산라인에서 불량품 검사를 할 때 이용합니다.

“5개마다 조사”

01

II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)

Page 48: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

표본추출이 용이하고 모집단을 고르게 추출할 수 있다

01

II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)

Page 49: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

2.측정

Contents

I. 통계학 ABC

3.정리&요약

4.분석

II. 데이터 분석과정

1.샘플링

Page 50: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약

01

II. 데이터 분석과정 / 측정

Page 51: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.82.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.92.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.24.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9

“B 대학교의평균학점조사”(표본 40명)

01

II. 데이터 분석과정 / 측정

Page 52: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

CF. 줄기-잎그림

자료의 대략적인 분포를 볼 수 있다.

2 0 1

2 6 7 9 9 9

3 0 1 2 3 3 4 4 5 5 5 5

3 7 7 7 7 7 8 8 8 8 8 9 9

4 0 0 0 1 1 1 2 4 4

3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.82.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.92.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.24.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9

01

II. 데이터 분석과정 / 측정

줄기1의자리

잎소수점 첫째 자리

Page 53: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

● 대표치 : 평균, 중앙값, 최빈값● 산포도 : 범위, 사분위범위, 분산, 표준편차

01

Contents

I. 통계학 ABC

2.측정

4.분석

II. 데이터 분석과정

1.샘플링

3.정리&요약

Page 54: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약

01

II. 데이터 분석과정 / 정리요약

Page 55: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

평균 (산술평균)

관측값들의 합을 총 관측수로 나눈 것

EX. “B대학교의평균학점조사”

3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.82.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.92.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.24.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9

3.2 + 3.5 + 4.1 + … + 2.7 + 3.9

40= 3.5275

01

II. 데이터 분석과정 / 정리요약 : 대표치 - 평균

Page 56: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

중앙값 (Median)

관측값들을 크기 순서로 나열했을 때 가장 중앙에 위치한 관측값

자료가 짝수개인 경우에는가장 중앙에 해당하는 두 개의 값의 산술평균

CF. N개의 자료 중 중앙에 해당하는 두 개의 값= (N/2) 번째 값과 그 다음 값

01

II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값

Page 57: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

EX. “B대학교의평균학점조사”(표본 40명)

중앙값 = 20번째 학생과 21번째 학생의 학점의 산술평균CF. 40개의 자료 중 중앙에 해당하는 두 개의 값= (40/2) 번째 값과 그 다음 값= 20번째 학생과 21번째 학생

01

II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값

Page 58: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

줄기-잎그림에서 쉽게 찾을 수 있습니다.

2 0 1

2 6 7 9 9 9

3 0 1 2 3 3 4 4 5 5 5 5

3 7 7 7 7 7 8 8 8 8 8 9 9

4 0 0 0 1 1 1 2 4 4

중앙값 = 3.7

01

II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값

줄기1의자리

잎소수점 첫째 자리

Page 59: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최빈값가장 빈번하게 나타나는 관측값

역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.

01

II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값

Page 60: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

역시 줄기-잎그림에서 쉽게 찾을 수 있습니다.

2 0 1

2 6 7 9 9 9

3 0 1 2 3 3 4 4 5 5 5 5

3 7 7 7 7 7 8 8 8 8 8 9 9

4 0 0 0 1 1 1 2 4 4

최빈값 = 3.7 & 3.8

01

II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값

줄기1의자리

잎소수점 첫째 자리

Page 61: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

● 대표치 : 평균, 중앙값, 최빈값● 산포도 : 범위, 사분위범위, 분산, 표준편차

Contents

I. 통계학 ABC

2.측정

4.분석

II. 데이터 분석과정

1.샘플링

3.정리&요약

Page 62: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

범위

관측값의 최댓값 – 관측값의 최솟값

EX. B대학교의평균학점조사

최댓값 = 4.4최솟값 = 2.0

범위 = 4.4 – 2.0 = 2.4

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 범위

Page 63: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

100% 75%(Q3) 50%(Q2) 25%(Q1) 0%

사분위값

백(100)을 사(4)로 나눈 25의 배수가 되는 백분위 값

=중앙값

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위

Page 64: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

100% 75%(Q3) 50%(Q2) 25%(Q1) 0%

사분위범위

= 제3사분위값 – 제1사분위값

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위

Page 65: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

100% 75%(Q3) 50%(Q2) 25%(Q1) 0%

사분위범위

= Q3 – Q1

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위

Page 66: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다.자료를 한눈에 파악하기에 좋습니다.

CF. 상자(수염) 그림

EX. B대학교의평균학점조사

최댓값 = 4.4최솟값 = 2.0

Q1 = 3.25Q2 = 3.7Q3 = 3.9

2 0 1

2 6 7 9 9 9

3 0 1 2 3 3 4 4 5 5 5 5

3 7 7 7 7 7 8 8 8 8 8 9 9

4 0 0 0 1 1 1 2 4 4

01

Page 67: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

CF. 상자(수염) 그림

EX. B대학교의평균학점조사

최댓값 = 4.4최솟값 = 2.0

Q1 = 3.25Q2 = 3.7Q3 = 3.9

2 0 1

2 6 7 9 9 9

3 0 1 2 3 3 4 4 5 5 5 5

3 7 7 7 7 7 8 8 8 8 8 9 9

4 0 0 0 1 1 1 2 4 4

최댓값 4.4

최솟값 2.0

Q2 3.7

Q3 3.9

Q1 3.25

최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다.자료를 한눈에 파악하기에 좋습니다.

01

Page 68: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최댓값 4.4

최솟값 2.0

Q2 3.7

Q3 3.9

Q1 3.25

상자그림해석

FACT1. Q1~Q2와 Q2~Q3사이에는 동일한 양의 자료가 들어있다.

FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.

01

Page 69: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최댓값 4.4

최솟값 2.0

Q2 3.7

Q3 3.9

Q1 3.25

상자그림해석

해석1. Q2와 Q3사이에 자료가 몰려있다.

FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.

01

Page 70: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최댓값 4.4

최솟값 2.0

Q2 3.7

Q3 3.9

Q1 3.25

상자그림해석

해석1. Q2와 Q3사이에 자료가 몰려있다.

해석2. 전체적으로 자료가 위쪽으로쏠려있다.

01

Page 71: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최댓값 4.4

최솟값 2.0

Q2 3.7

Q3 3.9

Q1 3.25

상자그림해석

해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.

해석2. 전체적으로 자료가 위쪽으로쏠려있다.

01

Page 72: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

최댓값 4.4

최솟값 2.0

Q2 3.7

Q3 3.9

Q1 3.25

상자그림해석

해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.

해석2. 학생들이 대게 3.0 이상으로 학점을잘받는편이다.

01

Page 73: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

분산제곱편차합을 관측의 개수-1로 나눈 값

EX. “통통이네가족의하루평균화장실이용횟수조사”

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 74: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

EX. 통통이네가족의하루평균화장실이용횟수조사 (5인)

관측 = 5 3 5 7 4

평균

5 + 3 + 5 + 7 + 4

5= 4.8

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 75: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

EX. 통통이네가족의하루평균화장실이용횟수조사 (5인)

관측 = 5 3 5 7 4평균 = 4.8편차 = 관측 – 평균

5-4.8 3-4.8 5-4.8 7-4.8 4-4.8

=

0.2 -1.8 0.2 2.2 -0.8

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 76: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

EX. 통통이네가족의하루평균화장실이용횟수조사 (5인)

관측 = 5 3 5 7 4평균 = 4.8편차 = 0.2 -1.8 0.2 2.2 -0.8

제곱편차 = (편차)²

(0.2)² (-1.8)² (0.2)² (2.2)² (-0.8)²

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 77: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

EX. 통통이네가족의하루평균화장실이용횟수조사 (5인)

관측 = 5 3 5 7 4평균 = 4.8편차 = 0.2 -1.8 0.2 2.2 -0.8제곱편차 = 0.04 3.24 0.04 4.84 0.64

제곱편차합 = 제곱편차들의 합

0.04 + 3.24 + 0.04 + 4.84 + 0.64 = 8.8

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 78: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

EX. 통통이네가족의하루평균화장실이용횟수조사 (5인)

관측 = 5 3 5 7 4평균 = 4.8편차 = 0.2 -1.8 0.2 2.2 -0.8제곱편차 = 0.04 3.24 0.04 4.84 0.64 제곱편차합 = 8.8

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 79: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

분산

제곱편차합을관측의개수-1로 나눈 값

제곱편차합

관측의개수-1=

8.8

5-1=

8.8

4= 2.2

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 80: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

분산의해석분산이 크면 클 수록, 분포가 더 흩어져 있다

EX. 화장실이용횟수의분산통통이네 = 2.2동동이네 = 0.5

동동이네 가족들은 통통이네에 비해화장실에 비슷한 횟수로 간다.

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 81: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

분산의해석

만약 분산 = 0이라면,모든 자료의 값이 동일한 것

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

Page 82: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

표준편차

분산의 양의 제곱근(표준편차)² = 분산

EX. “통통이네가족의하루평균화장실이용횟수조사”

분산 = 2.2표준편차 = 1.4832…

01

II. 데이터 분석과정 / 정리요약 : 산포도 - 표준편차

Page 83: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

Contents

I. 통계학 ABC

2.측정

II. 데이터 분석과정

1.샘플링

4.분석

3.정리&요약

Page 84: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약

01

II. 데이터 분석과정 / 분석

Page 85: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

지금까지의 데이터분석과정을 통해얻은 여러 통계량(평균, 분산 등)으로

통계분석을 할 수 있습니다.

01

II. 데이터 분석과정 / 분석

Page 86: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

통계분석에는,

상관분석 / 회귀분석 / 범주형자료분석 / 교차분석등의 다양한 분석 방법이 있습니다.

앞으로 차차 소개해드리려고 합니다.

01

II. 데이터 분석과정 / 분석

Page 87: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

01

참고자료

참고문헌“현대통계학의이해와응용”(2014), 이외숙, 임용빈, 소병수, 이은경 공저, 자유아카데미

“쉽게풀어쓴통계학”(2005), 이창효, 김종배 공저, 도서출판 대명

Page 88: 뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

Thank you.

통통한 통계 이야기01 | 통계적 분석 과정