생활 속의 통계학 -...
TRANSCRIPT
생활과 통계 제 8장 강의
생활과 통계
생활과 통계
8. 상관과 회귀
- 당첨번호와 당첨금액
생활과 통계 제 8장 강의
생활과 통계
2차원 자료의 표현
• 당첨번호와 당첨금
액 첫 10일간
• 두 변수 간에는 아무
런 관계가 없어야 공
평한 것으로 간주
• 도표로 요약하려면?
당첨번호 당첨금액
[1,] 810 190.0
[2,] 156 120.5
[3,] 140 285.5
[4,] 542 184.0
[5,] 507 384.5
[6,] 972 324.5
[7,] 431 114.0
[8,] 981 506.5
[9,] 865 290.0
[10,] 499 869.5
생활과 통계 제 8장 강의
생활과 통계
2차원 자료의 표현
생활과 통계 제 8장 강의
생활과 통계
산점도
생활과 통계 제 8장 강의
생활과 통계
격자 추가-동일간격
생활과 통계 제 8장 강의
생활과 통계
격자 추가-사분위수
생활과 통계 제 8장 강의
생활과 통계
행운의 번호들
생활과 통계 제 8장 강의
생활과 통계
선으로 요약
생활과 통계 제 8장 강의
생활과 통계
Sir Francis Galton
• 1822-1911
• 생물학적 측정치들
의 분포에 관심
• 유전적 특성의 수학
적 정량화에 몰두
• Quincunx 고안
• 상관의 개념 제안
생활과 통계 제 8장 강의
생활과 통계
Quincunx
생활과 통계 제 8장 강의
생활과 통계
사고 실험
• 이중 Quincunx
• 2차로 첫 단계에 쌓
인 칸 밑으로 개방
• 최종 결과는 첫 단계
보다 집중된 모양으
로 예상
• 회귀현상 예시
생활과 통계 제 8장 강의
생활과 통계
K. Pearson
• 골튼의 제자
• 골튼의 연구 계승
• 아버지의 키와 아들
의 키 자료 수집
• 상관계수 공식화
생활과 통계 제 8장 강의
생활과 통계
상관계수와 산점도
• 2차원 정규분포에 따르는 관찰값들
생활과 통계 제 8장 강의
생활과 통계
아버지의 키와 아들의 키
• 아버지의 키가 72인
치인 집안의 아들들
의 키 평균은?
• 아버지의 키가 64인
치인 집안의 아들들
의 키 평균은?
• “Regression to
Mediocrity”
생활과 통계 제 8장 강의
생활과 통계
생활과 통계
보충
생활과 통계 제 8장 강의
생활과 통계
평균
주어진 자료: 6, 9, 4, 10, 15
평균 = (6+9+4+10+15)/5
= 8.8
생활과 통계 제 8장 강의
생활과 통계
중앙값
주어진 자료: 6, 9, 4, 10, 15
순서대로: 4, 6, 9, 10, 15
중앙값: (5+1)/2=3번째 값 9
주어진 자료: 4, 6, 9, 10, 11, 15
중앙값: (6+1)/2=3.5번째 값
(9+10)/2=9.5
생활과 통계 제 8장 강의
생활과 통계
월급 자료
회사 한 부서 직원들의 월급 자료
142 158 155 161 152
166 138 172 195 520
평균 = 195.9
대부분이 평균보다 적다.
520은 이상점(Outlier)이라 한다.
중앙값이 더 좋은 대표값이다.
중앙값 = (158+161)/2 = 159.5
생활과 통계 제 8장 강의
생활과 통계
최빈값
월급액 도수
130-150 2
150-170 5
170-190 1
190-210 1
210- 1
최빈값 = 160
생활과 통계 제 8장 강의
생활과 통계
분산
자료: 4, 8, 7, 5, 2, 6, 3
평균 = 5
자료-평균: -1, 3, 2, 0, -3, 1, -2
절대편차:
(1+3+2+0+3+1+2)/7 = 12/7
생활과 통계 제 8장 강의
생활과 통계
분산과 표준편차
분산 = (자료-평균)의 제곱의 평균
-1, 3, 2, 0, -3, 1, -2을 제곱하면
1, 9, 4, 0, 9, 1, 4
(1+9+4+0+9+1+4)/7=28/7=4
분산 = 4
표준편차=분산의 제곱근
표준편차 = 2
N
xxi
2)(
생활과 통계 제 8장 강의
생활과 통계
표준편차의 간편식
자료: 4 8 7 5 2 6 3 평균 5
제곱: 16 64 49 25 4 36 9 합 203
분산=(203-7x5x5)/7 = 28/7 = 4
N
xNxi
22
생활과 통계 제 8장 강의
생활과 통계
사분위수와 중앙값 1
주어진 자료: 6, 9, 4, 10, 15
순서대로: 4, 6, 9, 10, 15
중앙값 = 9
4, 6, 9 9, 10, 15
Q1=6 Q3=10
생활과 통계 제 8장 강의
생활과 통계
사분위수와 중앙값 2
자료 1 3 4 5 6 7 9
범위 = 9-1 = 8
중앙값 = 5
1 3 4 5 5 6 7 9
Q1 = (3+4)/2 = 3.5
Q3 = (6+7)/2 = 6.5
사분위수 범위 = 6.5 – 3.5 = 3
생활과 통계 제 8장 강의
생활과 통계
사분위수와 중앙값 3 0% 20% 40% 60% 80% 100%
자료 3 5 6 7 9 10
중앙값 = 50%위치 = (6+7)/2=6.5
3 5 6 7 9 10
사분위수 (근사값)
Q1 = 5 Q3 = 9
사분위수 (정확한 값)
Q1=25%위치=5+(6-5)*(25-20)/(40-20)=5.25
Q3=75%위치=7+(8-7)*(75-60)/(80-60)=8.5
생활과 통계 제 8장 강의
생활과 통계
기말 시험
• 날짜: 6월 11일 수요일 14시 30분
• 범위: 5-8장(보충자료 포함)
• 중간시험: 35% 기말시험: 35%
• 출 석: 10% 과 제: 20%
• 시험 결과, 성적, 시험지 확인할 수 있는 기간을 공지함
생활과 통계 제 8장 강의
생활과 통계
과제 8
질문은 개별, 홈페이지, 이메일로
과제물은
http://mathpark.kookmin.ac.kr
에서 과제물을 인쇄하여 풀이
다음 강의시간에
강의실에 들어 오면서 제출