Transcript
Page 1: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

Clustering with Minitab

Soft Computing Lab

Yonsei Univ.

Page 2: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

공공 전력 사업체 분석

데이터 다운로드

방법1. http://sclab.yonsei.ac.kr/Dataset.zip

방법2. http://sclab.yonsei.ac.kr/ -> Courses -> Special lecture -> 삼성 미니탭 교육 ->전체 다운로드

1

Page 3: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

공공 전력 사업체 분석 예제

• 유사한 사업체들을 그룹화

– 군집화 해야 하는 레코드: 22개의 사업체

– 레코드 변수의 수: 8개

– 규제 완화에 대한 비용 효과 예측 연구등에 사용 • 다양한 사업체 대한 상세한 비용 예측 모형 구축의 필요성

• 군집화를 통한 군집별로 대표적 사업체를 대상으로만 모형 구축

• 시간과 노력 감소

– 예로 매출액(sales)와 연료비(fuel cost)변수를 살펴봄 • 군집화에 도움이 되는 예

2

Page 4: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

데이터 셋

• Fixed_charge: 고정부채보상배율(수익/부채)

• RoR: 투자수익률

• Cost: 킬로와트당 생산비용

• Load_factor: 연간 부하량

• Demand_growth: 1974년부터 1975년까지의 최고 전력 수요량(kwh) 증가율(%)

• Sales: 전력판매량(kwh/년)

• Nuclear: 원자력발전의 비율(%)

• Fuel Cost: 총 연료비용(cents/kwh)

3

• 매출액과 연료비 변수

Page 5: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

산점도

• 그래프->산점도(단순)->Y변수: 연료비, X변수: Sales

4

• 매출액과 연료비 변수

Click

Page 6: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

산점도

5

• 매출액과 연료비 변수

Page 7: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

산점도 분석

• 2~3개의 군집이 나타나 있는 것으로 보임

– 높은 연료비, 낮은 매출액

– 낮은 연료비, 상대적으로 낮은 매출액

– 낮은 연료비, 높은 매출액

6

• 매출액과 연료비 변수

Page 8: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

군집화 알고리즘

• 개별 레코드 사이의 거리를 측정

• 거리에 따라 군집들을 형성

• 계층적 방법(Hierarchical methods)

– 병합 또는 분할 방법 • 병합방법: n개의 군집들을 가지고 최종적으로 하나의 군집이 남을 때 까지 병합

• 분할방법: 모든 레코드를 포함하는 하나의 군집에서 나누어 짐

– 분석의 목적이 군집들을 자연적 계층 구조로 정렬할 때 유용

– 계층적 병합 군집화

• 비 계층적 방법(Nonhierarchical methods)

– 미리 군집의 수를 결정

– 레코드들을 정해 진 군집에 할당

– 적은 계산량

– 대량의 데이터 베이스에서 유용

– K-평균 군집화

7

• 매출액과 연료비 변수

Page 9: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

수치형 척도의 정규화(표준화)

• 거리 계산의 척도는 각 변수의 단위(scale)에 영향 받음

– 값이 큰 변수는 총 거리에 매우 큰 영향을 줌

• 정규화

– (측정치-평균)/표준편차

• 계산->표준화

8

Click

Click

Page 10: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

수치형 척도의 정규화(표준화)

9

정규화 전 정규화 후

Page 11: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

정규화된 산점도

10

Page 12: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

거리 측도

• 두 접(레코드)간의 거리를 계산하는 방법

• 고려해야 할 사항

– 무엇이 측정 되고 있는가?

– 레코드 간의 어떤 관련이 있는가?

– 어떤 척도(수치형, 순서형, 명목형)로 처리해야 하는가?

– 극단치들이 있는가?

• 유클리드 거리 척도

– 큰 값에 영향을 많이 받음(정규화 필요)

– 측정항목들 사이의 관계가 무시 • 측정학목들이 실제 강한 상관 관계가 있다면 다른 형태의 거리척도(통계적 거리 등)를 사용

– 극단치에 민감

11

Page 13: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

연결 방법

• 평균거리: 하나의 군집 내에 있는 관측지들과 다른 군집 내에 있는 관측치들 사이의 모든 가능한 거리의 평균 거리

• 중심거리: 두 군집의 중심간의 거리

• 완전거리: 가장 멀리 떨어진 두 관측치 사이의 거리

• McQuitty: 곧 결합할 군집과 다른 군집간 거리의 평균

• 중위수: 한 군집의 한 항목과 다른 군집의 한 항목 간 거리의 중위수

• 단일거리: 가장 가까이에 있는 두 관측치 사이의 거리

• Ward: 연결 가능한 군집조합 중 연결된 후에 군집 내 제곱합을 계산, 최소 제곱합을 가지는 군집의 거리 연결

12

• 두 군집을 병합 할 때 군집을 연결 하는 기준

Page 14: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

계층적 병합 군집화

• 하나의 레코드로 구성된 군집들로부터 모든 레코드들로 구성된 하나의 군집만 남을 때까지 가장 가까운 2개의 군집들을 단계적으로 병합

– 통계분석->다변량 분석->

– 관측 개체 군집 분석: 각각 변수들 간의 그룹화

– 변수 군집 분석: 한 변수 내에서의 그룹화

• 덴드로그램

– 군집화 과정 및 결과를 나타내는 나무 형태의 도표

– 아랫부분에 레코드가 표시

– 수직선의 길이는 레코드 사이의 거리, 유사한 레코드들 연결

13

Page 15: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• 통계분석->다변량 분석->관측 개체 군집 분석

• 연결방법: 단일, 거리 측도: Euclid, 군집수: 1

14

Click

Page 16: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• 통계분석->다변량 분석->관측 개체 군집 분석

• 저장

15

Click

Page 17: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• 통계분석->다변량 분석->관측 개체 군집 분석

• 저장->소속 군집 열 : C18

16

Click

Page 18: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• C18열에 데이터의 군집 표시

17

Page 19: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• 가장 왼쪽 군집이 단일 군집

18

단일 군집

Page 20: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• 가장 상위의 연결선으로 군집화(2개의 군집)

• 가장 왼쪽 군집이 단일 군집

19

단일 군집

Page 21: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

단일 연결법(관측 개체 군집 분석)

• 두 번째 연결선으로 군집화(3개의 군집)

20

단일 군집

Page 22: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

완전 연결법(관측 개체 군집 분석)

• 적절한 군집으로 나누어 짐

• 가장 선호하는 방법

21

Page 23: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

평균 연결법(관측 개체 군집 분석)

• 완전 연결 보다 최초의 군집의 수가 적음

22

Page 24: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

군집 평가

• 목적: 의미 있는 군집들을 산출

• 군집 분석의 유용성

– 군집의 설명 가능성 • 군집 분석에 사용된 각 변수들에 대해 각 군집의 요약통계량(평균값, 최소값, 최대값)을 구함

• 군집 분석에서 누락된 변수가 있는지 조사

• 군집에 대한 이해를 기초로 각 군집에 맞는 명칭 부여

– 군집의 안정성 • 입력값들이 약간 달라질 때 나누어 진 군집들이 유의하게 변화하는지 조사

• 데이터를 나누어 한쪽 데이터를 사용하여 만든 군집이 나머지 데이터에도 유사한지 확인

– 분할된 데이터 집합으로 군집 분석 수행

– a집합의 군집 중심점을 이용하여 B의 각 레코드가 속하는 군집을 결정

– B의 군집 결과가 모든 데이터를 사용하여 얻은 군집 결과와 비교하여 일관성 조사

23

Page 25: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

계층적 군집화의 장단점

• 장점

– 군집화가 데이터에 의해 수행

– 덴드로그램의 표현으로 설명이 쉬움

• 단점

– 데이터 집합이 매우 클 경우 계산 횟수가 많아 짐

– 단 한번의 군집화 시도, 초기에 잘못 분배되면 재분배 불가능

– 안정성이 낮은 경향

– 단일,완전 거리척도가 바뀌어도 군집 분석의 결과에 변화가 적음

– 평균연결법의 척도는 완전히 다른 군집들이 형성될 수 있음

– 극단치에 민감

24

Page 26: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

비계층적 군집화(k-평균 군집 분석)

• 군집의 수를 명시(군집의 수 결정이 중요)

• 군집들 내부의 분산을 최소화 하여 각각의 사례를 군집들 중 하나에 할당

• 측정항목을 기준으로 군집들이 가능한 한 동질성을 갖도록 사전 정의된 군집으로 표본을 나눔

• 군집내 분산 측정

– 군집의 중심에서 부터 관찰치까지의 거리의 합 • 유클리드 거리의 제곱합

• 정수계획법을 포함하는 최적화 문제

– 휴리스틱 방법 • 빠르면서 만족

• 최적은 아님

• k-평균 알고리즘

• 알고리즘

– k개의 초기 군집으로 시작

– 가장 가까운 중심을 가진 군집에 할당

– 관찰치가 빠지거나 추가되면 군집의 중심을 재 계산

– 군집 사이에 관찰치 이동이 분산을 증가시키면 군집화 중단

25

Page 27: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

비계층적 군집화(k-평균 군집 분석)

• 통계분석->단변량 분석->K-평균 군집 분석

26

Click

Click

Page 28: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

비계층적 군집화(k-평균 군집 분석)

• 결과(표준화 전), 군집의 수: 6

27

Page 29: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

비계층적 군집화(k-평균 군집 분석)

• 결과(표준화 후), 군집의 수: 6

28

Page 30: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

아침용 시리얼 분석

29

Page 31: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 데이터 집합

– 77개의 아침용 시리얼 제품에 대한 영양 정보, 진열 상태, 평가에 대한 정보

• 목표

– 단일 연결법과 완전 연결법 비교

– 의미 있는 군집 도출

– 어린이를 위한 시리얼 추천

• 문제

– 표준화된 항목으로 유클리드 거리를 사용하여 계층적 군집화를 적용하시오.군집화의 개수는 단일 연결법과 완전 연결법을 비교하시오.

– 군집을 분석하세요.

– 초등학생을 위한 시리얼 세트를 추천하시오. 데이터 표준화를 해야 하는가?데이터의 모든 변수를 사용해야 하는가?

30

Page 32: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 표준화된 항목으로 유클리드 거리를 사용하여 계층적 군집화를 적용하시오.군집화의 개수는 단일 연결법과 완전 연결법을 비교하시오.

• 다변량 분석->관측 개체 군집 분석->단일, 완전, 군집수 4~6

31

Click Click

Page 33: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 연결방법: 단일, 군집수: 5

32

문제: 파란색과 핑크색의 군집에 1개의 종류만 그룹화 되어 있음

Page 34: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 연결방법: 완전, 군집화: 5

33

Page 35: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 연결 방법: 단일, 군집화: 6

34

문제: 파란색과 보라색의 군집에 1개의 종류만 그룹화 되어 있음

Page 36: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 연결방법: 완전, 군집화: 6

35

Page 37: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 적절한 군집 선택

– 단일 연결 방식에서는 단일 군집이 도출

– 완전 군집화 덴드로그램의 관측값들을 분석

36

Page 38: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 어른들이 선호하는 시리얼의 그룹

• 어린이 들이 선호하는 시리얼의 그룹(높은 설탕 비율)

• 군집화된 결과를 보고 미리 가지고 있던 정보(아이들이 선호하는 시리얼은 설탕 비율이 높다)로 추론

37

Page 39: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 초등학생을 위한 시리얼 세트를 추천하시오. 데이터 표준화를 해야 하는가?데이터의 모든 값을 사용해야 하는가?

– 표준화를 해야 함 • 각 데이터 별로 측정 단위가 다를 수 있기 때문에 표준화를 해주지 않으면 하나의 값이 다

른 값들에 비해 크기가 크거나 작을 수 있다.

• 예: mg으로 측정된 값과 g으로 측정된 값의 단위가 다르기 때문에 표준화가 필요

– 데이터의 모든 값으로 군집화할 필요는 없음 • 사전 정보에 의해서 어린이에게 중요한 영향소만을 생각해도 된다.

• 예: 어린이 건강에 중요한 값(protein, fat, sodium, sugar)

38

Page 40: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 통계분석->다변량 분석-> 관측 개체 군집 분석

• 변수(protein, fat, sodium, fiber), 완전 연결 방법, 군집수 3

39

Click Click

Page 41: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 군집의 중심을 보고 판단

• protein이 높고 fat이 낮으며 fiver가 높은 군집 1을 선택

40

Page 42: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

예제: 아침용 시리얼

• 그래프당 최대 관측 개수 설정

• 100%_Bran, All-Bran, All-Bran_with_Extra_Fiber를 추천

41

Click

Click

Page 43: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Wine 데이터 분석

42

Page 44: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Wine 데이터 셋 구성

• 같은 지역 내에 있는 세 개의 다른 포도주 양조장에서 얻은 와인의 13가지 성질을 포함

– Alcohol : 알코올

– Malic Acid : 말산

– Ash : 물푸레나무

– Alkalinity of ash : 물푸레나무의 알칼리도

– Magnesium : 마그네슘

– Total phenols : 총 페놀

– Flavanoids : 플래버노이즈

– Nonflavanoid phenols

– Proanthocyanins : 프로안토시아닌

– Color intensity : 색의 강도

– Hue : 색상

– OD280/OD315 of diluted wines

– Proline : 프롤린

43

• Wine 데이터 셋 예제

Page 45: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. Wine 데이터 셋을 시각화 하기 위해 주성분 분석으로 2개의 주성분을 찾으시오. (주성분 분석 : 서로 연관이 있는 변수들의 정보들을 최대한 확보하는 적은 수의 새로운 변수들을 생성하는 방법)

2. 1번에서 찾은 주성분으로 Wine 데이터 셋을 2차원으로 시각화 하여 데이터의 분포를 확인하고 몇 개의 군집으로 구분할 수 있을지를 논하시오.

3. K-평균 군집 분석을 이용하여 2번에서 정한 군집의 개수로 군집화 하시오.

4. 관측 개체 군집 분석을 이용하여 3번에서 수행한 군집의 개수와 비교하시오.

5. 군집된 클러스터의 속성을 비교하시오.

44

• Wine 데이터 셋 예제

Page 46: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 풀이(계속)

• Wine 데이터 셋 불러오기

– 미니탭 상단의 메뉴에서 [파일]->[워크시트 열기] 클릭 후 Wine.xls 열기

• 미니탭 상단의 메뉴에서 [통계분석]->[다변량 분석]->[주성분 분석] 클릭

• 변수란에 왼쪽에 변수들을 모두 클릭하고 “선택”버튼 클릭

45

• Wine 데이터 셋 예제

Page 47: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 풀이(계속)

• 계산할 성분 수에 “2” 입력

• 행렬 유형 : 상관계수

• “저장”버튼 클릭

• 점수란에 “C15, C16” 입력 후 확인

46

• Wine 데이터 셋 예제

Page 48: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 풀이

• 워크시트에 주성분1(PC1)은 C15열에 주성분2(PC2)는 C16열에 저장된 것 확인

47

• Wine 데이터 셋 예제

Page 49: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 풀이(계속)

• [그래프]->[산점도] 클릭

• “단순” 선택 후 “확인”버튼 클릭

• X변수, Y변수에 PCA의 결과로 얻은 주성분 각각을 선택 후 “확인”버튼 클릭

48

• Wine 데이터 셋 예제

주성분1 주성분2

Page 50: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 풀이

• 주성분 PC1와 PC2로 데이터 셋을 시각화

• 2~3개의 군집으로 그룹화 하는 것이 적절함

49

• Wine 데이터 셋 예제

Page 51: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이(계속)

• [통계분석]->[다변량 분석]->[K-평균 군집 분석] 클릭

• “군집수” 란에 “2” 입력, 변수 표준화 체크박스 선택

• 저장버튼 클릭

• “소속 군집 열” 란에 c17 입력 후 확인버튼 클릭

50

• Wine 데이터 셋 예제

Page 52: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이(계속)

• 미니탭 화면에 워크시트 C15 컬럼에 군집화 결과가 저장됨

51

• Wine 데이터 셋 예제

Page 53: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이(계속)

• 산점도 그래프를 이용하여 클러스터링의 결과를 시각화

• [그래프]->[산점도] 클릭

• “그룹” 표시 선택 후 “확인” 버튼 클릭

• 산점도 그리는 나머지 설정은 이전과 동일

• 결과 그래프에서 임의의 점을 선택 후 마우스 오른쪽 버튼 클릭 및 “기호편집” 클릭

52

• Wine 데이터 셋 예제

Page 54: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이

• “기호 편집”에서 [그룹] 탭을 클릭 후 C17 선택 및 “확인”버튼 클릭

• 클러스터링의 결과를 산점도로 확인

53

• Wine 데이터 셋 예제

Page 55: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

4번 풀이(계속)

• 상단 메뉴에서 [통계분석]->[다변량 분석]->[관측 개체 군집 분석] 클릭

• 연결 방법은 “완전”, 변수 표준화 체크 박스 클릭, 군집 수 “4”

54

• Wine 데이터 셋 예제

Page 56: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

4번 풀이

• 유사성 수준의 차이는 3개의 군집이 최종 분할로 충분함을 나타냄

55

• Wine 데이터 셋 예제

Page 57: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• 군집된 클러스터의 각 성분 비교를 위해 데이터 표준화

• 상위 메뉴의 [계산]->[표준화] 클릭

56

• Wine 데이터 셋 예제

Page 58: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• C18-C30에 표준화 결과 저장

• 워크시트의 변수 이름 복사

57

• Wine 데이터 셋 예제

Page 59: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• 막대 차트 생성 : [그래프]->[막대 차트] 메뉴 클릭

58

• Wine 데이터 셋 예제

Page 60: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• 함수를 “평균”으로, 그래프 변수를 “표준화된 변수들”로, 그룹화 범주형 변수에 “Cluster”로 설정 후 “확인” 버튼 클릭

59

• Wine 데이터 셋 예제

Page 61: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이

• 결과 해석

– e.g. 군집 1의 알코올 성분이 군집 2의 알코올 성분보다 평균 15정도 더 많음

60

• Wine 데이터 셋 예제

Page 62: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

추가문제

• 거리측도를 변경하여 군집화를 수행하고 비교하시오.

– Euclid, Manhattan, Pearson, Euclid 제곱, Pearson 제곱

61

• Wine 데이터 셋 예제

Page 63: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

IRIS 데이터 분석

62

Page 64: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Iris 데이터 셋 구성

• 3가지 붓꽃을 분류하기 위한 데이터셋 (Setosa, Versicolour, Virginica)

– Sepal length (cm 단위) : 꽃받침의 길이

– Sepal width (cm 단위) : 꽃받침의 너비

– Petal length (cm 단위) : 꽃잎의 길이

– Petal width (cm 단위) : 꽃잎의 너비

– Species : 꽃의 종류 (setosa / versicolor / virginica)

63

• Iris 데이터 셋 예제

Page 65: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시오)

2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고 결과를 비교하시오.

64

• Iris 데이터 셋 예제

Page 66: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 답

1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시오)

65

• Iris 데이터 셋 예제

Page 67: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 답

2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고 결과를 비교하시오.

66

• Iris 데이터 셋 예제

Page 68: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Boston House 분석

67

Page 69: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

BostonHousing 데이터 셋 구성

• 보스턴 시의 주택 가격에 대한 데이터 셋

– CRIM : 자치시(town) 별 1인당 범죄율

– ZN : 25,000 평방피트를 초과하는 거주지역의 비율

– INDUS : 비소매 상업 지역이 점유하고 있는 토지의 비율

– CHAS : 찰스강에 대한 더미변수(강의 경계는 1, 아니면 0)

– NOX : 10ppm 당 농축 일산화질소

– RM : 주택 1가구당 평균 방의 개수

– AGE : 1940년 이전에 건축된 소유주택의 비율

– DIS : 5개의 보스턴 직업센터까지의 접근성 지수

– RAD : 방사형 도로까지의 접근성 지수

– TAX : 10,000 달러 당 재산세율

– PTRATIO : 자치시별 학생/교사 비율

– B : 1000(Bk-0.63)^2 (Bk는 자치시별 흑인의 비율)

– LSTAT : 모집단의 하위계층의 비율(%)

– MEDV : 본인 소유의 주택가격(중앙값) (단위 : $1,000)

68

• BostonHousing 데이터 셋 예제

Page 70: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각화 하시오.

2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데이터 셋을 군집화 하시오.

3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.

4. 관측 개체 군집 분석의 거리 측도를 Manhattan과 Pearson으로 변경하고 군집 수를 4로 설정하여 군집화 하시오.

69

• BostonHousing 데이터 셋 예제

Page 71: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 답

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각화 하시오.

70

• BostonHousing 데이터 셋 예제

Page 72: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 답

2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데이터 셋을 군집화 하시오.

71

• BostonHousing 데이터 셋 예제

Page 73: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 답

3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.

72

• BostonHousing 데이터 셋 예제

Page 74: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

4번 답

4. 관측 개체 군집 분석의 거리 측도를 변경하고 군집 수를 4로 설정하여 군집화 하시오.

73

• BostonHousing 데이터 셋 예제

Manhattan 거리 Pearson 거리

Page 75: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

곰 데이터셋 분석

74

Page 76: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

곰 데이터셋

• 곰.mtw 워크시트 열기 : 143마리의 곰 데이터

– 전체길이, 머리 길이

– 전체무게, 머리무게

– 목 둘레, 가슴둘레

• 목표: 143마리의 곰을 소, 중, 대 크기의 곰으로 분류

• 제한조건: 2번째, 78번째, 15번째의 곰이 각각 이 세범주의 전형이라는 것을 알고 있다. (1=소, 2=중, 3=대)

• K-평균 군집분석을 수행하고, 곰의 크기라는 열을 만들어 소속 군집을 저장하시오.

75

Page 77: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

초기 분할 열 만들기

76

Page 78: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

초기 분할 열 만들기

• 제한 조건을 따르기 위해 데이터에 값을 입력합니다.

– 2번째 =1, 78번째=2, 15번째=3

77

모든 값을 0으로 채워줍니다.

전체 데이터의 개수만큼

열의 이름 지정

Page 79: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

K-평균 군집 분석

78

Page 80: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

K-평균 군집 분석

79

Page 81: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

K-평균 군집 분석

80

Page 82: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

무게-가슴둘레 사이 그래프에서 군집화 결과

81

Page 83: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

무게-가슴둘레 사이 그래프에서 군집화 결과

82

Page 84: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

주성분 분석을 이용한 값에 대한 크기 분석

• 곰의 크기1: 전형적인 곰의 상태를 알고 있음.

• 곰의 크기2: 전형적인 상태를 모르는 상태에서의 군집화

83

Page 85: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

관측 개체 군집 결과1

84

Page 86: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

관측 개체 군집 결과2

85

Page 87: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

K-평균 vs 관측 개체 군집

86

Page 88: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

휴대전화 통화 분석

87

Page 89: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Telco-CAT 통신회사 자료 (2001년)

• 변수 설명

– 신원 및 인구정보: ID 번호, 성, 나이

– 계좌 기록: Churn(이탈여부), Tariff(요금제), Tariff_OK(요금제의 적절성 여부) 등

– 통화 정보: Peak(주간 통화), Off-Peak(야간 통화), Weekend(주말 통화) 관련 통화 횟수 및 통화시간, International(국제 통화) 통화시간등

88

Page 90: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. 고객의 통화 관련 행태(Behavior)를 분석할 것이다. 열복사를 이용하여 워크시트를 다음의 8가지 변수를 사용하여 구성하시오.

– Customer_ID(사용자 ID), Peak_calls_Sum (주간 총 통화 횟수)

– AvePeak (주간 평균 통화시간(분), 통화 1건당)

– OffPeak_calls_Sum (야간 총 통화 횟수)

– AveOffPeak (야간 평균 통화시간(분), 통화 1건당)

– Weekend_calls_Sum (주말 총 통화 횟수)

– AveWeekend(주말 평균 통화시간(분), 통화 1건당)

– International_min_Sum (국제통화 총 통화시간(분))

2. 데이터 셋의 결측값들을 찾고 평균값을 이용하여 대치하시오.

(AvePeak, AveOffPeak, AveWeekend열만 수정)

3. 시각화를 위하여 2개의 주성분을 찾으시오.

4. K-means 클러스터링을 사용하여 2개의 군집으로 그룹화하고 의미를 추론하시오.(막대 차트를 이용)

5. K-means 클러스터링을 사용하여 3, 4개의 군집으로 나누어 결과를 비교하고 의미를 추론하시오. (막대 차트를 이용)

89

Page 91: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

결측치 처리 기준

• 결측치가 10% 이하일 경우

– 해당 표본을 제거

– 대치법을 사용

– 단순회귀분석을 사용

• 결측치가 10~20%인 경우

– Hot deck cast substitution

– Regression

– Model-based methods

• 결측치가 20%이상인경우

– Egression

– Model-based method

90

Page 92: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

결측치 확인 방법 1

• 시계열도를 이용

91

Page 93: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

결측치 확인 방법 1

92

③ ① ②

Page 94: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

• 그래프 결과

93

결측치

Page 95: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

결측치 확인 방법2

• 열 통계량 이용

• 결과 (세션창)

– International_mins_Sum에서의 총 관측치 수 = 3237

– 비결측값 수 = 3196

– 결측값 수 = 41

94

Page 96: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

결측치 대치

• 평균값을 이용

– International_mins_Sum의 평균 = 168.799

95

• 해당 열 선택 -> 바꾸기

Page 97: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

결측치 대치

• 값 입력 후 모두 바꾸기

96

• 결과

Page 98: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. 고객의 통화 관련 행태(Behavior)를 분석할 것이다. 열복사를 이용하여 워크시트를 다음의 8가지 변수를 사용하여 구성하시오.(열복사 이용)

– Customer_ID(사용자 ID)

– Peak_calls_Sum (주간 총 통화 횟수)

– AvePeak (주간 평균 통화시간(분), 통화 1건당)

– OffPeak_calls_Sum (야간 총 통화 횟수)

– AveOffPeak (야간 평균 통화시간(분), 통화 1건당)

– Weekend_calls_Sum (주말 총 통화 횟수)

– AveWeekend(주말 평균 통화시간(분), 통화 1건당)

– International_min_Sum (국제통화 총 통화시간(분))

2. 데이터 셋의 결측값들을 찾고 평균값을 이용하여 대치하시오.

3. 시각화를 위하여 2개의 주성분을 찾으시오.

4. K-means 클러스터링을 사용하여 2개의 군집으로 그룹화하고 의미를 추론하시오.(막대 차트를 이용)

5. K-means 클러스터링을 사용하여 3, 4개의 군집으로 나누어 결과를 비교하고 의미를 추론하시오. (막대 차트를 이용)

97

Page 99: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

해설1, 2

• 총 8가지 변수의 워크시트

98

Page 100: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

해설 3

• 결과

99

Page 101: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

해설 3

• 막대 차트

100

Page 102: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

해설 4, 5

• 군집화 결과

101

Page 103: Clustering with Minitab - sclab.yonsei.ac.krsclab.yonsei.ac.kr/courses/12samsung/minitab_total.pdf · s ft computing @ yonsei univ . korea 16 공공 전력 사업체 분석 예제

S FT COMPUTING @ YONSEI UNIV . KOREA 16

해설 4, 5

• 막대 차트

102


Top Related