Transcript
Page 1: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

미니탭을 이용한 클러스터링 실습 - 1

Page 2: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

내용

• 미니탭에서 지원하는 클러스터링 기법

• 실습

– Wine 데이터셋 예제

– Iris 데이터셋 예제

– BostonHousing 데이터셋 예제

1

Page 3: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

미니탭에서 지원하는 클러스터링 기법(계속)

• 관측 개체 군집

– 모든 관측치를 분리한 상태에서 시작하는 응집적 계층적 방법

– 가장 가까운 두 개의 관측치가 결합

• 변수 군집

– 변수의 수를 줄이기 위해 사용

– 모든 변수를 분리한 상태에서 시작하는 응집적 계층적 방법

• K-평균 군집

– 서로 가까이에 있는 관측치를 그룹화

– 처음에 군집의 개수를 결정(K)

2

Page 4: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

미니탭에서 지원하는 클러스터링 기법(계속)

• 유사도 계산을 위한 거리 측도

– Euclid 방법 : 일반적인 수학적 거리 측도 (거리 제곱합의 제곱근)

– Pearson 방법 : 거리 제곱합의 제곱근을 분산으로 나누는 방법

– Manhattan 거리 : 절대 거리의 합

– Euclid 제곱 : Euclid 방법의 제곱

– Pearson 제곱 : Pearson 방법의 제곱

3

Page 5: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

미니탭에서 지원하는 클러스터링 기법

• 연결 방법

– 합병 단계에서 가장 가까운 두 개의 군집이 결합될 때 필요한 연결 규칙

– 단일 연결 : 한 군집 내에 있는 관측치와 다른 군집 내에 있는 관측치의 최소 거리

– 평균 연결 : 한 군집에 있는 관측 개체와 다른 군집에 있는 관측 개체 사이의 평균거리

– 중심 연결 : 두 군집 중심 사이의 거리 또는 평균 사이의 거리

– 완전 연결 : 한 군집 내에 있는 관측치와 다른 군집 내에 있는 관측치의 최대 거리

– 중위수 연결 : 한 군집에 있는 관측치와 다른 군집에 있는 관측치의 중위수 간 거리

(중위수 : 데이터를 크기 순서로 배열할 때 중앙에 오는 데이터)

4

Page 6: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

미니탭에서 지원하는 클러스터링 기법

• 연결 방법 (계속)

– McQuitty 연결 : 결합될 군집의 다른 군집에 대한 거리의 평균

– Ward 연결 : 점에서 중심까지의 편차에 대한 제곱을 더함

5

Page 7: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Wine 데이터 셋 예제

6

Page 8: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Wine 데이터 셋 구성

• 같은 지역 내에 있는 세 개의 다른 포도주 양조장에서 얻은 와인의 13가지 성질을 포함

– Alcohol : 알코올

– Malic Acid : 말산

– Ash : 물푸레나무

– Alkalinity of ash : 물푸레나무의 알칼리도

– Magnesium : 마그네슘

– Total phenols : 총 페놀

– Flavanoids : 플래버노이즈

– Nonflavanoid phenols

– Proanthocyanins : 프로안토시아닌

– Color intensity : 색의 강도

– Hue : 색상

– OD280/OD315 of diluted wines

– Proline : 프롤린

7

• Wine 데이터 셋 예제

Page 9: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. Wine 데이터 셋을 시각화 하기 위해 주성분 분석으로 2개의 주성분을 찾으시오. (주성분 분석 : 서로 연관이 있는 변수들의 정보들을 최대한 확보하는 적은 수의 새로운 변수들을 생성하는 방법)

2. 1번에서 찾은 주성분으로 Wine 데이터 셋을 2차원으로 시각화 하여 데이터의 분포를 확인하고 몇 개의 군집으로 구분할 수 있을지를 논하시오.

3. K-평균 군집 분석을 이용하여 2번에서 정한 군집의 개수로 군집화 하시오.

4. 관측 개체 군집 분석을 이용하여 3번에서 수행한 군집의 개수와 비교하시오.

5. 군집된 클러스터의 속성을 비교하시오.

8

• Wine 데이터 셋 예제

Page 10: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 풀이(계속)

• Wine 데이터 셋 불러오기

– 미니탭 상단의 메뉴에서 [파일]->[워크시트 열기] 클릭 후 Wine.xls 열기

• 미니탭 상단의 메뉴에서 [통계분석]->[다변량 분석]->[주성분 분석] 클릭

• 변수란에 왼쪽에 변수들을 모두 클릭하고 “선택”버튼 클릭

9

• Wine 데이터 셋 예제

Page 11: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 풀이(계속)

• 계산할 성분 수에 “2” 입력

• 행렬 유형 : 상관계수

• “저장”버튼 클릭

• 점수란에 “C15, C16” 입력 후 확인

10

• Wine 데이터 셋 예제

Page 12: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 풀이

• 워크시트에 주성분1(PC1)은 C15열에 주성분2(PC2)는 C16열에 저장된 것 확인

11

• Wine 데이터 셋 예제

Page 13: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 풀이(계속)

• [그래프]->[산점도] 클릭

• “단순” 선택 후 “확인”버튼 클릭

• X변수, Y변수에 PCA의 결과로 얻은 주성분 각각을 선택 후 “확인”버튼 클릭

12

• Wine 데이터 셋 예제

주성분1 주성분2

Page 14: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 풀이

• 주성분 PC1와 PC2로 데이터 셋을 시각화

• 2~3개의 군집으로 그룹화 하는 것이 적절함

13

• Wine 데이터 셋 예제

Page 15: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이(계속)

• [통계분석]->[다변량 분석]->[K-평균 군집 분석] 클릭

• “군집수” 란에 “2” 입력, 변수 표준화 체크박스 선택

• 저장버튼 클릭

• “소속 군집 열” 란에 c17 입력 후 확인버튼 클릭

14

• Wine 데이터 셋 예제

Page 16: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이(계속)

• 미니탭 화면에 워크시트 C15 컬럼에 군집화 결과가 저장됨

15

• Wine 데이터 셋 예제

Page 17: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이(계속)

• 산점도 그래프를 이용하여 클러스터링의 결과를 시각화

• [그래프]->[산점도] 클릭

• “그룹” 표시 선택 후 “확인” 버튼 클릭

• 산점도 그리는 나머지 설정은 이전과 동일

• 결과 그래프에서 임의의 점을 선택 후 마우스 오른쪽 버튼 클릭 및 “기호편집” 클릭

16

• Wine 데이터 셋 예제

Page 18: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 풀이

• “기호 편집”에서 [그룹] 탭을 클릭 후 C17 선택 및 “확인”버튼 클릭

• 클러스터링의 결과를 산점도로 확인

17

• Wine 데이터 셋 예제

Page 19: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

4번 풀이(계속)

• 상단 메뉴에서 [통계분석]->[다변량 분석]->[관측 개체 군집 분석] 클릭

• 연결 방법은 “완전”, 변수 표준화 체크 박스 클릭, 군집 수 “4”

18

• Wine 데이터 셋 예제

Page 20: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

4번 풀이(계속)

• 유사성 수준의 차이는 3개의 군집이 최종 분할로 충분함을 나타냄

19

• Wine 데이터 셋 예제

Page 21: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• 군집된 클러스터의 각 성분 비교를 위해 데이터 표준화

• 상위 메뉴의 [계산]->[표준화] 클릭

20

• Wine 데이터 셋 예제

Page 22: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• C18-C30에 표준화 결과 저장

• 워크시트의 변수 이름 복사

21

• Wine 데이터 셋 예제

Page 23: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• 막대 차트 생성 : [그래프]->[막대 차트] 메뉴 클릭

22

• Wine 데이터 셋 예제

Page 24: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이 (계속)

• 함수를 “평균”으로, 그래프 변수를 “표준화된 변수들”로, 그룹화 범주형 변수에 “Cluster”로 설정 후 “확인” 버튼 클릭

23

• Wine 데이터 셋 예제

Page 25: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

5번 풀이

• 결과 해석

– e.g. 군집 1의 알코올 성분이 군집 2의 알코올 성분보다 평균 15정도 더 많음

24

• Wine 데이터 셋 예제

Page 26: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

추가문제

• 거리측도를 변경하여 군집화를 수행하고 비교하시오.

– Euclid, Manhattan, Pearson, Euclid 제곱, Pearson 제곱

25

• Wine 데이터 셋 예제

Page 27: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Iris 데이터 셋

예제

26

Page 28: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

Iris 데이터 셋 구성

• 3가지 붓꽃을 분류하기 위한 데이터셋 (Setosa, Versicolour, Virginica)

– Sepal length (cm 단위) : 꽃받침의 길이

– Sepal width (cm 단위) : 꽃받침의 너비

– Petal length (cm 단위) : 꽃잎의 길이

– Petal width (cm 단위) : 꽃잎의 너비

– Species : 꽃의 종류 (setosa / versicolor / virginica)

27

• Iris 데이터 셋 예제

Page 29: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시오)

2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고 결과를 비교하시오.

28

• Iris 데이터 셋 예제

Page 30: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 답

1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시오)

29

• Iris 데이터 셋 예제

Page 31: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 답

2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고 결과를 비교하시오.

30

• Iris 데이터 셋 예제

Page 32: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

BostonHousing 데이터 셋

예제

31

Page 33: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

BostonHousing 데이터 셋 구성

• 보스턴 시의 주택 가격에 대한 데이터 셋

– CRIM : 자치시(town) 별 1인당 범죄율

– ZN : 25,000 평방피트를 초과하는 거주지역의 비율

– INDUS : 비소매 상업 지역이 점유하고 있는 토지의 비율

– CHAS : 찰스강에 대한 더미변수(강의 경계는 1, 아니면 0)

– NOX : 10ppm 당 농축 일산화질소

– RM : 주택 1가구당 평균 방의 개수

– AGE : 1940년 이전에 건축된 소유주택의 비율

– DIS : 5개의 보스턴 직업센터까지의 접근성 지수

– RAD : 방사형 도로까지의 접근성 지수

– TAX : 10,000 달러 당 재산세율

– PTRATIO : 자치시별 학생/교사 비율

– B : 1000(Bk-0.63)^2 (Bk는 자치시별 흑인의 비율)

– LSTAT : 모집단의 하위계층의 비율(%)

– MEDV : 본인 소유의 주택가격(중앙값) (단위 : $1,000)

32

• BostonHousing 데이터 셋 예제

Page 34: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

문제

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각화 하시오.

2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데이터 셋을 군집화 하시오.

3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.

4. 관측 개체 군집 분석의 거리 측도를 Manhattan과 Pearson으로 변경하고 군집 수를 4로 설정하여 군집화 하시오.

33

• BostonHousing 데이터 셋 예제

Page 35: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

1번 답

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각화 하시오.

34

• BostonHousing 데이터 셋 예제

Page 36: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

2번 답

2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데이터 셋을 군집화 하시오.

35

• BostonHousing 데이터 셋 예제

Page 37: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

3번 답

3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.

36

• BostonHousing 데이터 셋 예제

Page 38: 미니탭을 이용한 클러스터링 - 1sclab.yonsei.ac.kr/courses/12samsung/data/3.pdf · s ft computing @ yonsei univ . korea 16 미니탭에서 지원하는 클러스터링 기법(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA 16

4번 답

4. 관측 개체 군집 분석의 거리 측도를 변경하고 군집 수를 4로 설정하여 군집화 하시오.

37

• BostonHousing 데이터 셋 예제

Manhattan 거리 Pearson 거리


Top Related