多変量データ分析 b  第 9 回

63
第5第 第第第第第第第 1/63 第第第第第第第第 B 第9第 第5第 第第第第第第第 第第第 第第第第 第第第第第第第第第第第 第第第 「」 第第第第 2004.6.16. SFC5 第

Upload: meliora-terris

Post on 30-Dec-2015

48 views

Category:

Documents


0 download

DESCRIPTION

多変量データ分析 B  第 9 回. 第 5 章:クラスター分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.16. SFC5 限. 第 5 章 クラスター分析 . クラスター分析 目標 クラスター分析とは何ができる道具かを理解しよう クラスター分析のコンピュータ出力を読み取れる力を身につけよう クラスター分析のからくりと前提を理解しよう  課題を通じて対応分析の使い手になろう. 注)距離概念を理解すること, JMPではクラスター分析結果のデンドログラム の表示に特徴がある.. 適用例と解析ストーリー. データ. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 1/63

多変量データ分析 B  第 9 回

第 5 章:クラスター分析林俊克&廣野元久「多変量データの活用術」:海

文堂

廣野元久2004.6.16. SFC5 限

Page 2: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 2/63

第 5 章 クラスター分析 

クラスター分析目標

クラスター分析とは何ができる道具かを理解しようクラスター分析のコンピュータ出力を読み取れる力を身につけよう

クラスター分析のからくりと前提を理解しよう  課題を通じて対応分析の使い手になろう

注)距離概念を理解すること,JMPではクラスター分析結果のデンドログラムの表示に特徴がある.

Page 3: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 3/63

適用例と解析ストーリーデータ

生徒 国語 x1

英語 x2

数学  x3 理科  x

4

1 86 79 67 68

2 71 75 78 84

3 42 43 39 44

4 62 58 98 95

5 96 97 61 63

6 39 33 45 50

7 50 53 64 72

8 78 66 52 47

9 51 44 76 72

10 89 92 93 91

試験の成績データ

1 )項目間(生徒)の距離を定義

2 )データから距離を測定

3 )集落(クラスター)の  作成と解釈

Page 4: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 4/63

適用例と解析の目的スライド 27 のデータセットは,主成分分析で使ったデータである.主成分分析では,主成分得点から主観的にサンプルの分類を行った.これは,散布図の布置から視覚的に選び出したもの. 

ここでは,サンプル間の多次元空間上の距離のみに基づいて分類(クラスター化)する方法について紹介する. 

クラスター分析は,元々,分類学などで用いられた統計的仮定のまったくない方法であったが,統計学者がその有効性に着目して 研究し大きな発展があったといわれる.この意味において,クラスター分析は異端の方法とも言える. クラスター分析は分類,集落化,層別化などを行う方法論の総称で,クラスター分析の方法を分類するためにクラスター分析が必要であると悪口を叩かれるくらい多くの方法が提唱されている. 

Page 5: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 5/63

解析ストーリー

1 )個々の対象間の近さを測るための距離,クラスターを併合する 際の距離を事前に決める.  個々の対象間の距離を全て計算し,距離が最小となる対象を 統合して最初のクラスターを作る.  新しいクラスターと対象間の距離を全て計算して,対象間の距離 を含めて最小のものを統合する.  これを全てのクラスターが統合されるまで繰り返す.  2 )クラスターの統合過程をデンドログラム(樹形図)で表し, 適当な距離で切断することでグループ化する. 各グループに含まれる対象を調べて,グループの特徴を求める.

Page 6: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 6/63

変数が 2 個の場合のクラスター分析最短距離法による分類1 )クラスターの生成方法 ユーグリッド空間を考え,その距離の小さいものから結合する. 2 )デンドログラム 結合過程を樹形図で表し,適当な距離で切断し,クラスターを構成 後,そのクラスターの解釈を行う

上の 4 つの散布図について主観でクラスターを作成してみよ.

Page 7: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 7/63

5.1  一次元のクラスター分析

上の散布図での確率楕円はクラスター分析により分類した結果の表示である

クラスター分析は分類整理のためのツールであるクラスター化の方法について一次元のデータで考える

60

80

100

120

140

160

180

‘Ìd

(ƒ|ƒ

“ƒh

)

45 50 55 60 65 70 75g’·(ƒCƒ“ƒ`)

図 5.1  身長と体重でのクラスター

B

Page 8: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 8/63

5.1.1  階層的方法と非階層的方法 1/3

日常の分類整理方法の光景を思い浮かべる

1)沢山の商品カタログが分類されないで山積みになっている.

2)飲み干したワインのラベルが整理されないで箱に数多く入っている.

3)商品のCS調査の生データがDBに記録されたままになっている.

・・・

Page 9: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 9/63

5.1.1  階層的方法と非階層的方法 2/3

階層的分類<方法 1>

①カタログやラベルなどを大きなテーブル -コンピュータ内の仮想的なものを含む- の上に並べる.

②内容のよく似た個体を一緒にまとめる. ③②を繰返すことで,似た個体の束ができる.束の数や大きさが適当なところ

で打ち切る.

分類する個体が多い場合には,方法 1は困難であり,方法 2が有利である.し

かし,方法 1は,結果をみてクラスター数を決めることができる.方法 1を階層的方法,方法 2を非階層的方法と呼ぶ.非階層的方法は,k個の代表 -すな

―わち平均 を用いて分類するため,k-means法とよばれる.

Page 10: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 10/63

5.1.1  階層的方法と非階層的方法 3/3

非階層的方法<方法 2>

①あらかじめ幾つに分類するか決めて箱を用意する.

②各箱に 1つ個体を入れ箱の代表とする.

③箱の代表の選び方は,知見から典型的な個体を選ぶか,適当に仮決めし逐次

修正するか,いずれかである.

④各個体を箱の代表と比べて,一番近い箱に必ず入れる.

⑤すべて箱に入ったら中身を吟味し,箱の代表を再度選ぶ.

⑥箱の中の個体を代表と比べ,内容があまりにも違っている個体は,他の箱の

代表と比べ,一番近い箱へ移動させる.

⑦入替えがなくなるまで,⑤⑥を繰返す.

Page 11: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 11/63

難しい距離(類似度)の定義

①個体間の距離をどう定義するか.

②階層的方法では,幾つかの個体が寄り集まってできたクラスター間の距離を

どう定義するか.

活用術 5.1:標準化と CLUST

距離はすべての次元が等しく扱われるため,測定単位の違う変量を分析に用

いる場合は,測定単位に依存しない距離-標準化-に変換する必要がある.

Page 12: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 12/63

5.1.2  階層的クラスター

データ表 5.1  カップアイスの評価得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

語句

得点

図 5.2  クラスター間の距離の定義

最短距離法 重心法 最長距離法

最も近い点で連結 重心で連結 最も遠い点で連結

Page 13: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 13/63

5.1.3  最短距離法

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

隣同士の距離 20 19 10 18 13 7 8 54 60得点 11 31 50 60 78 106 160 220隣同士の距離 20 19 10 18 13 54 60得点 11 31 50 60 78 160 220隣同士の距離 20 19 10 18 13 60得点 11 31 78 160 220隣同士の距離 20 19 13 60得点 11 31 160 220隣同士の距離 20 19 60

54

18

(50,60)18

(78,91,98,106)(50,60)54

(91,98 106),

(91,98 106),54

(91,98)8

語句

得点

表 5.2  最短距離法の計算

表 5.1  カップアイスの評価得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

語句

得点

Page 14: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 14/63

5.1.4  最長距離法

表 5.1  カップアイスの評価得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

語句

得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

隣同士の距離 20 19 10 18 13 7 8 54 60得点 11 31 50 60 78 106 160 220隣同士の距離 20 19 10 18 20 54 60得点 11 31 78 106 160 220隣同士の距離 20 41 20 54 60得点 11 31 78 160 220隣同士の距離 20 29 28 60得点 78 160 220隣同士の距離 28 60得点 160 22011 31( , ) 50 60 78( , , ) 91 98 106( , , )

39 28 69

15

28 6911 31( , ) 50 60( , ) 91 98 106( , , )

50 60( , ) 91 98( , )28

50 60( , ) 91 98 106( , , )

得点

語句

91 98( , )15

表 5.3  最長距離法の計算

Page 15: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 15/63

5.1.5  重心法

表 5.1  カップアイスの評価得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

語句

得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

隣同士の距離 20 19 10 18 13 7 8 54 60得点 11 31 50 60 78 106 160 220隣同士の距離 20 19 10 18 16.5 54 60得点 11 31 78 106 160 220隣同士の距離 20 24 16.5 54 60得点 11 31 78 160 220隣同士の距離 20 24 20.333 60得点 78 160 220隣同士の距離 20.333 60得点 160 220

34 23 61.6666666721 55 93.25

23 61.6666666721 55 98.33333333

23 11.555 98.33333333

得点

94.511.5

55 94.5

語句

表 5.4  重心法の計算

Page 16: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 16/63

5.1.7   Ward 法

表 5.1  カップアイスの評価得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

語句

得点

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

√ Δ( SW) 14.14 13.44 7.07 12.73 9.19 4.95 5.66 38.18 42.43得点 11 31 50 60 78 106 160 220√ Δ( SW) 14.14 13.44 7.07 12.73 13.47 38.18 42.43得点 11 31 78 106 160 220√ Δ( SW) 14.14 19.60 13.47 38.18 42.43得点 11 31 78 160 220√ Δ( SW) 14.14 19.60 17.61 42.43得点 78 160 220√ Δ( SW) 17.61 42.43得点 160 22021 55 93.25

21 55 98.3327.76 18.78 53.40

55 98.3318.78 53.40

55 94.518.78 9.39

語句

得点

94.59.39

表 5.5   Ward 法の計算

Page 17: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 17/63

デンドログラムで比較

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

図 5.3   5つの方法によるデンドログラム

使う方法により,デンドログラムの形が変わることに注目

Page 18: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 18/63

距離を考える

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

図 5.4  平方根変換後のデンドログラム

活用術5.2:変数変換とCLUST

所得などのように,分布が歪んでいる場合には,そのままCLUSTを適用す

ると,高所得者が細分され,低所得者が全部ひとまとまりになる.先に対数変

換などの対称分布にしておく.

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒv ƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Ward–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

ŒQ•½‹Ï–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

dS–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒv ƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’·‹——£–@

Šy‚µ‚¢—₽‚¢ˆÀSŠ´ƒRƒN‚Ì‚ ‚é”ü–¡‚µ‚¢‚Æ‚Ä‚àŠÃ‚¢ƒVƒ“ƒvƒ‹‚È‚ƒJƒƒŠ[‚Èe‚µ‚Ý‚â‚·‚¢ƒ{ƒŠƒ…[ƒ€Š´

Å’Z‹——£–@

Page 19: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 19/63

5.1.8  非階層的クラスター分析  1/71. 階層的分類法2. 非階層的分類法  2.1 分割最適化型分類法    2.1.1  k -means 法

分類方法の本質的考え方クラスタ-のまとまりの良さmあるいはクラスター間の離れ具合を,何かの基準で測り,これを最大化 ( 最小化)するという方針で分類を行う

1 )クラスターの約束  クラスター化のための評価基準,クラスター内の等質性2 )分類方法  分類のための算法(アルゴリズム)3 )分け方の数  n個の個体をg群に分けることの容易さ

Page 20: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 20/63

5.1.8  非階層的クラスター分析  2/7数値例で確認   1 変数 35 個体のデータを 2 分類することを考える

0

5

10

15

•½‹Ï•W€•Î·•½‹Ï‚Ì•W€Œë·•½‹Ï‚Ì㑤95%M—ŠŒÀŠE•½‹Ï‚̉º‘¤ 95%M—ŠŒÀŠEN

7.84.42453060.74788229.31987946.2801206

35

ƒ‚[ƒƒ“ƒg

xデータ  5 , 11 , 12 , 9 , 11 4 , 14 , 16 , 13 , 5 1 , 6 , 3 , 4 , 1112 , 4 , 8 , 1 , 615 , 9 , 13 , 7 , 12 3 , 10 , 5 , 10 , 3 5 , 4 , 2 , 4 , 15

平均 7.8平方和  665.6分散    19.58

直感的な考え方  ヒストグラムを作り 2山になっているところで区切ればよいだろう 問題点:客観性&アルゴリズム(一般性)がない. 

Page 21: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 21/63

5.1.8  非階層的クラスター分析  3/7

では, 35 個のデータを 2群に分けるとして,その方法は全部で幾つあるか...    答え: 171億 7986万 9183 とおりある

・大規模データで 2群に分けるとしても全ての方法を試すことは 現実的に不可能である.

・クラスターの評価基準が決まっても,それを最適にする分類の 組み合わせを網羅的に調べることができない

それに代わる方法を見つける必要があろう   ・相関比 η2 を使う  群間変動と群内変動の比較

Page 22: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 22/63

5.1.8  非階層的クラスター分析  4/72 つの分類方法を選び出した

171億数千万とおり

x

02468

10121416

1 2

ŒQ•ª‚¯1

ŒQ•ª‚¯1Œë·‘S‘Ì(C³Ï‚Ý)

—vˆö 1 33 34

Ž©—R“x 499.88571 165.71429 665.60000

•½•û˜a 499.886 5.022

•½‹Ï•½•û•ªŽU•ªÍˆêŒ³”z’u‚Ì•ªŽU•ªÍ

ŒQ•ª‚¯1‚É‚æ‚éx‚̈ꌳ”z’u•ªÍ

x

02468

10121416

1 2

ŒQ•ª‚¯2

ŒQ•ª‚¯2Œë·‘S‘Ì(C³Ï‚Ý)

—vˆö 1 33 34

Ž©—R“x 1.32222

664.27778 665.60000

•½•û˜a 1.3222 20.1296

•½‹Ï•½•û•ªŽU•ªÍˆêŒ³”z’u‚Ì•ªŽU•ªÍ

ŒQ•ª‚¯2‚É‚æ‚éx‚̈ꌳ”z’u•ªÍ“ñ•Ï—Ê‚ÌŠÖŒW

方法 1 が方法 2 よりも優れているようにみえる  全体の平方和を群間と群内に分解して評価すればよい

4.7143(21)

12.4286(14)8.000(17)

7.61111(18)

Page 23: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 23/63

5.1.8  非階層的クラスター分析  5/7

クラスター内(群内)平方和

クラスター間(群間)平方和

クラスター内平方和が小さくて,クラスター間平方和が大きいほうがうまく分類されたと考えればよいだろう.

    つまり SB 最大 あるいは SW 最小を判断基準にすればよい

p 変数空間でg個のクラスターに分割するイメージ・ある個体は複数のクラスター

 にまたがって所属しない・どの個体もいずれかのクラス ターに所属している

T W BS S S

Page 24: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 24/63

5.1.8  非階層的クラスター分析  6/7分割の総数の計算

  第 2種のスターリング数によって表される

1

22 1

1

1, 1

!

2

21,2 1 2 1

2!

gg i n

i

i n n

i

gP n g i

ig

g

P n ii

のとき

n,g の与え方によって,あっという間に天文学的数字になる

全分割方法を調べるのは実質的に不可能なので   簡便法(一部実施方法によるアルゴリズムが必要)

Page 25: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 25/63

5.1.8  非階層的クラスター分析  7/7分割方法のアルゴリズム概要

1 )初期配置または初期分割  -クラスター数の決定  -全個体をクラスターに仮決めする    ・クラスターの識別,初期の各クラスターの重心の設定2 )各クラスターの縮約値の計算  -平均ベクトル  -平方和,分散3 )最適化基準の改良,反復  -個体のクラスター間移動と再配置  -クラスターの最適化基準の比較4 )収束判定  -クラスター別の縮約値の算出  -クラスタリングの履歴の整理

Page 26: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 26/63

k-means 法  1/4

k-means 法 k個の分割(クラスター)について,平均値(ベクトル)と平方和を用いて改良を進める方法

クラスター評価基準 ・クラスター内平方和 Sw(g)

方法 ・平方和の分解公式を利用して,  個体 1 つずつ,クラスターを移動させて評価基準の変化の様子  を調べるものである.

Page 27: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 27/63

k-means 法  2/4

,k kx n

,l lx n

,t tx n

移動させる

rx , 1kky n

, 1llyx n

,t tx n

1 個増える

rx

1 個減る

           クラスター内平方和の変化量 群 t 変化なし  群 k 群 l

2

11

pll

yl xl rj jjl

nS S x x

n

2

11

pkk

yk xk rj jjk

nS S x x

n

ここに着目

Page 28: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 28/63

k-means 法  3/4個体 r のクラスター間移動に伴なう平方和の変化量は

2 2

1 11 1

p pl kl k

rj j rj jj jl k

n nS x x x x

n n

従って, ΔS< 0 ならば個体rの移動により平方和が改善それ以外は改善されなかったと判断

k-means 法のアルゴリズム 手順 1.n個の個体をg個のクラスターに初期分割する 手順 2.移動させる候補の個体rを選び,順次クラスター移動       (クラスターサイズが 1 の場合は手順 5へ:シングルトン) 手順 3.ΔS< 0 となるクラスターが見つかれば移動 手順 4.移動のあった 2 つのクラスターの平均ベクトル,平方和の      計算 手順 5.ΔS の様子に変化が見られなかったら終了,聡でなければ     手順 2へ

Page 29: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 29/63

k-means 法  4/4

留意点 ・初期配置の方式     クラスター数の決定,初期代表値の選定 ・移動&再配置の方式 ・最適化基準の選択     局所最適であること:分割の全てのとおり数の検索は困難 ・アルゴリズム ・シングルトンの影響(外れ値) ・クラスターサイズへの配慮

Page 30: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 30/63

k-means 法の手順

1x x2x x

3x x

4x x

x

―クラスタ 間変動BS

1x

2x3x

4x

―クラスタ 内変動 WS 全変動

TS

図 5.5  平方和の分解

楽しい 安心感 美味しい シンプルな 親しみやすい冷たい コクのある とても甘い 高カロリーな ボリューム感

| | | | | | | | | |11 31 50 60 78 91 98 106 160 220

種子 〇 〇 〇境界値Δ SW

境界値Δ SW

境界値Δ SW 境界値Δ SW

境界値

86.60

190.0038.00 93.25

70.50 98.50-659.92

30.67 81.75 162.00

-239.1230.67 190.00

30.67 81.75 162.00

-4233.55

2719.92

語句

得点

表 5.6   K-means法の計算

Page 31: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 31/63

2 次元でのクラスターの形成方法 1/5

簡単なデータセットによる理解

No.生徒 x1国語 x2英語1 5 12 4 23 1 54 5 45 5 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

# 5

# 4

# 3

# 2

# 1

グラフより直感的に{(#4,#5),(#1,#2)},#3であることが分かる

ここでは,分かりやすいユーグリッド距離を使う

距離の定義 我々の世界の代表的な距離:ユーグリッド距離 相関関係の確率による距離:マハラノビス距離 より一般的な包含的距離  :ミンコフスキー距離        

Page 32: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 32/63

2 次元でのクラスターの形成方法 2/5

平面におけるユーグリッド距離

1 2,i ix x

1 2,j jx x

三平方の定理を利用して

2 2

1 1 2 2ij i j i jd x x x x

5 つの点のユーグリッド距離を計算すると1 2 3 4 5

1 02 1.4142 03 5.6569 4.2426 04 3 2.2361 4.1231 05 4 3.1623 4 1 0

最短距離法は, 5 つのクラスターの中で距離が最短なクラスターを結合する

距離最短は# 4-# 5 の距離 1 であるから,これらを同じクラスター C1 ( 4 , 5 )とする.

Page 33: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 33/63

2 次元でのクラスターの形成方法 3/5

No.生徒 x1国語 x2英語1 5 12 4 23 1 54 5 45 5 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

# 5

# 4

# 3

# 2

# 1

C1

今度は,#1,#2,#3,C1の距離を測る

C1 から #1 , #2, #3への距離は, #4 と #5 からの距離の短い方を採用する.

1 2 3 4 51 02 1.4142 03 5.6569 4.2426 04 3 2.2361 4.1231 05 4 3.1623 4 1 0C1

最短は #1- #2の距離 d12=1.41

Page 34: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 34/63

2 次元でのクラスターの形成方法 4/5

No.生徒 x1国語 x2英語1 5 12 4 23 1 54 5 45 5 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

# 5

# 4

# 3

# 2

# 1

C1

今度は,C2,#3,C1の距離を測る

C1 から #3 , C2への距離は, #4 と #5 からの距離の短い方を採用する.C2 から #3 , C1への距離は, #1 と #2 からの距離の短い方を採用する.

C2

1 2 3 4 51 02 1.4142 03 5.6569 4.2426 04 3 2.2361 4.1231 05 4 3.1623 4 1 0C1

C2 最短は C1- C2 の距離 d c 1 c 2=2.24

Page 35: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 35/63

2 次元でのクラスターの形成方法 5/5

No.生徒 x1国語 x2英語1 5 12 4 23 1 54 5 45 5 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

# 5

# 4

# 3

# 2

# 1

C1

今度は,C3,#3の距離を測る

C3 から #3への距離は, #1,#2,#4 と #5 からの距離の最短を採用する..

C2

C3

1 2 3 4 51 02 1.4142 03 5.6569 4.2426 04 3 2.2361 4.1231 05 4 3.1623 4 1 0C1

C2 最短は C3-# 3 の距離 d3C3=4.00C3

Page 36: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 36/63

デンドログラムNo.生徒 x1国語 x2英語

1 5 12 4 23 1 54 5 45 5 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

ⅱ)

ⅰ)

ⅲ)

ⅳ)

5 樹状図 ケース最近隣法ユークリッド距離

合距

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

C_3 C_5 C_4 C_2 C_1

距離に着目してデンドログラムで表すと分かりやすい

#3    #5    #4    #2    #1

主観的に距離 2 で切断する・ 3 つのクラスターが得られた英・国共に得意国が得意

英が得意

距離は客観的クラスター数,解釈には分析者の意図が入る

Page 37: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 37/63

変数がp個の場合のクラスター分析 1/2

変数がp個になっても同様の考え方で距離を測るP次元のユーグリッド距離は

2

1

p

ij ik jkk

d x x

特定の問題以外は,ユーグリッド距離で測定すればよいので,他の距離については,ここでは省略する.

JMPによる分析 ・スライド 3 のデータを入力する ・メニューの分析の多変量から  クラスター分析をクリックする

1. 変数を 全て指定

2. クリックして 読み込む

3.オプションで階層型,手法 - 最短距離法を 設定して OKボタンをクリックする.

Page 38: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 38/63

変数がp個の場合のクラスター分析 2/2

Žè–@ = Å’Z‹——£–@

1

2

3

4

5

6

78

9

10

Ž÷Œ`}

9 8 7 6 5 4 3 2 1

ƒNƒ‰ƒXƒ^[‚Ì” 0.666260446 0.748707427 1.052400469 1.297035918 1.463242000 1.501541188 1.574743389 1.747747904 1.899372402

‹——£ 371111111

Œ‹‡æ6952104873

Œ‹‡ŽÒƒNƒ‰ƒXƒ^[•ªÍ‚Ì—š—ð

ŠK‘wŒ^ƒNƒ‰ƒXƒ^[•ªÍJMPでの出力

距離の結合過程

どの科目も  比較的に優秀

クラスターの解釈 クラスター分析   + 主成分分析で解釈すると理解しやすい

デンドログラム

サンプルの結合過程

どの科目も  点数が高くはない

-2

-1

0

1

2

Žå¬

•ª2 1

2

3

4

5

67

8

9

10

-3 -2 -1 0 1 2 3Žå¬•ª1

Žå¬•ª1‚Ǝ嬕ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

Page 39: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 39/63

クラスター間の距離A. 最短距離法B. 最長距離法 ・最初に全てのサンプルの距離を計算する. ・クラスターを結合する場合に,最も近い距離をクラスター間の距離にするか,  最も遠い距離にするかの違いがある. ・最短距離法は,特定の場合,例えば地震や火山帯のクラスターに利用され  るが一般に用いると,鎖効果が出て好ましくない.

最短距離法

ⅰ)

ⅱ)

ⅲ)

ⅳ)

最長距離法

Page 40: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 40/63

Ward法1 )ウォード法の特徴 実用的であること.すなわちよいクラスターが作れる. 鎖効果がおきにくい.   ある 1 つのクラスターに対象が順次 1 つづつ追加されていく   現象 鎖効果が起きると対象の群分けが達成できなくなる.

           鎖効果       よいクラスター

2 )変数が 2 個の場合のウォード法

3 )変数がp個の場合のウォード法

Page 41: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 41/63

変数が 2 個の場合のウォード法  1/5

No.生徒 x1国語 x2英語1 5 12 4 23 1 54 5 45 5 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

#1

#2

生徒 #1 と #2 を 1 つのクラスタにまとめたときの平方和を計算平方和とは重心からの距離の二乗和であった

重心

2 22

121 1

2 2 2 25 4.5 4 4.5 1 1.5 2 1.5 0.25 4 1

ik ki k

S x x

平面における 2 点の平均からの距離の二乗和を計算する

Page 42: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 42/63

変数が 2 個の場合のウォード法  2/5

平面における 2 点の平均からの距離の二乗和を計算する

X1,X2平均 2 4.5 1.53 3 3 2.5 3.54 5 2.5 4.5 3 3 4.55 5 3 4.5 3.5 3 5 5 4.5

1 2x,x平方和 2 0.5 0.53 8 8 4.5 4.54 0 4.5 0.5 2 8 0.55 0 8 0.5 4.5 8 0 0 0.5

平方和 2345

4 5

1164.5 8.5

5

5

1 2 3

8

92.55 8 0.5

1 2 3 4

1 2 3 4

平面における平方和最小なのは(# 4-# 5 )であるからこれを C1 とする

Page 43: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 43/63

変数が 2 個の場合のウォード法  3/5

X1,X2平均 2 4.5 1.53 3 3 2.5 3.5

45 5 3.33 4.667 3.667 3.667 4.667 5 4.5

1 2x,x平方和 2 0.5 0.53 8 8 4.5 4.5

45 0 8.67 0.667 4.667 10.67 0.667増分 0 8.17 0.667 4.167 10.67 0.167 0 0.5

平方和 23

C1 45

116

1 2

10.83333333

5

5

4 53

94.833333333

8.1666667

1 2 3 4

1 2 3 4

平面における各クラスターの二乗和の増分で判断する

C1 では #4,5 と他のサンプルの平方和を計算し,その増分で評価する 145 45 1

145 145 45 1

8.67, 0.5, 0

8.167

S S S

S S S S

例)

C2 は #1,2 とする

Page 44: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 44/63

変数が 2 個の場合のウォード法  4/5

X1,X2平均 2 4.5 1.53 3 3 3.333 2.667

45 5 3.33 4.75 3 3.667 4.667 5 4.5

1 2x,x平方和 2 0.5 0.53 8.17 8.17 8.667 8.667

45 0.25 9 0.75 10 10.67 0.667増分 0.75 9.5 10.67 0.167 0 0.5

平方和 23

C1 45

増分 12 3 4

C2=12 3 C1=45

16.333333339.25

10.83333333

5

4 53

1 2

平面における各クラスターの二乗和の増分で判断する

C1,C2 の平方和の増分の計算1245 12 45

1245 1245 12 45

10.75, 1.00, 0.5

10.75 1 0.5 9.25

S S S

S S S S

C3 を C1,C2 とする

Page 45: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 45/63

変数が 2 個の場合のウォード法  5/5

平面における各クラスターの二乗和の増分で判断する

X1,X2平均 3 4 3.4

1 2x,x平方和 0.75 103 12 13.2

平方和 3差分

C1

25.214.45

1245 3

1245

1245

C3,#3 の平方和の増分の計算12345 1245 3

1245 12345 1245 3

25.2, 10.75, 0

25.2 10.75 14.45

S S S

S S S S

これで完了

Page 46: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 46/63

変数がp個の場合のウォード法JMPを使いウォード法でスライドのデータを分析してみよう

Žè–@ = Ward–@

1

2

34

5

67

8

9

10

Ž÷Œ`}

9 8 7 6 5 4 3 2 1

ƒNƒ‰ƒXƒ^[‚Ì” 0.471117279 0.529416099 0.744159508 1.034668340 1.355895175 1.386843179 2.120907188 2.925488473 4.129762622

‹——£ 371221311

Œ‹‡æ6951048723

Œ‹‡ŽÒƒNƒ‰ƒXƒ^[•ªÍ‚Ì—š—ð

ŠK‘wŒ^ƒNƒ‰ƒXƒ^[•ªÍ

Page 47: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 47/63

5.2  クラスター分析の活用指針

用いる方法によって,結果が大きく異なる可能性がある.構成されたクラスターが意味があるものなのかを知見に基づいて判断する必要がある.主成分と組み合わせると分りやすい

Page 48: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 48/63

5.2.1  クラスター分析の目的と到達レベル

データ分析者の CLUSTの目的は,主に以下のような事柄であろう.

・多変量データを少数個(2~5程度)のクラスターで説明する.

・発見されたクラスターで個体の特徴を掴む.

・主成分上のクラスターの布置で仮説を発見する. データ分析者のCLUSTの到達レベルは,例えば以下のようなものであろう.

・PCAや FAと複合させてポジショニングや狙いのセグメントを探索する.

・顧客の使用実体と商品満足度を結び付け,商品の持つ強み弱みを摘出する.

・業界の特許や技術動向などから幾つかの群を求め,技術戦略を立案する.

データ分析者の CLUSTの目的は,主に以下のような事柄であろう.

・多変量データを少数個(2~5程度)のクラスターで説明する. ・発見されたクラスターで個体の特徴を掴む.

・主成分上のクラスターの布置で仮説を発見する. データ分析者のCLUSTの到達レベルは,例えば以下のようなものであろう.

・PCAや FAと複合させてポジショニングや狙いのセグメントを探索する. ・顧客の使用実体と商品満足度を結び付け,商品の持つ強み弱みを摘出する.

・業界の特許や技術動向などから幾つかの群を求め,技術戦略を立案する.

Page 49: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 49/63

5.2.2  クラスター分析の手順  1/4

分析前のチェック !!!

本当に CLUST の問題かどうか検討しておく.分析にあたっては,クラスター自体検討する必要のない場合予め分類情報をもった変量がある場合など

事前検討に時間を使う.事前に知見から,どの程度のクラスターが得られるか仮説を立てる直接 CLUST には使わないがクラスターの性格を決めるような項目の準備など

Page 50: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 50/63

5.2.2  クラスター分析の手順  2/4 

①分析に必要な変量を選定する分析目的に対して無意味な変量を含んでいると分析結果の解釈が困難になる変量選定には十分な吟味が必要である

②個体の数は目的に応じて集めるCLUST は,記述の意味合いが強い手法であるので,無作為に集まられた個体でも,意図的に集められた個体でもよい

③データは分析しやすいようにデータ行列にまとめる DB の活用や実際にアンケート等によりデータを収集する必要であれば,対数変換や単位当りの比率に加工しておく

Page 51: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 51/63

5.2.2  クラスター分析の手順  3/4 

④外れ値チェックデータのモニタリングによって,外れ値 ―たった 1 個でクラスターが形成されそうな個体― には色を変えたり,マーカを変えたりしておく

⑤距離の定義を決めるJMP の階層的方法では,標準化ユーグリッド距離が初期設定になっている

⑥目的や個体数から階層的方法か非階層的方法かを選ぶマイニング分野では,必然的に非階層的方法を選択せざるを得ない

Page 52: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 52/63

5.2.2  クラスター分析の手順  4/4 

⑦方法の選択Ward 法を実行し他の方法と比較する.クラスター数は,デンドログラムの結合の形や知見などから決定する ( 階層的方法 )クラスター数を決める(非階層的方法)

⑧クラスターの性格を決める事前情報や分析に使わなかった項目も活用し,クラスターとのクロス集計表分析などを行う(階層的方法)何度か初期値を変えて CLUST を実行する(非階層的方法) 知見とバイプロットやパラレルプロットからクラスターの性格を決める

⑨最後の確認解釈が困難な場合には⑦に戻り再検討する場合によっては,変量や個体の見直し CLUST を再実行する

Page 53: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 53/63

JMPによる k -means 法の分析 1/4スライド 3 のデータを分析する

1.メニューの分析から   分類→大規模ファイルのクラスタ をクリックする2.ダイアログが現れるので 4 つの変数を分析する変数に指定する

クラスター数を指定する   ここでは,クラスタ数を 3 とするが,探索的にクラスタ数を   決める必要がある

ここをクリックしてK Means法に変える

Page 54: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 54/63

JMPによる k -means 法の分析 2/4クラスター数の基準

    Calinski-Harabasz の分散比基準    

/1

B Wg

S g S gV

g n g

g クラスター時での分散比で判断するもの

平方和基準で測れるようなクラスターが存在するときはそのクラスター数付近で分散比は大きくなる

この基準はお手軽なものであるが,データの空間配置のパターンにより必ずしも最良の保証が得られるとは限らない

Page 55: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 55/63

JMPによる k -means 法の分析  3/4

K-MeansƒNƒ‰ƒXƒ^[•ªÍ

•W€•Î·‚Ńf[ƒ^‚ð•W€‰»ƒNƒ‰ƒXƒ^[‚ÌF•ª‚¯•W–{’Šo—¦‚ðŽg‚Á‚Ä‹——£‚ðƒVƒtƒgƒNƒ‰ƒXƒ^[“à‚Ì•W€•Î·‚ðŽg—p

Ý’èƒpƒlƒ‹

0ƒXƒeƒbƒv

0Šî€

1 2 3

ƒNƒ‰ƒXƒ^[ 0 0 0

“x” 0 0 0

Å‘å‹——£ 0 0 0

Ž–‘O‹——£

ƒNƒ‰ƒXƒ^[—v–ñ

1 2 3

ƒNƒ‰ƒXƒ^[ 96 62 39

‘Œê 97 58 33

‰pŒê 61 98 45

”Šw 63 95 50

—‰ÈƒNƒ‰ƒXƒ^[•½‹Ï

1 2 3

ƒNƒ‰ƒXƒ^[6.847906776.847906776.84790677

‘Œê 7.1853761 7.1853761 7.1853761

‰pŒê6.456024086.456024086.45602408

”Šw5.992175975.992175975.99217597

—‰ÈƒNƒ‰ƒXƒ^[•W€•Î·

”½•œƒNƒ‰ƒXƒ^[•ªÍ 赤▼をクリックしてバイプロットを選択

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Žå¬

•ª2

1

2

3

4

5

6

7

8

9

10123

‘Œê‰pŒê

”Šw—‰È

-2 -1 0 1 2Žå¬•ª1

2.7207331.22179950.0524115 0.005056ŒÅ—L’l

ƒoƒCƒvƒƒbƒg

Page 56: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 56/63

JMPによる k -means 法の分析  4/4分類されたけ-スに色分けして

第 1 &第 2 主成分平面に布置

楕円で囲ったものが ウォード法によるクラスタ

プロットの色が k-means 法のクラスタ

構成されるクラスタの要素が異なることに注意

このデータでは,ウォード法の結果と第 1 & 2 主成分平面とよく合っているが, K-means 法の結果と第 1 & 2 主成分平面との布置の一致はよろしくない.このような結果は,データ構造に依存する

-2

-1

0

1

2

Žå¬

•ª2

1

2

3

4

5

6

7

8

9

10

-3 -2 -1 0 1 2 3Žå¬•ª1

Žå¬•ª1‚Ǝ嬕ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

Page 57: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 57/63

5.3.1  理想の恋人 (1)   1/2理想の恋人データを使う

非常に小さい標本であることに注意  n=20

19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

クラスターの数 0.593721010 1.061293413 1.120122650 1.387373407 1.516320855 1.718666956 1.763473563 1.878577843 1.931205232 1.997082103 2.153375333 2.273528880 2.778118129 2.921482497 2.949965045 3.350878295 3.644718593 4.738608270 5.196520211

距離 31443131186310466232111

結合先121791520161911514818137410632

結合者クラスター分析の履歴

手法 = Ward法

1

2

3

45

6

7

89

10

11

12

13

14

15

16

17

1819

20

経済

容姿

性格

年齢

趣味

相性

距離

樹形図

階層型クラスター分析

6 5 4 3 2 1

クラスターの数 2.809925874 3.677529368 4.338605988 4.608817692 4.865357785 5.417249612

距離 経済力趣味容姿容姿経済力経済力

結合先性格相性距離年齢趣味容姿

結合者クラスター分析の履歴

クラスター 1

クラスター 2

クラスター 3

Page 58: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 58/63

5.3.1  理想の恋人 (1)   2/2

個体クラスターの特徴や意味について検討方法

各変量について,クラスターごとの平均を計算し,パラレルプロットにより相対的な検討を行うクラスター 1 & 3 とクラスター 2 の違いは,クラスター 2 は,経済力,容姿,正確,距離といった外観的な項目を相対的に重要視していないクラスター 1 とクラスター 2 & 3 の違いは,クラスター 1 は,相性や趣味といった項目を相対的に重要視していない.

•½

‹Ï(Œ

oÏ—

Í)

•½

‹Ï(—

p)

•½

‹Ï(

«Ši)

•½

‹Ï(‹

——

£)

•½

‹Ï(‘

Š«)

•½

‹Ï(Ž

ï–¡)

•½

‹Ï(”

N—

î)

ƒpƒ‰ƒŒƒ‹ƒvƒƒbƒg

ƒNƒ‰ƒXƒ^[3

ƒNƒ‰ƒXƒ^[1

ƒNƒ‰ƒXƒ^[2

図 5.7 パラレルプロットによる 3つのクラスターの特徴

Page 59: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 59/63

5.3.2  理想の恋人( 2 )  1/2今度はマハラノビス距離を使う

主成分得点の利用

-2-1.5

-1-0.5

00.5

11.5

2

•W€‰

»Ž

å¬

•ª2

-2 -1.5 -1 -0.5 0 .5 1 1.5 2•W€‰»Žå¬•ª1

•W€‰»Žå¬•ª1‚Æ•W€‰»Žå¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

1

2

3

4

5

6

7

89

10

11

12

13

14

15

16

17

1819

20

Ž÷Œ`}

図 5.8 主成分得点への CLUST

Page 60: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 60/63

5.3.2  理想の恋人( 2 )  2/2

ユーグリッド距離とマハラノビス距離では結果がことなるマハラノビス距離の注意点

活用術 5.3:主成分得点の CLUST

主成分得点に基づいて CLUSTを行う場合は,以下の点に注意する.

・得点は標準化したものを使う. ・用いる主成分の数は固有値上位のものに限る.

Page 61: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 61/63

5.3.3  選挙データへの k -means 法の適用  1/32000 & 2001年度の比例区の選挙データについて k-means 法で

分析してみよう.

データについて, 手順 1. 各政党の得票数は総得票数で割って県別の      政党別得票率を求める 手順 2.政党別得票率に対して対数変換する 手順 4. 変数として用いる政党は       自民,民主,公明,共産,自由,社民 の 6政党 手順 5. データセットは以下のように準備する

2000年

2001年

変数:政党別得票率    の対数

北海道  ~沖縄

北海道  ~沖縄

Page 62: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 62/63

5.3.3  選挙データへの k -means 法の適用  2/3

JMPを使い  k-means 法を適用する    ・求めるクラスター数は 2 とする       (ここでは,年度の違い(小泉効果)により群が構成         されるという仮説にたつ)    ・得られたクラスターを保存する    ・主成分分析で,第 2 主成分まで求める    ・主成分平面とクラスターを視覚的に比較する        

テキストでは群を 3 つに指定している違いをも読み取ろう

Page 63: 多変量データ分析 B  第 9 回

第 5 章 クラスター分析 63/63

5.3.3  選挙データへの k -means 法の適用  3/3

-4

-3

-2

-1

0

1

22Ž

å¬

•ª

ŠâŽè

Îì

•Ÿˆä

’·–ì “‡ª

‰ªŽR

‹{è

Ž Ž™“‡

ŠâŽè

Îì •Ÿˆä

’·–ì “‡ª

‰ªŽR

‹{è

Ž Ž™“‡

-2 -1 0 1 21Žå¬•ª

1Žå¬•ª‚Æ2Žå¬•ª‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

橋本氏

青木氏

武藤氏

森氏

羽田氏

小沢氏

2000年2001年

K-means 法によるクラスターで色分け

保守(与党)軸 革新(野党)軸

クラスターは 確かに選挙年による 構成比率(の対数)の 構造変化を捉えてくれる

 どの県についても小泉効果 (矢印方向と長さ)が認められる