主成分分析 - 名古屋大学 · 主成分分析...

17
主成分分析

Upload: others

Post on 08-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

主成分分析

Page 2: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

主成分分析

• 複数の説明変数をもつ観測データがあるときに,それらのデータを複数のグループ(クラスタ,カテゴリ)に分類するための分類基準を求める.

• 分類基準を主成分という.

• 特徴を表現する能力が最も強い(もっともうまく分類できる)主成分を第1主成分,2番目に強い主成分を第2主成分等という.

Page 3: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

主成分分析の方法

説明変数𝑥1, 𝑥2, 𝑥3, ⋯から新たな変数𝑌を定義する. 𝑌 = 𝑎1𝑥1 + 𝑎2𝑥2 +⋯

パラメータ𝑎1, 𝑎2⋯を以下のようにして求める. 1. 元のデータを基準化(規格化,標準化)する.

– ベクトルの大きさを1とする(正規化,規格化).

2. 条件として,𝑎12 + 𝑎2

2 +⋯ = 1をおく. 3. (説明変数の平均値を求める.)

4. 不変分散(平均値からの差の二乗和)が最大となる変数を求める.

パラメータ間の分散共分散行列(相関係数行列)の固有値・固有ベクトルを求める.

Page 4: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

指標

• 固有値 – 固有値は,その主成分がどの程度元のデータの情報を保持しているかを表す.

• 寄与率 – ある主成分の固有値が,データの全情報の中で占める割合.

• 累積寄与率 – 各主成分の寄与率を大きい順に足したもので,足した主成分で、データの情報量がどのくらい説明されているかを示す.

Page 5: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

主成分の数の選択

• 固有値 – 主成分の固有値が、各データ変量の標準化されている分散の値である1を越えていれば採用する.

• スクリープロット – 各主成分の大きさをグラフにし,折れ線の傾きがゆるやかになる手前までの主成分を採用する.

• 累積寄与率 – 累積寄与率が70~80%に達するところまでの主成分を採用する.

Page 6: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

寄与率と累積寄与率

• 固有値 𝜆

• j番目主成分の寄与率(𝑝は主成分の総数) 𝜆𝑗 𝜆𝑖𝑝× 100

• j番目主成分までの累積寄与率 𝜆𝑖𝑗

𝜆𝑖𝑝× 100

Page 7: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

Excelによる分散共分散行列の求め方

「データ」タグ

「データ分析」

共分散 を選択する.

• 下三角行列として求められるので,対角成分を入力して利用する.

Page 8: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

Excelで固有値を求める

1. 行列Aに対して,A-λEを求める.

2. 行列式|A-λE|の値を求める.

3. |A-λE|=0 となるように λ を求める.

• ソルバーを用いる.

– 「オプション」 「アドイン」 ソルバーアドイン

Page 9: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

分散,共分散行列

𝑉𝑎𝑟(𝑥1) ⋯ 𝐶𝑜𝑣(𝑥𝑖 , 𝑥𝑗)

⋮ ⋱ ⋮𝐶𝑜𝑣(𝑥𝑖 , 𝑥𝑗) ⋯ 𝑉𝑎𝑟(𝑥𝑛)

𝑉𝑎𝑟 𝑥𝑖 =1

𝑁 𝑥𝑖(𝑃𝑘) − 𝑥𝑖

2

𝐶𝑜𝑣 𝑥𝑖 , 𝑥𝑗 =1

𝑁 𝑥𝑖(𝑃𝑘) − 𝑥𝑖 𝑥𝑗(𝑃𝑘) − 𝑥𝑗

Page 10: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

主成分分析

𝑥1

𝑥2

𝑝1

𝑝2

𝜃

Page 11: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

回転行列

• 2次元空間内の回転行列 𝑥1′

𝑥2′ =cos 𝜃 −sin 𝜃sin 𝜃 cos 𝜃

𝑥1𝑥2

𝑥1

𝑥2

𝜃

Page 12: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

問題1

氏名 英語 数学 A 60 20 B 100 80 C 80 44 D 60 80 E 70 100

英語,数学という説明変数よりも,説明に適した変数はないか? 主成分分析を行う. 英語と数学の相関係数 = 0.252608 0.25

Page 13: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

平均値付近に平行移動する.

-50

-40

-30

-20

-10

0

10

20

30

40

50

-50 -30 -10 10 30 50

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

数学

英語

A

B D

C

E

Page 14: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

分散・共分散行列

列 1 列 2

列 1 224

列 2 108.8 828.16 氏名 英語 数学 A 60 20 B 100 80 C 80 44 D 60 80 E 70 100 平均 74 64.8

列 1 列 2

列 1 9 4

列 2 4 33

Page 15: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

問題2

• 新聞の社会欄とスポーツ欄を評価してもらった.その結果を基に,新聞を分類する.

• 10点満点の評価結果は以下のよう.

社会欄 スポーツ欄 A 8 3 M 9 7 Y 9 5 S 5 9 N 3 5 H 3 10 C 5 6

Page 16: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

グラフは以下のよう.

0

2

4

6

8

10

12

0 2 4 6 8 10

スポーツ欄

社会欄 -5

-4

-3

-2

-1

0

1

2

3

4

5

-5 -3 -1 1 3 5

Page 17: 主成分分析 - 名古屋大学 · 主成分分析 •複数の説明変数をもつ観測データがあるとき に,それらのデータを複数のグループ(クラス

分散・共分散行列

平均 6 6.428571

平均との差(偏差)

A 2 -3

M 3 1

Y 3 -1

S -1 3

N -3 -1

H -3 4

C -1 0

社会欄 スポーツ欄

社会欄 6

スポーツ欄 -3.21875 5.102041

社会欄 スポーツ欄

社会欄 6 -3

スポーツ欄 -3 5