主成分分析 - 名古屋大学 · 主成分分析...
TRANSCRIPT
主成分分析
主成分分析
• 複数の説明変数をもつ観測データがあるときに,それらのデータを複数のグループ(クラスタ,カテゴリ)に分類するための分類基準を求める.
• 分類基準を主成分という.
• 特徴を表現する能力が最も強い(もっともうまく分類できる)主成分を第1主成分,2番目に強い主成分を第2主成分等という.
主成分分析の方法
説明変数𝑥1, 𝑥2, 𝑥3, ⋯から新たな変数𝑌を定義する. 𝑌 = 𝑎1𝑥1 + 𝑎2𝑥2 +⋯
パラメータ𝑎1, 𝑎2⋯を以下のようにして求める. 1. 元のデータを基準化(規格化,標準化)する.
– ベクトルの大きさを1とする(正規化,規格化).
2. 条件として,𝑎12 + 𝑎2
2 +⋯ = 1をおく. 3. (説明変数の平均値を求める.)
4. 不変分散(平均値からの差の二乗和)が最大となる変数を求める.
パラメータ間の分散共分散行列(相関係数行列)の固有値・固有ベクトルを求める.
指標
• 固有値 – 固有値は,その主成分がどの程度元のデータの情報を保持しているかを表す.
• 寄与率 – ある主成分の固有値が,データの全情報の中で占める割合.
• 累積寄与率 – 各主成分の寄与率を大きい順に足したもので,足した主成分で、データの情報量がどのくらい説明されているかを示す.
主成分の数の選択
• 固有値 – 主成分の固有値が、各データ変量の標準化されている分散の値である1を越えていれば採用する.
• スクリープロット – 各主成分の大きさをグラフにし,折れ線の傾きがゆるやかになる手前までの主成分を採用する.
• 累積寄与率 – 累積寄与率が70~80%に達するところまでの主成分を採用する.
寄与率と累積寄与率
• 固有値 𝜆
• j番目主成分の寄与率(𝑝は主成分の総数) 𝜆𝑗 𝜆𝑖𝑝× 100
• j番目主成分までの累積寄与率 𝜆𝑖𝑗
𝜆𝑖𝑝× 100
Excelによる分散共分散行列の求め方
「データ」タグ
「データ分析」
共分散 を選択する.
• 下三角行列として求められるので,対角成分を入力して利用する.
Excelで固有値を求める
1. 行列Aに対して,A-λEを求める.
2. 行列式|A-λE|の値を求める.
3. |A-λE|=0 となるように λ を求める.
• ソルバーを用いる.
– 「オプション」 「アドイン」 ソルバーアドイン
分散,共分散行列
𝑉𝑎𝑟(𝑥1) ⋯ 𝐶𝑜𝑣(𝑥𝑖 , 𝑥𝑗)
⋮ ⋱ ⋮𝐶𝑜𝑣(𝑥𝑖 , 𝑥𝑗) ⋯ 𝑉𝑎𝑟(𝑥𝑛)
𝑉𝑎𝑟 𝑥𝑖 =1
𝑁 𝑥𝑖(𝑃𝑘) − 𝑥𝑖
2
𝐶𝑜𝑣 𝑥𝑖 , 𝑥𝑗 =1
𝑁 𝑥𝑖(𝑃𝑘) − 𝑥𝑖 𝑥𝑗(𝑃𝑘) − 𝑥𝑗
主成分分析
𝑥1
𝑥2
𝑝1
𝑝2
𝜃
回転行列
• 2次元空間内の回転行列 𝑥1′
𝑥2′ =cos 𝜃 −sin 𝜃sin 𝜃 cos 𝜃
𝑥1𝑥2
𝑥1
𝑥2
𝜃
問題1
氏名 英語 数学 A 60 20 B 100 80 C 80 44 D 60 80 E 70 100
英語,数学という説明変数よりも,説明に適した変数はないか? 主成分分析を行う. 英語と数学の相関係数 = 0.252608 0.25
平均値付近に平行移動する.
-50
-40
-30
-20
-10
0
10
20
30
40
50
-50 -30 -10 10 30 50
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100
数学
英語
A
B D
C
E
分散・共分散行列
列 1 列 2
列 1 224
列 2 108.8 828.16 氏名 英語 数学 A 60 20 B 100 80 C 80 44 D 60 80 E 70 100 平均 74 64.8
列 1 列 2
列 1 9 4
列 2 4 33
問題2
• 新聞の社会欄とスポーツ欄を評価してもらった.その結果を基に,新聞を分類する.
• 10点満点の評価結果は以下のよう.
社会欄 スポーツ欄 A 8 3 M 9 7 Y 9 5 S 5 9 N 3 5 H 3 10 C 5 6
グラフは以下のよう.
0
2
4
6
8
10
12
0 2 4 6 8 10
スポーツ欄
社会欄 -5
-4
-3
-2
-1
0
1
2
3
4
5
-5 -3 -1 1 3 5
分散・共分散行列
平均 6 6.428571
平均との差(偏差)
A 2 -3
M 3 1
Y 3 -1
S -1 3
N -3 -1
H -3 4
C -1 0
社会欄 スポーツ欄
社会欄 6
スポーツ欄 -3.21875 5.102041
社会欄 スポーツ欄
社会欄 6 -3
スポーツ欄 -3 5