rによる主成分分析入門

主成分分析って？多変量のデータを統合し、

新たな総合指標を作り出すための手法。

多くの変数に重みをつけて

少数の合成変数を作るのが主成分分析です。

2 参考：マクロミル　http://www.macromill.com/landing/words/b007.html

使うデータ

名　前

チーム

防御率

試合数

勝　利

敗　北

セーブ

勝　率

投球回

被安打

被 H R

四　球

死　球

奪三振

失　点

自責点

菅野

巨人 3.12 27 13 6 0 0.684 176 166 10 37 5 155 70 61

藤浪

阪神 2.75 24 10 6 0 0.625 137.2 119 10 44 2 126 48 42

前田

広島 2.10 26 15 7 0 0.682 175.2 129 13 40 2 158 46 41

田中

楽天 1.27 28 24 0 1 1 212 168 6 32 3 183 35 30

摂津

バンク

ソフト

3.05 25 15 8 0 0.652 162.1 138 11 42 8 146 68 55

大谷

日ハム

4.23 13 3 0 0 1 61.2 57 4 33 8 46 30 29

※2013年の規定投球回1/3以上を投げてる113投手

分析で使うデータグラフ用

データ元：プロ野球データFreak　http://baseball-data.com/

Plotしてみる

2次元のプロットが14C2=91通りもできるんだから、１枚ずつ見ていったら切りがない！

分析しづらいからもっと変数を減らし

て！！

分析手順

下図のZk(k=1,2,…,n)の分散が最大になるようなa11～annを決める。　　　　　　　　　

第１主成分第２主成分第 n 主成分

(防御率・試合数・四球 etc.)

わかりにくいので、２次元で考える

名　前投球回被安打

菅野 176 166

藤浪 137.2 119

前田 175.2 129

田中 212 168

摂津 162.1 138

大谷 61.2 57 ※ 計113投手

先ほどのZkの分散が最大になるように新たな軸となる線をひく。

それぞれの点から垂線を下ろしたときの交点が、主成分得点となり、１次元で表せるようになった。

先ほどのZkの分散が最大になるように新たな軸となる線をひく。

先ほどのZkの分散が最大になるように新たな軸となる線をひく。情報損失

第２主成分以降はこの情報損失を補うようにしていく

それぞれの点から垂線を下ろしたときの交点が、主成分得点となり、１次元で表せるようになった。

なんでZkの分散が最大になるようにとるの？

直感的なお話

適切な軸をとらないと、情報の損失が起き、データどうしの距離が近くなってしまう。

分散が小さくなる

数学のお話

14 参考文献：　http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf

数学のお話

これだとa1,a２はいくらでも大きくできてしまう

数学のお話

そこで制約条件を考える

θ1 θ2

つまり、a1とa２の比(=主成分の傾き)＋原点となる基準点(=重心)を考えることで、分散が大きくなり続けることを制限している

max. s.t.

数学のお話

分散共分散行列！固有値問題になった！

ここで…

先ほどの上式の①に×a1、②に×a2をして足すと

…① …②

(∵制約条件)

となり、λはZkの分散であることがわかった。

max. s.t.

これに関連して… 　軸を最適にしようというのはわかった。

が、まだ問題がある。

　一般にデータは列ごとに単位が異なることが多い。　単位が違ったまま考えると分散・共分散を考えるときに、　大きく差が生じてしまう。

参考文献：　http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf

これに関連して…

そこで！

　軸を最適にしようというのはわかった。

が、まだ問題がある。

　一般にデータは列ごとに単位が異なることが多い。　単位が違ったまま考えると分散・共分散を考えるときに、　大きく差が生じてしまう。

標準化！

簡単のため２次元で考えてきましたが、多次元でも考えにくいだけで考え方は一緒です。

DEMONSTRATION

一致してる！

固有ベクトルなので、マイナスを外に出すかで結果が変わりますが、結果的には一緒です

標準化 ver.

投球回被安打

傾きを表してる

寄与率

多次元 Ver.

※再掲

名　前

チーム

防御率

試合数

勝　利

敗　北

セーブ

勝　率

投球回

被安打

被 H R

四　球

死　球

奪三振

失　点

自責点

菅野

巨人 3.12 27 13 6 0 0.684 176 166 10 37 5 155 70 61

藤浪

阪神 2.75 24 10 6 0 0.625 137.2 119 10 44 2 126 48 42

前田

広島 2.10 26 15 7 0 0.682 175.2 129 13 40 2 158 46 41

田中

楽天 1.27 28 24 0 1 1 212 168 6 32 3 183 35 30

摂津

バンク

ソフト

3.05 25 15 8 0 0.652 162.1 138 11 42 8 146 68 55

大谷

日ハム

4.23 13 3 0 0 1 61.2 57 4 33 8 46 30 29

※2013年の規定投球回1/3以上を投げてる113投手

分析で使うデータグラフ用

データ元：プロ野球データFreak　http://baseball-data.com/

固有値・固有ベクトル

※標準化してます

主成分

※標準化してます

見づらいけど…

若干、マシ

奪三振勝利

失点自責点

フォアボール

寄与率

一般的に累積寄与率が0.8を超える主成分までを考慮するので、今回は第４主成分まで考える

解釈 Z1 = 0.093 × 防御率 – 0.19 × 試合数 + 0.28 × 勝利 + 0.28 × 敗北 - 0.15 × セーブ +

　　 0.04 × 勝率 + 0.34 × 投球回 + 0.35 × 被安打 + 0.31 × 被本塁打 + 0.29 × 四球 +

0.18 × 死球 + 0.28 × 奪三振 + 0.35 × 失点 + 0.35 × 自責点

　　 ⇒ 先発投手度 Z2 = - 0.58 × 防御率 + 0.31 × 試合数 + 0.34 × 勝利 – 0.18 × 敗北 + 0.22 × セーブ +

　　 0.40 × 勝率 + 0.22 × 投球回 + 0.07 × 被安打 – 0.07 × 被本塁打 + 0.003 × 四球 - 0.02 × 死球 + 0.34 × 奪三振 – 0.18 × 失点 – 0.14 × 自責点

　　 ⇒ 点を取られない投手度 Z3 = - 0.15 × 防御率 + 0.41 × 試合数 - 0.18 × 勝利 + 0.41 × 敗北 + 0.47 × セーブ -

　　 0.57 × 勝率 + 0.05 × 投球回 + 0.07 × 被安打 + 0.07 × 被本塁打 + 0.08 × 四球 -

0.14 × 死球 + 0.13 × 奪三振 + 0.06 × 失点 + 0.03 × 自責点

　　 ⇒ 抑え投手度 Z4 = - 0.04 × 防御率 – 0.07 × 試合数 + 0.02 × 勝利 – 0.03 × 敗北 – 0.31 × セーブ - 　　 0.03 × 勝率 + 0.06 × 投球回 + 0.02 × 被安打 + 0.14 × 被本塁打 + 0.10 × 四球 -

0.91 × 死球 + 0.11 × 奪三振 – 0.04 × 失点 – 0.02 × 自責点

　　 ⇒ コントロールが良い投手度

まとめ •  変数を減らすことができたが、解釈に主観が入ってしまうため、使いどころが難しい。

•  この手法とクラスター分析などを組み合わせれば、解釈が多少容易になる。

•  量的変数だけでなく、質的変数でも得点化すれば、この手法が使えるので、アンケートデータなどの分析にも便利。

rによる主成分分析入門

Data & Analytics

データウェアハウス入門...

1. オイル分析入門...10 1. オイル分析入門/...

pythonによるデータ分析入門 -...

テスト分析入門...

apache airflow入門 ...

apache hadoop & hive 入門...

a.7...

8 相关分析与回归分析

ibm spss - i-learning...modeler入門 1 2 modeler入門 2...

データ分析入門（ 4 ）

tokyo r12 - r言語による回帰分析入門

第六章主成分分析与因子分析

gomaji 個案分析網站分析

筑波大学研究基盤総合センター...

就活生のための会社分析入門 20160102

let2011: rによる教育データ分析入門

入門基礎ミクロ経済学 - 部分均衡分析 ·...

門診慢性病老人衰弱症之分析 -...

因子分析，共分散構造分析 factor analysis...

データ分析入門（ 12 ）

rによる主成分分析 入門

rによる主成分分析入門