主成分分析 principal component analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf ·...

19
10 データマイニング特講 1 主成分分析 Principal Component Analysis データマイニング特論 10

Upload: others

Post on 24-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 1

主成分分析Principal Component Analysis

データマイニング特論

第10回

Page 2: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 2

本日の内容

主成分分析

他の手法との組み合わせ (hybrid methods) 回帰分析(regression analysis) クラスター分析(clustering)

Page 3: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 3

セグメンテーション

低次元空間への布置により、分類の単純化を行う

次元縮約(dimension reduction) 総合指標(Comprehensive index)

ホテルの料金

ICからの距離部屋の広さ

温泉

ホテルのグレードなどの総合的な指標

Page 4: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 4

主成分分析

顕在変量顕在変量

・どの程度説明できているか?(寄与率)・いくつの変量で全体をどの程度説明できるか?(主成分数)

顕在変量顕在変量

Existence variable

潜在変量潜在変量

Potential variable

Page 5: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 5

q 変数で説明

主成分(Principal components)線形結合(linear combination)

pppppp

pqppqqq

pp

pp

xaxaxaz

xaxaxaz

xaxaxazxaxaxaz

+++=

+++=

+++=

+++=

2211

211

22221212

12121111

)()()( 21 pzVarzVarzVar >>>

は互いに無相関pzzz ,,, 21

Page 6: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 6

主成分分析の実施の選択項目

共分散行列か相関行列か

そのままの尺度と標準化した尺度

主成分数

寄与率: 80%が目安

固有値: 1以上

スクリープロット: なだらなになる前まで

解釈可能: 意味のある軸

Page 7: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 7

0

1

2

3

4

0 1 2 3 4 5 6

スクリープロット急坂からなだらかに変わる前までを採用

Page 8: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 8

主成分分析の手順

分析する変数の指定

データのタイプ

共分散行列(Covariance).. そのままの単位で

相関行列(Correration)..単位の違いをなくすため標準化

主成分数(number of PC)の決定

固有値・寄与率など

Page 9: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 9

結果の利用

解釈

主成分によりデータの構造を説明する

変数変換

主成分得点を他の解析に利用

Page 10: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 10

「データ加工」「主成分」

H11sake.xls

Page 11: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 11

練習)酒類購入データの主成分分析

H11sake.xls

主成分数の決定

相関 or 共分散

Page 12: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 12

結果(H11sake)

Page 13: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 13

主成分数の決定(number of PC)

累積寄与率が80%超え

Page 14: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 14

結果(iris)

ターゲット変数で塗り分け

Page 15: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 15

主成分の解釈

主成分得点・因子負荷量(係数)

決定木による要因分析

回帰分析による要因分析

Page 16: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

DMニューラル

主成分分析のスコアを用いて、一般化線形モデルによる予測(ニューラルネットで構成)

第 回10 データマイニング特講 16

Page 17: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 17

主成分分析と他の統計手法

主成分分析の結果をクラスタリングする

恣意的なグルーピング=>自動化

主成分スコアをもとに決定木を作る

相関構造のある場合の合成変数の作成として

主成分回帰

主成分分析で相関構造を把握

変数選択では重要な変数を落としてしまう可能性

Page 18: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 18

データマイニングにおいては

目的指向の分析である因子分析はあまり用いられていない

分析ツールに解析が導入されていない

因子分析を実施し、そのスコアを解析する可能性

主成分分析

構造を考えず、単純に取り扱う変数の数を絞りたい場合に適している

分析はゴールではなく、スタート

スコアをデータとして扱う

Page 19: 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf · 2017. 7. 12. · 第10回 データマイニング特講 2. 本日の内容. 主成分分析

第 回10 データマイニング特講 19

参考図書

多変量統計解析法

田中 豊、脇本和昌著,現代数学社

多変量統計解析法入門

永田 靖、棟近雅彦著、サイエンス社

竹内啓、前川眞一『SASによる多変量データの解析』東京大学出版会