生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

23
生生生生生 3生 全全全全全 全 全 体(2) 全全全全全 2013 全 10 全 21 全 全全全全全全全 全全全全全全全 全全 全全

Upload: analu

Post on 18-Feb-2016

110 views

Category:

Documents


0 download

DESCRIPTION

生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析. 2013 年 10 月 21 日 生命 環境科学域 応用生命科学類 尾形 善之. まずは先週のリマインド. 全体を眺める ため の指標 代表値 算術 平均、 中央値、 最頻値 調和 平均 いろいろな グラフ 棒、 折れ線 ヒートマップ. いよいよ本格的な多変量解析. 代表格: 主成分分析 よく「 PCA 」と 呼ばれます 間違って「 PCA 解析」とも 呼ばれます P rincipal C omponent A nalysis 「主成分」って ? データ全体の特徴を表す指標 です - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

生物統計学・第 3回

全体を眺める(2)主成分分析

2013 年 10 月 21 日生命環境科学域 応用生命科学

類尾形 善之

Page 2: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

まずは先週のリマインド★全体を眺めるための指標

♦代表値• 算術平均、中央値、最頻値

• 調和平均

♦いろいろなグラフ• 棒、折れ線

• ヒートマップ

Page 3: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

いよいよ本格的な多変量解析★代表格:主成分分析

♦よく「 PCA 」と呼ばれます• 間違って「 PCA 解析」とも呼ばれます• Principal Component Analysis

★「主成分」って?♦データ全体の特徴を表す指標です♦多次元データ → 2 次元グラフ• 四次元グラフ……• 79 次元グラフ……

Page 4: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

教科書では…

地上部

Page 5: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

目で見る主成分分析の原理

★主成分( Z )♦実験条件の数だけ引ける♦優先順位がつく

★原理(ひとこと)♦軸を変えている!

• できるだけばらしている!

第1 主

成分

(Z1)

第2

主成

(Z2)実験 1

実験 2

Page 6: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

チェックポイント・ I1. 主成分分析とは?

2. 主成分とは?

3. 主成分分析の原理?

Page 7: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

生物データセット★シロイヌナズナのマイクロアレイ

データ♦79 実験条件• 組織、発達段階

♦3 反復♦合計 237 実験

Page 8: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

生物データセット (ちょっと改良)

遺伝子

79 実験条件

Page 9: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

実際の主成分分析★R を使います★R って?

♦いろいろな統計解析ができるツールです♦特に生物統計学向きです♦R の回で詳しく話します♦自習用に今日の作業手順のファイルを置いて

おきます• http://www.plant.osakafu-u.ac.jp/plantb

io/• 「大阪府立大学 植物バイオサイエンス」で検索

Page 10: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

主成分分析で使う 3 つのグラフ

★寄与率

★負荷量(主成分負荷量)

★得点(主成分得点)

Page 11: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

寄与率:どのくらい貢献しているか

第1 主

成分

(Z1)

第2

主成

(Z2)

実験 1

実験 2

分散(ばらつき)

よくばらつきを表している

これなら第 1 主成分だけ見ればいいんじゃないか、というレベル

棒グラフを足していって、全体の 95% までは見て

いいよ、という暗黙の了解

Page 12: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

負荷量:どの実験が効いているか

第 1 主成分

第2

主成

分 ひとつだけ離れている…

それぞれの実験を表す

絶対値が大きい方に注目

Page 13: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

得点:どの遺伝子に関わっているかそれぞれの遺伝子を表

Page 14: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

ランダムデータと比べると……

Page 15: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

得点: At1g56650 は…

発現量大 小

11.5

9.4

9.6

7.7

3.2

5.6 4.3

5.3

4.1

3.5

第一主成分が「負」の大きい実験が多い

発現量が大きい遺伝子ほど、第一主成分は「負」に

なっている

得点=負荷量 × (平均発現量との差)

Page 16: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

解釈の纏め★今回の生物データセット

♦第 1 主成分の得点(遺伝子)• 発現量大:負に大きい• 発現量小:正に大きい

♦第 1 主成分の負荷量(実験)• 負に大きい実験群が多い

♦負に大きい実験群では、• 発現量の大きい遺伝子と発現量の

小さい遺伝子はいつもほぼ決まっている

Page 17: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

第 2 主成分と第 3 主成分

Page 18: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

X73 の正体は……• At1g56650 の遺

伝子発現データ• 大体平均的な発現

量• 花粉で発現する遺

伝子は少ない

AtGE_73 :花粉

Page 19: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

主成分分析の長所と短所★長所だけ知ってもあまり役に立たない

♦口コミとか

★長所♦ともかく全体を眺める(森を見る)のに便利♦ツールが充実している♦みんなを納得させるのにも使える

★短所♦主成分の意味が分かりにくいときがある♦実はあまり綺麗に分かれてこないことが多い

Page 20: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

チェックポイント・ II4. 寄与率とは?5. (主成分)負荷量とは?6. (主成分)得点とは?7. 主成分の意味はどうやって判断す

るのか?

Page 21: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

今日の自習のポイント★中央値を選んだデータセットを提供

♦atgenx.txt★R での作業手順(これを辿ってみてくださ

い)♦131021pcastep.txt

★そもそも R の使い方……♦R の使い方 .docx

★ランダムデータ♦atgenxrandom.txt

Page 22: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

次回までの予習

★次回は「各種クラスタリング」です♦教科書

• クラスター分析、階層的クラスター分析

♦インターネット

• 自己組織化マップ、ネットワーク解析

• ヒートマップ

Page 23: 生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析

本日の課題★シロイヌナズナの 79 実験条件の遺伝子発

現データを手に入れました。

1. 79 実験条件の全体を主成分分析で眺める方法を、「寄与率」「負荷量」「得点」を使って説明してください。

2. 生物データセットに主成分分析を使ってみた印象(疑問に思うこと)を書いてください。