生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析
DESCRIPTION
生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析. 2013 年 10 月 21 日 生命 環境科学域 応用生命科学類 尾形 善之. まずは先週のリマインド. 全体を眺める ため の指標 代表値 算術 平均、 中央値、 最頻値 調和 平均 いろいろな グラフ 棒、 折れ線 ヒートマップ. いよいよ本格的な多変量解析. 代表格: 主成分分析 よく「 PCA 」と 呼ばれます 間違って「 PCA 解析」とも 呼ばれます P rincipal C omponent A nalysis 「主成分」って ? データ全体の特徴を表す指標 です - PowerPoint PPT PresentationTRANSCRIPT
生物統計学・第 3回
全体を眺める(2)主成分分析
2013 年 10 月 21 日生命環境科学域 応用生命科学
類尾形 善之
まずは先週のリマインド★全体を眺めるための指標
♦代表値• 算術平均、中央値、最頻値
• 調和平均
♦いろいろなグラフ• 棒、折れ線
• ヒートマップ
いよいよ本格的な多変量解析★代表格:主成分分析
♦よく「 PCA 」と呼ばれます• 間違って「 PCA 解析」とも呼ばれます• Principal Component Analysis
★「主成分」って?♦データ全体の特徴を表す指標です♦多次元データ → 2 次元グラフ• 四次元グラフ……• 79 次元グラフ……
教科書では…
地上部
種
目で見る主成分分析の原理
★主成分( Z )♦実験条件の数だけ引ける♦優先順位がつく
★原理(ひとこと)♦軸を変えている!
• できるだけばらしている!
第1 主
成分
(Z1)
第2
主成
分
(Z2)実験 1
実験 2
チェックポイント・ I1. 主成分分析とは?
2. 主成分とは?
3. 主成分分析の原理?
生物データセット★シロイヌナズナのマイクロアレイ
データ♦79 実験条件• 組織、発達段階
♦3 反復♦合計 237 実験
生物データセット (ちょっと改良)
遺伝子
79 実験条件
実際の主成分分析★R を使います★R って?
♦いろいろな統計解析ができるツールです♦特に生物統計学向きです♦R の回で詳しく話します♦自習用に今日の作業手順のファイルを置いて
おきます• http://www.plant.osakafu-u.ac.jp/plantb
io/• 「大阪府立大学 植物バイオサイエンス」で検索
主成分分析で使う 3 つのグラフ
★寄与率
★負荷量(主成分負荷量)
★得点(主成分得点)
寄与率:どのくらい貢献しているか
第1 主
成分
(Z1)
第2
主成
分
(Z2)
実験 1
実験 2
分散(ばらつき)
よくばらつきを表している
これなら第 1 主成分だけ見ればいいんじゃないか、というレベル
棒グラフを足していって、全体の 95% までは見て
いいよ、という暗黙の了解
負荷量:どの実験が効いているか
第 1 主成分
第2
主成
分 ひとつだけ離れている…
それぞれの実験を表す
絶対値が大きい方に注目
得点:どの遺伝子に関わっているかそれぞれの遺伝子を表
す
ランダムデータと比べると……
得点: At1g56650 は…
発現量大 小
11.5
9.4
9.6
7.7
3.2
5.6 4.3
5.3
4.1
3.5
第一主成分が「負」の大きい実験が多い
発現量が大きい遺伝子ほど、第一主成分は「負」に
なっている
得点=負荷量 × (平均発現量との差)
解釈の纏め★今回の生物データセット
♦第 1 主成分の得点(遺伝子)• 発現量大:負に大きい• 発現量小:正に大きい
♦第 1 主成分の負荷量(実験)• 負に大きい実験群が多い
♦負に大きい実験群では、• 発現量の大きい遺伝子と発現量の
小さい遺伝子はいつもほぼ決まっている
第 2 主成分と第 3 主成分
X73 の正体は……• At1g56650 の遺
伝子発現データ• 大体平均的な発現
量• 花粉で発現する遺
伝子は少ない
AtGE_73 :花粉
主成分分析の長所と短所★長所だけ知ってもあまり役に立たない
♦口コミとか
★長所♦ともかく全体を眺める(森を見る)のに便利♦ツールが充実している♦みんなを納得させるのにも使える
★短所♦主成分の意味が分かりにくいときがある♦実はあまり綺麗に分かれてこないことが多い
チェックポイント・ II4. 寄与率とは?5. (主成分)負荷量とは?6. (主成分)得点とは?7. 主成分の意味はどうやって判断す
るのか?
今日の自習のポイント★中央値を選んだデータセットを提供
♦atgenx.txt★R での作業手順(これを辿ってみてくださ
い)♦131021pcastep.txt
★そもそも R の使い方……♦R の使い方 .docx
★ランダムデータ♦atgenxrandom.txt
次回までの予習
★次回は「各種クラスタリング」です♦教科書
• クラスター分析、階層的クラスター分析
♦インターネット
• 自己組織化マップ、ネットワーク解析
• ヒートマップ
本日の課題★シロイヌナズナの 79 実験条件の遺伝子発
現データを手に入れました。
1. 79 実験条件の全体を主成分分析で眺める方法を、「寄与率」「負荷量」「得点」を使って説明してください。
2. 生物データセットに主成分分析を使ってみた印象(疑問に思うこと)を書いてください。