nagoyastat #4 ご挨拶と前回の復習
TRANSCRIPT
NagoyaStat #4
ご挨拶と前回の復習
@ito_yan
E-mail: 1mail2itoh3 [at] gmail.com
2017.02.03
NagoyaStat #4
今回の内容
•ご挨拶と前回の復習
•重要なところを思い出しましょう
•参加者による自己紹介・近況報告
• 「データ解析のための統計モデリング入門」発表
•第7章 Yukix2200 様
•第8章 t_yamagu 様
2
主催者について
•TwitterID: @ito_yan
• ITインフラ屋さん
•仮想サーバ(構築、運用)
• Javaアプリケーション開発
•後輩の指導やユーザサポートなど面倒を見る業務
•小規模ネットワーク構築(入門中)
• CiscoやHPの機器と戯れてます
3
勉強会で取り上げる書籍について
• 「データ解析のための統計モデリング入門」
•通称:緑本
•農学系のデータを扱っているが、農学系以外の分野でも適用可能な内容となっている
4
第5章の概要
•尤度比検定
• 2つのネストしたモデルの逸脱度の差をみて、モデ
ルがデータによく適合しているかを統計の検定の手法に基づいて判断する
•ネイマン・ピアソン検定の枠組みを利用
•帰無仮説と対立仮説を用意する
•第3章のポアソン回帰を例にとって検定を行う
5
第5章の問題設定
•検定したい内容
•帰無仮説:一定モデル
•対立仮説:xモデル(体サイズを考慮)
•逸脱度の差は4.5となっている
•帰無仮説が真のとき、偶然と言えないほどの差か?
•ネストしたモデルの比較では、パラメータが多くなるほど逸脱度は小さくなる
6
「xモデルの方が一定モデルより、データによく当てはまると主張したい」ための検定
二種類の過誤
•第一種の過誤
•帰無仮説が正しいのに棄却する
•逸脱度の差が大きいのだから、xモデルが正しい、帰無仮説は正しくない と誤る
•第二種の過誤
•対立仮説が正しいのに、帰無仮説を棄却しない
•逸脱度の差は小さく、xモデルは意味もなく複雑、帰無仮説を棄却する必要はない と誤る
7
帰無仮説は 逸脱度はめったにない差 逸脱度はよくある差
真のモデルである 第一種の過誤 正しい
真のモデルでない 正しい 第二種の過誤
二種類の過誤の関係
•一般的にトレードオフの関係にある
•手元のデータだけで、二種類の過誤を同時に減らすのは無理
•帰無仮説を棄却する基準を下げると(有意水準を上げていくと)、棄却すべきでないものまで棄却してしまう。逆に、帰無仮説を棄却する基準を上げると、棄却すべき結果を棄却しないことにつながる。
•有意水準5%というよく見かける表現は、第一種の過誤を5%に抑えるための方法である
•過誤の重大さによって、5%という数値は変わる
8
p値
•帰無仮説の下で、観測された現象以上に極端なことが起こる確率をp値と呼ぶ
•今回の例では、逸脱度の差が4.5以上になる確率
• p値が有意水準より小さければ、帰無仮説の設定が間違っていたと考えて、対立仮説を採択する
•逆に帰無仮説を棄却できないとき、積極的に「帰無仮説の採択」とは言わない
•第一種の誤りは有意水準5%でコントロールされているが、第二種の誤りはコントロールされていないため
•積極的に言えるようにするには、事前にサンプルサイズを増やすなど計画しておく必要がある
9
パラメトリックブートストラップ(PB)法
•帰無仮説が正しいとして、乱数を用いて大量にデータを発生させ、検定統計量の分布を作る
•大量のデータ = 平均7.83のポアソン分布から生成
•平均7.83は種子数の最尤推定値(第3章で導出済)
•検定統計量 = 2モデル間の逸脱度の差
•検定統計量でヒストグラムを作ると、逸脱度が4.5
以上の差になるのは5%にも満たず、p値は0.05
を下回るため、帰無仮説は棄却し、対立仮説が採択される
•乱数次第で結果が変わることもある
10
PB法のコードとその結果
•逸脱度の差の分布は右図
• p値は0.03となり、帰無仮説は棄却される
11
検定統計量の近似計算
•サンプルサイズが大きい場合、逸脱度の差の分布はカイ二乗分布で近似できる
•例題(サンプルサイズ=100)ではPB法を推奨
12
第6章の概要
•GLMは確率分布、リンク関数を組み合わせることで、さまざまなタイプのデータを表現できる
•第6章では、上限のあるカウントデータの表現方法として、ロジスティック回帰が登場した
•参考:ポアソン回帰は確率分布がポアソン分布、リンク関数は対数をとったものだった
•ポアソン回帰は上限がなく、平均と分散がほぼ同じデータに対するモデルに対して有効だった
13
第6章の問題設定
•観測対象の100個体の植物群からN個の種子を取得し、y個が発芽し、N-y個が死滅した
•発芽するものは0~N個と整数で、かつ上限がある
•今回はN=8で固定としている
•植物の大きさと施肥処理で、発芽率が変化する様子をモデル化してみよう
•植物の発芽と死滅は二項分布で表現できる
• qは発芽確率、yが実際に発芽した数
14
まずはデータを観察してみる
•施肥した植物の方が種子の発芽率が高そう
15
C:統制群(Controll) 施肥されていないグループ
T:実験群(Treatment) 施肥されたグループ
ロジスティック関数
•上限が1であり、割合を表現することに使える
16
ロジット関数
•ロジスティック関数をzについて解いたものをロジット関数と呼ぶ
•ロジット関数は生存確率(q)と線形予測子(z)をうまく結びつける関数である
• (パラメータの関数)=(線形予測子)の形ができた
17
をオッズという
尤度関数表示
•尤度関数を最大化するようにパラメータを決めればよく、その計算はGLM関数で行うことができる
•対数尤度関数
18
Rによるロジスティック回帰の結果
•最尤推定の結果は
となり、
体が大きくなるか、施肥をすると発芽率が高まる
19
stepAIC関数
•変数を増減させて、ネストしたモデルの間で、予測がもっともよいモデルを選択できる
• AICが最小となるのは x + f モデル
20
x + f モデル、x モデル、f モデル の順
-fはfを考慮しないxモデルの意味
交互作用
•複数要因の積で表される効果
•交互作用の項はむやみに入れない方がよい
•解釈が難しくなる
21
次回日程について
• 2016年3月末~4月上旬近辺を予定しています
• 9章発表予定者: tmkz.it 様
• 10章発表予定者: nishioka0902 様
•その次が11章のみになる
•次回までに60~90分程度の企画を考える
•次の書籍に入る、問題演習などの案があります
22