nagoyastat #4 ご挨拶と前回の復習

22
NagoyaStat #4 ご挨拶と前回の復習 @ito_yan E-mail: 1mail2itoh3 [at] gmail.com 2017.02.03 NagoyaStat #4

Upload: itoyan110

Post on 20-Mar-2017

92 views

Category:

Science


0 download

TRANSCRIPT

Page 1: NagoyaStat #4 ご挨拶と前回の復習

NagoyaStat #4

ご挨拶と前回の復習

@ito_yan

E-mail: 1mail2itoh3 [at] gmail.com

2017.02.03

NagoyaStat #4

Page 2: NagoyaStat #4 ご挨拶と前回の復習

今回の内容

•ご挨拶と前回の復習

•重要なところを思い出しましょう

•参加者による自己紹介・近況報告

• 「データ解析のための統計モデリング入門」発表

•第7章 Yukix2200 様

•第8章 t_yamagu 様

2

Page 3: NagoyaStat #4 ご挨拶と前回の復習

主催者について

•TwitterID: @ito_yan

• ITインフラ屋さん

•仮想サーバ(構築、運用)

• Javaアプリケーション開発

•後輩の指導やユーザサポートなど面倒を見る業務

•小規模ネットワーク構築(入門中)

• CiscoやHPの機器と戯れてます

3

Page 4: NagoyaStat #4 ご挨拶と前回の復習

勉強会で取り上げる書籍について

• 「データ解析のための統計モデリング入門」

•通称:緑本

•農学系のデータを扱っているが、農学系以外の分野でも適用可能な内容となっている

4

Page 5: NagoyaStat #4 ご挨拶と前回の復習

第5章の概要

•尤度比検定

• 2つのネストしたモデルの逸脱度の差をみて、モデ

ルがデータによく適合しているかを統計の検定の手法に基づいて判断する

•ネイマン・ピアソン検定の枠組みを利用

•帰無仮説と対立仮説を用意する

•第3章のポアソン回帰を例にとって検定を行う

5

Page 6: NagoyaStat #4 ご挨拶と前回の復習

第5章の問題設定

•検定したい内容

•帰無仮説:一定モデル

•対立仮説:xモデル(体サイズを考慮)

•逸脱度の差は4.5となっている

•帰無仮説が真のとき、偶然と言えないほどの差か?

•ネストしたモデルの比較では、パラメータが多くなるほど逸脱度は小さくなる

6

「xモデルの方が一定モデルより、データによく当てはまると主張したい」ための検定

Page 7: NagoyaStat #4 ご挨拶と前回の復習

二種類の過誤

•第一種の過誤

•帰無仮説が正しいのに棄却する

•逸脱度の差が大きいのだから、xモデルが正しい、帰無仮説は正しくない と誤る

•第二種の過誤

•対立仮説が正しいのに、帰無仮説を棄却しない

•逸脱度の差は小さく、xモデルは意味もなく複雑、帰無仮説を棄却する必要はない と誤る

7

帰無仮説は 逸脱度はめったにない差 逸脱度はよくある差

真のモデルである 第一種の過誤 正しい

真のモデルでない 正しい 第二種の過誤

Page 8: NagoyaStat #4 ご挨拶と前回の復習

二種類の過誤の関係

•一般的にトレードオフの関係にある

•手元のデータだけで、二種類の過誤を同時に減らすのは無理

•帰無仮説を棄却する基準を下げると(有意水準を上げていくと)、棄却すべきでないものまで棄却してしまう。逆に、帰無仮説を棄却する基準を上げると、棄却すべき結果を棄却しないことにつながる。

•有意水準5%というよく見かける表現は、第一種の過誤を5%に抑えるための方法である

•過誤の重大さによって、5%という数値は変わる

8

Page 9: NagoyaStat #4 ご挨拶と前回の復習

p値

•帰無仮説の下で、観測された現象以上に極端なことが起こる確率をp値と呼ぶ

•今回の例では、逸脱度の差が4.5以上になる確率

• p値が有意水準より小さければ、帰無仮説の設定が間違っていたと考えて、対立仮説を採択する

•逆に帰無仮説を棄却できないとき、積極的に「帰無仮説の採択」とは言わない

•第一種の誤りは有意水準5%でコントロールされているが、第二種の誤りはコントロールされていないため

•積極的に言えるようにするには、事前にサンプルサイズを増やすなど計画しておく必要がある

9

Page 10: NagoyaStat #4 ご挨拶と前回の復習

パラメトリックブートストラップ(PB)法

•帰無仮説が正しいとして、乱数を用いて大量にデータを発生させ、検定統計量の分布を作る

•大量のデータ = 平均7.83のポアソン分布から生成

•平均7.83は種子数の最尤推定値(第3章で導出済)

•検定統計量 = 2モデル間の逸脱度の差

•検定統計量でヒストグラムを作ると、逸脱度が4.5

以上の差になるのは5%にも満たず、p値は0.05

を下回るため、帰無仮説は棄却し、対立仮説が採択される

•乱数次第で結果が変わることもある

10

Page 11: NagoyaStat #4 ご挨拶と前回の復習

PB法のコードとその結果

•逸脱度の差の分布は右図

• p値は0.03となり、帰無仮説は棄却される

11

Page 12: NagoyaStat #4 ご挨拶と前回の復習

検定統計量の近似計算

•サンプルサイズが大きい場合、逸脱度の差の分布はカイ二乗分布で近似できる

•例題(サンプルサイズ=100)ではPB法を推奨

12

Page 13: NagoyaStat #4 ご挨拶と前回の復習

第6章の概要

•GLMは確率分布、リンク関数を組み合わせることで、さまざまなタイプのデータを表現できる

•第6章では、上限のあるカウントデータの表現方法として、ロジスティック回帰が登場した

•参考:ポアソン回帰は確率分布がポアソン分布、リンク関数は対数をとったものだった

•ポアソン回帰は上限がなく、平均と分散がほぼ同じデータに対するモデルに対して有効だった

13

Page 14: NagoyaStat #4 ご挨拶と前回の復習

第6章の問題設定

•観測対象の100個体の植物群からN個の種子を取得し、y個が発芽し、N-y個が死滅した

•発芽するものは0~N個と整数で、かつ上限がある

•今回はN=8で固定としている

•植物の大きさと施肥処理で、発芽率が変化する様子をモデル化してみよう

•植物の発芽と死滅は二項分布で表現できる

• qは発芽確率、yが実際に発芽した数

14

Page 15: NagoyaStat #4 ご挨拶と前回の復習

まずはデータを観察してみる

•施肥した植物の方が種子の発芽率が高そう

15

C:統制群(Controll) 施肥されていないグループ

T:実験群(Treatment) 施肥されたグループ

Page 16: NagoyaStat #4 ご挨拶と前回の復習

ロジスティック関数

•上限が1であり、割合を表現することに使える

16

Page 17: NagoyaStat #4 ご挨拶と前回の復習

ロジット関数

•ロジスティック関数をzについて解いたものをロジット関数と呼ぶ

•ロジット関数は生存確率(q)と線形予測子(z)をうまく結びつける関数である

• (パラメータの関数)=(線形予測子)の形ができた

17

をオッズという

Page 18: NagoyaStat #4 ご挨拶と前回の復習

尤度関数表示

•尤度関数を最大化するようにパラメータを決めればよく、その計算はGLM関数で行うことができる

•対数尤度関数

18

Page 19: NagoyaStat #4 ご挨拶と前回の復習

Rによるロジスティック回帰の結果

•最尤推定の結果は

となり、

体が大きくなるか、施肥をすると発芽率が高まる

19

Page 20: NagoyaStat #4 ご挨拶と前回の復習

stepAIC関数

•変数を増減させて、ネストしたモデルの間で、予測がもっともよいモデルを選択できる

• AICが最小となるのは x + f モデル

20

x + f モデル、x モデル、f モデル の順

-fはfを考慮しないxモデルの意味

Page 21: NagoyaStat #4 ご挨拶と前回の復習

交互作用

•複数要因の積で表される効果

•交互作用の項はむやみに入れない方がよい

•解釈が難しくなる

21

Page 22: NagoyaStat #4 ご挨拶と前回の復習

次回日程について

• 2016年3月末~4月上旬近辺を予定しています

• 9章発表予定者: tmkz.it 様

• 10章発表予定者: nishioka0902 様

•その次が11章のみになる

•次回までに60~90分程度の企画を考える

•次の書籍に入る、問題演習などの案があります

22