nagoyastat #4 ご挨拶と前回の復習

NagoyaStat #4

ご挨拶と前回の復習

@ito_yan

E-mail: 1mail2itoh3 [at] gmail.com

2017.02.03

NagoyaStat #4

今回の内容

•ご挨拶と前回の復習

•重要なところを思い出しましょう

•参加者による自己紹介・近況報告

• 「データ解析のための統計モデリング入門」発表

•第7章 Yukix2200 様

•第8章 t_yamagu 様

2

主催者について

•TwitterID: @ito_yan

• ITインフラ屋さん

•仮想サーバ（構築、運用）

• Javaアプリケーション開発

•後輩の指導やユーザサポートなど面倒を見る業務

•小規模ネットワーク構築（入門中）

• CiscoやHPの機器と戯れてます

3

勉強会で取り上げる書籍について

• 「データ解析のための統計モデリング入門」

•通称：緑本

•農学系のデータを扱っているが、農学系以外の分野でも適用可能な内容となっている

4

第5章の概要

•尤度比検定

• 2つのネストしたモデルの逸脱度の差をみて、モデ

ルがデータによく適合しているかを統計の検定の手法に基づいて判断する

•ネイマン・ピアソン検定の枠組みを利用

•帰無仮説と対立仮説を用意する

•第3章のポアソン回帰を例にとって検定を行う

5

第5章の問題設定

•検定したい内容

•帰無仮説：一定モデル

•対立仮説：xモデル（体サイズを考慮）

•逸脱度の差は4.5となっている

•帰無仮説が真のとき、偶然と言えないほどの差か?

•ネストしたモデルの比較では、パラメータが多くなるほど逸脱度は小さくなる

6

「xモデルの方が一定モデルより、データによく当てはまると主張したい」ための検定

二種類の過誤

•第一種の過誤

•帰無仮説が正しいのに棄却する

•逸脱度の差が大きいのだから、xモデルが正しい、帰無仮説は正しくないと誤る

•第二種の過誤

•対立仮説が正しいのに、帰無仮説を棄却しない

•逸脱度の差は小さく、xモデルは意味もなく複雑、帰無仮説を棄却する必要はないと誤る

7

帰無仮説は逸脱度はめったにない差逸脱度はよくある差

真のモデルである第一種の過誤正しい

真のモデルでない正しい第二種の過誤

二種類の過誤の関係

•一般的にトレードオフの関係にある

•手元のデータだけで、二種類の過誤を同時に減らすのは無理

•帰無仮説を棄却する基準を下げると（有意水準を上げていくと）、棄却すべきでないものまで棄却してしまう。逆に、帰無仮説を棄却する基準を上げると、棄却すべき結果を棄却しないことにつながる。

•有意水準5%というよく見かける表現は、第一種の過誤を5%に抑えるための方法である

•過誤の重大さによって、5%という数値は変わる

8

p値

•帰無仮説の下で、観測された現象以上に極端なことが起こる確率をp値と呼ぶ

•今回の例では、逸脱度の差が4.5以上になる確率

• p値が有意水準より小さければ、帰無仮説の設定が間違っていたと考えて、対立仮説を採択する

•逆に帰無仮説を棄却できないとき、積極的に「帰無仮説の採択」とは言わない

•第一種の誤りは有意水準5%でコントロールされているが、第二種の誤りはコントロールされていないため

•積極的に言えるようにするには、事前にサンプルサイズを増やすなど計画しておく必要がある

9

パラメトリックブートストラップ（PB）法

•帰無仮説が正しいとして、乱数を用いて大量にデータを発生させ、検定統計量の分布を作る

•大量のデータ = 平均7.83のポアソン分布から生成

•平均7.83は種子数の最尤推定値（第3章で導出済）

•検定統計量 = 2モデル間の逸脱度の差

•検定統計量でヒストグラムを作ると、逸脱度が4.5

以上の差になるのは5%にも満たず、p値は0.05

を下回るため、帰無仮説は棄却し、対立仮説が採択される

•乱数次第で結果が変わることもある

10

PB法のコードとその結果

•逸脱度の差の分布は右図

• p値は0.03となり、帰無仮説は棄却される

11

検定統計量の近似計算

•サンプルサイズが大きい場合、逸脱度の差の分布はカイ二乗分布で近似できる

•例題（サンプルサイズ=100）ではPB法を推奨

12

第6章の概要

•GLMは確率分布、リンク関数を組み合わせることで、さまざまなタイプのデータを表現できる

•第6章では、上限のあるカウントデータの表現方法として、ロジスティック回帰が登場した

•参考：ポアソン回帰は確率分布がポアソン分布、リンク関数は対数をとったものだった

•ポアソン回帰は上限がなく、平均と分散がほぼ同じデータに対するモデルに対して有効だった

13

第6章の問題設定

•観測対象の100個体の植物群からN個の種子を取得し、y個が発芽し、N-y個が死滅した

•発芽するものは0～N個と整数で、かつ上限がある

•今回はN=8で固定としている

•植物の大きさと施肥処理で、発芽率が変化する様子をモデル化してみよう

•植物の発芽と死滅は二項分布で表現できる

• qは発芽確率、yが実際に発芽した数

14

まずはデータを観察してみる

•施肥した植物の方が種子の発芽率が高そう

15

C：統制群（Controll）施肥されていないグループ

T：実験群（Treatment）施肥されたグループ

ロジスティック関数

•上限が1であり、割合を表現することに使える

16

ロジット関数

•ロジスティック関数をzについて解いたものをロジット関数と呼ぶ

•ロジット関数は生存確率（q）と線形予測子（z）をうまく結びつける関数である

• （パラメータの関数）=（線形予測子）の形ができた

17

をオッズという

尤度関数表示

•尤度関数を最大化するようにパラメータを決めればよく、その計算はGLM関数で行うことができる

•対数尤度関数

18

Rによるロジスティック回帰の結果

•最尤推定の結果は

となり、

体が大きくなるか、施肥をすると発芽率が高まる

19

stepAIC関数

•変数を増減させて、ネストしたモデルの間で、予測がもっともよいモデルを選択できる

• AICが最小となるのは x + f モデル

20

x + f モデル、x モデル、f モデルの順

-fはfを考慮しないxモデルの意味

交互作用

•複数要因の積で表される効果

•交互作用の項はむやみに入れない方がよい

•解釈が難しくなる

21

次回日程について

• 2016年3月末～4月上旬近辺を予定しています

• 9章発表予定者： tmkz.it 様

• 10章発表予定者： nishioka0902 様

•その次が11章のみになる

•次回までに60～90分程度の企画を考える

•次の書籍に入る、問題演習などの案があります

22

nagoyastat #4 ご挨拶と前回の復習

Science