kobe.r #18: 本の紹介: 通称「緑本」
TRANSCRIPT
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場
• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない
• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
背景
Kobe.Rの印象(参加前)
• R 専門家が自慢の業を競い合う場• きびしい勉強会
• こわそう
Kobe.Rの印象(参加後)
• そんなことはなかった
• 以外と「どうしていいのか分からない人」が多い
• R の使い方に困っているわけではない• 手法の選択に困っている
• e.g. 弁当屋の販売数予測
通称「緑本」
• 著者• 久保拓也(北大)
• ウミガメ上陸数のベイズ統計モデリング
• エゾアカヤマアリ敵対性実験の統計モデリング
• タイトル
• データ解析のための統計モデリング入
門 — 一般化線形モデル・階層ベイズモ
デル・MCMC (確率と情報の科学)• 出版社
• 岩波書店
• ISBN• 978-4-00-006973-1
• 定価
• 本体 3,800円 + 税
通称「緑本」
• 著者
• 久保拓也(北大)• ウミガメ上陸数のベイズ統計モデリング
• エゾアカヤマアリ敵対性実験の統計モデリング
• タイトル
• データ解析のための統計モデリング入
門 — 一般化線形モデル・階層ベイズモ
デル・MCMC (確率と情報の科学)• 出版社
• 岩波書店
• ISBN• 978-4-00-006973-1
• 定価
• 本体 3,800円 + 税
Checkpoint 1
緑本はこんな人におすすめ
• 直線番長
• モデリングしたいけど何から勉強していいか分からない
特徴
• 線形モデルの発展からベイズ化へ
• R による実例・再現が容易
ではない
• 統計を学ぶために最初に手に取る
• R プログラミングを学びたい
Checkpoint 1
緑本はこんな人におすすめ
• 直線番長
• モデリングしたいけど何から勉強していいか分からない
特徴
• 線形モデルの発展からベイズ化へ
• R による実例・再現が容易
ではない
• 統計を学ぶために最初に手に取る
• R プログラミングを学びたい
Checkpoint 1
緑本はこんな人におすすめ
• 直線番長
• モデリングしたいけど何から勉強していいか分からない
特徴
• 線形モデルの発展からベイズ化へ
• R による実例・再現が容易
ではない
• 統計を学ぶために最初に手に取る
• R プログラミングを学びたい
確率分布を選ぶ
離散か連続か
• ポアソン分布・二項分布
• 正規分布・ガンマ分布
範囲
• 0 以上、上限とくになし• {0, ...,N}
分散と平均との関係
• 分散 ≈ 平均• 分散は平均の関数
パラメータを推定する
ポワソン分布
p(y |λ) = λy exp(−λ)
y ! (1)
• 平均が λ であるときにポワソン分布に従う確率変数の値が yとなる確率
ポワソン分布のパラメータ平均 λ が唯一のパラメータ
パラメータを推定する
ポワソン分布
p(y |λ) = λy exp(−λ)
y ! (1)
• 平均が λ であるときにポワソン分布に従う確率変数の値が yとなる確率
ポワソン分布のパラメータ平均 λ が唯一のパラメータ
一般化線形モデル
種子数 y がポワソン分布に従う架空植物の例
• 平均 λ
• 説明変数 xi ( x1i , x2i , . . . )• たとえば、植物の大きさ、施肥処理したかどうか、など
• 応答変数 y は平均 λ のポワソン分布に従う• すなわち、「ある個体 i の平均種子数が λi 」
一般化線形モデルの二つの特徴
logλi = β0 + β1x1i + β2x2i + · · · (2)
• 左辺の log . . . リンク関数• 右辺 . . . 線形予測子
リンク関数と線形予測子
logλi = β0 + β1x1i + β2x2i + · · · (3)
なぜ log をとるの?
• 右辺の線形予測子が負になっても λ は負にならない
• わかりやすい(和→積)、計算しやすい(積→和)
パラメータ推定
• λ の推定 → β0, β1, · · · の推定• 最尤推定値を探せばよい
最尤推定
緑本の展開
• きちんと尤度の説明から対数尤度の最大化まで式を導出しな
がら解説
実務的には
• R の glm 関数におまかせ
• 標準でついてきます
• くわしくは help(glm)
> fit <- glm(y ~ x, data = d, family = poisson)
リンク関数を指定しなければ glm 関数が正準リンク関数として対数リンク関数(デフォルト)を使用
最尤推定
緑本の展開
• きちんと尤度の説明から対数尤度の最大化まで式を導出しな
がら解説
実務的には
• R の glm 関数におまかせ
• 標準でついてきます
• くわしくは help(glm)
> fit <- glm(y ~ x, data = d, family = poisson)
リンク関数を指定しなければ glm 関数が正準リンク関数として対数リンク関数(デフォルト)を使用
最尤推定
緑本の展開
• きちんと尤度の説明から対数尤度の最大化まで式を導出しな
がら解説
実務的には
• R の glm 関数におまかせ
• 標準でついてきます
• くわしくは help(glm)
> fit <- glm(y ~ x, data = d, family = poisson)
リンク関数を指定しなければ glm 関数が正準リンク関数として対数リンク関数(デフォルト)を使用
モデルのあてはまりのよさ
観測されたデータを全て説明変数に使えばよい?
logλi = β0 + β1x1i + β2x2i + · · · (4)
logλi = β0 + β1x1i (5)
緑本の展開
最大対数尤度 → 逸脱度 (deviance) → AIC
実務的には
• R の MASS パッケージの stepAIC 関数(緑本 6 章)• いい感じに AIC 最小のモデルを選択してくれる
モデルのあてはまりのよさ
観測されたデータを全て説明変数に使えばよい?
logλi = β0 + β1x1i + β2x2i + · · · (4)
logλi = β0 + β1x1i (5)
緑本の展開
最大対数尤度 → 逸脱度 (deviance) → AIC
実務的には
• R の MASS パッケージの stepAIC 関数(緑本 6 章)• いい感じに AIC 最小のモデルを選択してくれる
モデルのあてはまりのよさ
観測されたデータを全て説明変数に使えばよい?
logλi = β0 + β1x1i + β2x2i + · · · (4)
logλi = β0 + β1x1i (5)
緑本の展開
最大対数尤度 → 逸脱度 (deviance) → AIC
実務的には
• R の MASS パッケージの stepAIC 関数(緑本 6 章)• いい感じに AIC 最小のモデルを選択してくれる
Checkpoint 2
GLM
• 確率分布を選んでモデルを推定
• リンク関数と線形予測子
• モデルのあてはまりの良さ (AIC)
実務的には
• R の glm 関数
• R の MASS パッケージの stepAIC 関数
緑本の対応範囲
第 1 章から第 4 章まで(一部第 6章)
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます
• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます
• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます• 2 章 / 週、 担当 2 名 / 週
• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも
• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決• 第 5 章
おわりに
緑本の紹介
入門向けに線形モデルからベイズ化までの学習に最適
(仮)緑本快速輪講
• 緑本 5 章以降を速いペースで読んでいきます• 2 章 / 週、 担当 2 名 / 週• 各週担当者が担当範囲のレジュメを用意して説明
• 参加者が集まりそうなら開催するかも• 毎週平日夜 1 時間程度を想定
• 第一回の内容(案)
• 第 4 章までのおさらいと疑問の解決
• 第 5 章