how to study stat for freshmans
TRANSCRIPT
理系の勉強法と統計学の概観(1-2回生向け)
2014年 11月 7日 (金)16:30-17:30
今日の話の内容
• 大学での勉強について
• 統計学の概要
高校までの勉強
• 授業を聞いて内容を理解
• 問題集を何周もやって完璧に
大学での勉強
• 勉強する事の絶対量が増える.
• 先生は一部しか教えてくれない
• 「何周もやる」が (事実上)不可能
• 塾も無い (TA使ってください)
• ⇒誰も教えてはくれないし, 自習するしかない
自分にあった先生を見つけましょう (持論)
• 人には固有の「思考の過程」みたいなのがある
• 趣味の合わない先生の話は (いくら聞いても)分からない.
• 推してる先生を見つけよう
1
古かろう良かろう ?
• 古い=良い ではない.
• 古典論が今は一切使われていなかったり.
• 古い難解な本で分からないより, 新しく分かりやすい本のほうが良かったり.
• とはいえ (伝統的な本には)何かが秘められてることもあるので, 本は慎重に選ぼう.
勉強法
• 参考書を読む (一人)
• 色々な講義にモグる (他学科科目含む)
• webサイト ( http://math.stackexchange.com/ 等)で質問
• TAやオフィスアワーの活用
• 自主ゼミ (輪読)
自主ゼミ (輪読)
• 担当の一人が本の内容を発表
• 90分で 2-3ページ進めば良い (数学系)
• 90分で 60ページくらい進む (工学系)
分からないところをつぶす
• 何が分からないか把握する
• 自分の力が足りないのか, 知識が足りないのか
• 立ち向かう問題は選ぼう
• (講義で出るような問題は)3日粘ればどうにかなる
• (教科書でぼやかしてるのは)3年あってもできなかったり.
いったい何が分からないのか?
解いてみよう: 「サイコロを投げて 3回表が出る確率を求めよ」
2
情報が足りていない
全部で何回コインを投げる (=n)のか? コインの表が出る確率 (= p)は?
⇒情報が無いのだから, 絶対に解けない. 仕方なく n回とすると, 確率は(n
3
)p3(1− p)n−3
そもそも pは固定でいいのか? (投げるごとに変動= ptする?) ⇒ p =一定は暗に仮定されている.
• 何が仮定されているか
• 何を示したいか
• 何の情報が足りないか
把握しないと, 一生前には進めない.
抽象度を下げる
次の主張は正しいか?
∀X :行列, (X + I)−1(X − I)(X + I)−1 = O
行列からスカラーへ
行列X を (実数)x, 単位行列 I を 1に置き換える:
(x+ 1)−1(x− 1)(x+ 1)−1 =x− 1
(x+ 1)2
これが 0と等しいか? ⇒「xの値によっては 0になるけど、0にならない場合が存在する」
数学の人はやたら一般化したがるが、(学習者は)とにかく抽象度を下げて考えるようにしよう.
3
ここから統計の話
確率論と統計は混同されやすいが, 別物:
確率論
仮定から結果を導く.
(仮定)サイコロはどの目も出る確率が等しいとする.
↓(結果)60回サイコロを投げたとき, 1が出る回数の期待値は 10回.
統計学
結果から仮定を予測する.
(結果)サイコロを 60回投げて, 出た目の数は以下の通り:
サイコロの目 1 2 3 4 5 6
出た回数 11 10 12 7 8 12
↓(仮定)どの目も出る確率は等しい.
大きな違い
• 確率論は (仮定さえ正しいと分かれば)演繹的に正しい結論を導ける. 数学的.
• 統計学は (分からないものを)推定するので, 曖昧さが残ってしまう. 工学的.
• 統計学は数学を使うが, 数学ほど厳密ではない.
• ただし世の中のほとんどの問題では仮定が分からないので, 応用面で高いニーズがある.
情報の損失
A教室の 5人がテストを受けた.
A B C D E
点数 100 80 85 60 30
先生がX 点以下の人に再試を課した.
(仮定)X = 79
⇒ (結果)D,Eさんが再試になった.
結果から仮定が導けるか?
Dさんが再試を受けているから, X ≥ 60. Bさんが再試を受けていないから, X < 80. 情報を統
合しても 60 ≤ X < 80以上の事は分からない.
4
何が言いたいかと言うと
結果から仮定を導こうとすると, (情報が損失しているので)正確な結論を導くことはできない.
同様にして, 統計にも誤差が含まれることを知っておかないといけない.
誤差がある=無意味?
世の中は「分からないこと」であふれている. 100% 正しいと言えなくても, 80% くらい正しい
ことには意味がある.
精度は上がる
さっきのテストについて, 「(遅刻してきて別室で受験していた)F さんが 70点で再試験を受け
た」という情報が追加されたとする. この新しい情報により, X の範囲は 60 ≤ X < 80 から
70 ≤ X < 80まで狭まる.
情報量を増やせば増やすほど (⇔ 調査対象の数が増えれば増えるほど)予測の精度は上がる.
調査人数を増やせば増やすほど良いか?
100人の試験後を調査したら: 78 ≤ X < 80が分かった.
10000人の試験後を調査したら: 79 ≤ X < 80が分かった.
一定人数を調査すると, 予測の精度が頭打ちに.
調査数を増やすにはコストがかかる (100 → 10000だとコスト 100倍).
1% の精度アップの為にコストをかけるべきか?
...と考えると, 調査人数はほどほどで良い. 国勢調査で国民全員にアンケートしないのはこの
ため.
統計学いろいろ
心理統計, 生物統計
心理学科とか, 医学部とか, 生物学科とか.
社会調査
社会系の学部. 実際のアンケートの取り方とか.
数理統計
数学系. ガチガチの理論で確率論に近い.
5
機械学習
統計と関連が深い. 情報系の人とか工学系の人がやっている.
回帰の話
データ: {(x1, y1), ..., (xn, yn)}予測モデル: f(x) = ax+ b
1つ目のデータは (x1, y1)だが, 1つ目のデータの予測値は (x1, f(x1)). 同様にして n番目のデー
タ (xn, yn), 対する予測値は (xn, f(xn)). 「予測が良い」とは,「予測した値」が「真のデータに近
い」ことだから, 各 i = 1, ..., nについて
予測値−データ (真の値) = f(xi)− yi
が小さいことが望ましい.
RISK :=n∑
i=1
{f(xi)− yi}2 =n∑
i=1
{axi + b− yi}2
{(xi, yi)}は既に与えられている (確定した)データであり, 自由に動かせるパラメータは a, bだけ
だから,
minimize RISK w.r.t. (a, b)
このときの (a, b)は∂RISK
∂a= 0,
∂RISK
∂b= 0
を解けば求まる. 以上が最小二乗法のプロシージャ. 求まった (a, b)を特に (a, b)と書くとすると,
f(x) := ax+ b
が yの予測値となる.
いろいろと疑問が残る
• なぜ 1次関数のモデルを使うのか?
線形のモデルを使う必要は無い. (二次曲線を使うかどうか、など)データをみながら判断し
ないといけない. モデル選択という学問分野がある.
• 真値と予測値の差のみ評価するだけでいいのか?
現実には, 調整用の項を付けることがある. 一番簡単なものだと Ridge regression.
• なぜ二乗なのか?
絶対値をとった
RISKABS :=n∑
i=1
|f(xi)− yi|
を最小化するように考えても良い (LAD). 二乗を使う理由は, 1)計算が簡単で分かり易い,
2)Gauss-Markovの定理による結果, 3)数理的に綺麗.
6
本の紹介
(1) (1-2年生) 松本裕行, 宮原孝夫. (1999). 「数理統計入門」. 学術図書出版社
(2) (1-2年生)Geoffrey Grimmett et al. (2004). 「確率論入門」. 日本評論社
(3) (上の原著) Geoffrey grimmett et al. (1986). 「Probability, An Introduction」. Oxford univ.
press
(4) (2-4年生) 稲垣宣夫. (2003). 「数理統計学」. 裳華房
7