how to study stat for freshmans

理系の勉強法と統計学の概観（1-2回生向け）

2014年 11月 7日 (金)16:30-17:30

今日の話の内容

• 大学での勉強について

• 統計学の概要

高校までの勉強

• 授業を聞いて内容を理解

• 問題集を何周もやって完璧に

大学での勉強

• 勉強する事の絶対量が増える.

• 先生は一部しか教えてくれない

• 「何周もやる」が (事実上)不可能

• 塾も無い (TA使ってください)

• ⇒誰も教えてはくれないし, 自習するしかない

自分にあった先生を見つけましょう (持論)

• 人には固有の「思考の過程」みたいなのがある

• 趣味の合わない先生の話は (いくら聞いても)分からない.

• 推してる先生を見つけよう

1

古かろう良かろう ?

• 古い=良いではない.

• 古典論が今は一切使われていなかったり.

• 古い難解な本で分からないより, 新しく分かりやすい本のほうが良かったり.

• とはいえ (伝統的な本には)何かが秘められてることもあるので, 本は慎重に選ぼう.

勉強法

• 参考書を読む (一人)

• 色々な講義にモグる (他学科科目含む)

• webサイト ( http://math.stackexchange.com/ 等)で質問

• TAやオフィスアワーの活用

• 自主ゼミ (輪読)

自主ゼミ (輪読)

• 担当の一人が本の内容を発表

• 90分で 2-3ページ進めば良い (数学系)

• 90分で 60ページくらい進む (工学系)

分からないところをつぶす

• 何が分からないか把握する

• 自分の力が足りないのか, 知識が足りないのか

• 立ち向かう問題は選ぼう

• (講義で出るような問題は)3日粘ればどうにかなる

• (教科書でぼやかしてるのは)3年あってもできなかったり.

いったい何が分からないのか?

解いてみよう: 「サイコロを投げて 3回表が出る確率を求めよ」

2

情報が足りていない

全部で何回コインを投げる (=n)のか? コインの表が出る確率 (= p)は?

⇒情報が無いのだから, 絶対に解けない. 仕方なく n回とすると, 確率は(n

3

)p3(1− p)n−3

そもそも pは固定でいいのか? (投げるごとに変動= ptする?) ⇒ p =一定は暗に仮定されている.

• 何が仮定されているか

• 何を示したいか

• 何の情報が足りないか

把握しないと, 一生前には進めない.

抽象度を下げる

次の主張は正しいか?

∀X :行列, (X + I)−1(X − I)(X + I)−1 = O

行列からスカラーへ

行列X を (実数)x, 単位行列 I を 1に置き換える:

(x+ 1)−1(x− 1)(x+ 1)−1 =x− 1

(x+ 1)2

これが 0と等しいか? ⇒「xの値によっては 0になるけど、0にならない場合が存在する」

数学の人はやたら一般化したがるが、(学習者は)とにかく抽象度を下げて考えるようにしよう.

3

ここから統計の話

確率論と統計は混同されやすいが, 別物:

確率論

仮定から結果を導く.

(仮定)サイコロはどの目も出る確率が等しいとする.

↓(結果)60回サイコロを投げたとき, 1が出る回数の期待値は 10回.

統計学

結果から仮定を予測する.

(結果)サイコロを 60回投げて, 出た目の数は以下の通り:

サイコロの目 1 2 3 4 5 6

出た回数 11 10 12 7 8 12

↓(仮定)どの目も出る確率は等しい.

大きな違い

• 確率論は (仮定さえ正しいと分かれば)演繹的に正しい結論を導ける. 数学的.

• 統計学は (分からないものを)推定するので, 曖昧さが残ってしまう. 工学的.

• 統計学は数学を使うが, 数学ほど厳密ではない.

• ただし世の中のほとんどの問題では仮定が分からないので, 応用面で高いニーズがある.

情報の損失

A教室の 5人がテストを受けた.

A B C D E

点数 100 80 85 60 30

先生がX 点以下の人に再試を課した.

(仮定)X = 79

⇒ (結果)D,Eさんが再試になった.

結果から仮定が導けるか?

Dさんが再試を受けているから, X ≥ 60. Bさんが再試を受けていないから, X < 80. 情報を統

合しても 60 ≤ X < 80以上の事は分からない.

4

何が言いたいかと言うと

結果から仮定を導こうとすると, (情報が損失しているので)正確な結論を導くことはできない.

同様にして, 統計にも誤差が含まれることを知っておかないといけない.

誤差がある=無意味?

世の中は「分からないこと」であふれている. 100% 正しいと言えなくても, 80% くらい正しい

ことには意味がある.

精度は上がる

さっきのテストについて, 「(遅刻してきて別室で受験していた)F さんが 70点で再試験を受け

た」という情報が追加されたとする. この新しい情報により, X の範囲は 60 ≤ X < 80 から

70 ≤ X < 80まで狭まる.

情報量を増やせば増やすほど (⇔ 調査対象の数が増えれば増えるほど)予測の精度は上がる.

調査人数を増やせば増やすほど良いか?

100人の試験後を調査したら: 78 ≤ X < 80が分かった.

10000人の試験後を調査したら: 79 ≤ X < 80が分かった.

一定人数を調査すると, 予測の精度が頭打ちに.

調査数を増やすにはコストがかかる (100 → 10000だとコスト 100倍).

1% の精度アップの為にコストをかけるべきか?

...と考えると, 調査人数はほどほどで良い. 国勢調査で国民全員にアンケートしないのはこの

ため.

統計学いろいろ

心理統計, 生物統計

心理学科とか, 医学部とか, 生物学科とか.

社会調査

社会系の学部. 実際のアンケートの取り方とか.

数理統計

数学系. ガチガチの理論で確率論に近い.

5

機械学習

統計と関連が深い. 情報系の人とか工学系の人がやっている.

回帰の話

データ: {(x1, y1), ..., (xn, yn)}予測モデル: f(x) = ax+ b

1つ目のデータは (x1, y1)だが, 1つ目のデータの予測値は (x1, f(x1)). 同様にして n番目のデー

タ (xn, yn), 対する予測値は (xn, f(xn)). 「予測が良い」とは,「予測した値」が「真のデータに近

い」ことだから, 各 i = 1, ..., nについて

予測値−データ (真の値) = f(xi)− yi

が小さいことが望ましい.

RISK :=n∑

i=1

{f(xi)− yi}2 =n∑

i=1

{axi + b− yi}2

{(xi, yi)}は既に与えられている (確定した)データであり, 自由に動かせるパラメータは a, bだけ

だから,

minimize RISK w.r.t. (a, b)

このときの (a, b)は∂RISK

∂a= 0,

∂RISK

∂b= 0

を解けば求まる. 以上が最小二乗法のプロシージャ. 求まった (a, b)を特に (a, b)と書くとすると,

f(x) := ax+ b

が yの予測値となる.

いろいろと疑問が残る

• なぜ 1次関数のモデルを使うのか?

線形のモデルを使う必要は無い. (二次曲線を使うかどうか、など)データをみながら判断し

ないといけない. モデル選択という学問分野がある.

• 真値と予測値の差のみ評価するだけでいいのか?

現実には, 調整用の項を付けることがある. 一番簡単なものだと Ridge regression.

• なぜ二乗なのか?

絶対値をとった

RISKABS :=n∑

i=1

|f(xi)− yi|

を最小化するように考えても良い (LAD). 二乗を使う理由は, 1)計算が簡単で分かり易い,

2)Gauss-Markovの定理による結果, 3)数理的に綺麗.

6

本の紹介

(1) (1-2年生) 松本裕行, 宮原孝夫. (1999). 「数理統計入門」. 学術図書出版社

(2) (1-2年生)Geoffrey Grimmett et al. (2004). 「確率論入門」. 日本評論社

(3) (上の原著) Geoffrey grimmett et al. (1986). 「Probability, An Introduction」. Oxford univ.

press

(4) (2-4年生) 稲垣宣夫. (2003). 「数理統計学」. 裳華房

7

how to study stat for freshmans

Science