kggk3

76
データを科学する 統計学入門編- ****領域 ****講座 @gzfVFYm http://gzfvfym.web.fc2.com/ 4回関西学生学問研究会 60発表予定時間 スライド見れます

Upload: ak-ok

Post on 21-Jul-2015

219 views

Category:

Technology


0 download

TRANSCRIPT

データを科学する –統計学入門編-

****領域 ****講座 @gzfVFYm

http://gzfvfym.web.fc2.com/

第4回関西学生学問研究会

60分 発表予定時間

スライド見れます

まずは自己紹介

数理統計をやっているM1

苦手な計算機と毎日闘っている

研究科TA + 図書館TA + 研究室RA

2

研究室(7階)は ×食堂まで遠い ○眺めが素晴らしい

辺鄙なところで活動中

3

(学部の公式Webサイトより)

公式サイトの地図から忘れ去られてるレベル

7Fは…?

Motto

4

なず

理に遊ばず, 術に泥まず

統計は理論, 工学的発想の両方が必要. 手を汚さずに統計はできません.

なぜいま統計学か

最近なぜか流行っていた(過去形).

今後もニーズはある(願望).

5

世界/日本 での統計学の扱い

6

海外では, 「統計学部」がある

一方日本では…

7

統計学部は一つも無い.

日本で統計をやっているところ

医学部

文学部心理学科

理学部生物学科

理学部数学科

経済学部

8

応用寄り

理論寄り

”単なる道具”と認識されている

専門としてやるものではない?

目次

1. 統計学の目指すもの I. 確率論と統計学の違い

II. [だいたい正しい]には価値がある

III. 統計学って何するの

IV. 古典的統計学と現代統計学

2. 統計的推測の例 I. 平均値の推定, 分散の推定 (*ちょい難しい)

II. 情報量基準AIC

III. “相関”と”因果”

3. 本の紹介

9

[本節の内容]

統計学の目指すもの

確率論と統計学の違い

「だいたい正しい」には価値がある

統計学って何するの

古典統計学と現代統計学

1

確率論と

統計学の

違い

確率論と統計学の違い

12

確率論のお兄さん

統計学の叔父さん

確率論はガチ理論出身者が多い気がする(主観)

K大学理学部出身

O大学経済学部出身

実験した後にいろいろ考えるのが統計学

実験する前にいろいろ考えるのが確率論

要するに

13

よく混同される”確率論”と”統計学”

14

問題設定等 結果

確率論

統計学

(再掲)

たとえば…

サイコロを100回投げる(た)とする.

15

1の目が出た回数を調べて, 1回あたり 1が出る確率を予想するのが統計学

1回あたり1が出る確率を1/6として, 1の目が出る回数を予想するのが確率論

実験した後にいろいろ考えるのが統計学

(工学の発想に近い)

実験する前にいろいろ考えるのが確率論

(数学の発想に近い)

要するに(再掲)

16

2

[だいたい正しい]

には価値がある

17

統計は”だいたい”正しい.

確率論: 前提条件 → 結果 :100%正しい

統計: 結果 → 前提条件 :含 間違い

18

100%正しい結果を得ることはできない.

統計は”だいたい”正しい.

確率論: 前提条件 → 結果 :100%正しい

統計: 結果 → 前提条件 :含 間違い

19

100%正しい結果を得ることはできない.

95%正しい結果を得ることは可能.

but しかし

“100%正しい”は現実的に無理.

数学は”数学の世界”でのみ正しい.

現実世界で100%は無理.

20

“明日, 地震が起こる (確度95%)”

結局はリスクの問題. “長期的に見れば”統計が力を発揮する.

3

統計学って

何するの 21

統計学のやりたいこと

色々な「傾向」を探す.

22

例 [若者の収入は低い(傾向がある)]

ここ大事

強調したいこと

23

「若者の収入は低い」(断定)

「若者の収入は低い(傾向がある)」

24

例外が存在する

25

若者代表, 29歳,

資産=数千億円 例外男

断定は”できない”

何を調べていても大抵, 例外が存在する.

26

∴(何かを調べて) 100%断言することはできない.

でも, 若者は金を持ってない. そういう傾向はある.

さっきの例を再び

例外は存在するが…

27

年齢 平均年収

20-24 242

25-29 335

30-34 382

35-39 424

40-44 456

45-49 479

50-54 484

「年収ラボ」http://nensyu-labo.com/2nd-nendai.htm より.

「平均年収」は低い

統計が目指すもの

「個別の」データには興味がない.

「全体的に」どういう傾向があるか調べたい.

28

統計とは「全体の傾向」を調べる学問.

4

古典統計学と

現代統計学

29

古典統計学

共通教育で習うアレ.

平均がどうの, 分散がどうの, 検定がどうの.

分かりにくい上に計算が大変.

30

最近の統計

計算機がなかった時代の名残.

(今は)あんな計算は不要. (Excel, R, etc…)

31

計算機が統計処理をやってくれる時代.

データさえあれば, 後はコンピュータへ. (一部の)専門家以外は統計の勉強も不要.

Bootstrap (B. Efron, 1979)

実験結果(データ)をいくつか入力

(コンピュータ内で)仮想実験を何百回もやる(自動)

古典的統計処理と(ほぼ)同等の結果が得られる

32

データ入れるだけ! 簡単!

[本節の内容]

統計的推測の例

平均・分散の推定 (数学的)

情報量基準AIC (日本すごい)

“相関”と”因果” (データ科学)

平均・分散の

推定

34

“傾向”って何だ.

“若者は金を持っていない”(傾向にある)

35

20代の収入の分布

50代の収入の分布

傾向とはつまり.

傾向を調べる ≒ 分布を調べること.

「分布」が分かればこっちのもの.

どうやって分布を調べるんですか.

36

分布さえ分かれば, 平均なんて一発で分かる

分布の調べ方

パラメトリックな方法

今日はこれやります

ノンパラ

なんだかんだでムズイ

etc

37

パラメトリックな方法

分布のモデルを仮定する.

38

正規分布 指数分布

いろいろあるので, 良いモデルを選びましょう.

さっきの例だと

39

山型っぽいので正規分布を使う. (注: 実際には別の分布を使ったりするが, 簡略化のため.)

正規分布のフィッティング

40

分布をデータにフィッティングする.

正規分布のフィッティング

41

正規分布の山の形を決定するパラメータ: ∨ ⊹ ∻ ⊾ ∩ ∲ ≒ ⊣ ≒ ∾ ∰ ⊹ :山の位置 ⊾ :山の(裾の)広がり

正規分布のフィッティング

42

⊹ ⊼ ∳ ∵ ∰ ∿

⊾ ⊼ ∱ ∰ ∰ ∿

目視でも概算値は求まる.

数式を使わなくても, パッと見の値は分かる.

=数学できなくても統計はできます.

もうちょっと数理的にアプローチしよう.

43

正規分布の式

44

さっきのシチュエーション: ∨ ⊹ ∻ ⊾ ∩ ∽ ∨ ∳ ∵ ∰ ∻ ∱ ∰ ∰ ∩

⋁ ∨ ≸ ≪ ∳ ∵ ∰ ∻ ∱ ∰ ∰ ∩ ∽ ∱ ≰ ∲ ⊼ ⊣ ∱ ∰ ∰ ∲ ≥ ≸ ≰ ⊵ ⊡ ∨ ≸ ⊡ ∳ ∵ ∰ ∩ ∲ ∲ ⊣ ∱ ∰ ∰ ∲

⋁ ∨ ≸ ≪ ⊹ ∻ ⊾ ∩ ∺ ∽ ∱ ≰ ∲ ⊼ ⊾ ∲ ≥ ≸ ≰ ⊵ ⊡ ∨ ≸ ⊡ ⊹ ∩ ∲ ∲ ⊾ ∲

これは「ある20代の人の収入がx円である確率」を表す.

たとえば

45

「ある20代の人の収入がx円である確率」

⋁ ∨ ∳ ∵ ∰ ≪ ∳ ∵ ∰ ∻ ∱ ∰ ∰ ∩ は, ここの高さを表している.

逆転の発想

46

20代の収入を調査.

≘ ∱ ∽ ∲ ∰ ∰ ∻ ≘ ∲ ∽ ∱ ∵ ∰ ∻ ≘ ∳ ∽ ∳ ∵ ∰ ∻ ∺ ∺ ∺

回答者1の収入

∨ ⊹ ∻ ⊾ ∩ は分からないとする.

調査結果を調べると:

47

⋁ ∨ ≘ ∱ ≪ ⊹ ∻ ⊾ ∩ ⋁ ∨ ≘ ∲ ≪ ⊹ ∻ ⊾ ∩

回答者1の収入が発生する確率

回答者2の収入が発生する確率

回答者nの収入が発生する確率 ⋁ ∨ ≘ ≮ ≪ ⊹ ∻ ⊾ ∩ …

全体としてとらえると:

No.1-No.nまでの回答が発生する確率

48

≮ ≙ ≴ ∽ ∱

⋁ ∨ ≘ ≮ ≪ ⊹ ∻ ⊾ ∩ この確率を最大にすれば良いのでは.

=最尤法 さいゆう

[最も尤もらしい]方法. もっと もっと

パラメータ最適化

49

≮ ≙ ≴ ∽ ∱

⋁ ∨ ≘ ≮ ≪ ⊹ ∻ ⊾ ∩ を最大にする

を最大にする

≬ ≯ ≧ ≮ ≙ ≴ ∽ ∱

⋁ ∨ ≘ ≮ ≪ ⊹ ∻ ⊾ ∩ ∽ ≮ ≘ ≴ ∽ ∱

≬ ≯ ≧ ⋁ ∨ ≘ ≮ ≪ ⊹ ∻ ⊾ ∩

途中省略

ゴリゴリ計算すると, 最適解は:

50

≞ ⊹ ∽ ∱ ≮ ≮ ≘ ≴ ∽ ∱

≘ ≩

≞ ⊾ ∲ ∽ ∱ ≮ ≮ ≘ ≴ ∽ ∱

∨ ≘ ≩ ⊡ ⊹ ∩ ∲

統計の本で最初に出てくる式になりました.

見通しを良くする(ガチ統計に近づきましょう)

もうちょっと見通しを良くしよう

51

←ここに関数空間があります. 心の目で見ましょう.

見通しを良くする(ガチ統計に近づきましょう)

もうちょっと見通しを良くしよう

52

正規分布全体の集合

データ(X1,…,Xn)から作った分布 (経験分布関数)

距離(みたいなもの)を入れます

53

≋ ≌ ⊡ ≤ ≩ ≶ ≥ ≲ ≧ ≥ ≮ ≣ ≥ ∺ ≄ ∨ ≱ ∻ ≰ ∩ ∺ ∽ ≚ ≱ ∨ ≸ ∩ ≬ ≯ ≧ ≱ ∨ ≸ ∩ ≰ ∨ ≸ ∩ ≤ ∨ ≸ ∩

距離(みたいなもの)の最小化ってどうなんの.

54

≄ ∨ ≞ ≱ ∻ ≰ ⊵ ∩ の最小化

≮ ≘ ≴ ∽ ∱

≬ ≯ ≧ ≰ ∨ ≸ ≴ ≪ ⊵ ∩ の最大化

データから作った分布

正規分布

対応

分布族の空間でKLを最小化 = 最尤法 と対応

当然いろいろあるよ

55

距離(もどき)を変えれば(推定値の)性質も変わります

データ解析の見通しがよくなる. 学際的な興味を引くテーマの一つ.

Jeffrey’s -divergence Bregman -divergence, Alpha -divergence, Beta -divergence, Gamma -divergence, Psi -divergence, …etc

モデル選択の

おはなし

56

情報量基準AIC

[モデル選択]

57

さっきは[正規分布]を使った. 何故?

正規分布 : 85点 二項分布 : 38点 ラプラス分布 : 15点 …etc

(こんな風に)点数で評価できると嬉しい.

情報量基準AIC

分布等のモデル設定に点数を与える.

58

A I C Akaike Information Criterion

統計会のゴッド, (故)赤池弘次博士

59

統計数理研究所・元所長

京都賞受賞(2006)

統数研の宿泊施設[Akaike Guest House]

特設webサイトもある

AICの凄さ

とにかく簡単に計算できる.

60

超お手軽, しかも性能が良い.

[情報量基準]分野の礎を築いた.

≁ ≉ ≃ ∺ ∽ ⊡ ∲ ≎ ≘ ≴ ∽ ∱

≬ ≯ ≧ ≰ ∨ ≸ ≴ ≪ ⊵ ∩ ∫ ∲ ≤ ≩ ≭ ⊵

ちなみに

統数研のスパコンの愛称(2014/04/04)

61

日本人が強い分野

TIC(竹内情報量基準)とか.

GIC(Generalized -)も日本人が作った.

日本人が大活躍している.

… 自分は普段こんなような領域をやっている.

62

“相関”

”因果” 63

“相関”と”因果”

夏の暑い日, セミがうるさかった.

セミがうるさい日はアイスもよく売れた.

64

“セミのうるささ”は”アイスの売上”に影響を及ぼす.

そこでアイス業者は次の販売戦略を立てた.

セミがうるさい → アイスがよく売れる

65

店先でセミを大量に飼う

Strategy:

これで売り上げは上がるだろうか?

当然売り上げは上がらない

暑い → セミがうるさくなる

暑い → アイスがよく売れる

66

セミのうるささ

アイスの売上

気温

しかし, 純然たる相関は存在する.

67

セミとアイスに相関(関係)はある.

が, 因果関係はない.

データだけ見ると, 因果関係がありそう. ありがちな間違い.

もっと直観的でない例

A区, B区で学力テストをした.

A区は(B区より)ゲームの所持率が高かった

A区のほうが成績は良かった.

68

ゲームは成績に良い影響を与える.

結論:

(*架空の調査です)

これも”因果”ではないかも.

69

[親の経済力]というファクター

成績の良さ

ゲーム所持率

親の経済力

この問題を解決する方法

[結論]

色々なデータを取りましょう.

気温, 湿度, 客の年齢 etc….

分析用のツールはある. (今も研究されている)

よくある問題なので注意が必要.

常に頭の片隅に.

70

[本節の内容]

本の紹介

統計やるときに読む本

(宣伝)Rの紹介

統計やるときに読む本

(初級)

「数理統計入門」松本裕行 他.

「確率論入門」G.Grimmett・著,

大西誠・訳 他.

必要最小限の知識で読める. (急げば1日で読めそう)

凄く分かりやすい. 高校数学から確率論への橋渡し. 測度とかの知識を仮定してない. 絶版なので図書館で…

統計やるときに読む本

(中級)

「数理統計学」稲垣宣生

「統計解析入門」赤平昌文

73

統計をやる人の (学部での)標準的テキスト.

同上. ちょっとだけ理論寄りな気も.

Rの御紹介

74

統計解析用のソフト(無料)

講習会やりました(5/20, 23)

かなり盛況. (想定の倍以上来た)

私のwebサイトから閲覧可能. 75

おわり: 目次再掲

76 質問あればどうぞ.