【社内勉強会用】統計学超入門

16
統計学超入門 Part.2 株式会社CyberZ 鳥居

Upload: akira-torii

Post on 03-Jul-2015

5.930 views

Category:

Education


6 download

DESCRIPTION

社内で行った統計学勉強会用の資料です

TRANSCRIPT

統計学超入門 Part.2

株式会社CyberZ 鳥居 英

自己紹介

鳥居 英

株式会社CyberZ [2013/08 ~]

スマートフォン向け広告効果計測ツール F.O.X

某ベンチャー企業 [2010/05 ~ 2013/07]

Webサービスの企画・開発・運用

興味領域・(学生時代の)専門

統計的学習理論

情報統計力学

概要

今日やること

確率

確率変数

確率分布

参考図書

統計学入門(東京大学教養学部統計学教室 編)

統計勉強会を進めていくにあたって前提となる

確率・統計の基本概念を身につける

事象について

統計学・確率論では起こりうることがらを事象と呼びます

e.x サイコロを1回投げた場合

事象とは

「出る目が奇数である」とか「出る目が5以上」とか 「出る目が1である」だとか、そういうことがらをさす

また、ある事象Aが起こらない事を、Aの補事象と呼ぶ

「出る目が奇数である」の補事象は「出る目が偶数である」

ちなみに

出る目の結果として、可能な値は1,2,3,4,5,6の六つ

取り得る値「1,2,3,4,5,6」の一つ一つを標本点と呼び、

標本点全体を標本空間や全事象と呼ぶ

また、サイコロを1回投げることを施行と呼ぶ

ベン図 その1

事象を図で表す場合、慣習としてベン図が用いられる

e.x. サイコロ1回振って出た目をxとし、 事象Aを「出た目が奇数である」とする

事象A

x=1,3,5

Aの補事象

x=2,4,6,

ベン図 その2

複数の事象間の関係を理解する際に、ベン図は役に立つ

サイコロ1回振って出た目をxとした時、 二つの事象A,Bの関係性は下図のどれか

A A

B

B A B

片方の事象が、もう片方の 事象に包含される

お互いに共通部分を持つ お互いに共通部分を持たない →AとBは排反事象という

和事象と積事象

和事象

AとBの二つの事象の内、少なくとも一つの事象が起こる

と表記する

積事象

AとBの二つの事象が同時に起こる

と表記する

やっぱりサイコロを1回投げたとする

事象Aを「出た目が偶数」、事象Bを「出た目が5以上」とする

事象Aは目が{2,4,6}の場合、事象Bは目が{5,6}の場合に満たす

AとBの和事象は出た目が{2,4,5,6}

AとBの積事象は出た目が{6}

AUB

BA

確率とは

確率とは

事象の起こりやすさを定量的に示すもの

事象Aの起こる確率を と表記する

定義

下記の3つを満たすものは全て確率として認められる

全ての事象Aに対して

標本空間を としたとき

互いに排反な事象 に対して

P A

0 P A 1

P 1

A1,A2,A3L

321321 APAPAPAAAP

条件付き確率

事象Bが起きたとわかっている場合に、事象Aの起こる確率を Bを条件とするAの条件付き確率といい、下記で表す。

右図のように、数字が書いてある赤と白の玉から 一つ玉を取り出した場合を考える。

この時、取り出した玉が白玉の場合に、 その数字が1である確率は下記で計算される。

BP

BAPBAP

1

2

2

1

1

P 1white P white I 1 P white

2612

1

3

確率の独立性

事象Aの起きる確率が、他の事象Bに影響されない時 事象Aと事象Bは独立であるといい、下記が成り立つ

サイコロを2回投げて、1が2回連続で出る確率を考える。 1回目に1が出るという事象をA、2回目に1が出るという事象をBとすると、2回連続で1が出るという事象は である。 となることから、AとBは独立であることがわかる。

P AB P A

BPAPBAP

P AI B

36

1BAP

P A P B 1

61

61

36

ベイズの定理

条件付き確率を用いると下記のベイズの定理が導出できる

仮説 観測値

事後確率 Xを観測した上での、仮説のHの確率

尤度 仮説Hの基での、観測値Xの尤もらしさ

事前確率 仮説Hの起こる確率

H

HPHXP

HPHXP

XP

HPHXPXHP

HXP

XHP

HP

H X

確率変数

確率変数とは

標本点のどれかを取る変数のこと

例1、サイコロ振りにおける確率変数は1~6の値を取る

例2、明日の天気という確率変数は、晴れ、曇り、雨、雪という値を取る

離散型確率変数

確率変数の取りうる値がとびとびの値であるとき、 その確率変数は離散型の確率変数と呼ばれる。

連続型確率変数

確率変数の取りうる値が連続の値であるとき その確率変数は連続型の確率変数と呼ばれる。

確率分布

確率変数Xが離散型の場合

確率分布 は下記を満たす

確率変数Xが連続型の場合

確率変数Xの取る値が次のように表される場合 Xは連続型の確率分布を持つといい、下記を満たす また、関数 をXの確率密度関数と呼ぶ

f xk P X xk

(k 1,2,3,L )

f xk 0

(k 1,2,3,L )

f xk k1

1かつ

P a X b f x dxa

b

f x 0

f x dx 1

かつ

f x

確率変数の期待値とその性質

期待値

離散型

連続型

期待値の性質

E X xf x x

E X xf x dx

E c c

E X c E X c

E cX cE X

E X Y E X E Y

確率変数の分散とその性質

分散

離散型

連続型

また次の式でも導出できる

期待値の性質

V X x 2f x

x

V X x 2f x dx

V X E X 2 E X 2

V c 0

V X c V X

V cX c 2V X

最後に

今後この勉強会でやりたいこと

機械学習とはなんぞや的お話(僕なんかが超恐れ多い)

ただ、PFIの海野さんのスライドがすごくよくまとまっているので こちらを見ていただいた方が早いかもしれない。見るべき。 『機械学習チュートリアル』 http://www.slideshare.net/unnonouno/jubatus-casual-talks

「〇〇を実装してみた」「〇〇を使ってみた」的なお話

インターネット広告と機械学習を絡めたお話