tokyor35 人工データの発生

37
人工データの発生 @yokkuns: 里 洋平 [email protected] 2013.11.09 第35回Tokyo.R 「Rによるやさしい統計学」第18章 2013119日土曜日

Upload: yohei-sato

Post on 28-May-2015

1.466 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Tokyor35 人工データの発生

人工データの発生@yokkuns: 里 洋平

[email protected] 第35回Tokyo.R

「Rによるやさしい統計学」第18章

2013年11月9日土曜日

Page 2: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 3: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 4: Tokyor35 人工データの発生

里 洋平 (@yokkuns)

■元Webエンジニアのデータサイエンティスト■TokyoRの主催者

2013年11月9日土曜日

Page 5: Tokyor35 人工データの発生

執筆しました

2013年11月9日土曜日

Page 6: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 7: Tokyor35 人工データの発生

なぜ人工データを発生させるのか?統計学やデータ解析自体の研究•学習の際に特定の条件を満たすようなデータが欲しい

・シミュレーション実験・例題用の仮想データ ⇒ 勉強会とか執筆とか・データ解析手法を試すために都合の良いデータ ...

2013年11月9日土曜日

Page 8: Tokyor35 人工データの発生

どんな人工データが作れるのか

特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ② 母集団分布を指定した多変量データ③ 統計モデルを指定した多変量データ 例: 回帰分析モデル、因子分析モデル、etc...

2013年11月9日土曜日

Page 9: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 10: Tokyor35 人工データの発生

確率分布に従う乱数の生成

乱数を生成する関数一覧

確率分布 関数名 引数としてしていする母数正規分布 rnorm mean, sd一様分布 runif min, maxベータ分布 rbeta shape1, shape2, ncp二項分布 rbiom size, probコーシー分布 rcauchy location, scaleカイ二乗分布 rchisq df, ncp指数分布 rexp rateF分布 rf df1, df2, cnp

ガンマ分布 rgamma prob... ... ...

2013年11月9日土曜日

Page 11: Tokyor35 人工データの発生

実行例: 正規分布

rnorm関数

2013年11月9日土曜日

Page 12: Tokyor35 人工データの発生

実行例: 一様分布

runif関数

2013年11月9日土曜日

Page 13: Tokyor35 人工データの発生

実行例: 任意の離散的確率分布runif関数による乱数とcut関数を用いて

任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日

Page 14: Tokyor35 人工データの発生

統計学の法則・定理の検証統計学を勉強してると謎の法則とか定理が出てくる

人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87

2013年11月9日土曜日

Page 15: Tokyor35 人工データの発生

大数の法則とはある母集団から無作為抽出された標本データの平均はサンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/2013年11月9日土曜日

Page 16: Tokyor35 人工データの発生

正規分布によるシミュレーションrnorm関数でサンプルサイズを変化させ

標本平均と母平均を比較する

2013年11月9日土曜日

Page 17: Tokyor35 人工データの発生

二項分布によるシミュレーションrbiom関数でサンプルサイズを変化させ

標本平均と母平均を比較する

2013年11月9日土曜日

Page 18: Tokyor35 人工データの発生

中心極限定理とは標本平均と真の平均との誤差は

サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/~medimg/practice_medical_imaging/roc/2signifi/index.htm

2013年11月9日土曜日

Page 19: Tokyor35 人工データの発生

正規分布によるシミュレーション

母集団の作成

2013年11月9日土曜日

Page 20: Tokyor35 人工データの発生

正規分布によるシミュレーション100個の標本を100回作成標本平均の分布を見る

2013年11月9日土曜日

Page 21: Tokyor35 人工データの発生

正規分布によるシミュレーション100個の標本を1,000回作成標本平均の分布を見る

2013年11月9日土曜日

Page 22: Tokyor35 人工データの発生

正規分布によるシミュレーション100個の標本を10,000回作成標本平均の分布を見る

2013年11月9日土曜日

Page 23: Tokyor35 人工データの発生

二項分布によるシミュレーション

母集団の作成

2013年11月9日土曜日

Page 24: Tokyor35 人工データの発生

二項分布によるシミュレーション100個の標本を100回作成標本平均の分布を見る

2013年11月9日土曜日

Page 25: Tokyor35 人工データの発生

二項分布によるシミュレーション100個の標本を10,000回作成標本平均の分布を見る

2013年11月9日土曜日

Page 26: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 27: Tokyor35 人工データの発生

相関関係

http://mcn-www.jwu.ac.jp/~kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM

2013年11月9日土曜日

Page 28: Tokyor35 人工データの発生

任意の母相関を持つ2変数データの生成(方法1)分散の等しい母集団から独立に無作為抽出された

2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日

Page 29: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 30: Tokyor35 人工データの発生

線形回帰分析とは

観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/~ham/tymhnt/analysis/e/tahenryo/sa/sa8.html2013年11月9日土曜日

Page 31: Tokyor35 人工データの発生

線形回帰分析の仮定

線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html

2013年11月9日土曜日

Page 32: Tokyor35 人工データの発生

回帰分析モデルに基づく人工データの生成回帰係数と切片を固定し、xとeを乱数で生成する事で回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日

Page 33: Tokyor35 人工データの発生

人工データに対して回帰分析を実行

2013年11月9日土曜日

Page 34: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 35: Tokyor35 人工データの発生

http://www.japanr.org/information/2013/11/03/lt/■ LT募集しています!

2013年11月9日土曜日

Page 36: Tokyor35 人工データの発生

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

Page 37: Tokyor35 人工データの発生

ご清聴ありがとうございました!

2013年11月9日土曜日