tokyo.r#04

94
R によるやさしい統計学」 10 章~第 14 yokkuns: 洋平 4 R 勉強会@東京 (Tokyo.R#04) 2010/04/24 yokkuns: 洋平 (4 R 勉強会@東京 (Tokyo.R#04)) R によるやさしい統計学」 第 10 章~第 14 2010/04/24 1 / 69

Upload: yohei-sato

Post on 26-May-2015

2.651 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Tokyo.R#04

.

.

. ..

.

.

「Rによるやさしい統計学」第 10章~第 14章

yokkuns: 里 洋平

第 4 回 R 勉強会@東京 (Tokyo.R#04)

2010/04/24

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 1 / 69

Page 2: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 2 / 69

Page 3: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 3 / 69

Page 4: Tokyo.R#04

自己紹介

名前 : 里 洋平はてな : yokkunstwitter : yokkuns

職業 : Webエンジニア

出身 : 種子島主催してる勉強会

R勉強会@東京(Tokyo.R)数式ニヤニヤ勉強会

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 4 / 69

Page 5: Tokyo.R#04

主催してる勉強会

R勉強会@東京 - Tokyo.R

この勉強会

ありがとうございます!!

数式ニヤニヤ勉強会

来月から活動します

興味ある方は、是非!!

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69

Page 6: Tokyo.R#04

主催してる勉強会

R勉強会@東京 - Tokyo.R

この勉強会

ありがとうございます!!

数式ニヤニヤ勉強会

来月から活動します

興味ある方は、是非!!

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69

Page 7: Tokyo.R#04

主催してる勉強会

R勉強会@東京 - Tokyo.R

この勉強会

ありがとうございます!!

数式ニヤニヤ勉強会

来月から活動します

興味ある方は、是非!!

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69

Page 8: Tokyo.R#04

主催してる勉強会

R勉強会@東京 - Tokyo.R

この勉強会

ありがとうございます!!

数式ニヤニヤ勉強会

来月から活動します

興味ある方は、是非!!

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69

Page 9: Tokyo.R#04

主催してる勉強会

R勉強会@東京 - Tokyo.R

この勉強会

ありがとうございます!!

数式ニヤニヤ勉強会

来月から活動します

興味ある方は、是非!!

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69

Page 10: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 6 / 69

Page 11: Tokyo.R#04

外れ値が相関係数に及ぼす影響

データ解析を行う時、外れ値の存在について十分な注意が必要

外れ値の存在によって相関係数の値が大きく変わってしまう

→本当は相関が見られるのに、相関は無いという結論になってし

まう。

データを入手したら、まず散布図!

散布図を描くことで外れ値の存在を見抜くことが容易になる

ヒストグラムや散布図などの視覚的情報が有効

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 7 / 69

Page 12: Tokyo.R#04

外れ値が相関係数に及ぼす影響

データ解析を行う時、外れ値の存在について十分な注意が必要

外れ値の存在によって相関係数の値が大きく変わってしまう

→本当は相関が見られるのに、相関は無いという結論になってし

まう。

データを入手したら、まず散布図!

散布図を描くことで外れ値の存在を見抜くことが容易になる

ヒストグラムや散布図などの視覚的情報が有効

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 8 / 69

Page 13: Tokyo.R#04

外れ値の影響

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 9 / 69

Page 14: Tokyo.R#04

外れ値の影響

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 10 / 69

Page 15: Tokyo.R#04

外れ値の影響 -体重が 80,000kg以上のものを除いてみる

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 11 / 69

Page 16: Tokyo.R#04

外れ値の影響 -体重が 80,000kg以上のものを除いてみる

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 12 / 69

Page 17: Tokyo.R#04

外れ値の影響 -体重が 80,000kg以上のものを除いてみる

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 13 / 69

Page 18: Tokyo.R#04

外れ値の影響 -体重が 2,000kg以上のものを除いてみる

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 14 / 69

Page 19: Tokyo.R#04

外れ値の影響 -体重が 2,000kg以上のものを除いてみる

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 15 / 69

Page 20: Tokyo.R#04

外れ値の影響 -体重が 2,000kg以上のものを除いてみる

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 16 / 69

Page 21: Tokyo.R#04

外れ値の影響 - Humanを除いてみる

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 17 / 69

Page 22: Tokyo.R#04

外れ値の影響 - Humanを除いてみる

Table: 動物の体重と脳の重さ

Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320

Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 18 / 69

Page 23: Tokyo.R#04

外れ値の影響 - Humanを除いてみる

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 19 / 69

Page 24: Tokyo.R#04

外れ値が相関係数に及ぼす影響

データ解析を行う時、外れ値の存在について十分な注意が必要

外れ値の存在によって相関係数の値が大きく変わってしまう

→本当は相関が見られるのに、相関は無いという結論になってし

まう。

データを入手したら、まず散布図!

散布図を描くことで外れ値の存在を見抜くことが容易になる

ヒストグラムや散布図などの視覚的情報が有効

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 20 / 69

Page 25: Tokyo.R#04

散布図を出力

0 20000 60000

020

0040

00

brain.data$Body_Weight

brai

n.da

ta$B

rain

_Wei

ght

0 4000 8000 12000

020

0040

00

brain.data2$Body_Weight

brai

n.da

ta2$

Bra

in_W

eigh

t

0 100 300 500

040

080

012

00

brain.data3$Body_Weight

brai

n.da

ta3$

Bra

in_W

eigh

t

0 100 300 500

020

040

060

0

brain.data4$Body_Weight

brai

n.da

ta4$

Bra

in_W

eigh

t

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 21 / 69

Page 26: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 22 / 69

Page 27: Tokyo.R#04

統計解析で分かること・分からないこと

統計的な処理において、個々の分析手法では限られた一面的な情報

しか得られないことが多い

目的に応じていろいろな観点から情報を補う必要がある

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 23 / 69

Page 28: Tokyo.R#04

統計解析で分かること・分からないこと

下表の子供のゲーム時間と親の認識について、以下の分析を行い、

「分かること」と「分からないこと」を考える

xと yのそれぞれについて、度数分布、代表値、散布度を求めるxと yの差について、度数分布、代表値、散布度を求めるxと yの相関係数を求めるxを独立変数、yを従属変数として回帰式を求める

Table: 子供のゲーム時間と親の認識

親子 x y1 290 3502 50 703 80 1004 100 1305 200 2506 350 4307 430 5208 80 1009 210 260

10 110 140

親子 x y11 70 9012 260 32013 220 27014 330 40015 170 21016 420 51017 80 10018 300 37019 290 35020 230 280

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 24 / 69

Page 29: Tokyo.R#04

xと yの度数分布、代表値、散布度

Histogram of x

x

Fre

quen

cy

0 100 200 300 400 500 600

02

46

Histogram of y

y

Fre

quen

cy

0 100 200 300 400 500 6000

24

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 25 / 69

Page 30: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かること

それぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと

個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 31: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る

「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと

個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 32: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かる

x と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと

個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 33: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと

個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 34: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと

個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 35: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない

差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 36: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない

差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 37: Tokyo.R#04

xと yの度数分布、代表値、散布度から分かること・分からないこと

分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる

分からないこと個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69

Page 38: Tokyo.R#04

xと yの差の度数分布、代表値、散布度

Histogram of yx

yx

Fre

quen

cy

20 30 40 50 60 70 80 90

01

23

45

67

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 27 / 69

Page 39: Tokyo.R#04

xと yの差の度数分布、代表値、散布度から分かること・分からないこと

分かること

実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる

分からないこと

ずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69

Page 40: Tokyo.R#04

xと yの差の度数分布、代表値、散布度から分かること・分からないこと

分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる

分からないこと

ずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69

Page 41: Tokyo.R#04

xと yの差の度数分布、代表値、散布度から分かること・分からないこと

分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる

分からないこと

ずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69

Page 42: Tokyo.R#04

xと yの差の度数分布、代表値、散布度から分かること・分からないこと

分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる

分からないことずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない

全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69

Page 43: Tokyo.R#04

xと yの差の度数分布、代表値、散布度から分かること・分からないこと

分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる

分からないことずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69

Page 44: Tokyo.R#04

xと yの相関係数と回帰式

100 200 300 400

100

200

300

400

500

x

y

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 29 / 69

Page 45: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること

子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと

相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 46: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる

相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと

相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 47: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言える

r が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと

相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 48: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと

相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 49: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと

相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 50: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと相関係数の値からは「ずれの大きさ」に関する情報は得られない

全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 51: Tokyo.R#04

xと yの相関係数から分かること・分からないこと

分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる

分からないこと相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69

Page 52: Tokyo.R#04

xと yの回帰式から分かること・分からないこと

分かること

子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る

分からないこと

2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69

Page 53: Tokyo.R#04

xと yの回帰式から分かること・分からないこと

分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる

2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る

分からないこと

2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69

Page 54: Tokyo.R#04

xと yの回帰式から分かること・分からないこと

分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る

分からないこと

2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69

Page 55: Tokyo.R#04

xと yの回帰式から分かること・分からないこと

分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る

分からないこと

2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69

Page 56: Tokyo.R#04

xと yの回帰式から分かること・分からないこと

分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る

分からないこと2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69

Page 57: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 32 / 69

Page 58: Tokyo.R#04

二項検定

二項検定とは

北海道日本ハムファイターズと東北楽天ゴールデンイーグルスはどち

らが強い?

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 33 / 69

Page 59: Tokyo.R#04

二項検定

二項検定とは

北海道日本ハムファイターズと東北楽天ゴールデンイーグルスはどち

らが強い?

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 34 / 69

Page 60: Tokyo.R#04

二項検定とは

2つのカテゴリに分類されたデータの比率が、理論的に期待される分布から有意に偏っているかどうかを、二項分布を利用して調べる統計学的検定

二項分布離散型確率変数 X = 0, 1, 2, ..., nについて、確率関数 Pk が

Pk =n Ck pk · qn−k   (k = 0, 1, 2, ..., n, 0 < p < 1, p + q = 1)で表される確率分布。

二項分布のグラフ

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

0.25

0.30

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 35 / 69

Page 61: Tokyo.R#04

二項検定

二項検定とは

北海道日本ハムファイターズと東北楽天ゴールデンイーグルスはどち

らが強い?

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 36 / 69

Page 62: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 37 / 69

Page 63: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 38 / 69

Page 64: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 39 / 69

Page 65: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 40 / 69

Page 66: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 41 / 69

Page 67: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 42 / 69

Page 68: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 43 / 69

Page 69: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 44 / 69

Page 70: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 45 / 69

Page 71: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?

帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い

検定統計量の選択日ハムの勝利数

優位水準 αの決定5%、片側検定

検定統計量の実現値を求める日ハムの勝利数 17

帰無仮説の棄却 or採択の決定

 yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 46 / 69

Page 72: Tokyo.R#04

例 -日ハムと楽天はどちらが強い?

0 5 10 15 20

0.00

0.05

0.10

0.15

win

dbin

om(w

in, 2

0, 0

.5)

以上のように、二項検定を用いて、日ハムが楽天より強いかどうかを検討する

ことが出来た。

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 47 / 69

Page 73: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 48 / 69

Page 74: Tokyo.R#04

プリ・ポストデザインデータの分析

プリ・ポストデザインとは

共分散分析

t検定

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 49 / 69

Page 75: Tokyo.R#04

プリ・ポストデザインデータの分析

プリ・ポストデザインとは

共分散分析

t検定

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 50 / 69

Page 76: Tokyo.R#04

プリ・ポストデザインとは

実験計画で利用される代表的なデザイン

実験群と統制群を用意して、事前と事後でデータを取り、実験操作

の効果を検討する

分析方法

共分散分析を使用する方法

ポストテストの値を従属変数、プリテストの値を統制変数として、群

の効果に関する共分散分析を行う

t検定を使用する方法「ポストテストの値 -プリテストの値」である変化量に関して、t検定によって群の効果について吟味する

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 51 / 69

Page 77: Tokyo.R#04

プリ・ポストデザインとは

実験計画で利用される代表的なデザイン

実験群と統制群を用意して、事前と事後でデータを取り、実験操作

の効果を検討する

分析方法

共分散分析を使用する方法

ポストテストの値を従属変数、プリテストの値を共変数として、群の

効果に関する共分散分析を行う

t検定を使用する方法「ポストテストの値 -プリテストの値」である変化量に関して、t検定によって群の効果について吟味する

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 52 / 69

Page 78: Tokyo.R#04

プリ・ポストデザイン -共分散分析

この分析における操作の主効果

実験群、統制群のポストテストの値における、プリテストの値から説

明できる部分を除いたものの比較になる

ポストテストの変動 = プリテストによる変動 + グループによる変動 + 誤差変動

共分散分析の前提回帰係数の等質性

実験群と統制群において、共変量と従属変数の関係は同じ

回帰の有意性

共変量と従属変数の間に有意な関係がなければ、それは従属変数に影響

を及ぼさない

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 53 / 69

Page 79: Tokyo.R#04

プリ・ポストデザインとは

実験計画で利用される代表的なデザイン

実験群と統制群を用意して、事前と事後でデータを取り、実験操作

の効果を検討する

分析方法

共分散分析を使用する方法

ポストテストの値を従属変数、プリテストの値を統制変数として、群

の効果に関する共分散分析を行う

t検定を使用する方法「ポストテストの値 -プリテストの値」である変化量に関して、t検定によって群の効果について吟味する

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 54 / 69

Page 80: Tokyo.R#04

プリ・ポストデザインデータの分析

プリ・ポストデザインとは

共分散分析

t検定

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 55 / 69

Page 81: Tokyo.R#04

例 -共分散分析

4つの大学院生に実施した抜き打ちテストの問題

Table: 統制群

被験者 プリテスト ポストテスト

1 35 402 40 233 39 284 18 465 22 476 41 427 41 278 47 33

Table: 実験群

被験者 プリテスト ポストテスト

9 35 3610 41 7111 28 7012 28 5513 41 4614 32 7115 42 5216 42 52

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 56 / 69

Page 82: Tokyo.R#04

例 -共分散分析

lm関数を使う方法

aov関数を使う方法

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 57 / 69

Page 83: Tokyo.R#04

プリ・ポストデザインデータの分析

プリ・ポストデザインとは

共分散分析

t検定

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 58 / 69

Page 84: Tokyo.R#04

例 - t検定

4つの大学院生に実施した抜き打ちテストの問題

Table: 統制群

被験者 プリテスト ポストテスト 変化量

1 35 40 52 40 23 -173 39 28 -114 18 46 285 22 47 256 41 42 17 41 27 -148 47 33 -14

Table: 実験群

被験者 プリテスト ポストテスト 変化量

9 35 36 110 41 71 3011 28 70 4212 28 55 2713 41 46 514 32 71 3915 42 52 1016 42 52 10

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 59 / 69

Page 85: Tokyo.R#04

例 - t検定

変化量について、分散の等質性を確認し、変化量について t 検定を実行する。

検定統計量が t = −2.3771、p 値が p − value = 0.03225 となるので、5% 水準で有意となる

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 60 / 69

Page 86: Tokyo.R#04

AGENDA

自己紹介

外れ値が相関係数に及ぼす影響

統計解析で分かること・分からないこと

二項検定

プリ・ポストデザインデータの分析

質問紙尺度データの処理

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 61 / 69

Page 87: Tokyo.R#04

質問尺度データの処理

質問尺度とは

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 62 / 69

Page 88: Tokyo.R#04

質問尺度データの処理

質問尺度とは

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 63 / 69

Page 89: Tokyo.R#04

質問尺度とは

「質問用紙の項目内用」と「回答の得点化の方法」のセットが、数

値割り当ての規則

質問用紙の例

1:全くそう思わない、2:あまりそう思わない、3:どちらでもない、4:ややそう思う、5:非常にそう思う

Q1. 結局自分は一人でしかないと思う 1 2 3 4 5Q2. 自分の問題は、最後は自分で解決しなくてはならないのだと思う 1 2 3 4 5Q3. 人間は本来、一人ぼっちなのだと思う 1 2 3 4 5Q4. 結局、人間は一人で生きるように運命付けられていると思う 1 2 3 4 5Q5. 私とまったく同じ考えや感じを持っている人が必ずどこかにいると思う 1 2 3 4 5Q6. 私の人生と同じ人生は、過去にも未来にもないと思う 1 2 3 4 5Q7. どんな親しい人も、結局自分とは別個の人間であると思う 1 2 3 4 5

回答の得点化の方法は、「非常にそう思う」を選んだら 5 点、順に 4、3、2、1 という項目得点を与える。ただし、Q5 だけは、逆順とする

妥当性と信頼性

妥当性 : 測ろうとしているものを正しく測ることが出来ているか信頼性 : 測定の結果が一貫しているか

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 64 / 69

Page 90: Tokyo.R#04

質問尺度データの処理

質問尺度とは

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 65 / 69

Page 91: Tokyo.R#04

質問尺度データの処理の例

psy パッケージのサンプルデータ expsy を取り出し、必要な部分だけ取り出す

逆転項目の処理と尺度得点の計算

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 66 / 69

Page 92: Tokyo.R#04

質問尺度データの処理の例

尺度得点を追加し、α 係数を求める

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 67 / 69

Page 93: Tokyo.R#04

ご静聴ありがとうございました。

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 68 / 69

Page 94: Tokyo.R#04

参考文献

Rによるやさしい統計学

yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 69 / 69