tokyo.r#04
TRANSCRIPT
.
.
. ..
.
.
「Rによるやさしい統計学」第 10章~第 14章
yokkuns: 里 洋平
第 4 回 R 勉強会@東京 (Tokyo.R#04)
2010/04/24
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 1 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 2 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 3 / 69
自己紹介
名前 : 里 洋平はてな : yokkunstwitter : yokkuns
職業 : Webエンジニア
出身 : 種子島主催してる勉強会
R勉強会@東京(Tokyo.R)数式ニヤニヤ勉強会
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 4 / 69
主催してる勉強会
R勉強会@東京 - Tokyo.R
この勉強会
ありがとうございます!!
数式ニヤニヤ勉強会
来月から活動します
興味ある方は、是非!!
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69
主催してる勉強会
R勉強会@東京 - Tokyo.R
この勉強会
ありがとうございます!!
数式ニヤニヤ勉強会
来月から活動します
興味ある方は、是非!!
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69
主催してる勉強会
R勉強会@東京 - Tokyo.R
この勉強会
ありがとうございます!!
数式ニヤニヤ勉強会
来月から活動します
興味ある方は、是非!!
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69
主催してる勉強会
R勉強会@東京 - Tokyo.R
この勉強会
ありがとうございます!!
数式ニヤニヤ勉強会
来月から活動します
興味ある方は、是非!!
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69
主催してる勉強会
R勉強会@東京 - Tokyo.R
この勉強会
ありがとうございます!!
数式ニヤニヤ勉強会
来月から活動します
興味ある方は、是非!!
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 5 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 6 / 69
外れ値が相関係数に及ぼす影響
データ解析を行う時、外れ値の存在について十分な注意が必要
外れ値の存在によって相関係数の値が大きく変わってしまう
→本当は相関が見られるのに、相関は無いという結論になってし
まう。
データを入手したら、まず散布図!
散布図を描くことで外れ値の存在を見抜くことが容易になる
ヒストグラムや散布図などの視覚的情報が有効
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 7 / 69
外れ値が相関係数に及ぼす影響
データ解析を行う時、外れ値の存在について十分な注意が必要
外れ値の存在によって相関係数の値が大きく変わってしまう
→本当は相関が見られるのに、相関は無いという結論になってし
まう。
データを入手したら、まず散布図!
散布図を描くことで外れ値の存在を見抜くことが容易になる
ヒストグラムや散布図などの視覚的情報が有効
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 8 / 69
外れ値の影響
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 9 / 69
外れ値の影響
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 10 / 69
外れ値の影響 -体重が 80,000kg以上のものを除いてみる
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 11 / 69
外れ値の影響 -体重が 80,000kg以上のものを除いてみる
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 12 / 69
外れ値の影響 -体重が 80,000kg以上のものを除いてみる
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 13 / 69
外れ値の影響 -体重が 2,000kg以上のものを除いてみる
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 14 / 69
外れ値の影響 -体重が 2,000kg以上のものを除いてみる
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 15 / 69
外れ値の影響 -体重が 2,000kg以上のものを除いてみる
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 16 / 69
外れ値の影響 - Humanを除いてみる
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 17 / 69
外れ値の影響 - Humanを除いてみる
Table: 動物の体重と脳の重さ
Species Body Weight Brain WeightMountain Beaver 1.35 8.1Cow 465 423Grey Wolf 36.33 119.5Goat 27.66 115Guinea Pig 1.04 5.5Diplodocus 11700 50Asian Elephant 2547 4603Donkey 187.1 419Horse 521 655Potar Monkey 10 115Cat 3.3 25.6Giraffe 529 680Gorilla 207 406Human 62 1320
Species Body Weight Brain WeightAfrican Elephant 6654 5712Triceratops 9400 70Rhesus Monkey 6.8 179Kangaroo 35 56Hamster 0.12 1Mouse 0.023 0.4Rabbit 2.5 12.1Sheep 55.5 175Jaguar 100 157Chimpanzee 52.16 440Brachiosaurus 87000 154.5Rat 0.28 1.9Mole 0.122 3Pig 192 180
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 18 / 69
外れ値の影響 - Humanを除いてみる
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 19 / 69
外れ値が相関係数に及ぼす影響
データ解析を行う時、外れ値の存在について十分な注意が必要
外れ値の存在によって相関係数の値が大きく変わってしまう
→本当は相関が見られるのに、相関は無いという結論になってし
まう。
データを入手したら、まず散布図!
散布図を描くことで外れ値の存在を見抜くことが容易になる
ヒストグラムや散布図などの視覚的情報が有効
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 20 / 69
散布図を出力
0 20000 60000
020
0040
00
brain.data$Body_Weight
brai
n.da
ta$B
rain
_Wei
ght
0 4000 8000 12000
020
0040
00
brain.data2$Body_Weight
brai
n.da
ta2$
Bra
in_W
eigh
t
0 100 300 500
040
080
012
00
brain.data3$Body_Weight
brai
n.da
ta3$
Bra
in_W
eigh
t
0 100 300 500
020
040
060
0
brain.data4$Body_Weight
brai
n.da
ta4$
Bra
in_W
eigh
t
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 21 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 22 / 69
統計解析で分かること・分からないこと
統計的な処理において、個々の分析手法では限られた一面的な情報
しか得られないことが多い
目的に応じていろいろな観点から情報を補う必要がある
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 23 / 69
統計解析で分かること・分からないこと
下表の子供のゲーム時間と親の認識について、以下の分析を行い、
「分かること」と「分からないこと」を考える
xと yのそれぞれについて、度数分布、代表値、散布度を求めるxと yの差について、度数分布、代表値、散布度を求めるxと yの相関係数を求めるxを独立変数、yを従属変数として回帰式を求める
Table: 子供のゲーム時間と親の認識
親子 x y1 290 3502 50 703 80 1004 100 1305 200 2506 350 4307 430 5208 80 1009 210 260
10 110 140
親子 x y11 70 9012 260 32013 220 27014 330 40015 170 21016 420 51017 80 10018 300 37019 290 35020 230 280
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 24 / 69
xと yの度数分布、代表値、散布度
Histogram of x
x
Fre
quen
cy
0 100 200 300 400 500 600
02
46
Histogram of y
y
Fre
quen
cy
0 100 200 300 400 500 6000
24
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 25 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かること
それぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと
個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る
「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと
個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かる
x と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと
個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと
個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと
個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない
差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない
差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの度数分布、代表値、散布度から分かること・分からないこと
分かることそれぞれの変数が別個にどのような分布をしているかを把握出来る「x と y のずれ」という観点で見た場合、それぞれの変数に関する集団全体の平均値にどれくらいの佐賀あることが分かるx と y の分布がほとんど重なっていないような場合であれば、両者のずれに関してある程度の情報は得られる
分からないこと個々の親子について、実態と親の認識の間にどれくらいのずれがあるのかということは分からない差の平均値が正であっても、個々の親子で見たときに「全ての親が実態よりも長く認識している」ということはもとより、「実態よりも長く認識している親の方が多い」という証拠にもならない差の平均値がぴったり一致したり、両者の分布そのものがぴったり一致しても「親の認識は実態とずれていない」と結論付けることは出来ない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 26 / 69
xと yの差の度数分布、代表値、散布度
Histogram of yx
yx
Fre
quen
cy
20 30 40 50 60 70 80 90
01
23
45
67
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 27 / 69
xと yの差の度数分布、代表値、散布度から分かること・分からないこと
分かること
実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる
分からないこと
ずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69
xと yの差の度数分布、代表値、散布度から分かること・分からないこと
分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる
分からないこと
ずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69
xと yの差の度数分布、代表値、散布度から分かること・分からないこと
分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる
分からないこと
ずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69
xと yの差の度数分布、代表値、散布度から分かること・分からないこと
分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる
分からないことずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない
全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69
xと yの差の度数分布、代表値、散布度から分かること・分からないこと
分かること実態と認識のずれが全体的にどれくらい大きいのか、大きいほうにずれることが多いのか小さいほうにずれるほうが多いのか、ずれの大きさの個人差はどれくらいあるのかということが分かる
分からないことずれ方にある一定のパターンがあるような場合には、ずれの個人差を説明することが出来ない全体的に「どれくらい」ずれているかは分かるが、「どのように」ずれているかは分からない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 28 / 69
xと yの相関係数と回帰式
100 200 300 400
100
200
300
400
500
x
y
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 29 / 69
xと yの相関係数から分かること・分からないこと
分かること
子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと
相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの相関係数から分かること・分からないこと
分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる
相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと
相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの相関係数から分かること・分からないこと
分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言える
r が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと
相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの相関係数から分かること・分からないこと
分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと
相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの相関係数から分かること・分からないこと
分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと
相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの相関係数から分かること・分からないこと
分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと相関係数の値からは「ずれの大きさ」に関する情報は得られない
全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの相関係数から分かること・分からないこと
分かること子供がゲームを長時間しているほど親の認識もそれに伴って長くなっているかどうかが分かる相関係数 r = 0 ならば、とりあえず「親は子供のゲーム時間を全く把握できておらず、回答はデタラメである」ということは言えるr が負であれば「子供が長時間ゲームをするほど親は逆に短時間であると回答している」ということが分かる
分からないこと相関係数の値からは「ずれの大きさ」に関する情報は得られない全ての親子についてずれが全く無い場合は r = 1 になるが、逆に r = 1 であっても、親は子供のゲーム時間を正しく認識していることにはならない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 30 / 69
xと yの回帰式から分かること・分からないこと
分かること
子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る
分からないこと
2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69
xと yの回帰式から分かること・分からないこと
分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる
2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る
分からないこと
2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69
xと yの回帰式から分かること・分からないこと
分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る
分からないこと
2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69
xと yの回帰式から分かること・分からないこと
分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る
分からないこと
2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69
xと yの回帰式から分かること・分からないこと
分かること子供のゲーム時間が○○のとき、親が認識する時間は、△△くらいであるということが分かる2 変数間に強い相関があれば、実際のゲーム時間に対して親の認識がどれくらいずれているかということを回帰直線から知ることが出来る
分からないこと2 変数間の相関がそれほど強くない場合は、予測値の誤差が大きくなるため、個々の様子を見たときに、y > x であったとしても実際のデータでは、y < x となっているケースが多く見られることもある
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 31 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 32 / 69
二項検定
二項検定とは
例
北海道日本ハムファイターズと東北楽天ゴールデンイーグルスはどち
らが強い?
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 33 / 69
二項検定
二項検定とは
例
北海道日本ハムファイターズと東北楽天ゴールデンイーグルスはどち
らが強い?
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 34 / 69
二項検定とは
2つのカテゴリに分類されたデータの比率が、理論的に期待される分布から有意に偏っているかどうかを、二項分布を利用して調べる統計学的検定
二項分布離散型確率変数 X = 0, 1, 2, ..., nについて、確率関数 Pk が
Pk =n Ck pk · qn−k (k = 0, 1, 2, ..., n, 0 < p < 1, p + q = 1)で表される確率分布。
二項分布のグラフ
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
0.25
0.30
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 35 / 69
二項検定
二項検定とは
例
北海道日本ハムファイターズと東北楽天ゴールデンイーグルスはどち
らが強い?
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 36 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 37 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 38 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 39 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 40 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 41 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 42 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 43 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 44 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 45 / 69
例 -日ハムと楽天はどちらが強い?
2006 年のパシフィック・リーグで、北海道日本ハムファイターズ(以下、「日ハム」)と東北楽天ゴールデンイーグルス(以下、「楽天」)の対戦成績は 20 戦して、日本ハム 17 勝、楽天 3 勝でした。この結果から、日ハムは楽天よりも強いといえるでしょうか?
帰無仮説と対立仮説の設定帰無仮説 H0 : 日ハムと楽天の強さは等しい対立仮説 H1 : 日ハムは楽天よりも強い
検定統計量の選択日ハムの勝利数
優位水準 αの決定5%、片側検定
検定統計量の実現値を求める日ハムの勝利数 17
帰無仮説の棄却 or採択の決定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 46 / 69
例 -日ハムと楽天はどちらが強い?
0 5 10 15 20
0.00
0.05
0.10
0.15
win
dbin
om(w
in, 2
0, 0
.5)
以上のように、二項検定を用いて、日ハムが楽天より強いかどうかを検討する
ことが出来た。
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 47 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 48 / 69
プリ・ポストデザインデータの分析
プリ・ポストデザインとは
例
共分散分析
t検定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 49 / 69
プリ・ポストデザインデータの分析
プリ・ポストデザインとは
例
共分散分析
t検定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 50 / 69
プリ・ポストデザインとは
実験計画で利用される代表的なデザイン
実験群と統制群を用意して、事前と事後でデータを取り、実験操作
の効果を検討する
分析方法
共分散分析を使用する方法
ポストテストの値を従属変数、プリテストの値を統制変数として、群
の効果に関する共分散分析を行う
t検定を使用する方法「ポストテストの値 -プリテストの値」である変化量に関して、t検定によって群の効果について吟味する
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 51 / 69
プリ・ポストデザインとは
実験計画で利用される代表的なデザイン
実験群と統制群を用意して、事前と事後でデータを取り、実験操作
の効果を検討する
分析方法
共分散分析を使用する方法
ポストテストの値を従属変数、プリテストの値を共変数として、群の
効果に関する共分散分析を行う
t検定を使用する方法「ポストテストの値 -プリテストの値」である変化量に関して、t検定によって群の効果について吟味する
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 52 / 69
プリ・ポストデザイン -共分散分析
この分析における操作の主効果
実験群、統制群のポストテストの値における、プリテストの値から説
明できる部分を除いたものの比較になる
ポストテストの変動 = プリテストによる変動 + グループによる変動 + 誤差変動
共分散分析の前提回帰係数の等質性
実験群と統制群において、共変量と従属変数の関係は同じ
回帰の有意性
共変量と従属変数の間に有意な関係がなければ、それは従属変数に影響
を及ぼさない
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 53 / 69
プリ・ポストデザインとは
実験計画で利用される代表的なデザイン
実験群と統制群を用意して、事前と事後でデータを取り、実験操作
の効果を検討する
分析方法
共分散分析を使用する方法
ポストテストの値を従属変数、プリテストの値を統制変数として、群
の効果に関する共分散分析を行う
t検定を使用する方法「ポストテストの値 -プリテストの値」である変化量に関して、t検定によって群の効果について吟味する
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 54 / 69
プリ・ポストデザインデータの分析
プリ・ポストデザインとは
例
共分散分析
t検定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 55 / 69
例 -共分散分析
4つの大学院生に実施した抜き打ちテストの問題
Table: 統制群
被験者 プリテスト ポストテスト
1 35 402 40 233 39 284 18 465 22 476 41 427 41 278 47 33
Table: 実験群
被験者 プリテスト ポストテスト
9 35 3610 41 7111 28 7012 28 5513 41 4614 32 7115 42 5216 42 52
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 56 / 69
例 -共分散分析
lm関数を使う方法
aov関数を使う方法
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 57 / 69
プリ・ポストデザインデータの分析
プリ・ポストデザインとは
例
共分散分析
t検定
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 58 / 69
例 - t検定
4つの大学院生に実施した抜き打ちテストの問題
Table: 統制群
被験者 プリテスト ポストテスト 変化量
1 35 40 52 40 23 -173 39 28 -114 18 46 285 22 47 256 41 42 17 41 27 -148 47 33 -14
Table: 実験群
被験者 プリテスト ポストテスト 変化量
9 35 36 110 41 71 3011 28 70 4212 28 55 2713 41 46 514 32 71 3915 42 52 1016 42 52 10
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 59 / 69
例 - t検定
変化量について、分散の等質性を確認し、変化量について t 検定を実行する。
検定統計量が t = −2.3771、p 値が p − value = 0.03225 となるので、5% 水準で有意となる
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 60 / 69
AGENDA
自己紹介
外れ値が相関係数に及ぼす影響
統計解析で分かること・分からないこと
二項検定
プリ・ポストデザインデータの分析
質問紙尺度データの処理
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 61 / 69
質問尺度データの処理
質問尺度とは
例
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 62 / 69
質問尺度データの処理
質問尺度とは
例
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 63 / 69
質問尺度とは
「質問用紙の項目内用」と「回答の得点化の方法」のセットが、数
値割り当ての規則
質問用紙の例
1:全くそう思わない、2:あまりそう思わない、3:どちらでもない、4:ややそう思う、5:非常にそう思う
Q1. 結局自分は一人でしかないと思う 1 2 3 4 5Q2. 自分の問題は、最後は自分で解決しなくてはならないのだと思う 1 2 3 4 5Q3. 人間は本来、一人ぼっちなのだと思う 1 2 3 4 5Q4. 結局、人間は一人で生きるように運命付けられていると思う 1 2 3 4 5Q5. 私とまったく同じ考えや感じを持っている人が必ずどこかにいると思う 1 2 3 4 5Q6. 私の人生と同じ人生は、過去にも未来にもないと思う 1 2 3 4 5Q7. どんな親しい人も、結局自分とは別個の人間であると思う 1 2 3 4 5
回答の得点化の方法は、「非常にそう思う」を選んだら 5 点、順に 4、3、2、1 という項目得点を与える。ただし、Q5 だけは、逆順とする
妥当性と信頼性
妥当性 : 測ろうとしているものを正しく測ることが出来ているか信頼性 : 測定の結果が一貫しているか
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 64 / 69
質問尺度データの処理
質問尺度とは
例
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 65 / 69
質問尺度データの処理の例
psy パッケージのサンプルデータ expsy を取り出し、必要な部分だけ取り出す
逆転項目の処理と尺度得点の計算
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 66 / 69
質問尺度データの処理の例
尺度得点を追加し、α 係数を求める
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 67 / 69
ご静聴ありがとうございました。
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 68 / 69
参考文献
Rによるやさしい統計学
yokkuns: 里 洋平 (第 4 回 R 勉強会@東京 (Tokyo.R#04))「R によるやさしい統計学」第 10 章~第 14 章 2010/04/24 69 / 69