確率と統計 2009
Post on 08-Jan-2016
53 Views
Preview:
DESCRIPTION
TRANSCRIPT
確率と統計 2009
平成 20年 1 月 7 日 ( 木 )東京工科大学
亀田弘之
修正版 Version 3
復習
2
はじめにデータありき
1
2
59
1
7
68
1 4
2
社会調査や実験の実施により得られる3
データを全体として眺めるとき,集団として何らかの性質を持っている.
=>統計的性質この性質(分布の様子)を , 例えば,( 算術 ) 平均・中央値・モードなどのいわゆる代表値や,分散・標準偏差・範囲 (range) などで数値的に捕らえた.
定義や計算方法が重要.統計ソフトの利用も考えよう.4
統計ソフトウェア
EXCEL :お手軽?R :フリーソフトウェア(お勧め?)SPSS :本格的なソフトウェア(有償)SAS :本格的なソフトウェア(有償)
GnunPlot ・ Maxima なども便利(いろいろと学んでください.)
参考情報
日本計算機統計学会のページも参考にしてください。
http://www.jscs.or.jp/etc/softdata.html5
基本的な統計量
平均中央値モード最大値・最小値範囲分散標準偏差 など
6
平均
定義 : m =(x1 + x2 + ・・・ +Xn)÷n
意味:データ群の中心考え方:データ群の中心で,データ群 を代表させる.(代表値)特徴:量
の最小値を与える点. (基準点としてふさわしい)
222
21 )()()( mxmxmxT n
7
中央値定義:データを大きさの順に並べたときに 中央にくるデータ値.意味:順序的観点から真ん中辺り.考え方:順序的観点から中庸を捉えている. 真ん中辺りを代表値とする.特徴:飛び離れ値に影響されない. 量 の最小値を与える点.
|||||| 21 MxMxMxT n
8
モード
定義:度数(出現回数)がもっとも 多いデータ値.意味:多数派がデータ群を代表する.考え方:度数の多いもの程重要.特徴:飛び離れ値に影響されない. 代表値として素直な定義.
9
データの散らばりも大切
分散標準偏差範囲
10
範囲(レンジ)
定義: R = 最大値 ー 最小値考え方:データの存在範囲 (すべてのデータはこの 範囲内にある)特徴:計算が簡単 (工場などで実用されている)
11
分散
定義:
考え方:「各データの平均 m からのずれ」に着目して,その平方数の平均を求め,データ全体の散らばりを捉える.特徴:数学的に取り扱いやすい.
n
mxmxmx n22
22
1 )()()(
12
標準偏差
定義:分散の平方根(√分散)考え方:分散をもとに,データと同じ 次元の量にする.特徴:データに対して,足したり 引いたりすることができる.
13
以上で,得られたデータ群の特徴をとらえることができるようになった.
14
さて,…
15
知りたい対象(母集団)
1
61
4
7
3 5
母集団母集団
16
1
61
4
7
3 5
標本標本母集団母集団
1
1
5
3
無作為抽出無作為抽出
17
1
61
4
7
3 5
標本標本母集団母集団
1
1
5
3
統計的分析統計的分析
18
1
61
4
7
3 5
標本標本母集団母集団
1
1
5
3
統計的推論統計的推論
19
抽出法
無作為抽出法:どのデータも等確率で抽出されるようなサンプリング法.どの単純事象も等確率で取り出される抽出法. Laplace の確率の定義参照.高校で習った確率の定義で OK .詳しく知りたい人は,社会調査法などの勉強をしてください.(データは適切に集めなければ,分析しても意味がない.サンプル数の決め方なども重要です.)
20
分析法
統計的推定統計的検定
この授業では「モデルに基づく分析」を主に取り扱っているが,近年モデルに基づかない分析法も重要になっている.(例:データマイニングの分野)
21
統計的推定
点推定区間推定信頼区間信頼限界
興味のある人は,教科書 p.136~p.142 を参照のこと.
22
統計的検定
この授業では,まず,これを学んで欲しいと思っています.(理由:とにかく役に立つから. そして,なれないと結構 難しいから.)
23
仮説検定の考え方
前提:調査や実験によりある事実 E が得られた.この事実からあることを主張したい.(これを仮説という.)
方法論:モデルを仮定する(仮説設定:帰無仮説 H0)その仮説が正しいとして,事実 E の生起確率 p を計算する.p の値が異常に小さければ,仮説 H0を棄却する.(誤謬法の考え方)
24
検定の考え方の例
実験:サイコロを 600 回振ったら,1の目が180 回出た(事実 E ).主張したいこと:1の目が出やすい.仮説の設定:どの目も等確率で出る.E の生起確率 p の計算:p 0≒判断:出易い.
0600
600600
418182
182600
419181
181600
420180
180600
6
5
6
1
6
5
6
1
6
5
6
1
6
5
6
1
CC
CCp
計算方法と判断の基準の理解が重要25
(重要 )確率分布の相互関係図
26
例題(教科書 p.163例1)
ある市役所ではこれまで数年間銘柄 A の電球を購入していたが,銘柄 B の電球の方が価格が安いので Bへの切り替えを考えている.銘柄 B のセールスマンは自社の製品が品質において A の製品と同じであると主張している.数年間の経験によれば,製品 A の平均寿命は 1180時間で,標準偏差は 90時間であった.
27
製品 B のセールスマンの主張をテストするため,その銘柄の電球 100個を正規販売店から購入して試験をした.この結果, m=1140,s=80 が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか?
28
問題の整理
事実:製品 B の m=1140,s=80 製品 A の m=1180,s=90知りたいこと: B の方が劣っている.仮説: A と B は品質的に同等.確率の計算: B のデータの生起確率 p を,平均 μ=1180, 分散 σ2=90^2 の母集団からの抽出として計算する.危険率(有意水準) α を設定する.Α =10%とする.
29
確率の計算をしてみよう
30
理論的根拠(1)
標本平均の平均 m は母平均と等しい.標本平均の分散 σm
2は母分散のn分の1倍. (n は標本の大きさ )
つまり,E(m) = μ
E(σm2)=σ2/n
31
理論的根拠(2)
xが平均 μ ,分散 σ2 の任意の分布に従うとき,大きさnの無作為標本に基づく標本平均 m は,nが限りなく大きくなるとき,平均 μ ,分散 σ2 /n の正規分布に近づく.
中心極限の定理(統計学で1番重要な定理)
中心極限の定理(統計学で1番重要な定理)
教科書 p.130 定理2教科書 p.130 定理232
計算
標本平均の分散:90/√100 = 9
標準化:Z = (1140 – 1180) / 9 = -40/9 = -4.4
標準正規分布表(教科書 p.295 表 IV ):
Z がー∞~- 4.4 の範囲の値をとる確率は, p 0≒ .
33
判断
確率 p≒0 < 0.1 (10%) .おきにくい事が起きたのではなく,仮設が間違っていると考えて,仮設を捨てる.最終結論:有意水準 10%において, 銘柄 B は A よりも劣っている.
34
コメント
確率の計算方法を理解するためには,数学の勉強が必要であるが,検定をすることが目的の場合,基本的考え方と手順をしっかりとマスターすればよい.理論的なものは,必要に応じて,必要になったものだけを一生かけて勉強してください.
35
χ2検定
いろんな場面で使えて便利な検定法.(先ほどのサイコロの例を再び取り上げてみる.)
36
1の目が出る回数
他の目が出る回数
実測値 A 180 420 600
理論値 B 100 500 600
(A-B)2/B 64 64/5 合計76.8
自由度 φ= 2-1=1 37
χ2 = 76.8 > χ02 = 6.6( 有意水準 1%)
結論:有意水準1%のもとで,1の目は出やすい.
手法は異なっても結論は同じ手法は異なっても結論は同じ38
2つの平均の差の検定
先の電球 A , B の品質の差の問題を再度取り上げる.これは2つの平均同士に差があるかどうかの検定と考えることもできる.これを「2つの平均の差の検定問題」という.
教科書 p.172~ p.17639
定理
x1,x2がそれぞれ独立に平均 μ1,μ2,標準偏差 σ1,σ2の正規分布に従うとき,変数x1-x2 は
平均 μ1ー μ2,標準偏差 σx1-x2 = √(σx1
2+ σx22)
= √(σ12/n1 + σ2
2/n2)
の正規分布に従う. 40
仮説: A の平均と B の平均とは等しい.計算:変数 x1-x2 は,
平均 = 0標準偏差 = √ ( 90*90/100 + 80*80/100 ) = 12
の正規分布に従う.Z = (1140-1180)/12=-40/12=-10/3=-3.3Z がー 3.3 以下か+ 3.3 以上になる場合の正規分布曲線の面積を求めると,表 VI より, p 0≒結論: A と B の平均の差は同じではない.
41
コメント
「2つの平均の間に差があるのか?」はしばしば問題となるので,この検定方法は役に立つ.ただし今の場合,母分散 σ1,σ2 が既知である.これらが既知でない場合はもう一工夫が必要となる.( t検定を導入する必要がある.)
42
練習問題
43
Problem1
さいころを 180 回投げて、1の目の出る確率が 28 回以上、 34 回以下である確率を求めよ。
44
ヒント
1. B(n,p) の二項分布は、 n が十分大きければ、平均 np, 分散 np(1-p) の正規分布で近似できる。
2. N(μ, σ2) の正規分布は、標準化変換Z = (X – μ)/σ により、標準正規分N(0, 1) に変換される。
45
Problem2
1つのさいころを 120 回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準 5% で検定せよ。
目の数 1 2 3 4 5 6 合計
出現回数 19 31 17 23 11 19 120
46
Problem3
ある町で無作為に選ばれた 618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか?有意水準 5% で検定せよ。
罹病 健康 合計
予防接種した
予防接種せず
4 354
9 251
358
260
計 13 605 61847
Problem4結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか? ただし、有意水準 5% 。
学歴 結 婚 に 対 す る 適 応 性非常に低い 低い 高い 非常に高い
計
大学卒高校卒小中学卒
18 29 70 11519 28 30 4111 10 11 20
232 116 52
計 46 67 111 176 40048
ヒント
学歴 結 婚 に 対 す る 適 応 性非常に低い 低い 高い 非常に高い
計
大学卒高校卒小中学卒
27 39 64 10213 19 32 51 6 9 14 23
232 116 52
計 46 67 111 176 400
I. 理論値
II. 自由度 φ = ( 行数 ー 1)× (列数 ー 1) = (3-1 ) ・ (4 ー 1) = 6III. 計算値 χ2 = 20.7 > χ02 = 12.6
49
top related