データ分析(spss) 第0607回 前回の復習 共変関係を用いた...

12
データ分析(SPSS) 第0607 回 講義ノート p.1 講義担当:佐々木康成([email protected]前回の復習 共変関係を用いたデータ分析 共変関係 一方が変わると、もう一方も値が変わる関係 視覚的理解 散布図の作成 統計的分析 相関分析 重回帰分析 相関分析 二つの変数の間の直線的な関係を 1 つの値で表現する -1 〜 +1 の間の値を取る 0.7 < |r| ≦ 1.0:強い相関 0.4 < |r| ≦ 0.7:中程度の相関 0.2 < |r| ≦ 0.4:弱い相関 0.0 < |r| ≦ 0.2:相関無し 無相関検定の結果も確認して、相関の有意性を確認すること 重回帰分析 複数の独立変数から一つの従属変数の結果を予測する 従属変数を予測可能な「重回帰式」を作成する 当てはまりの良い式のためには試行錯誤が必要 重回帰分析の指標 決定係数(R 2 (あーるじじょう)) 独立変数全体で従属変数を予測・説明できる割合 従属変数の分散のうち何%を独立変数が説明して いるかの値 標準偏回帰係数(β) 各独立変数が従属変数に及ぼす影響の向きと大きさ 重回帰分析の注意点 多重共線性 因果関係と言っても良いのかどうか

Upload: others

Post on 25-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

データ分析(SPSS) 第 0607回講義ノート p.1講義担当:佐々木康成([email protected]

前回の復習共変関係を用いたデータ分析 共変関係 一方が変わると、もう一方も値が変わる関係 視覚的理解 散布図の作成 統計的分析 相関分析 重回帰分析

相関分析 二つの変数の間の直線的な関係を 1つの値で表現する -1 〜 +1の間の値を取る 0.7 < |r| ≦ 1.0:強い相関 0.4 < |r| ≦ 0.7:中程度の相関 0.2 < |r| ≦ 0.4:弱い相関 0.0 < |r| ≦ 0.2:相関無し 無相関検定の結果も確認して、相関の有意性を確認すること

重回帰分析 複数の独立変数から一つの従属変数の結果を予測する 従属変数を予測可能な「重回帰式」を作成する 当てはまりの良い式のためには試行錯誤が必要

重回帰分析の指標 決定係数(R2(あーるじじょう)) 独立変数全体で従属変数を予測・説明できる割合 従属変数の分散のうち何%を独立変数が説明して いるかの値 標準偏回帰係数(β) 各独立変数が従属変数に及ぼす影響の向きと大きさ

重回帰分析の注意点 多重共線性 因果関係と言っても良いのかどうか

データ分析(SPSS) 第 0607回講義ノート p.2講義担当:佐々木康成([email protected]

本日の内容 検定の考え方 カイ二乗検定

検定につながるたとえ話

研究者Aが無作為に大学生を 50人選んで、運動時間と鬱気分の共変関係を調査したとする。 その結果、相関係数が -0.6 だった。それを受けて研究者Aは、「運動時間と鬱気分の間には 負の中程度の相関関係がある」と結論した。 一方ライバル研究者Bは、「この研究は都合の良い被験者を用いて研究を行ったので 信頼できない。母集団では相関係数は 0かもしれない」と主張した。

研究者Aはどのようにして反論すべきか?

対処 1:母集団全体を調査する 母集団全体の性質は人間には絶対に分からない 対処 2:B の主張はあり得ないことを明示する B の主張のような母集団から、Aの取得したデータ が得られることが、ほとんどあり得ないことを示す

統計的検定 確率論に基づいて、対処 2を行うことをいう 仮説を立てて、その仮説が統計的に正しいかどうかを判断する 基本的には「条件間に差はない」という前提(帰無仮説)からはじめて、それを棄却できるか どうかを問題にする 事前にどの統計量を利用するか(どの分析を用いるか)を決める

検定の手法 帰無仮説と対立仮説の設定 検定方法の確定 有意水準αの設定 データの収集及び「検定統計量の実現値」の算出 検定統計量の実現値が 棄却域に入っていれば帰無仮説を棄却 棄却域に入らなければ帰無仮説の採択

帰無仮説の設定 統計的仮説の一つ 例えば(実験等の)操作による効果は無い 全ての群は同一の母集団からの無作為抽出による標本と 考える 帰無仮説の反対は対立仮説 「それぞれの群には差がある」 対立仮説 =研究仮説 =研究者の主張したい仮説

データ分析(SPSS) 第 0607回講義ノート p.3講義担当:佐々木康成([email protected]

有意水準の決定 もしも群の平均値に差がない(帰無仮説通り)なら「差が出る」こと は稀な出来事 稀なできごとが起きたなら、そもそもの仮説が誤りと見なせる →帰無仮説を棄却

稀なできごとが起きる確率 有意水準(αで表す) 多くの分野で一般的にα= 5%と置く α =.05 は「有意水準 5%」の意味

検定方法の確定 検定方法は検定したい内容によって変わる   2つの平均値に差があるかを検定したい :t 検定   3つ以上の平均値に差があるかを検定したい :分散分析   など 検定統計量の実現値の算出方法は、用いる検定方法に従う

棄却域を確認する 用いる検定統計量について、帰無仮説を採択した場合の標本分布を考える 帰無仮説下で稀な確率(=α)でしか起きない検定統計量の範囲を棄却域と呼ぶ

臨界値 帰無仮説が棄却される確率を有意水準= 5%と置いたときに、 実際に棄却するための棄却域の境界線を臨界値と呼ぶ

p 値 帰無仮説が正しいと仮定して、 標本から算出した検定統計量の実現値以上の値が得られる確率 p< αの時に帰無仮説を棄却 かつてはp<.05 やp<.01 というように記述した 最近では求めたp 値をそのまま記すことが多い 例:p=.02246

第 1種の誤りと第 2種の誤り 第 1種の誤り:「帰無仮説が真の時に棄却する」誤り 実際には差が無いのに「差がある!」と言ってしまう誤り 有意水準(危険率)=αと同じ確率で発生 第 2種の誤り:「帰無仮説が偽の時に採択する」誤り 実際には差があるのに「差があるといえない!」という誤り この確率はβで示される

データ分析(SPSS) 第 0607回講義ノート p.4講義担当:佐々木康成([email protected]

検定力 帰無仮説が偽のときに 第 2種の誤りを犯す確率+犯さない確率= 1 帰無仮説が偽のときに 1−第 2種の誤りの確率βは「誤りを犯さない確率」 これを「検定力」という 間違っている帰無仮説をきちんと棄却できる確率 研究の状況 データの質や量などによって変わる 実際には検定力検定を行う必要がある 興味のある人は調べてみること

すごく乱暴なまとめ 1. 帰無仮説を立てる 2. データを集めて検定統計量を算出する 3. 有意水準未満の p値が求まれば帰無仮説を棄却する p 値が有意水準を上回っていれば帰無仮説を採択する (つまり「何か意味のある差があるとは言えない」)

χ 2(カイ二乗)検定 ノンパラメトリック検定の一種 パラメトリック 母集団の特性を仮定している 例えば母集団の正規性・母集団同士の等分散性 ノンパラメトリック 母集団の特性を仮定しない 分布の形に依存しない

ノンパラメトリック検定を適用できる場面 あらゆる分布(正規分布で無くても良い) パラメトリックな検定方法が使えない場面 ただし t 検定や分散分析ができるならそれを使う データ数が比較的少なくても良い

ノンパラメトリック検定の例 χ 2 検定 名義尺度以上で利用可能 マンホイットニーのU検定 順序尺度以上で利用可能 t 検定に類似している分析 クラスカル・ウォリス検定 順序尺度以上で利用可能 分散分析に類似している分析

データ分析(SPSS) 第 0607回講義ノート p.5講義担当:佐々木康成([email protected]

χ 2 検定 χ 2 統計量を用いた検定をχ 2検定と呼ぶ 「データ数の偏り」に関する検定として用いることが可能 適合度の検定 観測データが理論分布と等しいかの検定 独立性の検定(比率の差の検定含む) 2 つの群の 2つの事象について互いに関係があるかどうかの検定

データは各群の各事象について 5以上のデータが配置されるようにすべき もしそれ未満だと「イェーツの補正」を行ったχ 2検定となる

χ 2検定における適合度の検定 既に出現確率が分かっている場合に使われる検定 理論値が求められている 「期待値」「期待度数」 期待度数 「正しい」サイコロは全ての面が 1/6 の確率で出る この時の「期待値」は 1/6 このサイコロを 60回振った時の「期待度数」は、 それぞれの面で 10回ずつ

60 回サイコロを振った時の期待度数 理論的には下のようになるはず

目 1 2 3 4 5 6理論値 10 10 10 10 10 10

では次のサイコロは「正しい」サイコロといえるか?目 1 2 3 4 5 6理論値 10 10 10 10 10 10標本 7 3 4 10 16 20

例題 上記のサイコロがイカサマサイコロかどうかχ 2検定を用いて 結論づけよ 期待度数からのズレが偶然か必然かを検定で確かめている 度数だけを用いてχ 2検定統計量を求めて検定を行っている

1. 帰無仮説:「全ての目の出現確率は等しい」 2. データを集めて検定統計量を算出する SPSS で計算を行う 3. 結果を適切に解釈して記述を行う

データ分析(SPSS) 第 0607回講義ノート p.6講義担当:佐々木康成([email protected]

データ入力

SPSSでの入力方法は二種類の手法が選択可能 生データでの入力 変数ビューの設定 変数名 :サイコロの目 型 :数値 尺度 :名義 データビューの入力 1 を 7つ 2を 3つ 3を 4つ……6を 20並べる(今までと同様) しかしデータ数が多くなると面倒 重み付け変数を利用した入力 変数ビューの設定 1 行目 変数名 :サイコロの目 型 :数値 尺度 :名義 2 行目 変数名 :出た回数 型 :数値 尺度 :スケール

〈データ〉→〈ケースの重み付け〉 「ケースの重み付け」ダイアログ 「度数変数」を設定 「OK」を押す

データ分析(SPSS) 第 0607回講義ノート p.7講義担当:佐々木康成([email protected]

サイコロの目 出た数    1  7    2  3    3  4    4  10    5  16    6  20 という形で入力が可能になる(Excel のシート参照)分析 〈分析〉→〈ノンパラメトリック検定〉→〈カイ2乗〉 〈分析〉→〈ノンパラメトリック検定〉→〈過去のダイアログ〉→〈カイ2乗〉

メニューはバージョンによってどちらか当てはまる方を適用のこと

検定変数リストに「サイコロの目」を指定 「OK」を押す分析結果 ビューシートに「サイコロの目」についての統計量が算出される

観測度数 実際に出た度数 期待度数 全ての出目の確率が同じ場合の度数 残差

「検定統計量 カイ二乗値 自由度 漸近有意確率

データ分析(SPSS) 第 0607回講義ノート p.8講義担当:佐々木康成([email protected]

χ 2 検定における適合度の検定の結果記述

……このサイコロを 60回振り、出た目を集計した結果を、表 1の 集計表に挙げる。この結果に基づいてカイ二乗検定を行い、この サイコロの 6種類の出目の確率が均質であるかどうかを検定した。 その結果【  】%水準で有意であった(χ 2=【   】,df=【  】 p<【    】)。この分析結果からこのサイコロの出目には偏りが 【   】ことが明らかになった。

続いて教科書 p.12 の例も分析する

ある調査の結果 性別 :男・女 成績 :高・中・低 からなる 6つのカテゴリーがある それぞれの人数が以下のデータの通りだった場合に、成績に偏りがあるかχ 2検定を行いて 結論づけよ

性別 成績1 11 31 11 32 22 31 22 21 32 11 22 22 21 31 1

クロス集計表 データが 2変数からなる場合には「クロス集計表」を用いる(今回はこのパターン) 〈分析〉→〈記述統計〉→〈クロス集計表〉

入力時の注意 データは Excel のシートに用意されているので効率よく入力 すること 値ラベルの設定をすることでデータがわかり易くなる 値ラベルは〈表示〉→〈値ラベル〉でデータシートに表示 できる

データ分析(SPSS) 第 0607回講義ノート p.9講義担当:佐々木康成([email protected]

「クロス集計表」ダイアログボックスで「行」と「列」に変数を指定 「統計量」ボタンを押す 「カイ 2乗」にチェック 「セル」ボタンを押す 「度数」の「期待」にチェック 「残差」の「標準化」にチェック ※ 残差:実数と期待値の差のこと

「続行」ボタンを押す 「クロス集計表」ダイアログボックスに戻る 「OK」ボタンを押す

分析結果の読み方 処理したケースの要約

データの大まかな結果が書かれている。ここでは欠損値についてのみ確認する

クロス表

それぞれのセルには 度数  期待度数 標準化残差 が表示されている 度数 は実際の観測されたデータ数 期待度数 は偏りが無かったと考えた時の理論的な度数 標準化残差 は実測した度数と期待度数との差を標準化した値 標準化されているので標準正規分布に従う

データ分析(SPSS) 第 0607回講義ノート p.10講義担当:佐々木康成([email protected]

カイ 2乗検定

χ 2 検定において一番大切な出力結果 偏りがあったかの検定結果が記されている 「Pearson のカイ 2乗」の「漸近有意確率」を読む

値が偏っているセルは「標準化残差」の値が「±1.96」以上(正規分布で両側確率 5%未満)のもの

この結果について教科書に書かれた記述を確認しましょう

χ 2検定の注意点 度数(数量)の検定のみに適用すること %などの割合のデータには適用できない 分割表で期待値が 1未満のセルが 1つでもある 期待値 0のセルがあってはならない 分割表で期待値が 5未満のセルが全体のセルの数の 20%以上ある 2x2 の分割表ならデータ数は 20以上無ければならない

データ分析(SPSS) 第 0607回講義ノート p.11講義担当:佐々木康成([email protected]

χ 2 検定の独立性の検定 「複数のカテゴリ変数の複数の事象の間に関係性があるか」の検定 例えば「性別間の喫煙者と非喫煙者の数に関係はあるか」 2×2 のクロス集計表にまとめてから分析

調査結果をクロス集計表にまとめる Excel のデータを SPSSでクロス集計表にまとめる

喫煙者 非喫煙者 合計

男性40 70 110

女性10 80 90

合計 50 150 200

ケースの重み付けを活用すること

独立性の検定 男女の喫煙率が異なるかどうか 帰無仮説は「事象は独立している(関係がない)」 性別と喫煙率は関係していない もし「性別に関係がない(独立している)」なら期待度数と一致するはず (どちらも同じ率で出現するはず)

独立ではない、という結果が出た後には、残差について考察し、実際にはどのように関連性が あるのかを記述する必要性があることに注意

本データについて、χ 2検定を用いて結論づけよ

データ分析(SPSS) 第 0607回講義ノート p.12講義担当:佐々木康成([email protected]

【第 6回・7回課題】問題 1あるくじ引きで、「一等」「二等」「三等」「四等」は同じ確率で出ると説明されているとする。しかし、実際の出目は以下の表の通りだった。くじ引きの本数にはごまかしがあるだろうか、χ 2検定を用いて検定せよ 出目 一等 二等 三等 四等 度数 15 20 20 25

問題 2ある学食で、カレーとうどんの人気について調べてみたところ、 男性ではカレーを選んだのは 40人、うどんを選んだのは 20人 女性ではカレーを選んだのは 10人、うどんを選んだのは 30人という結果になった。これについてカレーとうどんの人気に男女で違いがあるかカイ二乗検定を用いて判定せよ

問題 34面体のさいころを 40回振ったところ、以下のような結果になった 1 11 2 9 3 6 4 14このさいころに偏りがあるかどうかχ 2検定検定を用いて判定せよ

問題 4小学生の子供を持つ父親に子供とキャッチボールやその他のボール遊びをする頻度について調査をした結果、以下のような結果になった。頻度に偏りがあるかどうかχ 2検定を用いて明らかにせよ

子供とボール遊びをする頻度 高い そこそこ 低い 合計運動経験者 50  25 10 85運動未経験者 25  30 35 90合計 75  55 45 175