統計解析ソフト入門 - meiji.ac.jp · 図3.11:「 2...
TRANSCRIPT
統計解析ソフト入門
SPSS
明治大学教育の情報化推進本部
IZM201904
1
目次
1章 SPSSの基礎・基本 .............................................................................. 2
1.1 はじめに ..................................................................................................................................... 2
1.2 基本操作方法 .............................................................................................................................. 2
2章 データの編集 ........................................................................................ 5
2.1 はじめに ..................................................................................................................................... 5
2.2 値ラベルの利用 .......................................................................................................................... 5
2.3 計算結果に基づく新変数の作成 ................................................................................................ 6
2.4 値のグループ化 .......................................................................................................................... 7
2.5 値の昇順・降順 .......................................................................................................................... 8
3章 統計解析の基礎 ..................................................................................... 9
3.1 はじめに ..................................................................................................................................... 9
3.2 基本統計量 ................................................................................................................................. 9
3.3 度数分布表 ............................................................................................................................... 12
3.4 ヒストグラム ............................................................................................................................ 13
3.5 散布図と相関係数 .................................................................................................................... 14
3.6 クロス集計―2種類の質的データの分析(独立性の検定) ........................................................ 16
3.7 回帰分析 ................................................................................................................................... 18
4章 グラフの作成 ...................................................................................... 21
4.1 はじめに ................................................................................................................................... 21
4.2 棒グラフ ................................................................................................................................... 21
4.3 グラフの編集方法 .................................................................................................................... 22
4.4 円グラフ ................................................................................................................................... 24
4.5 欠損値について ........................................................................................................................ 25
5章 付録 .................................................................................................... 26
5.1 統計学の主な目的 .................................................................................................................... 26
5.2 独立性検定の手順(対立仮説と帰無仮説) ............................................................................ 26
5.3 用語集 ....................................................................................................................................... 27
2
1章 SPSSの基礎・基本
1.1 はじめに
このテキストは、SPSSの基本操作の習得を目指して作成されたものである。SPSS とは、統計解析ソ
フトウェアの製品群のことであり、現在では IBM 社の製品となっている。講習会では、「SPSS Statistic
ver.25」を扱う。以下では、単に「SPSS」と表記してある場合、この「SPSS Statistic ver.25」を指すこと
とする。SPSSの特徴は、信頼が高いこと、簡便であることである。SPSSの開発以来、統計処理ソフト
の代表的存在であり、GUIによる操作で excelなどよりも簡単に、高度な統計解析を行うことが可能と
なっている。本テキストでは、2章で簡単なデータの編集、3章で統計解析の基礎、4章でグラフの作
成の説明を行っている。
1.2 基本操作方法
・起動方法
スタート→すべてのプログラム→IBM
→IBM SPSS Statistics 25
図 1.1:起動方法
起動後に下記の画面が表示される。
図 1.2:ダイアログ選択画面
3
新規で作成する場合、先ほどのダイアログは右上のボタンから閉じます。
閉じると下記の新規データ作成画面が表示されます。
図 1.3:SPSSの表示画面(データエディタ)。セルで区切られている。
注意:SPSSは「データエディタ」と「ビューア」で構成される。
・データの入力方法
① 「変数ビュー」で定義
図 1.4:変数ビューの入力例
② 「データビュー」で入力
図 1.5:データビューの入力例
③ 但し、excelなどからデータを「コピー」「貼り付け」もしくは読み込むことも可能
4
注意:データビューと変数ビューについて
⚫ データビュー:データの入力を行う。
⚫ 変数ビュー:入力するデータの定義を行う。以下を設定する。
✓ 名前:表示させる名前。
✓ 型:数値型や文字列型などデータの型を定義。
✓ 小数桁数:表示する小数点以下の桁数。
✓ ラベル:データの説明部分。グラフなどで表示される。
✓ 値:指定することで表示を変換できる(例:1→男)。
✓ 尺度:名義データ、順序データ、スケールデータに分類する(重要)。
名義データ:名前、性別などの順列をつけられない「質的データ」
順序データ:年代などの順列をつけられる「質的データ」
スケールデータ:身長などの「量的データ」
注意:上記の例において身長2は以下の区分とした。
表 1.1:身長2の区分
・ファイルの保存
ファイル(F)→名前を付けて保存(A)→ファイルの場所、ファイル名の指定→保存
注意:データエディタ(データビュー及び変数ビュー)のデータに関しては拡張子「.sav」で保存される。一方、ビューアの
データに関しては「.spv」で保存される。それぞれを保存することに注意してほしい。
・ファイルを開く(データエディタの場合)
ファイル(F)→開く(O)→データ(A)→ファイル名の指定→開く
注意:excelデータなどを開くこともできる。ファイル名を指定する際、ファイルの種類を「すべてのファイル(*.*)」など
に変更すればよい。
・ファイルを開く(ビューアの場合)
ファイル(F)→開く(O)→出力(O)→ファイル名の指定→開く
身長[cm] 区分150未満 1150以上 2160以上 3170以上 4180以上 5
5
2章 データの編集
2.1 はじめに
この章では、セルに入力されたデータに関しての簡単な編集・処理として、「値ラベルの利用」や「値
のグループ化」などを扱う。実際に、「SPSS 講習会例題.sav」を例題として操作方法などを紹介してい
く。まずは「SPSS講習会例題.sav」を開く。
2.2 値ラベルの利用
例:「性別が「1(2)」と表示されているのを「男性(女性)」と表示したい」
・操作方法
① 変数ビューにおいて、「性別」の列にある「値」セルをクリック→ をクリック
② 値(U)に<1>、ラベル(L)に<男性>と入力→追加(A)
③ 値(U)に<2>、ラベル(L)に<女性>と入力→追加(A)→OK
注意:<○○○>と入力する場合、記号<>は入力しない(文中においては、入力する文字と文章とを区別するために記号
<>を使用している)。
図 2.1:「値ラベル」の設定画面
④ データビューにおいて、表示→値ラベルにチェック
図 2.2:「値ラベル」のチェック画面
6
2.3 計算結果に基づく新変数の作成
例:「BMI(肥満度)を求めたい」 ※BMI =体重[kg]
身長[m]2
・操作方法
① 変換(T)→変数の計算(C)
② 目標変数(T)に<BMI>と入力する
③ 数式(E)に→図 2.2のように入力(キーボードから直接入力でも可)→OK
【 体重 kg / (身長 cm / 100) ** 2 】
④ 変数ビューにおいて、「BMI」の尺度を「スケール」と変更する
図 2.3:「変数の計算」の設定画面
右図のようなビューアが
表示されるが、使用しない際は
最小化か閉じてしまっても
問題ありません。
図 2.4:「出力 1[ドキュメント 1]ビューア」の画面
7
2.4 値のグループ化
例:「年齢を 10歳 (年代) ごとに区切りたい」
・操作方法
① 変換(T)→他の変数への値の再割り当て(R)
② 入力変数->出力変数に<年齢>をドラッグ→名前(N)に<年代>と入力→変更(H)
③ 今までの値と新しい値(O)→今までの値/範囲(N)に<20>から(T)<29>と入力→新しい値/
値(L)に<20>と入力→追加(A)
図 2.5:「他の変数への値の再割り当て」の設定画面
図 2.6:「今までの値と新しい値」の設定画面
8
④ 同様に、30から 39⇒30、40から 49⇒40、50から 59⇒50と入力
⑤ 今までの値/範囲:下の値から最大値まで(E)に<60>入力→新しい値/値(L)に<60>と入力
→追加(A)→続行→OK
⑥ 変数ビューにおいて、「年代」の尺度を「順序」に変更する
⑦ 「年代」の値ラベルを 20=20代のように設定する→30以降も同様に設定する
図 2.7:「値ラベル」の設定画面
2.5 値の昇順・降順
例:「テストの点数の良い順に並べ替えたい」
・操作方法
① データ(D)→ケースの並べ替え(O)
② 並べ替え(S)に<テスト>をドラッグ→降順(D)にチェック→OK
図 2.8:「ケースの並び替え」の設定画面
9
3章 統計解析の基礎
3.1 はじめに
この章では、統計解析の基礎として、「基本統計量(平均など)」、「度数分布表」、「回帰分析」などを扱
う。それぞれに関しては統計学として扱うのではなく、SPSSの操作方法を主として扱うことに注意され
たい。
3.2 基本統計量
例:「身長の平均などを知りたい」
・操作手順①:すべてのデータをまとめて扱うとき
① 分析(A)→記述統計(E)→記述統計(D)
② 変数に身長をドラッグ
③ オプション(O)→平均値(M)など、求める項目にチェック→続行→OK
図 3.1:「記述統計量」の設定画面
・結果①:
表 3.1:記述統計量
10
・操作方法②:「男女別の身長」のような条件があるとき
① 分析(A)→記述統計(E)→探索的(E)
② 従属変数(D)に<身長 cm>、因子(F)に<性別>をドラッグ
③ 統計量(S)→記述統計量(D)、外れ値(O)にチェック→続行
④ 作図(T)→従属変数ごとの因子レベル(F)、ヒストグラム(H)にチェック→続行→OK
図 3.2:「探索的」の設定画面
図 3.3:「探索的分析:統計」の設定画面
図 3.4:「探索的分析:作図」の設定画面
11
・結果②
表 3.2記述統計
表 3.3:ヒストグラム
12
3.3 度数分布表
例:「県別の出身者数を知りたい」
・操作方法①:度数分布表のみを作成する場合
① 分析(A)→記述統計(E)→度数分布表(F)
② 変数に<出身地>をドラッグ→OK
図 3.5:「度数分布表」の設定画面
・操作方法②:棒グラフも同時に作成する場合
① 分析(A)→記述統計(E)→度数分布表(F)
② 変数に<出身地>をドラッグ
③ 図表(C)→棒グラフ(B)にチェック→続行→OK
・結果
表 3.4:出身地
図 3.6:図表の設定画面
13
3.4 ヒストグラム
例:「男女別の身長の分布を知りたい」
・操作方法
① グラフ(G)→レガシーダイアログ(L)→ヒストグラム(I)
② 変数に<身長 cm>をドラッグ→行(W)に<性別>をドラッグ→OK
図 3.7:「ヒストグラム」の設定画面
・結果
図 3.8:男女別の身長の分布図
14
3.5 散布図と相関係数
例:「身長と体重にはどんな関係があるのだろうか」
・散布図の作成方法
① グラフ(G)→レガシーダイアログ(L)→散布図/ドット(S)→単純な散布→定義
② Y軸(Y)に<体重 kg>、X軸(X)に<身長 cm>をドラッグ→OK
図 3.9:「単純散布図」の設定画面
図 3.10:身長と体重の散布図
15
・相関係数の求め方
① 分析(A)→相関(C)→2変量(B)
② 変数(U)に<身長 cm>と<体重 kg>をドラッグ→OK
図 3.11:「2変量の相関分析」の設定画面
・結果
表 3.5:相関分析結果
注意:相関係数について
相関係数とは、2変量にどの程度の関係性があるかを表す指標であり、おおまかに以下のような関係と
なっている。
表 3.6:相関係数
よって、上記の身長と体重の例では、「中程度の正の相関がある」といえる。
相関係数 関係性
-1~-0.7 強い負の相関がある
-0.7~-0.4 中程度の負の相関がある-0.4~-0.2 弱い負の相関がある-0.2~0.2 ほとんど相関がない0.2~0.4 弱い正の相関がある0.4~0.7 中程度の正の相関がある0.7~1 強い正の相関がある
16
3.6 クロス集計―2種類の質的データの分析(独立性の検定)
例:「性別によってお酒の好き嫌いに違いはあるのか?」
・一般的な手順
① 「性別によって違いがある(関連性がある)」と仮定(対立仮定、2つの変数は独立ではない)する。
② 「性別によって違いはない(関連性はない)」と仮定(帰無仮定、2つの変数は独立である)する。
③ カイ二乗検定を行う=SPSSを用いる。
④ 有意確率が 0.05(0.01)以下であるならば、5(1)%の有意水準で「2 つの変数は独立である」という帰
無仮説は棄却=対立仮説の採択=「性別によって違いがある」。
・カイ二乗検定の操作方法
① 分析(A)→記述統計(E)→クロス集計表(C)
② 行(O)に<性別>、列(C)に<お酒が好きか?[アンケート 2]>をドラッグ
③ 統計量(S)→カイ 2乗(H)にチェック→続行
④ クラスタ棒グラフの表示(B)にチェック→OK
図 3.12:「クロス集計表」の設定画面
・結果
表 3.7:カイ 2乗検定結果
17
・棒グラフの編集方法
① ビューアにおいて、棒グラフをダブルクリック=図表エディタ、プロパティが開く
② 図表エディタにおいて、棒の部分をダブルクリック=棒の周りが黄線で囲まれる、プロパティが
変化
③ プロパティ(変数)において、「お酒が好きか?」を<XCluster>→<積み上げ>に変更→適用(A)
④ 図表エディタにおいて、100%に尺度設定(S) をクリック
⑤ 図表エディタにおいて、棒の部分を右クリック→「データラベルの表示」を選択→閉じる
図 3.13:図表エディタの変数プロパティ画面 図 3.14:データラベルの表示画面
図 3.15:性別におけるお酒の好き嫌いの比較
Pearsonのカイ 2乗の漸近有意確率(両側)が.000なので、1%の有意水準で帰無仮説は棄却。
すなわち、性別によってお酒の好き嫌いに違いがあるといえる。
18
3.7 回帰分析
例:「広告費から売上高を予測したい(「広告費と売上高.sav」を用いる)」
・一般的な手順
① 「広告費と売上高には関連性がある」と仮定(対立仮定)する。
② 「広告費と売上高には関連性はない」と仮定(帰無仮定)する。
③ 散布図、回帰直線を描く=SPSSを用いる。
④ 相関係数を求める=SPSSを用いる。
⑤ 回帰分析を行う=SPSSを用いる。
⑥ モデル(広告費と売上高の関係)を評価する(寄与率、F値など)。
・散布図、回帰直線の描き方
① グラフ(G)→レガシーダイアログ(L)→散布図/ドット(S)→単純な散布→定義
② Y軸(Y)に<売上高>、X軸(X)に<広告費>をドラッグ→OK
③ ビューアにおいて、グラフをダブルクリック=図表エディタが開く
④ 図表エディタにおいて、<合計での線の当てはめ> をクリック→閉じる
・相関係数の求め方
① 分析(A)→相関(C)→2変量(B)
② 変数(U)に<広告費>と<売上高>をドラッグ→OK
図 3.16:合計での線の当てはめの設定画面
19
・回帰分析の操作方法
① 分析(A)→回帰(R)→線型(L)
② 従属変数(D):売上高、独立変数(I):広告費をドラッグ→OK
図 3.17:「線型回帰」の設定画面
・結果
図 3.18:広告費と売上高の関係
20
表 3.8:相関分析結果
表 3.9:モデル集計結果
表 3.10:分散分析結果
表 3.11:係数
広告費と売上高には「強い正の相関がある」ことがわかる。また、分散分析における F値の有意確率
は 0.000なので、5%の有意水準で帰無仮説を棄却する。すなわち、寄与率(R2乗値)88.8%、回帰直線:
(売上高)=2.083×(広告費)-21.046で、広告費と売上高には関係があると言える。
21
4章 グラフの作成
4.1 はじめに
この章では、2章から3章で用いた SPSS 研修会例題.sav のデータに関して、グラフを作成・編集方
法について述べる。今回は、「棒グラフ」と「円グラフ」を作成・編集する。また、「欠損値の処理」につ
いても簡単に述べる。
4.2 棒グラフ
例:「県別の出身者数の棒グラフを描く」
・操作方法①
① グラフ(G)→レガシーダイアログ(L)→棒(B)→(単純→グループごとの集計(G)→)定義
② カテゴリ軸(X)に<出身地>をドラッグ→OK
図 4.1:「単純棒グラフ」の設定画面
図 4.2:「単純棒グラフ」の定義画面
22
4.3 グラフの編集方法
・操作方法
① ビューアにおいて、グラフをダブルクリック=図表エディタが開く
② 図表エディタにおいて、アイコンをクリック(編集①)
③ 図表エディタにおいて、変更したい部分をダブルクリック=黄線で囲まれる、プロパティが開く
→プロパティで変更する(編集②)
④ 図表エディタを閉じる
図 4.3:図表エディタの例
・グラフの編集例
編集①の例―タイトルの挿入
タイトルの挿入 をクリック→タイトルを入力→適当な場所をクリック
編集②の例―グラフの色の変更
グラフ部分をダブルクリック=黄線で囲まれる、プロパティが開く→塗りつぶしと枠線において、好き
な色を選択→適用
23
文字の編集方法
変更したい部分をダブルクリック=黄線で囲まれる、プロパティが開く→もう一度クリック→文字を
入力する→適当な場所をクリック
棒グラフを3Dにする方法
棒グラフをダブルクリック=黄線で囲まれる、プロパティが開く→<奥行きと角度>から効果の<3
D>を選択する→適用
図 4.4:グラフ例
24
4.4 円グラフ
例:「携帯キャリアの割合を表す」
・操作方法
① グラフ(G)→レガシーダイアログ(L)→円(E) →(グループごとの集計(G)→)定義
② 分割の定義(B)に<使用している携帯のキャリア[アンケート 1]]>をドラッグ→OK
③ ビューアの円グラフをダブルクリック=黄線で囲まれる、プロパティが開く→円グラフをクリ
ック→右クリックで<データラベルの表示>をクリック
④ プロパティの「データラベル値」の[表示]が「カウント」になっているため、表示させる項目を
[パーセント]に変更する→閉じる
図 4.5:「円グラフの定義」の設定画面 図 4.6:「データラベル値」の設定画面
・結果
図 4.7:携帯キャリアの割合(携帯を持っていない場合を含む)
25
4.5 欠損値について
欠損値とは、「無回答」や「無効回答」などを集計から除去する値のことである。例えば上記 3.4 の例
において、携帯電話を持っている人の中でのキャリアの割合を調べたい場合、携帯電話を「持っていな
い」人を「欠損値」として設定すれば良い。
・操作方法
① 変数ビューにおいて、「アンケート1」、「欠損値」セルをクリック→ をクリック
② 個別の欠損値(D)にチェック→<9>と入力→OK
③ 上記と同様に円グラフを作成する
図 4.8:「欠損値」の設定画面
図 4.9:携帯キャリアの割合(携帯を持っていない場合を除く)
このように、欠損値を設定すると、欠損値を除いたデータで処理を行う。
以上
26
5章 付録
5.1 統計学の主な目的
そもそも“統計”とは何なのでしょうか。そして、統計を扱う“統計学”というのは、どういう学問
なのでしょうか。私たちの周りには、数限りないデータがあります。データとは「何らかの目的のた
めに取得されたまとまった数値や符号の集合体」ですが、それらの集合体を漠然と見ても、そこから
は何も得ることはできません。データの数を数えたり、平均を出したり、傾向を見たり、分類をした
りと、何らかの手を加えることによって、初めてデータの性質や意味を知ることができ、活用するこ
とができるのです。
ある程度の数のデータには、必ずバラツキ(不確実性)が伴います。もし、ある学校のテストの点数
が全員同じであったら、平均点や順位、偏差値を出すことに全く意味はありません。一年中天気や気
温が一定であったとしたら、天気予報は要らないし、気温をグラフに描く必要もないのです。しかし、
実際には、学年やクラスによって点数は異なりますし、地域や日時によって天気も気温もばらつきま
す。それゆえ、クラス別の平均点や気温のグラフなどを描いて、クラスの特性を把握したり、明日の
気温の予測をしたりします。
統計学とは、ある程度以上の数のバラツキのあるデータの性質を調べたり、大きなデータ(母集団)
から一部を抜き取って、その抜き取ったデータ(標本)の性質を調べることで、元の大きなデータの
性質を推測したりするための方法論を体系化したものです。
※参考文献:『統計学とその応用』 田栗 正明,日本放送出版協会日経 BP社,ISBN:4-595-30556-7
5.2 独立性検定の手順(対立仮説と帰無仮説)
1. 仮説を立てる
対立仮説「2つの変数は独立ではない(関連がある)」
帰無仮説「2つの変数は独立である(関連がない)」
2. 仮説に対して
帰無仮説が正しいと仮定したとき、手元の標本同士の差は何%の確率で起こりえるか
(5%以下=反証できた場合)帰無仮説は棄却=対立仮説の採択
「2つの変数は独立ではない」(生じた差は偶然とはいえない)
(6%以上=反証できない場合)帰無仮説の受容
「2つの変数は独立である」(生じた差は偶然ではないといえない)
判断基準
5%水準(=それ以上の差が生じる確率が5%以下)
1%水準(=それ以上の差が生じる確率が1%以下)
27
5.3 用語集
用語 意味
回帰分析 分析対象の変数(目的変数 / 従属変数)を他の 1つまたは複数の変数(説明
変数 / 独立変数)により説明し予測しようとする手法。
カイ二乗検定 統計的仮説検定のうち、カイ二乗分布を用いる検定の総称。ただし、一般的
にはクロス集計表における行要素と列要素が独立かどうかを評価する検定
(独立性の検定)を指すことが多い。
記述統計 観測して得られた各データを整理したり要約したりする方法。
最頻値 モード。モード。単峰分布である分布で度数が最も大きい値。
質的データ 分類や種類を区別するためのデータ。そのままでは足したり引いたり演算の
できない変数。
信頼区間 区間推定において、ある確率(信頼係数)のもとで母数がその内に含まれる
と推定された区間のこと。信頼限界とも言う。
95%信頼区間とは、無作為抽出を 100回繰り返し、そのつど信頼区間を計算
した場合、95回くらいは信頼区間中に母数が含まれるということを示す。
順序尺度 分類の順序に意味があるもの。
重回帰分析 ある変数(目的変数)と他の複数の変数(説明変数)との関係を直線の式で
表し、その関係を分析する方法。多変量解析の中で最もポピュラーな分析手
法。
推測統計 一部(標本)のデータから全体(母集団)の状況を推測する方法。
スケール 比率尺度(データの間隔に意味があるもの)と間隔尺度(データの比率に意
味があるもの)を合わせたもの。
中央値 メジアン=M。変量の値を大きさ順で並べた際に中央にくる値。
標本 今回の実験・調査の対象。
平均値 全てのデータ値を足して、データの数で割ったもの。
母集団 推測を適応したい全ての事例・状況。
名義尺度 分類の順序に意味が無いもの。単なるラベル。
量的データ 数値として意味のあるデータ。足したり引いたり演算ができる変数。