14 欠損値に対応しよう ― 多重代入法とその他の代 …14...

39
14 欠損値に対応しよう 多重代入法とその他の代入法 1 1 欠損値の3つパターン 1. 実例から ある変数について得点が得られないのが欠損値 (missing value) である。例えば,面接をした際に不安の重症 度を測定し忘れたとか,アンケートで特定の項目に回答がないといったものがこれである。 ここで欠損値が発生する状況について詳しく見てみよう。まず,表のようなデータを入手したとしよう。学生 15 名に配布したアンケートで,親友の数と内向性を問う項目が評価されている。親友の数は実数で入力させた。 表から分かるように,その数は 2 名から 10 名までの幅を示した。一方,内向性については「当てはまらない (1)」 「どちらともいえない (2)」「当てはまる (3)」の 3 件法で評価した。学生の内向性と親友の数には一定の関連 があるというのがリサーチ・クエスチョンである。 すると 6 名の学生について親友の数の回答がなかった。これが欠損値である。回答がないから,通常は本当の 値が何であったかは分からない。しかし,仮に本当の回答が分かっていたという前提で話を進めよう。表 14-1 で 二重取り消し線をつけた値が欠損値である。データに欠損値がある場合,統計計算はどうすればよいのだろうか。 これにはいくつかの方法が用いられてきた。 ところで欠損値が発生するのには法則性があるのだろうか。例えば,親友が少ない学生は「親友の数」という 設問に答えたがらず,そのため欠損値が多くなるという傾向はないだろうか。そこで新しい変数「欠損の有無」 を作る。親友の数を答えていれば「欠損の有無」に 0 を,親友の数を答えていなければ「欠損の有無」に 1 を 与えよう。もし親友が少ない学生ほど「親友の数」の設問に欠損値が多くなるのであれば,親友の数と欠損の有 無の間には明らかな負の相関が見られるはずだ。表 13-1 から計算すると両者間の相関係数は r = 0.000 であっ た。したがって「親友の数」の設問に欠損が発生する確率は,その変数の値に左右されないことが明らかになる。 これを「完全にランダムに欠損 (missing completely at random: MCAR)」と呼ぶ。もちろん,この計算は欠損 値の本来の値が分かっているという仮説に成り立ったものであり,簡単な計算でそれが予測できるものではない。 1 現在執筆中の北村俊則(著)「臨床で働きながら研究をしよう:統計の裏技と SPSS の使い方」の第 14 章原稿

Upload: others

Post on 20-Apr-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう

多重代入法とその他の代入法1

1 欠損値の3つパターン

1. 実例から

ある変数について得点が得られないのが欠損値 (missing value) である。例えば,面接をした際に不安の重症

度を測定し忘れたとか,アンケートで特定の項目に回答がないといったものがこれである。

ここで欠損値が発生する状況について詳しく見てみよう。まず,表のようなデータを入手したとしよう。学生

15名に配布したアンケートで,親友の数と内向性を問う項目が評価されている。親友の数は実数で入力させた。

表から分かるように,その数は 2 名から 10 名までの幅を示した。一方,内向性については「当てはまらない (1)」

「どちらともいえない (2)」「当てはまる (3)」の 3 件法で評価した。学生の内向性と親友の数には一定の関連

があるというのがリサーチ・クエスチョンである。

すると 6 名の学生について親友の数の回答がなかった。これが欠損値である。回答がないから,通常は本当の

値が何であったかは分からない。しかし,仮に本当の回答が分かっていたという前提で話を進めよう。表 14-1 で

二重取り消し線をつけた値が欠損値である。データに欠損値がある場合,統計計算はどうすればよいのだろうか。

これにはいくつかの方法が用いられてきた。

ところで欠損値が発生するのには法則性があるのだろうか。例えば,親友が少ない学生は「親友の数」という

設問に答えたがらず,そのため欠損値が多くなるという傾向はないだろうか。そこで新しい変数「欠損の有無」

を作る。親友の数を答えていれば「欠損の有無」に 0 を,親友の数を答えていなければ「欠損の有無」に 1 を

与えよう。もし親友が少ない学生ほど「親友の数」の設問に欠損値が多くなるのであれば,親友の数と欠損の有

無の間には明らかな負の相関が見られるはずだ。表 13-1 から計算すると両者間の相関係数は r = 0.000 であっ

た。したがって「親友の数」の設問に欠損が発生する確率は,その変数の値に左右されないことが明らかになる。

これを「完全にランダムに欠損 (missing completely at random: MCAR)」と呼ぶ。もちろん,この計算は欠損

値の本来の値が分かっているという仮説に成り立ったものであり,簡単な計算でそれが予測できるものではない。

1現在執筆中の北村俊則(著)「臨床で働きながら研究をしよう:統計の裏技と SPSS の使い方」の第 14章原稿

Page 2: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

26

データとして扱う変数のいずれかに欠損があるケースをすべての計算から除去し,残りのケースで解析を行う

のがリストワイズ除去法 (listwise deletion) である。ひとつひとつの計算について,その計算で扱う変数のいず

れかに欠損があるケースをその計算から(だけ)除去するのがペアワイズ除去法 (pairwise deletion) である。

MCAR の場合,欠損値のあるケースをリストワイズ除去法やペアワイズ除去法でデータセットから除去して計算

しても,結果に大きなバイアスは生じないといわれている。今回の例では扱う変数が 2 つしかない。したがって

リストワイズ除去法とペアワイズ除去法は同じ結果となる(ケース番号 2, 4, 7, 9, 12, 14 が計算から排除さ

れる)。リストワイズ除去法を施行して学生の内向性と親友の数の相関係数を求めると,r = -0.71 (P = 0.033) で

あった。一方,もし欠損値がなく,真の値が得られた場合の相関係数は r = -0.76 (P = 0.001) であった。相関

係数に大きなはずれは生じていない。ただし,15 例のケースが 9 例に減少することが「もったいない」のであ

る(つまり,有意であっても有意水準がそれほど良くならない)。

表 14-1. 欠損値の例 MCAR

親友の数 内向性 欠損の有無

1 2 3 0

2 3 3 1

3 4 3 0

4 5 3 1

5 6 3 0

6 4 2 0

7 5 2 1

8 6 2 0

9 7 2 1

10 8 2 0

11 6 1 0

12 7 1 1

13 8 1 0

14 9 1 1

15 10 1 0

二重取消線のケースには本来正しい観測値があるはずだが,何らかの原因で欠損値となったケースである。

同じ尺度を用いた別のサンプルを見てみよう(表 14-2)。今回も 6 例で欠損値が見られる。しかし,親友

の数と欠損の有無の間に負の相関 (r = -0.63, P = 0.012) が見られた。親友が少ない学生ほど「親友の数」の設

問に欠損値が多くなるのである。再度ここでリストワイズ除去法を施行して学生の内向性と親友の数の相関係数

を求めると,r = -0.55 (P = 0.121) であった。これはもし欠損値がなく,真の値が得られた場合の相関係数 r =

-0.76 (P = 0.001) とはかなりはずれている。従ってこの場合,リストワイズ除去法やペアワイズ除去法は明らか

に不適切である。

表 14-2 を再度見ると,欠損値の有無は内向性とある程度相関しているように見える。実際に計算してみる

と r = 0.83 (P < 0.001) であった。つまり内向性が強いほど,親友の数という項目に回答しない傾向が見られた

のである。先ほど見たように,内向性と親友の数には真の相関があった r = -0.76 (p = 0.001)。そこで偏相関係

数を用い,内向性で統制した上で親友の数と欠損の有無の間の相関を求めよう。その結果は r = 0.00 であった。

つまり,内向性で統制すれば,親友の数の欠損の発生は親友の数の多い少ないに影響されないのである。

Page 3: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

27

表 14-2. 欠損値の例 MAR

親友の数 内向性 欠損の有無

1 2 3 1

2 3 3 1

3 4 3 1

4 5 3 1

5 6 3 1

6 4 2 0

7 5 2 0

8 6 2 1

9 7 2 0

10 8 2 0

11 6 1 0

12 7 1 0

13 8 1 0

14 9 1 0

15 10 1 0

二重取消線のケースには本来正しい観測値があるはずだが,何らかの原因で欠損値となったケースである。

親友の数に欠損があるケースは内向性が強い傾向が想定できる。つまり,欠損がある変数そのものに依存して

欠損が発生するのではなく,他の変数に依存して欠損が発生している。さらに,欠損が出ている変数と,欠損発

生が依存している変数の間に相関が認められる。こうした欠損を「観測データに依存する欠損 (missing at

random: MAR)」と呼ぶ。そこから次のように考えられる。あるケースにおける親友の数の欠損値を推定する際に,

そのケースの内向性得点を勘案することで,より正確に欠損値推定ができる。

表 14-3. 欠損値の例 MNAR

親友の数 内向性 欠損の有無

1 2 3 1

2 3 3 1

3 4 3 0

4 5 3 0

5 6 3 0

6 4 2 1

7 5 2 1

8 6 2 0

9 7 2 0

10 8 2 0

11 6 1 1

12 7 1 0

13 8 1 0

14 9 1 0

15 10 1 0

二重取消線のケースには本来正しい観測値があるはずだが,何らかの原因で欠損値となったケースである。

Page 4: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

28

最後に表 14-3 を見てみよう。表 14-2 と同様に親友の数についての回答に欠損が出る可能性は内向性が強

いほど高い。相関係数は r = 0.17 (p = 0.537)。しかし内向性で統制した上で親友の数と欠損の有無の相関を見て

もそれがゼロになることはなかった。相関係数は r = -0.81 (p < 0.001)。親友の数が(真に)少ないほど欠損回

答が出る可能性が高い。こうした状況を「欠損データに依存する欠損 (missing not at random: MNAR)」という。

この場合,内向性の得点で補正しても親友の数の欠損値の推測は困難になる。リストワイズ除去法やペアワ

イズ除去法が不適切であることは当然である。

2. 欠損値発生のパターン分類

ここまでのことを整理してみよう(図 14-1)2。欠損値の現れ方には 3 通りがある。missing completely at

random (MCAR), missing at random (MAR), missing not at random (MNAR) である。日本語に翻訳しても却っ

て分かりにくいので英語のまま使われることがほとんどである。いずれの場合も問題となっている変数(この場

合は親友の数)ともうひとつの変数(この場合は内向性)の間に相関がある。

さて MCAR では欠損の有無が親友の数に依存(相関)していない。欠損の有無は内向性に依存(相関)してい

ない。この場合のみ,リストワイズ除去法やペアワイズ除去法が適用可能である。しかしサンプルサイズが小さ

く(被検者数が少なく)なる。そうなると各種統計解析を行っても有意水準に届きにくくなる。

図 14-1. 欠損値の現れ方

2 分かりやすい記事は 村山航 (2011). 欠損データ分析 (missing data analysis): 完全情報最尤推定法と多重代入法.

http://www4.ocn.ne.jp/~murakou/missing_data.pdf

Page 5: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

29

次に MAR の場合,一見,欠損の有無と親友の数の間に相関が認められる。しかし,欠損の有無は内向性と相

関していて,そこで内向性を統制してみると,欠損の有無と親友の数の間の相関が消える。つまり,内向性の段

階ごとに検討すると,欠損の有無は親友の数そのものに依拠しないのである。内向性得点は親友の数と相関し,

なおかつ欠損の有無とも相関しているので,この内向性という変数を利用し,統計を統制することで,欠損発生

を無作為にすると考えられる。この例における内向性のような変数を補助変数 (auxiliary variable) という。

最後の MNAR では,欠損の有無が内向性と相関しているものの,内向性の段階ごとに検討しても,欠損の有無

が親友の数そのものに依拠している。内向性で統制することに限界があるのだ。

ところで,欠損値の推測をするのに,第2章で学んだ項目平均値代入 (item mean substitution) を行うとどう

なるのだろう(表 14-4)。この場合,欠損が全く存在しない場合と同様,データが MCAR の場合でも変数の平

均値に大きなバイアスは発生しない。また他の変数(内向性)との相関も,リストワイズ除去を行った際のそ

れとも大きく違ってはいない。しかし,状況が MAR や MNAR であると,項目平均値代入した際は平均値も

相関も目に見えて偏っている(表 14-4)。

表 14-4. 欠損値の伝統的処理方法とその結果のバイアス

親友の数

平均値(標準偏差) 親友の数と内向性の相関

リストワイズ除去 平均値代入した リストワイズ除去 平均値代入した

欠損値のない場合 6.00 (2.24) 6.00 (2.24) -0.756

(p = 0.001)

-0.756

(p = 0.001)

MCAR 6.00 (2.45) 6.00 (1.85) -0.707

(p = 0.033)

-0.548

(p = 0.035)

MAR 7.11 (1.90) 7.11 (1.44) -0.555

(p = 0.121)

-0.261

(p = 0.346)

MNAR 7.00 (1.83) 7.00 (1.46) -0.834

(p = 0.003)

-0.693

(p = 0.004)

欠損値に何らかの値を代入する目的は,できるだけ真の値に近い値を当てはめることである。そこで従来のよ

うにリストワイズ除去法やペアワイズ除去法で欠損値のあるケースを排除したり,その変数の全ケースでの平均

値を欠損ケースのその変数に当てはめる ― 平均値代入 (mean substitution) ― のではバイアスを生じてしま

う MAR では,完全情報最尤法 (full information maximum likelihood method: FIML) や多重代入法 (multiple

imputation method) が使われるようになってきた。これらは補助変数を利用して欠損値の本来の値を推定する手

法である。ある変数が補助変数であるためには,問題となっている変数と相関を示し,かつ問題となっている変

数に欠損値が生じるか否かとも相関していることが必要である。ひとつの補助変数では MNAR の状態が MAR

になるかは不明である。MNAR のままかもしれない。そこで複数の変数(研究者の本来の研究上の関心領域には

ない変数であっても)を補助変数として組み込むことが賢いと考えられる。補助変数を入れても MAR にならな

い可能性もある。そこでその調査で使用した変数は(被検者番号を除く)すべてのものを補助変数として投入し

たほうが MAR になりやすい3。SPSS の多重代入法では,欠損値のある変数が連続量変数であればそれを基準変

3 補助変数が少数であると欠損値の推定ができないケースが発生する。

Page 6: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

30

数とした重回帰分析で,欠損値のある変数がカテゴリ変数(名義変数)であればそれを基準変数としたロジステ

ィック回帰分析を用いて,それぞれ欠損値の真の値を推定する作業を行っている4。

実際の作業は

(a) 解析に使用するすべての変数について欠損値の出現頻度やその特徴的傾向を見る

(b) 欠損値の現れ方が MAR であることを確認する

(c) 欠損値を推定し代入する

(d) 代入したデータセットで本来行う予定であった統計解析を実行する

となる。

本章の後半では SPSS を用いて実際の欠損値の検討方法と欠損値代入方法について述べてゆく。

欠損値にある一定の値を代入すると,1個の値しか与えられない。そうすると,欠損値を代入するという操作

の不安定さを無視することになり,標準偏差が過剰に小さくなる。そこで多重代入法では,欠損値を代入したデ

ータセット(擬似完全データ)を複数作成する。ある統計解析を行う際に,すべてのデータセットで解析を行い,

最後に結果を統合することで,欠損値推定の不安定性を反映させるのである。さまざまな擬似完全データの作成

は,ベイズ統計学を用いて,欠損値の事後予測分布から,マルコフ連鎖モンテカルロ法を用いて乱数を発生させ

行っている。

ところで擬似完全データを何組作成するかについては議論がある。SPSS のデフォルトは 5 組である。しかし,

これでは小さい効果量の検出力が落ちしまい,実際にはもっと多い数の擬似完全データが必要であるという意見

もある5。

最初に結論を述べておこう。MAR ではもちろん多重代入法が薦められる。MCAR ではどうだろうか。旧来の

リストワイズ除去法やペアワイズ除去法で良いが,そうするとサンプルサイズが小さくなり,欲しい有意水準に

至らない可能性(研究者にとっては危険性)がある。そこで MCAR の場合も多重代入法が薦められる。最後の

MNAR について推奨できる対応策はないといわれている。しかし,ここでも旧来のリストワイズ除去法やペアワ

イズ除去法ではなく,多重代入法が良いといわれている。

4 回帰分析の原則を思い出せば,補助変数の数がケース数を越えてはいけない。 5 Graham, J. W., & Olchowski, A. E. (2007). How many imputations are really needed? Some practical clarifications of multiple imputation

theory. Prevention Science, 8, 206-213.

Page 7: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

31

2 欠損値分析

1. 欠損値分析

SPSS のメニューは大きく「欠損値分析」と「多重代入」に分かれている。前者はデータセットにある変数の

欠損の有無やその性質を表示するものである。後者は欠損値を多重代入法で推定した値を組み込むものである。

そこでまず欠損値分析を行ってゆこう。先ほどの MAR の簡単事例をもとに SPSS での欠損値分析を説明してゆ

く。表 14-5 に SPSS に入力したデータを挙げておく。新しく性別と年齢についての情報を加えてある。性別に

は欠損値があり,年齢には欠損値がなかったとしよう。

SPSS で欠損値の指示をするには

(1) ブランク(数値をなにも打ち込んでいないカラム)

(2) 特定の数値(例:9, 99, 999 など)を宛てる:この場合,変数ビューの「欠損値」でその旨を入力

する

(3) 両者の混在

がある。利用しやすいほうを用いればよい。

表 14-5. 欠損値の伝統的処理方法とその結果のバイアス

ID 友人の数 内向性 性別 年齢 職種

変数名 friend introversion gender age occupation

1 3 1 34 4

2 3 2 45 2

3 3 19 4

4 3 2 27 2

5 3 1 51 1

6 4 2 2 44 3

7 5 2 1 24 3

8 2 37 4

9 7 2 1 31 4

10 8 2 22 2

11 6 1 1 46 1

12 7 1 2 33 2

13 8 1 39 3

14 9 1 2 52 1

15 10 1 1 25 4

まず SPSS のスタート画面から「分析 (A)」をクリックしてプルダウン・メニューを出し,欠損値分析をク

リックする。

Page 8: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

32

2. 記述統計

「欠損値分析」をクリックし「欠損値分析」のダイアログ・ボックスを表示する。ここには左の変数一覧表に

このデータセットのすべての変数が,変数のラベルとカッコ付きで変数の名前が示されている。まず比尺度ある

いはそれに順ずると考えられる「親友の数」と「内向性」をクリックして色を反転させてから,上にある右向き

矢印(⇒)アイコンをクリックし,右にある「量的変数 (Q)」に移動する。次に,名義変数である「性別」を同

様にクリックし,色を反転させ,下にある右向き矢印(⇒)アイコンをクリックし,右にある「カテゴリ変数 (C)」

に移動する。

ここで「記述統計 (D)」をクリックし,「欠損値分析:記述統計」のダイアログ・ボックスを開ける。各変

数の欠損の状況をどのように表示するかをここで指示する。そこで,「指示変数で作成したグループのt検定 (T)」,

Page 9: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

33

「カテゴリ変数と指示変数のクロス表 (C)」を選んで印をつける。「欠損値をもつケースがxx%未満の変数を

除去」については 5% がデフォルトメニューになっている。ここで「続行」をクリックし「欠損値分析」のダイ

アログ・ボックスに戻り,「OK」をクリックする。

結果が次のように表示される。まず「1変量の統計量」では,扱った変数それぞれについて,観測できたケー

ス数,欠損があったケース数(度数)とそのパーセントが示される。量的変数についてはさらにその平均値と標

準偏差が算出される。たとえば今回のように合成変数でない変数の欠損を扱う際に,欠損値の出現率が非常に大

きい場合にまで多重代入で推定値を入れ込むことの是非は問われる。研究者はここで取り上げるべき変数と,「欠

損値多数のため解析からは排除」する変数を決めなければならない。

1 変量の統計量

ケースの数 平均値 標準偏差 欠損値 極値の数a

度数 パーセント 低 高

friend 9 7.11 1.900 6 40.0 0 0

introversion 15 2.00 .845 0 .0 0 0

age 15 35.27 10.680 0 .0 0 0

occupation 15 2.67 1.175 0 .0 0 0

gender 11 4 26.7

a. 範囲外のケースの数 (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

次に,「個別分散のt検定」では,ある変数について欠損の有無でケースを 2 群に分け,その上で他の変数の

t検定を行った結果である。例えば,性別 (gender) の値があるのか欠損なのかで 2 群に分け,その上で親友の

数 (friend) の値の平均値の差の検定が行われている。性別の値が有効の場合 (n = 7),友人の数の平均値が 6.86

であり,性別の値が欠損の場合 (n = 2),友人の数の平均値が 8.00 であり,両群間の差のt値は -1.4 であっ

た。内向性 (introversion) についいても同様の計算をしている。親友の数の欠損の有無で分けた上で,親友の

数の平均値の差の検定をすることは無意味で,当然t検定は実行不可能である。そのため値は表示されていない

(四角で囲った部分)。

Page 10: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

34

個別分散の t 検定a

friend introversion age occupation

friend t 値 . -5.7 -.1 -.4

df . 12.6 10.2 9.6

有効数 9 9 9 9

欠損数 0 6 6 6

平均値(有効) 7.11 1.44 35.11 2.56

平均値(欠損) . 2.83 35.50 2.83

gender t 値 -1.4 .0 1.4 -1.3

df 6.0 5.9 5.5 6.8

有効数 7 11 11 11

欠損数 2 4 4 4

平均値(有効) 6.86 2.00 37.45 2.45

平均値(欠損) 8.00 2.00 29.25 3.25

各量的変数には、グループのペアが指示変数(有効、欠損)によって形成されます。

a. 欠損が 5% 未満である指示変数は表示されません。

また性別 (gender) でケースを 2 群に分けた際の親友の数 (friend) の有効度数とパーセントならびに欠損

値のパーセントも次のように表示される。

gender

合計 man woman

欠損値

システム欠損値

friend 有効 度数 9 4 3 2

パーセント 60.0 66.7 60.0 50.0

欠損値 システム欠損値の % 40.0 33.3 40.0 50.0

欠損が 5% 未満である指示変数は表示されません。

3. パターン

「欠損値分析」のダイアログ・ボックスにもどり,今度は「パターン (T)」をクリックする。

Page 11: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

35

そして「欠損値分析:パターン」のダイアログ・ボックスを開ける。ここでは「欠損値パターンでグループ化

されたケースを作表」を選択する。「続行」をクリックし「欠損値分析」のダイアログ・ボックスに戻り,解析

を実行する。

結果は次のように表示される。カラムのなかのXが欠損の存在を示している。このデータでは欠損値の出方は4

パターンが認められた。内向性,年齢,性別,親友の数のいずれでも観測値があったもの 7 ケース,親友の数の

み欠損だったもの 4 ケース,性別と親友の数に欠損があったもの 2 ケース,性別にのみ欠損があったもの 2 ケ

ースである。

集計されたパターン

ケースの数

欠損パターンa

ケース完了数b introversion age occupation gender friend

7 7

4 X 11

2 X X 15

2 X 9

a. 変数は欠損パターンをもとに並べ替えられています。

b. このパターンで欠損している変数 (X とマークされている) が使用されない場合に完了するケースの数。

4. Little の MCAR 検定

Little が発表した MCAR の検定がある。データが MCAR であるというのが帰無仮説である。P < 0.05 で帰無

仮説が却下されるとリストワイズ除去法やペアワイズ除去法は勧められない。MCAR でなければ多重代入を行う

こととなる。

「欠損値分析」のダイアログ・ボックスから EM (E) を選択し,解析を実行する。

Page 12: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

36

結果は次のように現れる。有意水準が 0.034 (つまり 0.05 未満)となっているから,MCAR の帰無仮説は却

下され,多重代入が推奨されることとなる。

EM 平均値a,b

friend introversion age occupation

4.66 2.08 36.00 2.69

a. Little の MCAR 検定: カイ 2 乗 = 8.662, DF = 3, Sig. = .034

b. EM アルゴリズムは、25 回の反復で収束に失敗しました。

Page 13: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

37

3 多重代入

1. 欠損値のパターン分析

分析 (A) のプルダウン・メニューから多重代入 (T) をクリックすると,サブメニューが2つ出てくる。まず,

「パターン分析」を選んでクリックする。

すると「パターン分析」のダイアログ・ボックスがでるので,扱うすべての変数(ID は除く)を選んで変数間

の分析 (A) に変数を移動する。あとはデフォルトメニューに従い,OKをクリックし,解析を実行する。

Page 14: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

38

まず次のようなパイチャートが現れる。左のパイチャートを見てみよう。扱った 5 つの変数のうち 2 つ(親

友の数と性別)に欠損値が存在し,3 つ(内向性,年齢,職種)は欠損値のない完全データであった。次に中央

のパイチャートを見てみる。15 ケースのうち 7 ケースはひとつも欠損値がなく,8 ケースはすくなくともひと

つの変数に欠損値が存在していた。最後に,右側のパーチャートを見てみる。全部で 75 カラム(5 変数X 15 ケ

ース)のうち,10 カラムに欠損が発生していた。

変数の要約には各変数の欠損の度数とパーセント表示,そして連続量変数であれば平均値と標準偏差が表示され

る。

変数の要約a,b

欠損

有効 N 平均値 標準 偏差 度数 パーセント

親友の数 6 40.0% 9 7.11 1.900

性別 4 26.7% 11

a. 表示する変数の最大値: 25

b. 含める変数の欠損値の最小パーセント: 10.0%

2. 欠損値代入

「分析 (A)」をクリックしプルダウン・メニューを出し,そこから「多重代入 (T)」から「欠損値データを代

入 (I)」を選びクリックする。

Page 15: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

39

「欠損値データ値を代入」のダイアログ・ボックスが出てくる。「学生番号 (id)」以外のすべての変数を「変

数 (V)」欄から「モデル内の変数 (A)」に右方向⇒をクリックして移動する。「代入 (M)」は一応,デフォルト

の 5 を採用する。これは擬似完全モデルを 5 つ作るという指示である。「新しいデータセットを作成 (C)」の

「データセット名 (D)」に任意の名称を入力する。ここでは MAR imputation と入力する。なお,「データセッ

ト名 (D)」として許容される条件はSPSS の変数名のそれと同じである。したがって,データセット名の内部にブ

ランクを持つような記入は許容されないので注意が必要である。次に「出力」画面に移動する。

Page 16: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

40

「出力」をクリックし,ここで「代入モデル (M)」6と「代入値を持つ変数の記述統計量 (D)」を選ぶ。そして

OKをクリックし,作業を実行する。

結果は次のように表示される。まず,「代入結果」の表では計算が完全条件指定 (fully conditional specification)

で行われたことが表示される。そして,欠損値の代入過程で実際に行われたことも示される。「欠損値データ値

を代入」のダイアログ・ボックスで指定されたすべての変数を扱ったことが示されている。欠損値代入を行った

変数が「親友の数」(friend) と「性別」(gender) であることも明示されている。

代入結果

代入法 完全条件指定

完全条件指定法の反復 10

従属変数 代入済み friend,gender

未代入 (欠損値が多すぎる)

未代入 (欠損値がない) introversion,age,occupation

代入順序 introversion,age,occupation,gender,friend

「代入モデル」では,欠損値代入を行った各変数に,どのようなタイプの代入を行ったのかが示される。ここ

では「性別」についてはロジスティック回帰が,「親友の数」については重回帰が行われたと記載されている。

それぞれの代入に当たっては,代入を受ける変数以外のすべての変数を説明変数として,その主効果を計算して

いる。

代入モデル

モデル

欠損値 代入値 タイプ 効果

性別 ロジスティック回帰

occupation, introversion, age,

friend 4 20

親友の数 線型回帰

occupation, gender, introversion,

age 6 30

6 「代入モデル (M)」のみを選択すると,結果として「代入結果」と「代入モデル」のみが表示される。

Page 17: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

41

「代入値を持つ変数の記述統計量 (D)」を選んだので,欠損値代入が行われた各変数の基本統計量(量的変数

である「親友の数」については,度数,平均値,標準偏差,最小値,最大値,カテゴリ変数である「性別」につ

いては度数とパーセント)が次のように示される。最初の行は欠損値代入前の元のデータの基本統計量である。

多重代入法では,欠損値を代入したデータセットを無作為に複数作成する。その数を今回は 5 つと設定した。そ

こで 5 回分の擬似完全データセットがあるので,それぞれの基本統計量が示される。ただし,欠損値として代入

されたケースの基本統計量を最初に提示し,最後にケース全体の基本統計量を示してある。「親友の数」(friend)

の表からも分かるように,無作為に擬似完全データを作ってあるため,各回の基本統計量は異なる値が示される。

Friend

データ 代入 度数 平均値 標準偏差 最小値 最大値

元のデータ 9 7.11 1.900 4.00 10.00

代入値 1 6 15.93 6.279 6.25 24.28

2 6 4.26 4.830 -.34 12.95

3 6 2.95 4.209 -3.05 6.63

4 6 -3.35 5.785 -9.53 4.97

5 6 5.26 4.694 -2.34 10.37

代入後の完全データ 1 15 10.64 6.013 4.00 24.28

2 15 5.97 3.533 -.34 12.95

3 15 5.45 3.584 -3.05 10.00

4 15 2.92 6.495 -9.53 10.00

5 15 6.37 3.289 -2.34 10.37

Page 18: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

42

gender

データ 代入 カテゴリ 度数 パーセント

元のデータ 1 6 54.5

2 5 45.5

代入値 1 1 3 75.0

2 1 25.0

2 1 1 25.0

2 3 75.0

3 1 3 75.0

2 1 25.0

4 1 4 100.0

5 1 2 50.0

2 2 50.0

代入後の完全データ 1 1 9 60.0

2 6 40.0

2 1 7 46.7

2 8 53.3

3 1 9 60.0

2 6 40.0

4 1 10 66.7

2 5 33.3

5 1 8 53.3

2 7 46.7

ここまで来ると SPSS の別ファイルとして *無題 [MAR_imputation] というファイルができている。これは当

初のデータファイルを最小化すると裏から現れる。なお,この新データはまだハードディスクに保存されてはい

ない。ハードディスクに残すには「名前をつけて保存」の作業を行う。加えて左に新しい変数 Imputation が作

られている。Imputation は,元データが 0,第 1 完全データが 1 というように 5 回分の擬似完全データが振

られているのである。従って行数は 本来のサンプルサイズ (N) X (擬似完全データセットの数 + 1) となっ

ている。さらに欠損値代入が行われたカラムには色が付いている。

Page 19: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

43

この新しいデータセットを用いて計算を行う。例えば,相関を求めようとすると,「2変量 (B)」のアイコン

に渦巻きのマークがついている。これは,この計算が多重代入された変数を用いて計算ができるという意味を表

している。そこで,通常通りにこの計算を実行する。7

7 こうした複数の擬似完全データを用いて統計解析を行う場合,通常の方法と同様に解析を行い,アイコンに渦巻きが付いてい

れば,それが多重代入法で欠損値補正を行ったデータで解析が実施できることを示している。

Page 20: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

44

すると次のような長い結果が現れる。元データ,各擬似完全データ(「代入番号」の列)での相関係数が表示

されている。よく見ると,親友の数と内向性の間の相関係数が各擬似完全データで異なっている。多重代入法で

欠損値を埋めているのであるから,度数も増えている(元のデータで N = 9,その他では N = 15)。そして最終

行に「プールされた (pooled)」という表示がある。これは5回分の欠損値代入の平均を表している。複数の擬似

完全データセットが作成され,それを統合する作業の結果が,この「プールされた」値なのである。研究者はこ

の「プールされた」値を用いて欠損値代入後の統計値であるとして論文を書けばよい。擬似完全データごとの解

析結果は論文に表示しない。

相関分析

代入番号 親友の数 内向性

元のデータ 親友の数 Pearson の相関係数 1 -.555

有意確率 (両側) .121

度数 9 9

内向性 Pearson の相関係数 -.555 1

有意確率 (両側) .121

度数 9 15

1 親友の数 Pearson の相関係数 1 -.252

有意確率 (両側) .365

度数 15 15

内向性 Pearson の相関係数 -.252 1

有意確率 (両側) .365

度数 15 15

2 親友の数 Pearson の相関係数 1 -.689**

有意確率 (両側) .005

度数 15 15

内向性 Pearson の相関係数 -.689** 1

有意確率 (両側) .005

度数 15 15

Page 21: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

45

3 親友の数 Pearson の相関係数 1 -.622*

有意確率 (両側) .013

度数 15 15

内向性 Pearson の相関係数 -.622* 1

有意確率 (両側) .013

度数 15 15

4 親友の数 Pearson の相関係数 1 -.454

有意確率 (両側) .089

度数 15 15

内向性 Pearson の相関係数 -.454 1

有意確率 (両側) .089

度数 15 15

5 親友の数 Pearson の相関係数 1 -.590*

有意確率 (両側) .021

度数 15 15

内向性 Pearson の相関係数 -.590* 1

有意確率 (両側) .021

度数 15 15

プールされた 親友の数 Pearson の相関係数 1 -.537

有意確率 (両側) .132

度数 15 15

内向性 Pearson の相関係数 -.537 1

有意確率 (両側) .132

度数 15 15

**. 相関係数は 1% 水準で有意 (両側) です。

*. 相関係数は 5% 水準で有意 (両側) です。

ここまでの作業を行ったデータセットを保存すると,もとのデータとすべての擬似完全データが すべて 保存

される。これをいったんシャットダウンしてから,再度立ち上げると,すべての行が別個のケースであるとして

認識される.そのため通常の解析はできなくなる。各種解析はシンタックス文として保存しておき,新規立ち上

げた後,多重代入を繰り返す必要がでてくる。

すでに作成した多重代入データを再度使用する場合は次のような手続きを踏む。まず,データセットを示す

imputation_ を利用して,SPSS データファイルを分割する。その上で,行いたい解析を実行する。

Page 22: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

46

その結果は以下のように出てくる。

相関分析

代入番号 内向性

元のデータ 親友の数 Pearson の相関係数 -.834

有意確率 (両側) .003

度数 10

1 親友の数 Pearson の相関係数 -.693

有意確率 (両側) .004

度数 15

2 親友の数 Pearson の相関係数 -.693

有意確率 (両側) .004

度数 15

3 親友の数 Pearson の相関係数 -.693

有意確率 (両側) .004

度数 15

4 親友の数 Pearson の相関係数 -.693

有意確率 (両側) .004

度数 15

5 親友の数 Pearson の相関係数 -.693

有意確率 (両側) .004

度数 15

プールされた 親友の数 Pearson の相関係数 -.693

有意確率 (両側) .003

度数 15

上記の作業をプルダウン・メニューで行う場合は次の手順で行う。まずデータのプルダウン・メニューから

グループの比較を選ぶ。そして,変数欄から代入番号 [Imputation_] を選びグループ化変数に移動する。

Page 23: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

47

さらに表示プルダウン・メニューから「代入データをマーク」を選ぶ。

以上の手順から多重代入による計算ができる。

3. 欠損値に制約を課する

ところで上記の解析で使用した変数のプールされたデータでの基本統計量を見直してみよう。

記述統計量

度数 最小値 最大値 平均値 標準 偏差

親友の数 84 -6.70 13.62 5.9877 3.89598

内向性 90 1.00 3.00 2.0000 .82107

性別 86 1.00 2.00 1.4767 .50239

年齢 90 19.00 52.00 35.2667 10.37586

職種 90 1.00 4.00 2.6667 1.14165

有効なケースの数 (リストごと) 82

「親友の数」の最小値が -6.70 となっている。友人の数が負の数であることはない。自動的に欠損値を推定

し多重代入した結果発生しているものである。そこで「親友の数の最低値」をゼロに設定しよう。

「欠損データを代入」のダイアログ・ボックスで使用する変数を「モデル内の変数 (A)」に移動してから,「制

約条件」をクリックして,「制約条件」のダイアログ・ボックスを出す。

Page 24: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

48

「制約条件」で扱えるのは,「欠損データを代入」のダイアログ・ボックスで「モデル内の変数 (A)」に移動

した変数のみであるので注意が必要である。

「制約条件」のダイアログ・ボックスでは,まず「変数の要約 (V)」を確認する。扱う変数ごとに,欠損値を

有するケースの出現パーセント,最小観測値,最大観測値が示されている。次に「制約条件を定義 (D)」で,研

究者が与えたい変数値の範囲などを入力する。ここでは「親友の数 (friend)」の最小値に “0” と入力する8。

「役割」には「予測変数として代入および使用」,「代入のみ」,「予測変数としてのみ使用」が準備されてい

るが,ここではデフォルトの「予測変数として代入および使用」を用いる。その上で「出力」をクリックし,「出

力」のダイアログ・ボックスを表示する。

8 制約条件の定義には他に「最大値」と「丸め」がある。「丸め」は,たとえば「性別」が 1 か 2 であるにもかかわらず,そ

こに小数点のある値(例:1.25)が代入されることを防ぎ、正の整数にする際に用いられる。

Page 25: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

49

「出力」ダイアログ・ボックスでは,「代入モデル」と「代入値を持つ変数の記述統計量」を選ぶ。さらに

「反復の記述を作成 (C)」を選び,「データセット名 (D)」として例えば MAC_imputation_with_restraints と入

力する。

自動的に結果が現れる。「代入制限」では研究者の希望した制限がどこに掛かったのかが示されている。「親

友の数」がその最小値が 0 (ゼロ)に設定されている。

代入制限

代入での役割 代入値

従属変数 予測 最小値 最大値

親友の数 はい はい 0 (なし)

内向性 はい はい (なし) (なし)

性別 はい はい

年齢 はい はい (なし) (なし)

職種 はい はい

各変数の基本統計量を見てみよう。「親友の数」はどの代入ステップにおいてもその最小値が負になることはな

いことが見て取れる。

Page 26: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

50

friend

データ 代入 度数 平均値 標準 偏差 最小値 最大値

元のデータ 9 7.11 1.900 4.00 10.00

代入値 1 6 8.85 4.165 5.19 14.37

2 6 4.80 3.137 .59 8.10

3 6 5.61 3.597 .89 10.28

4 6 9.60 6.471 2.85 20.22

5 6 6.55 3.482 1.59 11.88

代入後の完全データ 1 15 7.81 3.006 4.00 14.37

2 15 6.19 2.637 .59 10.00

3 15 6.51 2.695 .89 10.28

4 15 8.11 4.314 2.85 20.22

5 15 6.89 2.544 1.59 11.88

こうしてデータは先ほどと同じように,まだ無題として画面にあるだけであるから,これでよければ名前をつ

けて保存する。先ほどと同じく,「親友の数」と「内向性」の相関を見ると r = -0.244 と,随分と違う値がで

ている。しかし,こうした制約を薦めない意見も強い9。

相関分析

代入番号 親友の数 内向性

元のデータ 親友の数 Pearson の相関係数 1 -.555

有意確率 (両側) .121

度数 9 9

内向性 Pearson の相関係数 -.555 1

有意確率 (両側) .121

度数 9 15

1 親友の数 Pearson の相関係数 1 -.036

有意確率 (両側) .899

度数 15 15

内向性 Pearson の相関係数 -.036 1

有意確率 (両側) .899

度数 15 15

2 親友の数 Pearson の相関係数 1 -.619*

有意確率 (両側) .014

度数 15 15

内向性 Pearson の相関係数 -.619* 1

有意確率 (両側) .014

9 村山航 (2011). 欠損データ分析 (missing data analysis): 完全情報最尤推定法と多重代入法.

http://www4.ocn.ne.jp/~murakou/missing_data.pdf

Page 27: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

51

度数 15 15

3 親友の数 Pearson の相関係数 1 -.358

有意確率 (両側) .190

度数 15 15

内向性 Pearson の相関係数 -.358 1

有意確率 (両側) .190

度数 15 15

4 親友の数 Pearson の相関係数 1 .194

有意確率 (両側) .488

度数 15 15

内向性 Pearson の相関係数 .194 1

有意確率 (両側) .488

度数 15 15

5 親友の数 Pearson の相関係数 1 -.300

有意確率 (両側) .277

度数 15 15

内向性 Pearson の相関係数 -.300 1

有意確率 (両側) .277

度数 15 15

プールされた 親友の数 Pearson の相関係数 1 -.244

有意確率 (両側) .614

度数 15 15

内向性 Pearson の相関係数 -.244 1

有意確率 (両側) .614

度数 15 15

*. 相関係数は 5% 水準で有意 (両側) です。

Page 28: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

52

4 多数変数データの取り扱い

1. 多数変数を有するデータ

これまでは説明の便宜から,比較的少数の変数しかないデータを用いて解析を行ってきた。しかし,実際の研

究では 100を越える変数が含まれることのほうが通常である。こうした場合,欠損値のあるケースの取り扱いは

どのようにすればよいのであろう。

研究者が取り扱う変数は解析処理の手続きから見れば 2種類に分けられる(表 14-6)。年齢や性別のように 1

個の値で表されるのが単一変数である。一方,エジンバラ産後うつ病尺度は 10 項目からできていて,各項目得

点を合算した総合点を解析に用いている。こうした尺度変数の場合,個別の項目得点を解析に用いることはない。

表 14-6. 欠損値のある変数

種類 内容 例

単一変数 ひとつの値で構成される 年齢,性別,教育歴,同胞数,結婚歴・・・

尺度変数 複数の項目の合算でひとつの尺度

得点が与えられる

エジンバラ産後うつ病尺度(10項目の得点の合算)

Hospital Anxiety and Depression Scale

あるケースで年齢が欠損している場合,他の多くの変数について回答があるのでそれを補助変数として欠損

値の真の値を推定するのが多重代入法であった。しかし,この場合,全体の変数のうちどれほどの項目で回答が

あれば安定した推定が可能なのであろうか。また,他の項目はすべて答えているがエジンバラ産後うつ病尺度の

10 項目すべてが無回答だったケースに,エジンバラ産後うつ病尺度得点を多重代入することが許されるのであろ

うか。Hawthorne and Elliot (2005)10 は単一代入法であるが,模擬データの比較検討から,尺度を構成する項目

のうち約半数で観測値が残っていれば,残りの項目に欠損値代入しても真の値から大きく離れることはないと述

べている。つまり,エジンバラ産後うつ病尺度であれば 10 項目のうち 5項目が記入されているケースについて

は,欠損値代入をすることが許され,記入されている項目が 5 未満であるケースは,そのエジンバラ産後うつ病

尺度そのものを欠損として扱うというものである。

2. 実際の対応(私見)

そこで実際の研究データではどうすればよいだろうか。私見であるが

(a) 全変数の半数以上に回答がないケースは以降の計算からすべて排除する。すなわちリストワイズ除

去を行う

(b) 尺度の構成項目の8割に回答がないケースはその尺度得点を欠損値とみなし,以降の計算ではペアワ

イズ除去を行う

と考えたい。

10 Hawthorne, G., & Elliot, P. (2005). Imputing cross-sectional missing data: Comparison of common techniques. Australian and New

Zealand Journal of Psychiatry, 39, 583-590.

Page 29: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

53

本書のサンプルデータで考えてみよう。まず全変数の半数以上に回答がないケースは以降の計算からすべて排

除することにする。ここでは121個の変数が観測されている。247名の被検者のデータがそろっている。

ここで尺度変数であるのが

(a) Hospital Anxiety and Depression Scale ⇒ 妊娠後期に測定 14項目

(b) 父からの虐待 ⇒ 妊娠後期に測定 14項目

(c) 父の Parental Bonding Scale ⇒妊娠後期に測定 25項目

(d) 母からの虐待 ⇒ 妊娠後期に測定 14項目

(e) 母の Parental Bonding Scale ⇒ 妊娠後期に測定 25項目

(f) Edinburgh Postnatal Depression Scale ⇒ 産後 1 ヶ月に測定 10項目

(g) Edinburgh Postnatal Depression Scale ⇒ 産後 3 ヶ月に測定 10項目

である。残る 9 個が単一変数である。

欠損値の多重代入をする前に,出現数の計算を行い,各ケースで121個の変数のうち何個に実数が入力されてい

るか(つまり,欠損値の出現頻度の分布はどうか)を見てみよう。次のシンタックス文で全変数(ただし ID は

除く)の各ケースでの値の入力頻度を計算する。

なお,プルダウン・メニューで行う場合は,「変換 (T)」をクリックして「出現数の計算 (O」をクリックする。

「出現数の計算」のダイアログ・ボックスが出るので,「目標変数 (T)」にここでは TOTALQ と入力する。左

の変数一覧表から PATIENT ID [ID] 以外の変数をすべて反転し,右向き矢印 ⇒ をクリックして「数値型変数」

に移動する。今回のデータセットで文字型変数はないのでこれが可能になる。そして「値の定義 (D)」をクリッ

クし,「出現数の計算:集計する値の指定」のダイアログ・ボックスを表示する。

Page 30: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

54

今回のデータセットで扱う変数に負の値はない。そこで各ケースで 0 (ゼロ)以上の値が入力されている変数

の総数を計算する。「出現数の計算:集計する値の指定」のダイアログ・ボックスの中で,「範囲:下の値から

最大値まで (E)」を選び,四角の枠に 0 (ゼロ)と打ち込む。

「追加 (A)」をクリックすると「集計される値 (O)」に次のように表示される。0 thru Highest が「ゼロから

その変数の最高値までの値が入力されていれば1つと数える」という指示である。

Page 31: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

55

さらに「続行」⇒「出現数の計算」⇒「OK」で計算を実行する。その結果は次のようであった。

TOTALQ

度数 パーセント 有効パーセント 累積パーセント

有効数 27.00 3 1.2 1.2 1.2

34.00 1 .4 .4 1.6

74.00 1 .4 .4 2.0

76.00 2 .8 .8 2.8

86.00 5 2.0 2.0 4.9

87.00 3 1.2 1.2 6.1

92.00 1 .4 .4 6.5

99.00 2 .8 .8 7.3

100.00 1 .4 .4 7.7

102.00 1 .4 .4 8.1

103.00 1 .4 .4 8.5

106.00 2 .8 .8 9.3

107.00 5 2.0 2.0 11.3

108.00 10 4.0 4.0 15.4

109.00 11 4.5 4.5 19.8

110.00 5 2.0 2.0 21.9

115.00 4 1.6 1.6 23.5

116.00 15 6.1 6.1 29.6

117.00 27 10.9 10.9 40.5

118.00 47 19.0 19.0 59.5

119.00 83 33.6 33.6 93.1

120.00 17 6.9 6.9 100.0

合計 247 100.0 100.0

全変数は 121 個あったが,そのうち patient ID は省いてあるから変数は120個になる。ヒストグラムを見ても

Page 32: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

56

明らかなように,ほとんどの変数に回答があったケースと,ほとんどの変数で回答がなかった少数のケースとい

う二峰性の結果であった。

そこで次のシンタックス文を用いて11,全変数のうち 60 個の変数に回答のあるケースのみ選び,新しいデータ

セットの名前(例えば Sample data completers)をつけて保存する。

新しいデータセット(Sample data completers)について欠損値に多重代入を行えばよい。しかしその前に,

尺度の構成項目の8割に回答がないケースをその尺度得点を欠損値とみなす計算の準備のため,Hospital Anxiety

and Depression Scale,父からの虐待尺度,父の Parental Bonding Scale,母からの虐待尺度,母の Parental

Bonding Scale,産後 1 ヶ月および産後3ヶ月の Edinburgh Postnatal Depression Scale について,(逆転項目

などの作業を済ませた上で)出現数の計算をしておく。ここでは Hospital Anxiety and Depression Scale につ

いてのみ例示しよう(第 6 章参照)。

11 GE は greater than or equal to の略。

Page 33: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

57

こうした出現数の計算を尺度変数について行い,結果を上書きしたデータについて初めて欠損値に多重代入を

行う。欠損値の代入を行ってから尺度得点を計算する。しかし,この時点ではすべての尺度項目に欠損が存在し

ない状態になっている。そこで,後から欠損の指定を行う。

こうすれば全変数の半分は回答があったため解析の対象になったケースについても,もしもある尺度(たとえば

Hospital Anxiety and Depression Scale)についてそれを構成する項目の 8 割の回答がない場合はその尺度のみ

欠損値であるとして扱うことができる。この場合,データセット内でその尺度と他の変数の関係を見る(例:年

齢との相関)ならペアワイズ除去が行える。12

12 なおメタ解析の欠損値の扱い方については Mavridis, D., Chaimani, A., Efthimiou, O., Leucht, S., & Salanti, G. (2014). Addressing

missing outcome data in meta-analysis. Evidence-Based Mental Health, 17, 85-89.

Page 34: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

58

5 AMOS における欠損値代入

1. 完全情報最尤推定法

AMOS における欠損値代入は 2 つの手法がある.ひとつは完全情報最尤推定法 (full information maximum

likelihood estimation: FIML) であり,もうひとつが多重代入法である.ここではまず完全情報最尤推定法につい

て解説する。

AMOS の「分析のプロパティ (A)」のダイアログ・ボックスから「推定」のページを開け,「平均値と切片を

推定 (E)」に印をつける。

次に,「出力」のページに移動し,「」から印をはずす。

Page 35: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

59

以上の作業の後,欠損値を含んだデータで共分散構造分析を行う。モデルを描くと,潜在構造(以下の例では

誤差変数)の脇に「0, 」といった表示がされる。ゼロはその変数の平均がゼロであることを示している。コンマ

の後にはその変数の分散が(解析終了後に)表示される。ここではまだ解析が実行されていないのでブランクに

なっている。データセットは欠損値があるままで読み込み,解析を実行すると,自動的に完全情報最尤推定法に

よる欠損値代入が行われる。

1. 多重代入法

AMOS におけるもうひとつ欠損値代入が多重代入法である。AMOS では複数の代入を行う方法として,回帰法代

入,確率的回帰代入法,ベイズ法代入の3つが準備されている。ここではベイズ法代入を紹介する。最も単純な

Page 36: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

60

次のようなモデルで例示しよう(使用するサンプルは MNAR listwise deletion.sav)。まず,「分析のプロパテ

ィ (A)」のダイアログ・ボックスから「推定」のページを開け,「平均値と切片を推定 (E)」に印をつける。

次に「分析 (A)」をクリックし,プルダウン・メニューから「データ代入 (I)」を選びクリックする。

すると「Amos データ代入」のダイアログ・ボックスが現れる。ここで,「ベイズ法代入 (B)」を選び,「多重

出力ファイル」を選択する。

Page 37: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

61

そして「代入 (I)」をクリックすると,次のような「データ代入」というダイアログ・ボックスが現れる。こ

こでは「OK (O)」をクリックする。

ここに次のような「ベイズ SEM」が現れる。これが最初のモデルのパス係数,変数の平均値あるいは切片,

変数の分散の平均値と標準誤差である。

Page 38: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

14 欠損値に対応しよう ― 多重代入法とその他の代入法

62

擬似完全モデルが 10個できていて,それには「要約」に表示されるファイル名が与えられている。

Page 39: 14 欠損値に対応しよう ― 多重代入法とその他の代 …14 欠損値に対応しよう ― 多重代入法とその他の代入法 28 最後に表 14-3 を見てみよう。表

63

SPSS データセットを見ると同じ名称のセットが出来上がっている。