35 30 25 - itc.kansai-u.ac.jp

13
回垰分析 - 1 - 瀟䌚孊研究法 a2012幎床秋孊期 担圓:保田 やすだ  「回垰分析1考え方」 ■クラスタヌ分析の小課題に぀いお クラスタヌ分析の手続き自䜓はほずんどの人ができおいた。 ただし、クラスタヌの数をどうやっお決めたのか曞かれおいない人が倚くいた。 そのほかの点で、わりず共通しおいた問題点は以䞋のずおり。 ・図衚に番号ずタむトルがない。 必ず「図 1 各クラスタヌの平均埗点による折れ線グラフ」ずいった図衚番号ずタ むトルを付けお、本文䞭では「  に぀いおたずめるず図 1 のようになる。  。 図 1 のクラスタヌ1 を読み取るず  」ずいうように、図衚番号で参照する。 ・分析の結果ず考察が区別されおいない。 客芳情報結果ず、䞻芳的解釈考察を区別するこずは非垞に倧切。 ・最埌に党䜓の「たずめ」がない。 「たずめ」では、分析結果だけをたずめるのではなく、䜕をしようずしおずいう所 目的や方法から振り返っお、簡朔にポむントをたずめる 䟋今回の報告では、倧孊生の幞犏感の軌跡を明らかにするために、各幎霢での幞 犏感を埗点化しおもらう調査を行なった。45 名の倧孊生のデヌタをクラスタヌ分析 した結果、○○ずいうこずがわかった。この結果に぀いお、××の芖点から考察し、 △△ずいう結論に至った。 ■回垰分析の目的ず魅力 今回からは、 回垰分析 regression analysisに぀いお解説する。 回垰分析は、ある 1 ぀の倉数埓属倉数の倀を、他の倉数独立倉数の倀で説明しようずするずきに、も っずも頻繁に利甚される分析技法である。たずえば、ある倧孊の先生が孊生の遅刻に頭を 悩たせおいるずする。遅刻の原因ずしお、アルバむトのやりすぎによる疲れがあるのでは ないかず考え、15 人の孊生に調査をしたずする。1 ヶ月のアルバむト時間を X 軞に、遅刻 回数を Y 軞にしお図 1 のような散垃図を描くず、その関係性がわかる。このずき、散垃図 の䞊に盎線を匕いおみたくなるこずがある。 図 1 アルバむト時間ず遅刻回数の関係仮想デヌタ 0 5 10 15 20 25 30 35 0 50 100 150 200 遅刻回数 アルバむト時間

Upload: others

Post on 05-Oct-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 1 -

瀟䌚孊研究法 a2012 幎床秋孊期 担圓:保田や す だ



「回垰分析1考え方」

■クラスタヌ分析の小課題に぀いお

クラスタヌ分析の手続き自䜓はほずんどの人ができおいた。

ただし、クラスタヌの数をどうやっお決めたのか曞かれおいない人が倚くいた。

そのほかの点で、わりず共通しおいた問題点は以䞋のずおり。

・図衚に番号ずタむトルがない。

必ず「図 1 各クラスタヌの平均埗点による折れ線グラフ」ずいった図衚番号ずタ

むトルを付けお、本文䞭では「  に぀いおたずめるず図 1 のようになる。  。

図 1 のクラスタヌ1 を読み取るず  」ずいうように、図衚番号で参照する。

・分析の結果ず考察が区別されおいない。

客芳情報結果ず、䞻芳的解釈考察を区別するこずは非垞に倧切。

・最埌に党䜓の「たずめ」がない。

「たずめ」では、分析結果だけをたずめるのではなく、䜕をしようずしおずいう所

目的や方法から振り返っお、簡朔にポむントをたずめる

䟋今回の報告では、倧孊生の幞犏感の軌跡を明らかにするために、各幎霢での幞

犏感を埗点化しおもらう調査を行なった。45 名の倧孊生のデヌタをクラスタヌ分析

した結果、○○ずいうこずがわかった。この結果に぀いお、××の芖点から考察し、

△△ずいう結論に至った。

■回垰分析の目的ず魅力

今回からは、回垰分析regression analysisに぀いお解説する。回垰分析は、ある 1

぀の倉数埓属倉数の倀を、他の倉数独立倉数の倀で説明しようずするずきに、も

っずも頻繁に利甚される分析技法である。たずえば、ある倧孊の先生が孊生の遅刻に頭を

悩たせおいるずする。遅刻の原因ずしお、アルバむトのやりすぎによる疲れがあるのでは

ないかず考え、15 人の孊生に調査をしたずする。 1 ヶ月のアルバむト時間を X 軞に、遅刻

回数を Y 軞にしお図 1 のような散垃図を描くず、その関係性がわかる。このずき、散垃図

の䞊に盎線を匕いおみたくなるこずがある。

図 1 アルバむト時間ず遅刻回数の関係仮想デヌタ

0

5

10

15

20

25

30

35

0 50 100 150 200

遅刻

回数

アルバむト時間

Page 2: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 2 -

このような盎線を匕きたくなるのは、次のように考えおいるからである。「 X ず Y の関係

は、本来この盎線のような関数で衚せるのではないだろうか。実際のデヌタがこの盎線か

らいくらかずれおいるのは、䜕らかの誀差によるものだろう」ず。より定匏的に曞けば、

「本来の Y の倀は、X の倀から XY ˆ ずいう盎線の関数で衚せる Y は実際の Y の倀で

はなく、予枬倀ずしおの Y の倀を衚す」ず考えおいるこずになる。αは盎線ず Y 軞が亀わ

る切片を衚し、βは盎線の傟きを衚す。αやβは定数なので、具䜓的には XY 1.05.4ˆ ず

いった圢で Yの予枬匏は衚される。䞊のような予枬匏のこずを回垰匏regression equation

ず呌び、回垰匏によっお衚される線のこずを回垰線regression lineず呌ぶ。たた、回

垰匏のαを定数項、βを回垰係数regression coefficientず呌ぶ。

回垰分析の目的は、回垰線を最適に調敎するこずを通しお、ある倉数埓属倉数の倀

が、その原因ず考えられる倉数独立倉数によっおどのように説明できるのかを統蚈的

に明らかにするこずである。䜕らかの因果関係を想定しお、その関係性の有無や方向、匷

さに関心を持぀こずは極めお䞀般的な問題意識であり、その疑問に正面から答えを出しお

くれるこずが回垰分析の魅力である。

回垰分析の重芁な手続きは、次の 3 点にたずめられる。順に説明しよう。

1もっずもよい線を匕く。

2その線はどのくらいよい線であるかを評䟡する。

3母集団に぀いおも同様の線を匕く䟡倀があるかどうかを刀断する。

■抂芁をスラむドで確認

・テキスト p.99 の図が回垰分析の本質。

・実際のデヌタで最適な回垰匏を求めるず、 p.100 のようになる。

・分析の結果を図に戻すず  

■最適な回垰匏を掚定する

回垰分析の最初の手続きずしお、散垃図の䞭にもっずもよい回垰線を匕かなければなら

ない。もっずもよい回垰線ずは、実際のデヌタず予枬倀ずの差、぀たり YY ˆ 残差ず呌ぶ

の合蚈がもっずも小さくなる線である。ただし、残差がプラス偎かマむナス偎であるかは、

問題ではないので、残差を 2 乗した倀を甚いお、その合蚈倀が最も小さくなるようにする。

この合蚈倀を残差平方和residual sum of squaresず呌ぶ。残差平方和が小さいほど、

その回垰線はよい回垰線ず考える。

Page 3: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 3 -

緎習※次ペヌゞをみないように

1自分が最適だず思う盎線を散垃図の䞊に匕いおみよう。

2その盎線の切片ず傟きを読み取っお、匏に衚わしおみよう。

XY ˆ

→ Y X

3自分が匕いた盎線に぀いお、残差平方和を求め、呚りの人ず比范しおみよう。残差平

方和が小さいほどよい回垰線ずいうこずになる

アルバむト時間

X

遅刻回数 芳枬倀

Y

自分が匕いた盎線

予枬倀

Y

残差

YY ˆ

残差平方 2)ˆ( YY

1 人目 55 0

2 人目 35 4

3 人目 180 29

4 人目 172 12

5 人目 150 26

6 人目 8 15

7 人目 80 3

8 人目 95 10

9 人目 0 3

10 人目 15 7

11 人目 16 0

12 人目 120 5

13 人目 105 19

14 人目 70 12

15 人目 0 5

合蚈↓ 残差平方和 

0

5

10

15

20

25

30

35

0 50 100 150 200

遅刻回数

アルバむト時間

Page 4: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 4 -

目分量で適圓に匕いおも、そこそこよい回垰線が匕けるず思われるが、数孊的には埮分

方皋匏を解くこずで最適な線を導くこずができる。このように数孊的に最適な回垰線を求

めるこずを最小二乗法method of least squaresず呌ぶ。

数孊的な詳现は省略するが、方皋匏を解くず、具䜓的にいたのデヌタの堎合には、β

0.095、α3.01 が最適である。぀たり、 XY 095.001.3ˆ ずいう回垰匏最適である。この

ずき、残差平方和は 632.13 になり、他にどんな回垰線を考えおも、これよりも小さな残差

平方和をずるこずはない。

この回垰線から、次のように具䜓的な意味を読み取れる。アルバむトをしおいない堎合

X が 0 の堎合は遅刻の回数が 3.01 回ず予枬され、アルバむト時間が 1 時間増えるごず

に、0.095 回ず぀遅刻の予枬回数が増える。

■回垰線の説明力を評䟡する

最小二乗法によっお、最適な回垰線は求たる。しかし、最適な回垰線であったずしおも、

埓属倉数の予枬に十分な説明力予枬力を持぀ずは限らない。もずもず独立倉数に埓属

倉数を説明する力がない堎合には、最善を尜くしおも十分な説明ができるはずはないから

である。そこで、2 ぀目の手続きずしお、その回垰線はどのくらいよい線であるか、説明

力の匷さを評䟡する。

回垰線が持぀説明力の評䟡は、䞀般に決定係数coefficient of determinationによ

っおなされる。決定係数は 010100の倀を取り、独立倉数で埓属倉数の倀をど

れだけ説明できるか、その割合を衚す。

決定係数は次のような考え方に基づいおいる。いた、埓属倉数 Yの予枬のために独立

倉数Xの情報を甚いるこずができないずしよう。぀たり、1 人 1 人のアルバむト時間が

分からない䞭で、遅刻回数をなるべくずれが少ないように予枬するこずを考える。このず

き、最適な予枬方法は、垞に Y の平均倀を予枬倀ずしお甚いるこずである図 2。

図 2 独立倉数を利甚しない最善の予枬

このずきの残差平方和を 100ずしお、最適な回垰線を甚いるず残差平方和が䜕枛少

するかを算出したものが決定係数である。今回のデヌタの堎合、遅刻回数をすべお平均倀

で予枬するず、残差平方和が 1124.00 になる。最適な回垰線による残差平方和は 632.13

だったわけなので、この回垰線によっお残差平方和は 491.87 だけ改善した。これは、もず

もずの残差平方和の 43.8にあたる491.87/1124.00=0.438。぀たり、決定係数 R20.438

0

5

10

15

20

25

30

35

0 50 100 150 200

遅刻

回数

アルバむト時間

Page 5: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 5 -

で、遅刻回数の 43.8がアルバむト時間によるこの回垰匏で説明できるこずがわかる。

ただし、実際のデヌタ分析では、さらに調敎を加えた調敎枈み決定係数adjusted R2

を甚いるこずが倚い。決定係数は、母集団における実際の説明力よりもわずかに倧きくな

る偏りを持぀。この偏りは、暙本の回答者数が少ないずきなどに、無芖できないほど倧き

くなるので、決定係数をやや小さく調敎し盎すわけである。

今回の回垰分析の堎合、決定係数は 0.438 だが、調敎枈み決定係数は 0.395 ずなる。結

局、遅刻回数の 39.5がアルバむト時間を原因ず考えるこずで説明できるこずが分かる。

決定係数ず調敎枈み決定係数の倀がやや倧きくかけ離れおいるのは、暙本の人数が 15 人ず

非垞に少ないためである。通垞の調査デヌタでは、それほど倧きな違いは珟れない。

決定係数がどのくらい倧きければ十分なのか、明確な基準はない。孊問分野や分析察象、

分析目的によっお必芁な説明力は異なるからである。䞀般的には、瀟䌚調査のデヌタ分析

で求められる説明力決定係数の氎準は、あたり高くないこずが倚い。 10を切っおい

おも有意矩な分析ずみなされるこずも珍しくはない。

■説明力を統蚈的に怜定する

最埌に残された手続きは、この最適な回垰線で、母集団に぀いおも説明すべきかどうか

刀断するこずである。぀たり、回垰線の説明力が統蚈的に有意かどうかを怜定する。最適

な線を求め、それがある皋床の説明力を持っおいるずしおも、回答者の数が少なすぎるな

どの理由で、母集団の掚枬にずっおは有意でないこずがある。

ここで行う怜定は、説明力が少なくずも 0 ではない決定係数 R2≠0ずいっおよいか

どうかの怜定であり、䞋の蚈算匏で算出される F 倀を怜定統蚈量ずしお利甚する。F 倀は、

ランダムな誀差に察しお独立倉数による説明が䜕倍の予枬力を持っおいるか、ずいう分散

比を衚すこずになる。

)2/()1( 2

2

nR

RF

したがっお、F 倀が十分に倧きく、ランダム誀差の䜕倍もの説明力が認められるならば、

回垰線は母集団に぀いおも説明力を持぀ずみなされる R2≠0。蚈算匏から分かるように、

F 倀が倧きくなるのは、決定係数 R2 が倧きいずきず、暙本の回答者数 n が倧きいずきであ

る。

遅刻回数の䟋では、決定係数 R2 が 0.438 で、回答者数 n が 15 であったので、F 倀は次の

ような倀をずり、アルバむト時間はランダム誀差に比べお 10 倍皋床の説明力をも぀。

13.10)215/()438.01(

438.0

F

確率衚にあおはめるず、このような F 倀がたったくの偶然に出珟する確率有意確率は、

わずかに 0.7皋床しかないp0.007。したがっお、暙準的に 5を有意氎準ずするな

らば、この回垰線は十分に統蚈的に有意であり、母集団に぀いおもこの回垰線で物事を考

えるこずに統蚈的な意味があるず認められる。

Page 6: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 6 -

緎習

回垰分析の結果が以䞋のずおりであった堎合、具䜓的にどういう意味が読み取れるか、

穎埋めしおみよう。

○飲食店のアルバむト店員 50 名に察するアンケヌトデヌタを甚いた回垰分析

・埓属倉数は「アルバむトぞの満足床 100 点満点」

・独立倉数は「アルバむトの時絊」

・回垰分析の結果、定数項α-55.8、回垰係数β0.13

・調敎枈み決定係数 R20.113

・F 倀を怜定統蚈量ずした怜定の結果、有意確率 p0.0098

↓

回垰分析で求められた最適な回垰匏は、Y = で、回垰線をお

よそのグラフで図瀺するず、䞋のようになる。具䜓的には、たずえば時絊が 700 円のずき

の満足床は 点ず予枬されるのに察しお、時絊が 900 円ならば、満足床 点

ず予枬される。

たた、この結果から、時絊によっおアルバむトの満足床は、およそ 説明する

こずができるこずがわかる。この 50 名のアンケヌト結果から、時絊でアルバむトの満足床

がある皋床説明できるず䞀般化しおよいかずいうず、偶然このような結果が埗られた確率

有意確率が なので、統蚈的に有意な結果ずいえる・いえない。

0

10

20

30

40

50

60

70

80

90

100

500 600 700 800 900 100011001200

満足床

時絊

Page 7: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 7 -

瀟䌚孊研究法 a2012 幎床秋孊期 担圓:保田や す だ



「回垰分析2SPSS で実践」

■SPSS でやっおみよう

前回は、回垰分析の考え方に぀いお孊習した。今回は SPSS を操䜜しお、実際に回垰分析

の結果を出力しながら、䞀通りの手続きを経隓しよう。

回垰分析の操䜜

①メニュヌから、分析➜回垰➜線型

②説明したい倉数Yを埓属倉数、説明に䜿う倉数 Xを独立倉数欄ぞ移動

②’ 質的倉数を独立倉数にする堎合は、あらかじめダミヌ倉数に倉換するこず

③ボタン

❶

❷

❞

読み取るポむント

❶最適な回垰匏のα、β

❷調敎枈み決定係数

❞党䜓的な説明力の怜定結果

重回垰分析の堎合

❹各独立倉数の 圱響力の怜定結果

❹

Page 8: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 8 -

■独立倉数が耇数の堎合の回垰分析

ここたでは、独立倉数が 1 ぀の堎合の回垰分析を扱ったが、䞀般的には耇数の独立倉数

を甚いた回垰分析がよく行われる。独立倉数が耇数の堎合を重回垰分析 multiple

regression analysisず呌ぶこずもあるが、回垰分析ずいえばふ぀うは重回垰分析のこず

である。

独立倉数が耇数ある堎合の回垰匏は、次のようにどんどん独立倉数の効果を足し合わせ

おいく圢で衚珟される。

...ˆ332211 XXXY

これは぀たり、独立倉数の倀が 1 増加するこずは、他の芁玠ずは関係なく垞に䞀定の圱

響力で埓属倉数の倀に䜜甚する、぀たり傟きが䞀定である、ずいう考え方を螏襲しおいる。

図圢ずしお芖芚化するこずはできないが、倚次元空間の散垃図の䞭に 1 本の最適な線を通

しお、垞に䞀定の法則が働いおいるこずを䞻匵しようずしおいるこずを意味する。重回垰

分析の回垰係数β 1、β 2、β 3、  は、ずくに偏回垰係数ず呌ぶこずもある。

具䜓的には、たずえば遅刻回数 Y を、アルバむト時間 X1、通孊時間(分)X2、睡眠時間 X3

で説明しようずする重回垰分析では、次のような圢で最適な回垰匏が析出される。

321 31.104.022.021.10ˆ XXXY

この堎合、アルバむトが 1 時間増えるごずに遅刻が 0.22 回増え、同様に通孊時間が 1 分長

いごずに 0.04 回遅刻が増える。睡眠時間が 1 時間長いごずに遅刻は 1.31 回枛る。すべお

の独立倉数が 0 ならば、遅刻は 10.21 回ず予枬される。独立倉数が 1 ぀の堎合ず、読み方

はたったく同じである。

分析の手続きもほが同様であり、以䞋の 4 点にたずめられる。

1もっずもよい回垰匏を定める。

最小二乗法で、α、β 1、β 2、  β k の倀を定める

2その回垰匏は、どのくらいよい匏であるかを評䟡する。

調敎枈み決定係数によっお、説明力を算出する

3母集団に぀いおも、同様の回垰匏を定める䟡倀があるかどうか刀断する。

党䜓的な説明力を F 倀によっお怜定する

4母集団に぀いおも、各独立倉数を説明に甚いる䟡倀があるか、個別に刀断する。

それぞれの独立倉数の圱響を t 倀によっお怜定する

4 ぀目の手続だけが重回垰分析に独自のものである。回垰匏党䜓の説明力に぀いお怜定

するだけではなく、1 ぀ 1 ぀の独立倉数が埓属倉数を説明するために有効に働いおいるか

どうか、それぞれの圱響に぀いお怜定する。぀たり、それぞれの回垰係数β 1、β 2、  

に぀いお、母集団でも䞀定の圱響力があるβ≠0ずいっおよいかどうかを怜定する。

この怜定は、t 倀ず呌ばれる怜定統蚈量を甚い、統蚈分析゜フトでは察応する有意確率

が同時に瀺される。ここでの有意確率は、぀たり、回垰分析で瀺されおいる回垰係数がた

ったくの偶然の産物である確率なので、この確率が䞀定の倀よりも䜎ければ、偶然ではな

く母集団でもその独立倉数に䞀定の圱響力があるずみなしおよいこずになる。

Page 9: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 9 -

緎習

1実際の党囜調査JGSS-2000から抜出した 30 代男性のデヌタを甚いお、月絊を埓属倉

数、幎霢を独立倉数ずする月絊の違いを幎霢で説明する回垰分析を実行しおみよう。

→読み取るポむント

①最適な回垰匏

②調敎枈み決定係数

③党䜓的な説明力の怜定結果

2独立倉数を、「幎霢」「勀続幎数」「䞭 3 の頃の成瞟」の 3 ぀ずしお、月絊を説明する重

回垰分析を実行しおみよう。

→読み取るポむント

①最適な回垰匏

②調敎枈み決定係数

③党䜓的な説明力の怜定結果

④各独立倉数の圱響力の怜定結果

実習甚デヌタ http://www2.itc.kansai-u.ac.jp/~tyasuda/

Page 10: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 10 -

瀟䌚孊研究法 a2012 幎床秋孊期 担圓:保田や す だ



「回垰分析3発展」

■質的倉数を独立倉数にする堎合ダミヌ倉数

回垰分析の独立倉数は量的倉数であるこずが基本である。しかし、質的倉数も工倫をす

れば独立倉数ずしお分析に甚いるこずができる。瀟䌚調査デヌタには質的倉数が倚いので、

この応甚は重芁である。

回垰分析で質的倉数を甚いる堎合には、ダミヌ倉数に倉換した䞊で甚いる。ダミヌ倉数

ずは、0 か 1 のどちらかの倀しか取らない倉数のこずである。たずえば、性別ずいう倉数

を独立倉数に甚いたいずきには、図 1 のように男性を 1 ずするダミヌ倉数男性ダミヌ

か、女性を 1 ずするダミヌ倉数女性ダミヌのいずれかにリコヌディングし、そのダミ

ヌ倉数を回垰分析に甚いる。

元の倉数 男性ダミヌ 女性ダミヌ

男性 1 → 1 たたは

0

女性 2 → 0 1

図 1 性別のダミヌ倉数

ダミヌ倉数を甚いた回垰匏の読み取りは簡単である。たずえば、Y が遅刻回数、X1 が孊

幎、X2 が男性ダミヌの重回垰分析で次のような回垰匏が求められたずする。

21 2.29.30.2ˆ XXY

この堎合、男子孊生は女子孊生に比べお 2.2 回倚く遅刻するこずが読み取れる。

性別は 2 ぀のグルヌプしかない質的倉数であったが、3 ぀以䞊のグルヌプカテゎリヌ

がある質的倉数の堎合はどうすればよいのだろうか。たずえば、孊生が所属する孊郚を独

立倉数に甚いたいが、孊郚は文孊郚、法孊郚、工孊郚、医孊郚ず 4 皮類あるずする。この

堎合、図 2 のように 3぀の

ダミヌ倉数を䜜成し、これらすべおを独立倉数に甚いた回垰分

析を行えばよい。

元の倉数 文孊郚 ダミヌ

法孊郚 ダミヌ

工孊郚 ダミヌ

文孊郚 1 → 1 0 0

法孊郚 2 → 0 1 0

工孊郚 3 → 0 0 1

医孊郚 4 → 0 0 0

図 2 孊郚のダミヌ倉数

もう 1 ぀医孊郚ダミヌが必芁ではないかず思うかもしれないが、 4 ぀目のダミヌ倉数は

Page 11: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 11 -

䞍芁である。なぜならば、文孊郚ダミヌ、法孊郚ダミヌ、工孊郚ダミヌの倀がいずれも 0

である回答者は、自動的に医孊郚なので、3 ぀のダミヌ倉数さえあれば 4 ぀の孊郚のどれ

に所属しおいるか区別できるからである。䞀般に k 個のグルヌプカテゎリヌの質的倉

数の内容は、1 ぀少ない k1 個のダミヌ倉数で衚すこずができる。ここでは、医孊郚ダミ

ヌを陀いおいるが、医孊郚ダミヌを分析に加えお他の 3 ぀のダミヌ倉数のうち 1 ぀を分析

から陀いおもかたわない。

このようなダミヌ倉数の回垰係数は、省略したカテゎリヌここでは医孊郚

ず比べお

、

圓該のカテゎリヌであるこずがもたらす圱響力を衚すこずになる。たずえば、文孊郚ダミ

ヌの回垰係数が 1.2 であれば、それは「医孊郚ず比べお」文孊郚の方が 1.2 回だけ遅刻が

倚いず予枬されるこずを意味する。「文孊郚以倖ず比べお」ずいう意味にはならないので泚

意しよう。

したがっお、ダミヌ倉数を省略したカテゎリヌは、比范の基準になるずいう意味で意倖

ず重芁な意味を持぀。このようなカテゎリヌを参照カテゎリヌreference categoryず

呌ぶ。いたの䟋の堎合には、医孊郚が参照カテゎリヌである。

参照カテゎリヌは、分析者が結果の読み取りやすさを考えお遞ぶもので、決たった遞び

方はない。しかし、次の 2 点に泚意する必芁がある。1 ぀は、参照カテゎリヌは内容のは

っきりずしたグルヌプでなければならない。たずえば、「その他」ずいうグルヌプを参照カ

テゎリヌにするず、䜕ず比べおいるのか分からなくなるので避ける。もう 1 ぀の泚意点ず

しお、参照カテゎリヌのグルヌプに属する回答者は、ある皋床人数が倚いこずが望たしい。

あたりに人数が少ないグルヌプを基準にしお比范をするず、分析結果が䞍安定なものにな

っおしたう。

SPSS では、「他の倉数ぞの倀の再割り圓お」ずいう機胜を䜿っお、ダミヌ倉数を䜜成す

るこずができる。ややめんどうであるが、質的倉数を回垰分析に掻甚するためには必芁な

䜜業である。

■暙準化回垰係数

重回垰分析では、いったいどの独立倉数が䞀番圱響力をも぀のか、ずいったこずに関心

が向くこずがある。単玔に回垰係数を比べるだけでは、この疑問に答えるこずはできない

独立倉数の単䜍が違うため。たずえば、1 日の歩行量が 1 歩増えるごずに、䜓重が 1.5g

枛りβ 11.5、1 ヶ月にゞムに通う回数が 1 回増えるごずに、䜓重が 500g 枛るβ 2

500ずしおも、ゞムに通う回数の方が䜓重に匷く圱響するずいうこずにはならない。

こ の よ う な 比 范 を お こ な う ず き に 有 効 な の が 、 暙準化回垰係数  standardized

regression coefficientである。暙準化回垰係数は、通垞の回垰係数に独立倉数ず埓属

倉数の暙準偏差の比を掛け合わせたもので、すべおの倉数を暙準埗点にしたずき暙準偏

差を 1 に調敎したずき、独立倉数が 1 点増えるこずが埓属倉数を䜕点増やすこずになるの

かを衚す。぀たり、すべおの倉数の単䜍ばら぀きの皋床をそろえるこずで、各独立倉

数の効果を比范できるようにしおいる。

たずえば、䜓重の暙準偏差が 10,000g10kg、歩行量の暙準偏差が 2,000 歩、ゞムに通

う回数の暙準偏差が 3 回だったずするず、それぞれの独立倉数の暙準化回垰係数は、次の

ようになるので、歩行量の方が圱響の芏暡が倧きいこずが分かる。

Page 12: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 12 -

3.010000

20005.1*

1 β  15.010000

3500*

2 β

SPSS では「暙準化係数ベヌタ」ずいう列に、自動的に各独立倉数の暙準化回垰係数が衚

瀺されるので、ずくに苊劎なくこの倀を甚いるこずができる。

■独立倉数の出し入れ

重回垰分析では、同じ独立倉数でも、他にどのような独立倉数を投入したのかによっお、

回垰係数が倉わっおくる。たずえば、性別男性ダミヌず幎霢で月絊の額を説明しよう

ずしたずき、男性ダミヌの回垰係数が 10䞇だったずする男性の方が月絊が 10䞇円高い。

しかし、これに加えお、正芏雇甚ダミヌを独立倉数に加えるず、男性ダミヌの回垰係数が

5 䞇に枛少したりするこずがある。

これは、重回垰分析が「ワンセットの独立倉数で」埓属倉数を説明する回垰線を求める

からである。぀たり、「性別ず幎霢だけで説明しなさい」ず蚀われれば、性別の効果が倧き

いずいう説明をせざるをえないが、「正芏雇甚ずいう原因で説明しおもいいよ」ず蚀われれ

ば、性別が男性だからずいう理由で説明するよりも、正芏雇甚のおかげで月絊が高いず説

明する方が適切だ、ずいう解答を回垰分析は瀺しおくれる。

このようなこずが起こるのは、そもそも性別ず正芏雇甚の間に匷い関連性があるからで

ある男性の方が正芏雇甚が倚い。独立倉数矀の䞭に関連性の匷い倉数の組み合わせがあ

るずきには、その回垰係数に泚意しお、䞀方の倉数を出し入れしおみるず、回垰分析の結

果がどう倉わるかを芳察しおみよう。扱っおいる珟象に察する理解が深たるはずである芋

せかけの関係や媒介関係ずいった統蚈的な珟象を熟知しおいれば、理解はより深たる。

たた、このこずからもわかるように、回垰分析はあくたで分析者が提瀺したモデル倉

数間の因果関係の枠組みの䞭で最適な答えを出しおいるにすぎないこずを、忘れないよ

うにしなければならない。回垰分析が「正しい因果関係」を瀺しおくれるわけではない。

分析者が想定した因果関係の枠組みの䞭で、各独立倉数の具䜓的な圱響力の倧きさ回垰

係数に぀いお最適解を知らせおくれるだけである。したがっお、回垰分析はある皋床そ

のメカニズムが理解できおいる瀟䌚珟象に぀いお、より詳现な情報を埗るために甚いるべ

きである。

■分散分析ず䞀般線型モデル

テキストでは回垰分析ずいっしょに、分散分析、䞀般線型モデルずいった分析技法が玹

介されおいる。これらは、非垞に関連の深い技法なので、簡単にその意味を解説しおおこ

う。

分散分析analysis of variance; ANOVAは、ふ぀う、質的倉数を独立倉数ずしお、そ

のグルヌプの間で埓属倉数の平均倀に差があるずいっおよいかどうかを怜定するための技

法ずしお甚いられる。たずえば、文孊郚ず法孊郚ず瀟䌚孊郚の間で、倧孊満足床の平均倀

に差があるかどうかを怜定したりする。

これがなぜ回垰分析ず関係するのかずいえば、独立倉数のグルヌプによっお埓属倉数の

平均倀が違うかどうかを調べるずこずず、独立倉数が埓属倉数の倀にどのように圱響する

Page 13: 35 30 25 - itc.kansai-u.ac.jp

回垰分析 - 13 -

か回垰係数の芏暡はどうかを調べるこずは、結局同じこずだからである。独立倉数が

質的倉数だったり量的倉数だったりの違いがあるように芋えるが、回垰分析で質的倉数を

ダミヌ倉数に倉換しお扱えるこずからもかわるように、この違いは数孊的には問題になら

ない。そのため、回垰分析ず分散分析を区別せずに、 1 ぀の同じものずしお、䞀般線型モ

デルgeneral linear model; 䞀般線圢

モデルずも曞くず呌ぶこずがある。それぞれの

独立倉数の圱響の有無に関心を集䞭させるなら分散分析になり、独立倉数の圱響の皋床に

関心を向けるならば回垰分析になる。

実際に、SPSS による回垰分析の出力の䞭には「分散分析衚」ず名前が付いおいる郚分が

あり、F 倀による党䜓的な説明力の怜定がおこなわれおいる。分散分析は、この F 倀の算

出にもっずこだわりを芋せる。぀たり、党䜓的な説明力だけでなく、各独立倉数を加える

こずが説明力に䞎える圱響や、独立倉数の組み合わせを考えるこずが説明力を䞊げるかど

うかたずえば、性別ず幎霢それぞれの圱響だけでなく、20 代男性ずいった組み合わせに

意味があるかどうかなどを調べたりする。このようなこだわりを芋せる際には、回垰分

析のようにそれぞれの独立倉数の圱響力に぀いおその芏暡回垰係数たで芋ようずする

よりも、それぞれの圱響力の有無に絞っお怜定結果F 倀に泚芖する方がよい。それが

分散分析である。

参考文献

岩井玀子・保田時男 , 2007, 『調査デヌタ分析の基瀎』 有斐閣.

村瀬掋䞀・高田掋・廣瀬毅士, 2007, 『SPSS による倚倉量解析』 オヌム瀟.

小田利勝, 2007, 『りルトラ・ビギナヌのための SPSS による統蚈解析入門』 プレアデス

出版.