第１日目第２時限の学習目標

第１日目第２時限の学習目標

基本的な１変量統計量（その２）について学ぶ。

尺度水準と適切な統計量との関連を整理する。

２変量データを手にした時の分布の特徴の記述方法について学ぶ。

基本的な２変量統計量ー１　　　　　　　　　カイ２乗統計量について

学ぶ。

基本的な１変量統計量ー２　　 (a) 中央値、四分領域

中央値ーデータを小さい順に並べたとき、中央（５０パーセント点）にくる値のこと。

第１四分位数ーデータを小さい順から大きい順に並べたとき、下から４分の１（２５パーセント点）にくる値のこと。

第３四分位数ーデータを小さい順から大きい順に並べたとき、下から４分の３（７５パーセント点）にくる値のこと。

四分領域ーデータを小さい順に並べたとき、第３四分位数と第１四分位数の差の半分の値のこと。

基本的な１変量統計量ー２　　 (b) 四分位数と四分領域 Q の関係

２５％２５％

２５％

２５％

Q1 Mdn Q3

Q = (Q3-Q1)/2

基本的な１変量統計量ー２ (c) 中央値 (Median) の求め方

中央値の求め方は、「心理統計学 a 」のテキストの p.17 の (4.1) 式の通りである。すなわち、

)1.4(,/)(2

mmm flcumN

hlMdn

• 　ここで、 lm は、中央値のある階級の下限点、• h は、階級の幅、• cum (lm) は、中央値のある階級より１つ手前までの　累積度数、• fm は、中央値のある階級の度数

基本的な１変量統計量ー２ (d) 第１四分位数の求め方

第１四分位数の求め方は、「心理統計学 a 」のテキストの p.17 の (4.2) 式の通りである。すなわち、

)2.4(,/)(4 1111

QQQ flcumN

hlQ

• 　ここで、 lQ1 は、第１四分位数のある階級の下限点、• h は、階級の幅、• cum (lQ1) は、第１四分位数のある階級より１つ手前　　までの累積度数、• fQ1 は、第１四分位数のある階級の度数

基本的な１変量統計量ー２ (e) 第３四分位数の求め方第３四分位数の求め方は、「心理統計学 a 」のテキ

ストの p.17 の (4.3) 式の通りである。すなわち、

)3.4(,/)(4

33333

QQQ flcumN

hlQ

• 　ここで、 lQ3 は、第３四分位数のある階級の下限点、• h は、階級の幅、• cum (lQ3) は、第３四分位数のある階級より１つ手前　　までの累積度数、• fQ3 は、第３四分位数のある階級の度数

基本的な１変量統計量ー２ (f) 四分領域の求め方これらにより、中央値 (Mdn) 、第１四分位数 (Q1) 、第３四分位数 (Q3) が求まったならば、テキスト p.16 の下方の公式により、

213 QQ

Q

として、四分領域 (Q) を求めればよい。

基本的な１変量統計量ー２　　　　 (g) 最頻値（ mode ）

最頻値ー得られる確率が最も高い値、もしくは得えられる頻度の最も多い値。

右の図では、２つの山のうちの右側に対応するｘの値 (mode と

　表記）。mode x

基本的な１変量統計量ー２　　 (h) 中央値、四分領域、最頻値の性質

中央値、四分領域は、順序情報以上の尺度レベルのデータでは計算可能である。なぜ？

最頻値は、名義尺度、順序尺度、間隔尺度、比率尺度のいずれのレベルのデータでも計算可能である。なぜ？

基本的な１変量統計量ー２　　　　　　まとめ

これまでに学んだ基本的な１変量統計量の代表的な幾つかを尺度水準との関連でまとめると右の図のようになる。

順序尺度間隔尺度・比率尺度

代表値　中央値 (Mdn)

　平均

ばらつき四分位数　　　(Q)

標準偏差（分散）

２変量データを手にした時の　　　　　　　分布の特徴の記述－１何らかの目的で N 対の対データ（２変量デー

タ）

　　　　　を手にしたとする。サンプル数 N がある程度以上大きい場合、簡単

にデータの全体像をつかむためには、データが原則的に名義尺度レベルの場合はまず分割表を、順序尺度レベル以上であれば散布図を描けばよい。

),(,),,(),,( 2211 NN yxyxyx

２変量データを手にした時の　　　　　　　分布の特徴の記述－２

分割表とは、例えば５１４名の被験者を（行と列の）２つの属性を用いて、右のように分類したものである。

厳しすぎ

適当もっと厳しく

　男

　２７

２７５

　７５

　女

　　３

１２４

　１０

データの内容ー１

上記データは、新入生に対する永平寺参禅時の５１４名の学生に対する、参禅後の調査データを２つの属性で分類したものである。

属性の１つは学生の性別（男子、女子）であり、他方は永平寺の雲水による坐禅指導の評価（厳しすぎた、適当、もっと厳しく）である。

データの内容ー２もとのデータは、上記２変量の対（ｘ、ｙ）が、　　　　　　（性別、座禅指導の評価）、　から成る、一対のデータ、５１４名分である。

（２，２）、（２，３）、（１，２）、… 、（１，２）

これらを、うえの表のようにまとめたものは、分割表または、クロス表と呼ばれる。

分割表（又はクロス表）の作り方

1.厳し　過ぎた

2.　適当 3.もっと　　厳しく

　　計

1.男子　　学生2.女子　　学生　　計

データ　（２，２）、（２，３）、（１，２）、… 、（１，２）

　　　　　　　演習（２）次の２０対（２０名）の２変量データセットの１つを用いて、２ ×

２分割表を作成せよ。ここで、（ x 、 y ）変量のうち、前者は性別を後者は向性（外向、内向）を表すものとする：

　　（データセット１）：　　　　　（１，１）、（２，２）、（１，２）、（１，１）、（２

，１）、　　　　　（１，１）、（２，１）、（２，１）、（１，１）、（２

，２）、　　　　　（１，２）、（１，２）、（１，１）、（１，２）、（２

，１）、　　　　　（１，２）、（１，１）、（１，１）、（１，２）、（１

，２）

　　　　演習（２）の続き

　　（データセット２）：　　　　　（２，１）、（２，２）、（２，１）、（１，１）、（２，

１）、　　　　　（１，１）、（２，２）、（２，１）、（１，２）、（１，

２）、　　　　　（１，２）、（１，２）、（１，２）、（１，２）、（２，

１）、　　　　　（２，２）、（２，２）、（１，２）、（１，２）、（２，

１）

２変量データを手にした時の　　　　　　　分布の特徴の記述－３

散布図とは、例えば、千野のホームページの講義ノートの中の「データ解析/基礎と応用」の１．２．３節　「はずれ値の相関係数への影響」の項にあるような図である。

２変量データを手にした時の　　　　　　　分布の特徴の記述－４データが名義尺度レベルの場合には、う

えで紹介した分割表（クロス表）をもとに、２変量間の連関を表すための以下のような多くの指標がある。

それらは、例えば、統計学辞典（東洋経済、１９８９、 pp.341-343 ）を見ると、以下のように各種の指標がこれまでに提案されていることがわかる：

　

２変量データを手にした時の　　　　　　　分布の特徴の記述－５それらは、　（１）カイ２乗統計量系指標（ピアソンのカイ２乗統計量

、　　　クラメールの V 、チュプロウの T 、ピアソンの一致

係数 C 、尤度比カイ２乗統計量）　（２）予測関連指標（グッドマン・クラスカルの予測関連　　　　指数）　（３）その他、ヘイズの不確実性係数、コーエンの一致　　　係数など。

２変量データを手にした時の　　　　　　　分布の特徴の記述－６

一方、データが順序尺度レベルの場合には、２変量間の順位相関・関連係数を表すための以下のような多くの指標がある。例えば統計学辞典（東洋経済、１９８９、 pp.338-340 ）。

それらは、　（１）ケンドールの順位相関係数　（２）スピアマンの順位相関係数　（３）ソマーズの関連指数、その他　である。

２変量データを手にした時の　　　　　　　分布の特徴の記述－７

最後に、データが間隔尺度レベルの場合には、２変量間の相関関係を表すための以下のような指標がある。例えば統計学辞典（東洋経済、１９８９、 pp.334-337 ）を見ると、

それらは、　（１）共分散　（２）ピアソンの（偏差積率）相関係数　（３）偏相関係数、重相関係数、偏回帰係数、その他　である。

２変量データを手にした時の　　　　　　　分布の特徴の記述－８

この授業では、これらのうち、　　（１）名義尺度レベルの対データの場合の代

表的な連関の関連性の検討のための統計量であるピアソンのカイ２乗統計量と、

　　（２）間隔尺度レベル以上の対データの場合の代表的な２変量間の関連性の指標である共分散及び相関係数

についてのみ、簡単に触れる。

第１日目第２時限の学習目標

Documents