基本統計量について
TRANSCRIPT
2010.04 作成
基本統計量について
データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標
に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代
表値と呼ぶ。
※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。
○ 正規分布に従う単変量データの場合・・・
平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する)
例) 標本平均 、標本分散 V、標本標準偏差 s
, ,
○ 正規分布からのずれを示す統計量
五数要約
・最大値
・最小値
・中央値
・上ヒンジ値
・下ヒンジ値
※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。
高次のモーメント
・ 歪度(ゆがみ) : 標準化偏差 の 3 乗平均
・ 尖度(とがり) :標準化偏差 の 4 乗平均から 3 を引いたもの
※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト
グラムを見たほうが良い。
○ 正規分布に従う p 次元の多変量データの場合・・・
平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル
にしたもの)と分散共分散行列(p×p の正方行列で、対角成分は各変量の分散、
それ以外は変量間の関係性を示す共分散)
[参考 1] モーメント, 積率
一次のモーメント: 平均
二次のモーメント: 分散、標準偏差
三次のモーメント: 歪度
四次のモーメント: 尖度
[参考 2] ヒンジ値と四分位値の違い ※ 便宜上同じものとして取り扱われることも多い
データを昇順に並べたとき、小さいほうからデータ全体の 1/4 が含まれるよう
な順位のデータ値を第 1 四分位(下側四分位)、3/4 が含まれるような順位のデ
ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。
一方、中央値よりも上の値の中央値・中央値よりも下の値の中央値を、それ
ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。
例) 次のような1から10までの数値が一つずつ含まれるデータを考えてみる。
1 2 3 4 5 6 7 8 9 10
このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側
四分位は 3.25、上側四分位は 7.75 となる。
これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。
もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位
を計算。
コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ
と四分位が一致することがわかる。
中央値
5.5 3.25 7.75
(幅 2.25) (幅 2.25) (幅 2.25) (幅 2.25)
dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成
dat1 # 作成したデータの中身を表示
fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値)
quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値)
dat2 <- 0:10 # 0~10 までの整数値を持つデータを作成
dat2 # 作成したデータの中身を表示
fivenum(dat2) # 5 数要約
quantile(dat2) # 四分位
> dat1 <- 1:10
> dat1
[1] 1 2 3 4 5 6 7 8 9 10
> fivenum(dat1)
[1] 1.0 3.0 5.5 8.0 10.0
> quantile(dat1)
0% 25% 50% 75% 100%
(幅 2) (幅 2) (幅 2) (幅 2)
箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も
あるが、R の場合はヒンジ値を用いている。
箱ひげ図描画用のコマンド
par(mfrow=c(2,1)) # グラフィック画面を二分割
boxplot(dat1, horizontal=TRUE) # dat1 を横書きの箱ひげ図に
boxplot(dat1, horizontal=TRUE) # dat2
用語集
平均 mean
分散 variance
標準偏差 standard deviation
変動係数 coefficient of variation
モーメント、積率 moment
歪度(ひずみ) skewness
尖度(とがり) kurtosis
五数要約 five-number summary
中央値 median
四分位値 fourth ※quantile は分位数
最小値 minimum
最大値 maximum
標準化 standardization