基本統計量について

4
2010.04 作成 基本統計量について データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標 に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代 表値と呼ぶ。 基本統計量の訳はsummary statisticsで、basic statisticsは基礎統計学を指す。 正規分布に従う単変量データの場合・・・ 平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する) ) 標本平均 、標本分散 V、標本標準偏差 s , , 正規分布からのずれを示す統計量 五数要約 ・最大値 ・最小値 ・中央値 ・上ヒンジ値 ・下ヒンジ値 ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。 高次のモーメント 歪度(ゆがみ) 標準化偏差 3 乗平均 尖度(とがり) :標準化偏差 4 乗平均から 3 を引いたもの n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト グラムを見たほうが良い。 正規分布に従う p 次元の多変量データの場合・・・ 平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル にしたもの)と分散共分散行列(p×p の正方行列で、対角成分は各変量の分散、 それ以外は変量間の関係性を示す共分散) [参考 1] モーメント, 積率 一次のモーメント: 平均 二次のモーメント: 分散、標準偏差 三次のモーメント: 歪度 四次のモーメント: 尖度

Upload: wada-kazumi

Post on 14-Jul-2015

566 views

Category:

Education


2 download

TRANSCRIPT

Page 1: 基本統計量について

2010.04 作成

基本統計量について

データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標

に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代

表値と呼ぶ。

※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。

○ 正規分布に従う単変量データの場合・・・

平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する)

例) 標本平均 、標本分散 V、標本標準偏差 s

, ,

○ 正規分布からのずれを示す統計量

五数要約

・最大値

・最小値

・中央値

・上ヒンジ値

・下ヒンジ値

※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。

高次のモーメント

・ 歪度(ゆがみ) : 標準化偏差 の 3 乗平均

・ 尖度(とがり) :標準化偏差 の 4 乗平均から 3 を引いたもの

※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト

グラムを見たほうが良い。

○ 正規分布に従う p 次元の多変量データの場合・・・

平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル

にしたもの)と分散共分散行列(p×p の正方行列で、対角成分は各変量の分散、

それ以外は変量間の関係性を示す共分散)

[参考 1] モーメント, 積率

一次のモーメント: 平均

二次のモーメント: 分散、標準偏差

三次のモーメント: 歪度

四次のモーメント: 尖度

Page 2: 基本統計量について

[参考 2] ヒンジ値と四分位値の違い ※ 便宜上同じものとして取り扱われることも多い

データを昇順に並べたとき、小さいほうからデータ全体の 1/4 が含まれるよう

な順位のデータ値を第 1 四分位(下側四分位)、3/4 が含まれるような順位のデ

ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。

一方、中央値よりも上の値の中央値・中央値よりも下の値の中央値を、それ

ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。

例) 次のような1から10までの数値が一つずつ含まれるデータを考えてみる。

1 2 3 4 5 6 7 8 9 10

このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側

四分位は 3.25、上側四分位は 7.75 となる。

これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。

もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位

を計算。

コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ

と四分位が一致することがわかる。

中央値

5.5 3.25 7.75

(幅 2.25) (幅 2.25) (幅 2.25) (幅 2.25)

dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成

dat1 # 作成したデータの中身を表示

fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値)

quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値)

dat2 <- 0:10 # 0~10 までの整数値を持つデータを作成

dat2 # 作成したデータの中身を表示

fivenum(dat2) # 5 数要約

quantile(dat2) # 四分位

> dat1 <- 1:10

> dat1

[1] 1 2 3 4 5 6 7 8 9 10

> fivenum(dat1)

[1] 1.0 3.0 5.5 8.0 10.0

> quantile(dat1)

0% 25% 50% 75% 100%

(幅 2) (幅 2) (幅 2) (幅 2)

Page 3: 基本統計量について

箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も

あるが、R の場合はヒンジ値を用いている。

箱ひげ図描画用のコマンド

par(mfrow=c(2,1)) # グラフィック画面を二分割

boxplot(dat1, horizontal=TRUE) # dat1 を横書きの箱ひげ図に

boxplot(dat1, horizontal=TRUE) # dat2

Page 4: 基本統計量について

用語集

平均 mean

分散 variance

標準偏差 standard deviation

変動係数 coefficient of variation

モーメント、積率 moment

歪度(ひずみ) skewness

尖度(とがり) kurtosis

五数要約 five-number summary

中央値 median

四分位値 fourth ※quantile は分位数

最小値 minimum

最大値 maximum

標準化 standardization