[email protected]...同時あるいは近い時間に取った2つの測定量に...

48
城野 克広 産業技術総合研究所 計測標準研究部門 [email protected] 1

Upload: others

Post on 22-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

城野 克広

産業技術総合研究所

計測標準研究部門

[email protected]

Page 2: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

不確かさ評価する上で、相関が大きな影響を持つことはあまり多くありません。あまり大きな影響を持たないように工夫して計算することができるからです。

この資料では、「いかにして相関を考えないようにするか?」に主眼をおいて議論しています。どうやって相関を計算するかに興味がある方のご期待に沿えるものではございませんが、基本的な事項を押さえるための資料としては機能するかと思います。

それでは、「相関とは何か?」から、議論を進めていきましょう。

産業技術総合研究所 城野克広 <[email protected]>

はじめに

2

Page 3: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関とは? What’s “correlation”?

3

Page 4: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

「相関」 = 「直線的な関係」

それなら、直線回帰じゃないのか?

X

Y

4

Page 5: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

もちろん違う。

X

Y

5

Page 6: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

違いは?

X

Y

頻度

Y

X

頻度

Yの値のヒストグラム

Xの値のヒストグラム

X、Yそれぞれに着目するとひとつ分布の分布に従うが、全体としては直線に乗る。

相関があるとき、ないとき

6

Page 7: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関があるとき、ないとき

ちなみに、回帰では、

X

Y

頻度

Y

X

頻度

Yの値のヒストグラム

Xの値のヒストグラム

各Xの値でYだけがばらついている。(Xはばらついているのではなく制御されている。)

7

Page 8: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

いつ使うのか?

8

Page 9: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

サッカーで大事なのは勝ち点

0

10

20

30

40

50

60

70

80

20 30 40 50 60 700

10

20

30

40

50

60

70

80

20 40 60 80 100

得点 失点

勝点

勝点

9

Page 10: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

0

10

20

30

40

50

60

70

80

20 30 40 50 60 700

10

20

30

40

50

60

70

80

20 40 60 80 100

得点 失点

勝点

勝点

0.817 -0.776

相関係数を計算すると、(計算方法は後ほど)

10

Page 11: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

「得点の多い方が優勝に近づく。」

相関係数は-1から+1の間の値をとり、その絶対値が大きいほど、線形の関係性が強いことを意味し、「相関が強い」と呼ばれる。

とはいえ、

11

Page 12: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

でも、2つの測定値が相関を持つことはある。

ほとんど以下の2つ。

1. 同時にサンプリングされる繰返し試験。2. 同じ標準を用いたり、同じ試験者が行う別の計測。

相関があるとき、ないとき

12

Page 13: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

例えば、ある回路素子の両端子間の電位差Vと電流Iを同時に測定する場合。

抵抗の大きさRとして

RI = V の関係からシミュレーションした結果。

左下から右上に向かう正の相関がみられる。

0.0414

0.0415

0.0416

0.0417

0.0418

0.0419

0.042

4.96 4.98 5 5.02 5.04

I

V

相関があるとき、ないとき

13

Page 14: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

0.96

0.97

0.98

0.99

1

1.01

1.02

1.03

1.04

0.94 0.99 1.04

例えば、同じはかりで、物体Aと物体Bを計量した場合の質量mAとmB。

(100個の違うはかりで)物体Aと物体Bの質量を測定したシミュレーション。

物体Aが大きめにはかられるはかりは物体Bも大きめにはかりやすい。

mB

mA

相関があるとき、ないとき

14

Page 15: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

2.同時サンプリングの相関 Correlation in simultaneous

sampling

15

Page 16: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

同時あるいは近い時間に取った2つの測定量に関するデータは相関を持つことがある。

だからどうした?

だから、何だってことはない。一つ一つの値が正規分布なのだから、得られたデータから標準偏差を計算すれば、それでいい。

同時サンプリングの相関

16

Page 17: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関のある入力量が問題。

電圧を電流で割ると抵抗が求まる。

IVR

モデル式

同時サンプリングの相関

17

Page 18: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

伝播則が長くなる。

jiij

N

i

N

jji xuxurccyu

1 1

c

uc(y )が測定値y の不確かさu (xi )は入力推定値xi の不確かさci はxiのy に対する感度係数rijはxi とxjの間の相関係数(ただしrii = 1)

重要GUM 5.2.2

18

Page 19: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関係数も計算しなくちゃいけないし。

n

kjkj

n

kiki

n

kjkjiki

ij

xxxx

xxxxr

1

2,.,

1

2,.,

1,.,,.,

重要GUM 5.2.3

n 回の繰り返しの場合xi,k はXi のk 回目の測定値xi,. はXi のn 回測定の平均値、前スライドのxi。 19

Page 20: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

というのは考えすぎだ。

このケースで相関を気にする必要はない。

20

Page 21: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

なぜなら、

V /V I /A繰返しの1回目 5.0191 0.041840繰返しの2回目 5.0003 0.041594繰返しの3回目 5.0071 0.041659繰返しの4回目 4.9952 0.041616

21

Page 22: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

測定量も繰返し測定されているから。

R = V/I

繰返しの1回目 119.959繰返しの2回目 120.217繰返しの3回目 120.193繰返しの4回目 120.031

22

Page 23: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

0.062571

11

2n

kk RR

nnRu

結局、普通の繰り返しから得られた平均値のように、不確かさを評価してよい。

23

Page 24: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

3.共通の影響量による相関 Correlation due to the same

influence quantity

24

Page 25: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

容器に入った液体の重さを測るために、液体の入った容器ごと質量を量って、空の容器の質量との差を見ることがある。

同じ標準や同じ測定器の相関

25

Page 26: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関のある入力量が問題だ。

AB mmy

26

Page 27: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

jiij xuxu

ur

2共通 重要

相関係数を計算しなくちゃいけない。

GUM 5.2.2

27

Page 28: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

この場合は、u共通ははかりの校正の不確かさ。

u2(mA) = (はかりの校正の標準不確かさ)2+ (空容器の測定の繰返しの標準不確かさ)2

u2(mB) = (はかりの校正の標準不確かさ)2+ (液体入り容器の測定の繰返しの標準不確かさ)2

共通だから、u共通2を共分散と呼びます。

28

Page 29: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

AB

ABAB

AB

ABABAB

mumu

mumumumu

u

muumuu

mumurmumuyu

22

2

2222

222c

2

2

繰返し繰返し

校正

繰返し校正繰返し校正

伝播則にあてはめれば、計算できる。

校正の不確かさが消えるというちょっと驚く結果になる。

29

Page 30: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関係数を使わなくたっていい。

,.,.

,.,.

AB

AB

AB

mmmm

mmy

校正校正

30

Page 31: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

“共通なもの”と“共通じゃないもの”は少しも関係がないんだから。

校正校正繰返し繰返し cxcxcy ...,22,11

31

Page 32: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

“同じ標準”、“同じ測定器”、“同じ校正事業者”、“同じ測定者”、“同じ測定手順”、“同じ測定方法”、それらが不確かさとして無視できない大きさを持つときには、相関を考えるか、相関を考えなくてもよいようにモデル式を整理しておく必要がある。

大事なのは“同じ何か”があるか。それから、それが無視できないか。

32

Page 33: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

4.相関のあれこれ Things about correlation

33

Page 34: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

同時に繰返しサンプリングされた2つの測定値の平均の共分散は以下のものである。

nで割らないものは、一回の測定値間の共分散。共通の標準などを用いたときと意味合いは同じ。

n

kjkjiki xxxx

nnu

1,.,,.,

2

111

共通

平均の共分散

34

Page 35: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

同じような標準を同じ校正事業者に校正してもらい、その校正値に同じ不確かさが報告されたら、相関係数を+1と考えることが多い。(十分な情報があれば、それに従えばよい。)

全ての入力推定値が相関係数+1の関係にあるとき、伝播則は以下の特別な形になる。(各成分を足すだけ)

N

iii xucyu

1c

相関係数が + 1になるとき

35

Page 36: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

ある値xとyに唯一の共通な不確かさ成分zがあるとき、zの標準不確かさu(z)とすると、共分散は

少々、小難しいが、相関の取り扱いが複雑になってきたときには便利。

zuzy

zxu 22

共通

十分な情報があるとき

36

Page 37: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

相関を避けることもできるが、モデル式が線形か線形化近似されていれば、共分散を行列を行列計算からあっさり計算できる。

モデル式が線形の場合を考える。Yは出力量ベクトル。Xは入力量ベクトル。Cは定係数行列。Y0は定数ベクトル。

0YCXY このとき、Yの分散共分散行列Qは、入力量ベクトルXの分散共分散行列Sを用いて、以下のようになる。

TCSCQ

行列計算

37

Page 38: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

5.事例 (GUM H.2) Example (GUM H.2)

38

Page 39: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

交流の電圧振幅Vと電流振幅I、電流に対する電位差の位相差角から、抵抗Rを求める。

cosIVR モデル式

事例 (GUM H.2)

39

Page 40: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

V /V I /mA /rad繰返しの1回目 5.007 19.663 1.0456繰返しの2回目 4.994 19.639 1.0438繰返しの3回目 5.005 19.640 1.0468繰返しの4回目 4.990 19.685 1.0428繰返しの5回目 4.999 19.678 1.0433

同時のサンプリングなら、

事例 (GUM H.2)

40

Page 41: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

単なる繰返しにしてしまうのがいい。

R = (V/I)cos

繰返しの1回目 127.67繰返しの2回目 127.89繰返しの3回目 127.51繰返しの4回目 127.71繰返しの5回目 127.88

毎回、R を計算することができる。

事例 (GUM H.2)

41

Page 42: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

これでお終い。

071.01

11

2n

kk RR

nnRu

732.127R

事例 (GUM H.2)

42

Page 43: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

無理やり、相関を考慮してみよう。

入力量の相関係数を計算すると、

36.0, IVr

86.0, Vr

65.0, Vr

事例 (GUM H.2)

43

Page 44: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

071.0

,sincos2

,sincos2,coscos2

sincoscos

2

2

22

22

22

22

c

uIuIrI

VI

V

uVuVrI

VI

IuVuIVrI

VI

uI

VIuI

VVuI

Ru

まったく同じになる。

732.127cosI

VR

事例 (GUM H.2)

44

Page 45: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

このモデル式は非線形(不確かさの要因となる変数どうしの乗除算がある)なので、違う値になってもおかしくなかった。非線形性が弱かったので同じ値になったが、非線形性が強いときには、相関をなくして計算した方が正しい値が求まる。同じ標準などを用いている場合も同じ。

相関をなくしてしまうのは、その方が簡単だからというだけではない。

事例 (GUM H.2)

45

Page 46: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

6.まとめ Summary

46

Page 47: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

jiij

N

i

N

jji xuxurccyu

1 1

c相関のある伝播則

同時サンプリングの相関係数

n

kjkj

n

kiki

n

kjkjiki

ij

xxxx

xxxxr

1

2,.,

1

2,.,

1,.,,.,

同じ標準などでの相関係数の計算(分母が共分散)

jiij xuxu

ur

2共通

47

Page 48: k.shirono@aist.go...同時あるいは近い時間に取った2つの測定量に 関するデータは相関を持つことがある。だからどうした?だから、何だってことはない。一つ一つの値が正規分布なのだか

この資料は、産業技術総合研究所内のサーバに設置されている

城野克広のホームページ http://staff.aist.go.jp/k.shirono/ 内ダウンロード http://staff.aist.go.jp/k.shirono/download_j.html

にて、公開しているものです。上記サイトでは、他にも不確かさ関連の資料を公開しております。このサイトでは初歩的なセミナーなどでは飛ばしてしまいがちな話やトピカルな話題、研究レベルの話題をとりあげております.基本的には個人的な勉強などの私的利用を想定してアップロードしております.私的利用の範囲を越えると判断される場合にはご一報下さい.プログラムは自分が分かればよいというつもりで書いているので,あまり綺麗なものではありません.プログラム含め資料に誤りがあった場合にも責任は持ちません.ご自身で内容をよく精査してお使い下さい.

また、不確かさに関する一般的な情報は「不確かさWeb http://www.nmij.jp/~mprop-stats/stats-partcl/uncertainty/uncerta inty.php 」をご参照下さい.

産業技術総合研究所 計測標準研究部門ナノ材料計測科 粒子計測研究研究室 城野克広

Katsuhiro Shirono @ AIST, NMIJ, JAPANe-mail: k.shirono*aist.go.jp (*を@に置き換えて下さい。)