章 直線回帰(改訂版) - w01.tp1.jpw01.tp1.jp/~a540015671/study/line_r.pdf · 3 ①...
TRANSCRIPT
1
第 7 章 直線回帰(改訂版)
Linear Regression (統計学)
ガリレイ(Galileo Galilei; 1564-1642): 「科学分野で実験結果を数学的に初めて分析する。」
統計学(statistics)は過去二世紀以上もかかって,多くの分野と係り合って,できた学問である。
(統計学:現象の法則性を見出す)
1)記述統計学(descriptive statistics);現象の法則性を知るために,一部を観測して,そこから論理性のある推
論で全体その法則性を見出す理論を記述統計学という。
2)推測統計学(inferential statistics);確率論という数学の理論を武器として,記述統計学の上にここ一世紀ほ
どで打ち立てられた方法論の体系が,推測統計学である。
(近代統計学のはじまり)
遺伝学者フランシス・ゴールトン(F.Galton)は,スイートピーの種子を栽培し,比較したところ,
1)子世代に種子重量は親世代と同じく正規分布し,子世代種子の平均直径と親の平均直径とが直線回帰する,
2)子の平均直径は親直径と比較すると,全体の平均直径に近づく傾向をみいだした。
この直線の勾配を生物現象と考え,復帰係数(先祖がえり)と呼んだ。しかし,この効果は生物的なものでは
なく,データの扱いの結果であることを発見し,回帰係数(regression coefficient)と変更した。
17-18世紀の統計学の源流には次のものがあげられる。
ドイツ(国勢学派);ドイツではH・コンリング(1606―81)による国家についての諸知識を体系化して国家状
態を記述する国情論が始められた。それは後継者G・アッヘンワル(1719―72)によって学問的形態を整えた。
統計学 Statistik(ラテン語 statistica)という用語は,彼が自らの国情論につけたのがその初めである。
イギリス(政治算術学派);イギリスのJ・グラント(1620―74)による出生・死亡などについての法則性の発
見であった。そういう実証的な研究方法はW・ペティ(1623―87)によりさらに発展し,広く社会・経済の数量
的分析に高められて,政治算術とよばれた。
フランス(賭けの確率):B・パスカル(1623―62)などによる賭けの数理についての分析を契機として,数学
における確率の研究が始まり,やがてJ・ベルヌーイ(1654―1705)、F・ガウス(1777―1855),S・ラプラス
(1749―1827)らによって古典確率論が大成された。これら三つの学問の流れを統合し近代統計学を確立したの
がベルギーのA・ケトレー(1796―1874)である。彼は確率の大数の法則を統計的研究方法の基礎とし,社会認
識の精密な科学として社会物理学を構想し,また官庁統計の確立や統計の国際的な普及・協力に努力した。一般
にケトレーをもって近代統計学の祖としている。その後,ケトレーの影響とその批判から,G・マイヤ(1841
―1925)に代表されるドイツ社会統計学と,統計的方法を生物学の研究に応用したF・ゴールトン(1822―1911)
や,K・ピアソン(1857―1936)などによる数理統計学が始められた。20世紀に入ってR・A・フィッシャー(1890
―1962)などにより小標本理論の開発,統計的推論・実験計画法などの研究が大成した。そして,数理統計学に
図 7.1 スイートピーの親と兄弟の回帰
2
おける統計的方法の応用は心理学・経済学・工学などへ普及し,最近ではその応用分野はますます広がりつつあ
る。
(最小ニ乗法と回帰)
最小二乗法は,Carl F. Gauss(1777-1855)と Adrien-Marie Legendre (1752-1833)により開発された観測値
の処理法である。測定で得られた数値の組みにおいて,適当なモデルのあてはめを想定し,特定の関数を用いて
近似し,想定する関数が測定値そのものより,よい近似となるように,残差二乗和を最小にするようなその想定
する関数のパラメータ(係数)を決定する方法である。
回帰は 19 世紀末~20 世紀初頭にかけて考案された。回帰分析(y=ax+b)では従属変数(y)と説明変数(x)の間の
関係を表す式を統計的手法によって推計する。
測量学における「直線回帰」の利用は,古くは流速計の器械係数,レベルのスタジア測量のための係数、ある
いは座標変換における4パラメータのヘルマート変換において回転と座標原点の移動量のみを変数とするコロ
ケーションも一種の直線回帰であり,「最小二乗法」は一等~四等三角測量(1 級~4 級基準点測量,多角網),
直接水準測量,空中三角測量,同時調整などに広く利用されている。
(相関係数)
n個の観測値Pi(xi, yi)が直線相関するものと仮定してその直線式y = ax + b を推定する方法を直線回帰という。
以下では各種の直線回帰について述べるが,そのデータ間の関係の強さは次に示す K. Pearson(ピアソン)によ
る相関係数(correlation coefficient)(−1 ≤ r ≤ +1)で表される。
r = σxyσxσy
…(7.1)
ここで,σx,σy:x,yの標準偏差(standard deviation),σxy:x,y の共分散(co-variance)を表す。
さらに,分散(variance),共分散は次式で求められるので
σx2 = ∑(xi−x�)2
n−2 , σy2 = ∑(yi−y�)2
n−2 , σxy = ∑(xi−x�)(yi−y�)
n−2 …(7.2)
これを,式(7.1)に代入すると
r = σxyσxσy
= ∑(xi−x�)(yi−y�)�∑(xi−x�)2�∑(yi−y�)2
= ∑xy−∑x∑y/n�∑x2−∑x2/n�∑y2−∑y2/n
= Sxy
�Sx2Sy2 …(7.3)
ここで
Sx2 = ∑ x2 − (∑ x)2/n Sy2 = ∑ y2 − (∑ y)2/n Sxy = ∑ xy − (∑ x∑ y)/n
n=1,2,…,n
である。
(回帰の目的関数)
𝐟 = ∑(𝐯𝐱𝐢𝟐 + 𝛂 ∙ 𝐯𝐲𝐢𝟐 ) = ∑� −𝐪𝐩+𝐪
�𝟐�𝐚∙𝐱𝐢+𝐛−𝐲𝐢
𝐚�𝟐
+ 𝛂 ∙ ∑� 𝐩𝐩+𝐪
�𝟐
(𝐚 ∙ 𝐱𝐢 + 𝐛 − 𝐲𝐢)𝟐 → 𝐦𝐢𝐧. …(7.4)
ここで,
vxi, vyi : x, y軸の残差成分,α = pyi pxi⁄ , pxi, pyi: x,yの重量,回帰直線yi = axi + b , x: 説明変数,y:被
説明変数,a:回帰直線の勾配,a = tanθ,b:直線の切片、測定点 Pi を通る水平線と垂直線と回帰直線の交点をそ
れぞれ s と u とするときの∆sPiuの斜辺の線分はp + qで,残差ベクトルはsu���の中間点tで交わり,st� = p,tu� =
q,i=1,2,…,n とする。中点回帰,RMA では p=q である。 (各直線回帰の求め方)
3
① yのxへの回帰(line regression of y on x):y軸のみに誤差があるとする。回帰直線y = a ∙ x + bとすると yの残差は測定点Piと回帰直線上の点との差vyi = a ∙ xi + b − yiで表される。この場合の最小二乗法の目的関数は
f = ∑ pyivyi2 = ∑pyi(a ∙ xi + b − yi)2 → min.で表される。
② xのyへの回帰(line regression of x on y):x軸のみに誤差があるとする。回帰直線y = ax + bから xで書き
直すとx = 1a
y − ba,A = 1 a� ,B = −b a� で表すとx = A ∙ y + Bとなり、xの残差はvxi = A ∙ yi + B− xiにより表される。
最小ニ乗法の目的関数は f = ∑pxivxi2 = ∑ pxi(A ∙ yi + B − xi)2 → min.と書ける。
③ 直交回帰(orthogonal line regression):x,y軸に残差(vxi, vyi)があり,その残差ベクトルが回帰直線に直角
になっている場合を直交回帰という。その最小二乗法の目的関数はf = ∑(pxivxi2 + pyivyi2 ) → min.と書ける。
vxi = −vi ∙ sinθ = −q ∙ cosθ , vyi = vi ∙ cosθ = p ∙ sinθより、vxi vyi = −sinθ cosθ = −(q ∙ cosθ) (p ∙ sinθ)⁄⁄⁄ であり、
p q = −1/a2⁄ の関係を得る。詳しくは,以後説明する。
④ RMA 回帰(reduced major axis):回帰直線において測定点 Piにおける水平線と鉛直線とで交わる 2つの点
を s,u とするとき、この三点でできる三角形⊿suPi の面積和を最小にする回帰直線である。残差成分Pıs���� =
−Ui,Pıu���� = Viとすると目的関数はf ≡ ∑(−UiVi 2) → min.⁄ となる。
⑤ 中点回帰(midpoint line regression):RMA 回帰の三角形の斜辺を二等分する点に交わる残差ベクトルの平
方を最小にして,求める回帰直線である。
ここで,y:被説明変数,x:説明変数,a,b:パラメータ,pxi, pyi:x,yの重量,i=1,2,…,nである。
八戸工業大学 岩淵清行、「デミングのあてはめ公式を直線の場合に利用する際の注意」
4
土木学会第 41 回年次学術講演会(昭和 61 年 11 月)
7.1 x軸に誤差なし,y軸に誤差がある場合
Step① y軸のみに残差
直角座標系x,yにおいてn個の観測を行い,測定値Pi(xi, yi)を得たものとする。このときy軸のみに残差(vyi)
があるものとして(図 7.1.1),あてはめ直線(line fitting)y = ax + bを求めることにする。これを,yのxへの
直線回帰(linear regression of y on x)という。xは独立変数(説明変数),yは従属変数(被説明変数)である。
ここで,
a:直線の勾配(a=tanθ)
b:直線の切片
Step② 観測値の重量
測定値Pi(yi)の重量をpyiとする。pyi = σo2 σy2� , σo2=不偏分散, σy2=yの分散(標準偏差の二乗)であり,等精度
ならば,pyi = 1とおける。
Step③ 残差
〔パラメータ(a,b)の誘導〕
図 7.1.1 に示すように,測定点 Piの残差(vyi)は回帰直線yi = axi + b に対し y軸方向に交わっている。Piの
y座標はyiであり,回帰直線上の座標はaxi + b を表すので,残差は次式で表すことができる。
vyi = a ∙ xi + b − yi …(7.1.1)
ただし,推定直線の勾配はa = tanθ(θ:水平からの角度)である。
Step④ 最小二乗法の適用
ガウス・ルジャンドルによる最小二乗法(least squares method)は「重み付き残差二乗和を最小にすること」
であり,これを式で表すと次のようになる。
f = ∑(pyivyi2 ) = ∑ pyi(a ∙ xi + b − yi)2 → min. …(7.1.2)
Step⑤ パラメータ(a,b)の決定
測定値Pi(xi, yi)が最適にフィットする直線式y = ax + bの推定は,∑(pyivyi2 )を最小にするパラメータ(a, b)を求め
ることである。つまり,式(7.1.2)における f を a と b でそれぞれ偏微分してゼロとおく方程式をつくればよい。 すなわち,
ax+b
-y
Pi(xi,yi)
ax+b
b
θ
yi
s
uy=ax+b
x
y
図 7.1.1 y軸のみに残差
5
∂f∂a
= 0 , ∂f∂b
= 0 …(7.1.3)
そこで,これらに式(7.1.2)より,
�∂f∂a
=∂∑pyi(vyi
2 )
∂a= ∂∑pyi(a∙xi+b−yi)2
∂a= 0
∂f∂b
=∂∑(pyivyi
2 )
∂b= ∂∑pyi(a∙xi+b−yi)2
∂b= 0
�
または
�∂f∂a
= ∑(2pyixi) (a ∙ xi + b − yi) = 0∂f
∂b= ∑(2pyi) (a ∙ xi + b − yi) = 0
�
a�pyixi2 + b�pyixi = �pyixiyi
a�pyixi + b�pyi = �pyiyi
…(7.1.4)
Σ=[ ]のガウスの記号で表すと、
��pyixi
2� a + �pyixi� b − [pyixiyi] = 0
�pyixi� a + [pyi]b − [pyiyi] = 0� …(7.1.5)
これを行列で表すと
��pyixi2� �pyixi��pyixi� [pyi]
��ab� = �
[pyixiyi][pyiyi]
� …(7.1.6)
又は、行列記号で表して N X=F より、変数 X を解くと,X = N−1F であるから,
N = ��pyixi2� �pyixi��pyixi� [pyi]
� , |N| = ��pyixi2� �pyixi��pyixi� [pyi]
� = �pyixi2�[pyi]− �pyixi�2
adjN = �[pyi] −[pyixi]
−[pyixi] [pyixi2]� , N−1 =�
[pyi] −[pyixi]−[pyixi] [pyix2] �
�pyixi2�[pyi]−�pyixi�2
∴ X = �ab� =
�[pyi] −[pyixi]
−[pyixi] [pyixi2]��[pyixiyi]
[pyiyi]�
[pyi][pyixi2]−[pyixi]2= �
[pyi][pyixiyi]−[pyixi][pyiyi][pyi][pyixi2]−[pyixi]2
−[pyixi]pyixiyi]+[pyixi2][pyiyi][pyi][pyixi2]−[pyixi]2
� …(7.1.7)
もしも,精度が等しい場合にはpyi = 1とおけるので,
∴ X = �ab� =
�n −[xi]
−[xi] [xi2]��[xiyi]
[yi]�
n[xi2]−[xi]2= �
n[xiyi]−[xi][yi]n[xi2]−[xi]2
−[xi][xiyi]+[xi2]n[xi2]−[xi]2
� = �SxySx2
y� − ax�� …(7.1.8)
ここで、[ ]はガウスの記号である。
y軸のみに残差がある場合は、次式で表せる。
y = A1x + B1
A1 =SxySx2
B1 = y� − A1x�
…(7.1.8)′
6
(回帰の有意性)
回帰直線を求めても,その回帰が有意なものでなければならない。回帰の有意性を求めるには,傾きである aが 0 から偏っているかを検定する。a の信頼区間係数 βに 0 が含まれていればその回帰は意味がなく,0 が含ま
れていなければその回帰は意味のあるものである。 a の有効性を判定するにはまず a の標準偏差σaを計算する。
σa = σ�Sx2
…(7.1.9)
ここで,σは回帰直線の標準偏差で次式から計算する。
σ = �Sy2−a∙Sxyn−2
…(7.1.10)
σa を求めたらt0.05をt-分布表から求める。自由度はn-2である。
σa とt0.05を求めたら aの信頼区間βを求める。95%の信頼区間係数βは次式で計算できる。
a − t0.05 ∙ σa ≤ β ≤ a + t0.05 ∙ σa …(7.1.11)
(判定)
1)信頼区間係数βに 0が含まれる→回帰は有意でない
2)信頼区間係数βに 0が含まれない→回帰は有意である
7.2 観測値xに誤差がある場合
Step ① x軸に残差(vxi)がある場合の直線回帰yi = axi + b
これは,xのyへの回帰(linear regression x on y)という。直線式yi = axi + b のパラメータ(a, b)を直接解くの
は,少し複雑になるので,前節と同じx = Ay + Bの形にして A,Bを解くことにする。
yi = a ∙ xi + b
yi − b = a ∙ xi
xi = yia− b
a
として
xi = A ∙ yi + B …(7.2.1)
ここで,
vxiθ
b
xi
Pi(xi,yi)
Ayi+B
x=Ay+B
y
x
図 7.2.1 x軸のみに残差
7
A = 1a , B = −b
a …(7.2.2)
と置く。
Step② 残差
n個の測定値Pi(xi, yi)を観測し,その重量はpxiとする。
観測方程式xi = A ∙ yi + Bの残差は次のようになる。
vxi = A ∙ yi + B − xi …(7.2.3)
Step③ 最小二乗法の目的関数
ガウス・ルジャンドルの最小二乗法の目的関数は「重み付き残差二乗和を最小にすること」である。これは前
節と同じように次式で表される。
f = ∑(pxi ∙ vxi2) → min. …(7.2.4)
また,観測値の重量(pxi)がそれぞれ等しい場合(同じ精度),pxi = 1とおけるので,
f = ∑(pxivxi2) → min.
f = ∑ pxi(A ∙ yi + B − xi)2 → min. …(7.2.5)
となる。
Step④ パラメータ(𝐀,𝐁)の決定
前節と同様にして,
∂f∂A
= 0 , ∂f∂B
= 0 …(7.2.6)
�∂f∂A
= ∂∑(pxivxi2 )
∂B= ∂∑pxi(A∙yi+B−xi)2
∂A= 0
∂f∂B
= ∂∑(pxivxi2 )
∂B= ∂∑pxi(A∙yi+B−xi)2
∂B= 0
�
または
�∂f∂A
= ∑(2pxiyi)(A ∙ yi + B − xi) = 0∂∂B
= ∑(2pxi)(A ∙ yi + B − xi) = 0�
これを整理すると
�A∑ pxiyi2 + B∑ pxiyi − ∑pxixiyi = 0A∑pxiyi + B∑ pxi − ∑ pxixi = 0
� …(7.2.7)
�[pxiyi2] [pxiyi][pxiyi] [pxi]
� �AB� = �
[pxixiyi][pxixi]
� …(7.2.8)
または N X = F …(7.2.9)
X = N−1f から
N−1=adjN|N|
=�
[pxi] −[pxiyi]−[pxiyi] [pxiyi2]
�
[pxiyi2][pxi]−[pxiyi]2
∴ �AB� =
�[pxi] −[pxiyi]
−[pxiyi] [pxiyi2]��[pxixiyi]
[pxixi]�
[pxiyi2][pxi]−[pxiyi]2= �
[pxi][pxixiyi]−[pxiyi][pxixi][pxiyi2][pxi]−[pxiyi]2
−[pxiy][pxixy]+[pxiyi2][pxixi][pxiyi2][pxi]−[pxiyi]2
� …(7.2.10)
もしもxの精度が等精度ならば xの重量はpxi = 1とおけるので、パラメータ(A, B)は次のようになる。
A = n[xiyi]−[yi][xi]n[yi2]−[yi]2
(≡ SxySy2
)
8
B = x� − A ∙ y� …(7.2.11)
ここで,(x�, y�)は観測値(xi, yi)の算術平均値,[ ]はガウスの記号である。
∴ 𝐚 = 𝟏𝐀
= n�yi2�−[yi]
2
n[xiyi]−[yi][xi](≡ 𝐒𝐲𝟐
𝐒𝐱𝐲) …(7.2.12)
また,b は次のように解ける。
b = −a ∙ B = −a �[x]n− 1
a∙ [y]n�
∴ b = ∑yn− a ∙ ∑ x
n …(7.2.13)
または
∴ b = y� − a ∙ x� …(7.2.14)
で表される。これは前節の bと同じである。
x軸にのみ残差がある場合、次式で表せる。
y = A2x + B2
A2 =𝐒𝐲𝟐
𝐒𝐱𝐲
B2 = y� − A2 ∙ x�
…(7.2.14)’
7.3 直交回帰
(その①)重心座標及び回帰直線を u軸それに直角な軸をv軸として解く方法
Step① 両軸 x,yに残差(vxi, vyi)があり,その残差(vi)は回帰直線y = a ∙ x + bに対し直角に交わる場合を直交回
帰(図 7.3.1 参照),または MA(major axis)主成分回帰ともいい,これを求めることにする。
Step② n個の測定値Pi(xi, yi)を観測し,その重量を(pxi, pyi)とする。
Step③ 重心座標の計算
ここでは,式を簡単化して解くため,重心座標(coordinate system of central gravity)にする。
�Xi = xi −
∑xin
= xi − x�
Yi = yi −∑yin
= yi − y�� …(7.3.1)
重心座標系(Xi, Yi)から重心を座標原点にした回帰直線自体をu軸,それに直角な軸をv軸とする座標系(u, v)
を考える。このときの座標軸の回転はθである。
b
重心
θ
vY
X
u
Pi(xi,yi)vi
y=ax+b
x
y
図 7.3.1 直交回帰
9
� ui = Xi cosθ + Yi sin θvi = −Xi sinθ + Yi cosθ� …(7.3.2)
この式は一次の Helmert変換である。
Step④ パラメータ(a,b)の決定
式(7.3.2)の第二式のv軸は各測定値Pi(xi, yi)の残差ベクトル(vi)に相当する。したがって,最小二乗の目的関
数はf = ∑ vi2を最小にすることであるので,
f = ∑ vi2 → min …(7.3.3)
また,観測値の重量(pxi, pyi)がそれぞれ等しく,pxi = pyi = 1とする。直線式y = a ∙ x + bにおけるパラメータ
(a, b)の決定は∑ vi2を最小にするパラメータ(a,b)の最大値を求めることである。このためには,式(7.3.3)のfを
θで偏微分してゼロとおけばよい。
∂f∂θ
= 0 …(7.3.4)
しかし,この式は直接解けないので,次のように考える。
∂f∂θ
= ∂f∂vi
∙ ∂vi∂θ
= 0 …(7.3.5)
まず,式(7.3.3)より
∂f∂vi
= ∂∑vi2
∂vi= ∑(2vi) …(7.3.6)
また,式(7.3.2)の第二式より
∂vi∂θ
= ∂(−Xi∙sinθ+Yi∙cosθ)∂θ
= −Xi ∙ cosθ − Yi ∙ sinθ = −ui …(7.3.7)
上の 2つの式を式(7.3.5)に代入すると
∂f∂θ
= ∂f∂vi
∙ ∂vi∂θ
= (2vi)(−ui) = 0
∴ ∑uivi = 0 …(7.3.8)
を得る。この式に再び式(7.3.2)の右辺を代入すると
∑ uivi =∑(Xi ∙ cosθ+ Yi ∙ sinθ) (−Xi ∙ sinθ + Yi ∙ cosθ) = 0
∑(−Xi2 cosθ sin θ + XiYi cos2 θ −XiYi sin2 θ + Yi2 cosθ sin θ) = 0
cosθ sinθ∑(Xi2 − Yi2) = (cos2 θ − sin2 θ)∑XiYi
∴ 2cosθsinθcos2 θ−sin2 θ
= 2∑XiYi∑�Xi
2−Yi2�
(≡ tan2θ) …(7.3.9)
この式において
Sxy = ∑XiYi , Sx2 = ∑Xi2 , Sy2 = ∑Yi2
とおいて書きなおすと,式 7.3.9 は次のように表せる。
tan2θ = 2SxySx2−Sy2
…(7.3.10)
われわれは推定直線式y = ax + bにおける勾配 a(=tanθ)を上の式の右辺の記号で表したい。しかし,上の式
の tan2θは直線式の勾配(a=tanθ)を表していないので,この式から a を導くことにする。図 7.3.2 を参考にし
θ
O
Sxx-Syy+2Sxytanθ
Sxx-Syy+2Sxytanθ Sxx-Syy 2Sxytanθ
2Sxy
DC
B
A
2θ
θ
θ
図 7.3.2 tan2θとtanθとの関係
10
て,直径AC����の円を描き,その円周上に任意点 B をとる。⊿ABC において∠ABC=90°,∠BAO=∠ABO=∠CBD=θ,D は B から直線AC����への垂線の足であり,∠BOC=2θである。このとき,tan2θは式(7.3.10)から
tan2θ = 2SxySx2−Sy2
= BD����
OD�����
ここで,
BD���� = 2Sxy , OD���� = Sx2 − Sy2
とおける。(𝐁𝐃���� = 𝟐𝐒𝐱𝐲が重要。)そうすると⊿BCDにおいて
CD���� = BD����tanθ = 2Sxytanθ
といえる。したがって,線分AC���� 上の各線分がいえるので,次の関係が得られる。
AD���� = OA���� + OD���� = 2Sxytanθ+ 2(Sx2 − Sy2)
また,tanθはBD����
AD�����で表すことができることが分かるので,
tanθ(≡ BD����
AD�����) = 2Sxy
2(Sxytanθ+Sx2−Sy2)
の関係より,この式を次のように変形し,整理すると,直交回帰の a を表す式が得られる。
Sxy tan2 θ − �Sy2 − Sx2�tanθ − Sxy = 0
∴ 𝐭𝐚𝐧𝟐 𝛉 − 𝐒𝐲𝟐−𝐒𝐱𝟐
𝐒𝐱𝐲𝐭𝐚𝐧𝛉 − 𝟏 = 𝟎 …(7.3.11)
これは tanθ(=a)に関する二次方程式である。これを解けば次のようになる。
∴ a =𝐒𝐲𝟐−𝐒𝐱𝟐+�(𝐒𝐲𝟐−𝐒𝐱𝟐)𝟐+𝟒𝐒𝐱𝐲𝟐
2Sxy …(7.3.12)
式(7.3.12)における a は二つの回帰である,y の x への回帰の勾配A1 = Sxy Sy2⁄ ,及び x の y への回帰の勾配
A2 = Sx2 Sxy� から成ることが分かるので,式(7.3.11)を以下のように係数を置き換えることができる。
tan2 θ − Sy2−Sx2
Sxytanθ − 1 = 0 又は
tan2 θ − �A2 −1A1� tanθ − 1 = 0
tanθ =A2−
1A+��A2−
1A1�2+4
2 …(7.3.13)
なお,b は前節と同様にして,
∴ b = ∑yn− a ∙ ∑x
n …(7.3.14)
または
∴ b = y� − a ∙ x� …(7.3.15)
ただし,使用記号において
Sxx = Sx2 , Syy = Sy2
とおいた。
7.4 一般直線回帰
Step① n個の測定値Pi(xi, yi)を観測し,x,y の両軸に残差(vxi, vyi)があるものとする。その残差が回帰直線
y = ax + bに斜めに交わっている場合を考える(図 7.4.1 参照)。
11
これを誘導したのは岩淵であり,一般直線回帰(general linear regression)と呼ぶ。この式の特徴は,y の x へ
の回帰,x の y への回帰,中点回帰,さらには直交回帰の勾配 a が計算できる。また,RMA 回帰は,中点回帰
又は直交回帰の際の三角形の面積和最小により解くことができる。 Step② 測定値Pi(xi, yi)の重量を(pxi, pyi)とする。 Step③ 残差ベクトル成分(𝐯𝐱𝐢,𝐯𝐲𝐢)の誘導
図 7.4.1 に示すように,測定点Pi(xi, yi)であり,回帰直線上の座標はaxi + b なので,∆suPi のPıu���� と斜辺su��� の
関係は次式で表すことができる。
sinθ = a∙xi+b−yip+q
(≡ uPı�����
su����) …(7.4.1)
y の残差は図 7.4.1 の∆stvから,
vyi = p ∙ sinθ = � pp+q
� (a ∙ xi + b − yi) …(7.4.2)
また,x の残差は∆tuwから vxi = −q ∙ cosθ または,この式を sinθで表すと,
vxi = −q ∙ cosθsinθ sinθ = −q �1
a� sinθ = � −q
p+q� (a∙xi+b−yi)
a …(7.4.3)
sinθ = uPı�����
su����= m∙xi+c−yi
p+q …(7.4.4)
Step⑤ 最小二乗法の適用
「最小二乗の目的関数 fは重み付き残差二乗和を最小にすること」であり,これは次式で表される。
f = ∑(pxivxi2 + pyivyi2 ) → min. …(7.4.4)
また,観測値の重量(pxi, pyi)が一定で,
α = pyipxi
…(7.4.5)
と仮定する。そうすると,式(7.4.6)は次のように書ける。
w
v
θ
θ ax+b
yi
Pi
ax+b
-y
y=ax+b
y
x
b
q
p
u
t
s vyi
-vxi
図 7.4.1 残差 viが推定直線に斜めに交わっている場
合
12
f = ∑(vxi2 + α ∙ vyi2 ) → min. …(7.4.6)
この式に式(7.4.5)を代入すると
f = ∑(vxi2 + α ∙ vyi2 ) = ∑� −qp+q
�2�a∙xi+b−yi
a�2
+ α ∙ ∑� pp+q
�2
(a ∙ xi + b − yi)2 → min. …(7.4.7)
を得る。
この式からパラメータ a と b を次のように解く。まず、∂E ∂b⁄ = 0を計算すると,
f = ∑[2(a ∙ xi + b − yi)] = 0
つまり,
∑(a ∙ xi + b − yi) = 0
であるから,
a∑ xi + n ∙ b − ∑ yi = 0
この式の両辺をnで割ると,
∴ b = ∑yn− a ∙ ∑x
n …(7.4.8)
または
∴ b = y� − a ∙ x� …(7.4.9)
次に,∂E ∂a⁄ = 0を以下のように計算する。
∂f∂a
= ∑� qp+q
�2
[2a2(a∙xi+b−yi)xi−2a(a∙xi+b−yi)2
a4] + α∑� p
p+q�2
(2xi)(a ∙ xi + b − yi) = 0 …(7.4.10)
∑ q2[a2(a∙xi+b−yi)xi−a(a∙xi+b−yi)2
a4] + α∑ p2 (xi)(a ∙ xi + b − yi) = 0
∑(a ∙ xi + b − yi)xi �q2
a2+ αp2� − (a∙xi+b−yi)2
a3= 0
a3 ∑�a ∙ xi + b− yi�[q2
a2 xi −q2(a∙xi+b−yi)
a3 + α ∙ p2xi] = 0
または
∑(a ∙ xi + b − yi) [q2axi − q2axi − q2b + q2yi + αp2a3xi] = 0 ∑(a ∙ xi + b − yi) [−q2b + q2yi + α ∙ p2a3xi] = 0 ∑(−q2b ∙ a ∙ xi + q2a ∙ xiyi + α ∙ p2a4xi2) + ∑(−q2b2 + q2b ∙ yi + α ∙ p2a3b ∙ xi)
+∑(q2b ∙ yi − q2yi2 − α ∙ p2a3xiyi) = 0
∑[ − q2a ∙ xi(y� − a ∙ x�) + q2a ∙ xiyi + α ∙ p2a4xi2] +∑[−q2(y�2 − 2a ∙ x�y� + a2x�2) + q2yi(y� − a ∙ x�) + α ∙ p2a3xi(y� − a ∙ x�)] +∑[ q2yi(y� − a ∙ x�) − q2yi2 − α ∙ p2a3xiyi] = 0 a4α ∙ p2 ∑(xi2 − xix�) − a3α ∙ p2 ∑(xiyi − xiy�) + a ∙ q2 ∑(xiyi − xiy�) − q2 ∑(yi2 − yiy�) = 0
∴ 𝛂�𝐒𝐱𝟐
𝐒𝐱𝐲� �𝐩
𝐪�𝟐𝐚𝟒 − 𝛂 �𝐩
𝐪�𝟐𝐚𝟑 + 𝐚 − 𝐬𝐲𝟐
𝐒𝐱𝐲= 𝟎 …(7.4.11)
又は
∴ 𝛂 �𝟏𝐀𝟏� �𝐩𝐪�𝟐𝐚𝟒 − 𝛂�
𝐩𝐪�𝟐𝐚𝟑 + 𝐚 − 𝐀𝟐 = 𝟎
を得る。
13
7.5 中点直線回帰
(中点回帰の特徴) ① 中点回帰は、両軸に誤差(残差)がある場合の回帰である。 ② その残差が,測定点 Piを含む⊿Pius(Piを通る水平線及び鉛直線と回帰直線との交点をそれぞれ点(s,u)の斜辺su���を二等分する点 t で交わっている。その三角形の面積和を最小にするのが,RMA 回帰である。
③ 残差ベクトルはすべて平行になる。 ④ 中点回帰の a が最大,直交回帰の a が最小,そして RMA の a が中間になる。また,最も大きい a は x 軸
のみに残差がある場合,最も小さい a は y 軸に残差がある場合である。 ⑤ st� = tu = pなので,⊿sPiu の面積は 4×⊿svt の面積である。
Step① 残差
図 7.4.1 の⊿sPiuにおいて,Piにy座標は yi,その回帰直線の位置はaxi + b なので,
Vi = axi + b − yi …(7.5.1)
で表される。また,Uiの関係は次式で表される。
Ui = − Vitanθ
= −Via
= −axi+b−yia
…(7.5.2)
これらを残差で表すと,
vyi = Vi2
= axi+b−yi2
…(7.5.3)
vxi = Ui2
= − Vi2tanθ
= − Vi2a
= −axi+b−yi2a
…(7.5.4)
と書ける。
Step② 最小二乗の目的関数
f = ∑(vxi2 + α ∙ vyi2 ) = ∑�a∙xi+b−yi−2a
�2
+ α4∑(a ∙ xi + b − yi)2 → min.
なお,岩淵は上の式の 1/4に注目したが,目的関数の右辺は最小なので両辺に 4をかけても変わらない。
f = ∑(vxi2 + α ∙ vyi2 ) = ∑�a∙xi+b−yia
�2
+ α∑(a ∙ xi + b − yi)2 → min. …(7.5.5)
Step③ パラメータ(a,b) まず、∂f ∂b⁄ = 0を計算すると,
∂f∂b
= 1a2∑ 2(a ∙ xi + b − yi) + α∑ 2(a ∙ xi + b − yi) = 0
1a2∑(a ∙ xi + b − yi) + α∑(a ∙ xi + b − yi) = 0
∑(a ∙ xi + b − yi) ( 1a2
+ α) = 0
∴ b = y� − ax� …(7.5.6)
次に,∂f ∂a⁄ = 0を計算すると,
∂f∂a
= ∑ 1a4
[a2xi(a ∙ xi + b − yi) − a(a ∙ xi + b − yi)2] + α∑ xi(a ∙ xi + b − yi) = 0 …(7.5.7)
∑ 1a4
[a2xi(a ∙ xi + b − yi) − a(a ∙ xi + b − yi)2] + α∑ xi(a ∙ xi + b − yi) = 0
∑(a ∙ xi + b − yi)xi(1a2
+ α)− 1a3∑(a ∙ xi + b − yi)2xi = 0 …(7.5.8)
∑(a ∙ xi + b − yi) {∑[a2xi − a(a ∙ xi + b − yi)] + αa4 ∑ xi} = 0
勾配aの変化
重心
xon
y
y onx
直交回帰
中点回帰
RMA
14
∑(a ∙ xi + b − yi)∑(−b + yi + αa3xi) = 0
∑(αa4xi2 + αa3xib− αa3xiyi − a ∙ xib + a ∙ xiyi − b2 + 2yib − yi2) = 0
∑[+αa4xi2 + αa3xi(y� − ax�)− αa3xiyi]
+∑[−a ∙ xi(y� − ax�) + a ∙ xiyi − (y�2 − 2ax� + a2x�2) + 2yi(y� − ax�)− yi2] = 0
αa4 ∑�xi2 − xix�� − αa3 ∑(xiyi − xiy�) + a∑(xiyi − xiy�)− ∑�yi2 − yiy�� = 0
�α ∙ p2
q2∙ Sx
2
Sxy� a4 − �α ∙ p
2
q2� a3 + a − � Sy
2
Sxy� = 0 …(7.5.9)
�α ∙ Sx2
Sxy� a4 − α ∙ a3 + a − � Sy
2
Sxy� = 0
と簡単になる。
さらに,もしもPi(xi, yi)の重量(pxi, pyi)が等しければ,
α = pyipxi
= 1 …(7.5.10)
とおけるので,式(7.5.9)は次式で書ける。
� 𝐒𝐱𝟐
𝐒𝐱𝐲� 𝐚𝟒 − 𝐚𝟑 + 𝐚 − �𝐒𝐲
𝟐
𝐒𝐱𝐲� = 𝟎 …(7.5.11)
又は、
�𝟏𝐀𝟏� 𝐚𝟒 − 𝐚𝟑 + 𝐚 − 𝐀𝟐 = 𝟎
これが中点回帰のaを表し,4 次方程式は一義的には解けないが,脚注で示すNewton法 1等によって解くこと
1 ニュートン法による 4 次方程式の解 適当な近似解a1から出発して ak+1 = ak −
f(ak)f′k
k = 1,2,3, … により精度を増してゆく。
θ
b
y=ax+b
y
x
Vi=ax+
b-y
-Ui=Vi/tanθyi
Pi
vyi
-vxi
q=p
p
u
t
s
図 7.5.1 中点回帰
15
ができる。 7.6 RMA 直線回帰
RMA は従属及び独立変数の両方の同時誤差を説明し,両軸の差の積を最小にする (Curran & Hay, 1986; Davis, 1986; Miller & Kahn, 1962)。 Step① RMA(修正主成分回帰)は y のxへの回帰直線とxの y への回帰直線の二等分線になる「あてはめ直
線」である(岩淵の推論)。(後に,RMA は両者の幾何平均と解明される。) RMA 直線回帰(linear regression of reduced major axis)は,図 7.6.1 に示すように測定点Pi(xi, yi)をとおる水
平線と鉛直線と回帰直線y = ax + bの交点(s,u)でできる⊿suPi の面積和を最小にして求められる。力学で主軸を
求める際,直交直線回帰(orthogonal linear regression)が使われるのに対し,これを修正したものが RMA 直線
回帰である。直交直線回帰は MA 回帰(major axis)とも呼ばれる。 ここでは,RMA 回帰を,中点回帰を用いて誘導する。図 7.6.1 において示すように測定点 Pi の残差は回帰直
線の線分 su の二等分点 t で交わっている。⊿suPiの面積(−UiVi/2)を四つに分けた小三角形は全て同じ大きさで
ある。 Step② n個の測定値Pi(xi, yi)を求め,その重量(pxi, pyi)をそれぞれ 1 とする。 Step③ y = a ∙ x + bのパラメータ(a, b)の決定 図 7.6.1 に示すように,測定点Pi(xi, yi)において水平線及び水直線が回帰直線 yi = axi + b に交わっている交
点をそれぞれ(s, u)とする。その∆Piusの水平成分(底辺)と垂直成分(高さ)を(−Ui, Vi)とすると,その三角形の
面積はf = −UiVi 2⁄ である。RMA の目的関数である,「図 7.6.1 に示す⊿suPiの面積和を最小にすること」は次式
で表される。 f = 1
2∑(−UiVi) → min. …(7.6.1)
Piのy座標はyi ,回帰直線上の点 uのy座標はaxi + b であるから,鉛直距離Vi = Pıu����は次式で表される。
Vi = axi + b − yi …(7.6.2)
さらに,Ui は△suPiから次のように表すことができる。
tanθ = −Vi Ui⁄ なので、
Ui = − Vitanθ
= −axi+b−yia
…(7.6.3)
式(7.6.1)に上の二式を代入して,
f = 12∑(−UiVi) = −1
2∑ (axi+b−yi)2
a→ min. …(7.6.4)
式(7.6.4)の目的関数では残差が全てのパラメータで表されているので,y = ax + bの回帰直線が求められる。 さらにこの考えを拡張し,残差ベクトルviの成分(vxi, vyi)を用いることにする。 st� = tu�,tw���� = Pıv����なので∆svt ≡ ∆twu ≡ ∆tPiw ≡ ∆Pivtとなり,vxi = Ui/2, vyi = Vi/2とおけるから
vyi = Vi2
= axi+b−yi2
…(7.6.5)
tanθ = vyi−vxi
より
vxi = − vyitanθ = −vyi
a …(7.6.6)
この(vxi, vyi)を式(7.6.4)に代入すると⊿suPiの面積和fは,次式で表される。
f = 4∑�−12
vxivyi� = −2∑ (axi+b−yi)2
2a= −∑ (axi+b−yi)2
a→ min. …(7.6.7)
16
したがって,y = ax + bは⊿supiの面積和 f を最小にして,∂f ∂a = 0⁄ , ∂f ∂b = 0⁄ によって求められる。
�∂f∂a
= 1a2∑[a ∙ 2(a ∙ xi + b − yi)xi − (a ∙ xi + b − yi)2] = 0
∂f∂b
= ∑2(a∙xi+b−yi)a
= 0�
すなわち
�∑(a ∙ xi + b − yi)(a ∙ xi − b + yi) = 0∑(a ∙ xi + b − yi) = 0 � …(7.6.8)
を得る。 式(7.6.8)の第二式から
∴ b = ∑yn− a ∙ ∑x
n …(7.6.9)
または ∴ b = y� − ax� …(7.6.10) 式(7.6.10)を式(7.6.8)の第一式に代入すると ∑(a ∙ xi + b − yi)(a ∙ xi − b + yi) = 0
∑(a ∙ xi + y� − a ∙ x� − yi)(a ∙ xi − y� + a ∙ x� + yi) = 0
∑(a2xi2 − axiy� + a2xix� + axiyi + axiy� − y�2 + ax� ∙ y� + y� ∙ yi − a2x�xi + ax� ∙ y�
−a2x�2 − ax�yi − axiyi + y�yi − ax�yi − y�2) = 0 そして,この式において a の項で整理すると, a2 ∑(xi2 + xix� − xix� − x�2) + a∑(−xiy� + xiyi + xiy� + x� ∙ y� + x� ∙ y� − x�yi − xiyi − x�yi)
+∑�−y�2 + y�yi + y�yi − yi2� = 0 または a2 ∑[xi2 − x�2] + 2a∑[x� ∙ y� − x� ∙ yi] + ∑[−y�2 + 2y�yi − yi2] = 0
a2 �∑ xi2 − n (∑xi)2
n2� + 2a �n ∑xi ∑yi
n2− ∑xi ∑yi
n� − �n (∑yi)2
n2− 2 (∑yi)2
n+ ∑ yi2� = 0
三角形の面積
-Ui
vi
θ
w
v
y
x
y=ax+b
Vi=a
x+b-
y
yiPi
vyi
-vxi
q=p
p
u
t
s
図 7.6.1 RMA 回帰
17
a2 �∑ xi2 −(∑xi)2
n� − �∑ yi2 −
(∑yi)2
n� = 0 …(7.6.11)
を得る。
�Sx2 = ∑ xi2 −
(∑xi)2
n
Sy2 = ∑ yi2 −(∑yi)2
n
�
とおき,式(7.6.11)を書き直すと次式になる。 Sx2a2 − Sy2 = 0
または
∴ a2 − �Sy2
Sx2� = 0 …(7.6.12)
したがって,
∴ a = ±�Sy2
Sx2 …(7.6.13)
RMA 回帰は,y軸のみに残差がとx軸のみに残差がある場合の各回帰の幾何平均を表している。
𝐚=�𝐒𝐱𝐲𝐒𝐱𝟐∙ 𝐒𝐲
𝟐
𝐒𝐱𝐲= �𝐀𝟏𝐀𝟐 = ±�𝐒𝐲𝟐
𝐒𝐱𝟐
7.7 直線回帰のまとめ
ここでは,まず最初に 3 つの直線回帰式y = a ∙ x + bのパラメータ(a, b)を,(1)y の x への回帰,(2)x の yへの回帰,(3)直交回帰を,一般直線回帰から導くことにする。 (1) yのxへの回帰直線
式 7.4.15から(α ∙ p2Sx2)a4 − �α ∙ p2Sxy�a3 + �q2Sxy�a− �q2Sy2� = 0
図 7.4.1において,この場合vxi = 0であり,q=0であるから
(α ∙ p2Sx2)a4 − �α ∙ p2Sxy�a3 = 0
であり,αp2a3で割ると
(𝐒𝐱𝟐)𝐚 − �𝐒𝐱𝐲� = 𝟎
と簡単化でき,
∴ a = SxySx2
(≡ A1)
を得る。
b は次式で求められる。p = 0
∴ b = y� − a ∙ x�
(2) xのyへの回帰
式 7.4.15から(α ∙ p2Sx2)a4 − �α ∙ p2Sxy�a3 + �q2Sxy�a− �q2Sy2� = 0
vyi = 0 であり,p = 0 とおけるから,上の式は
�q2Sxy�a− �q2Sy2� = 0
さらに
�𝐒𝐱𝐲�𝐚 − �𝐒𝐲𝟐� = 𝟎
∴ a = Sy2
Sxy(≡ A2)
18
bは次式で求められる。
∴ b = y� − ax�
(3) 直交回帰(その②一般式の誘導) Step① 残差 図 7.7.1 の⊿utw において,
vxi = −q ∙ cosθ = −q ∙ cosθ sinθsinθ = −q
asinθ …(7.7.1)
⊿tPiv から, vxi = −vi ∙ sinθ …(7.7.2) また,⊿stv において vyi = p ∙ sinθ …(7.7.3) そして,⊿tPiv において vyi = vi ∙ cosθ …(7.7.4) 上の 4 つの式を辺辺相除して
vxivyi
=−qa∙sinθp∙sinθ = −q
p∙ 1a …(7.7.5)
及び
vxivyi
= −vi∙sinθvi∙cosθ
= −tanθ …(7.7.6)
したがって,上の 2 つの式から
−qp∙ 1a
= −a
∴ pq
= 1a2
…(7.7.7)
⊿suPiから
sinθ = uPı�����
su����= a∙xi+b−yi
p+q …(7.7.8)
と表せる。 この式を,式(7.7.1)と式(7.7.3)に代入すると,
�vxi = −q
a∙ sinθ = �− q
p+q� 1a
(a ∙ xi + b − yi)
vyi = p ∙ sinθ = � pp+q
� (a ∙ xi + b − yi) � …(7.7.9)
Step② 重量
重量は
α = pyipxi
…(7.7.10)
と仮定する。
Step③ 最小二乗の目的関数
重み付き残差二乗和を最小にすると,次式で表せる。
f = ∑(vxi2 + α ∙ vyi2 ) → min. …(7.6.11)
19
この式に式(7.7.9)を代入すると
f = ∑(vxi2 + α ∙ vyi2 ) = ∑� −qp+q
�2�a∙xi+b−yi
a�2
+ α∑� pp+q
�2
(a ∙ xi + b − yi)2 → min. …(7.7.12)
を得る。
Step④ パラメータの計算
fを偏微分するとパラメータ a と bは解ける。まず,∂f ∂b⁄ = 0を計算すると,
∂f∂b
= � −qp+q
�2 1a2∑2(a ∙ xi + b − yi) + α � p
p+q�2∑ 2(a ∙ xi + b − yi) = 0
(q2 + αp2a2)∑(a ∙ xi + b − yi) = 0
∴ b = y� − ax� …(7.7.13)
次に,
∂f∂a
= ∑�2xi(a∙xi+b−yi)(p+q)2
� �q2
a2+ α ∙ p2� + ∑�(a∙xi+b−yi)2
(p+q)2�−2q
2
a3�� = 0
または
∑[2xi(a ∙ xi + b − yi) (a ∙ q2 + α ∙ a3 ∙ p2)] + ∑[(a ∙ xi + b − yi)2(−2 ∙ q2)] = 0
∑(a ∙ xi + b − yi) (a ∙ q2 ∙ xi + α ∙ a3 ∙ p2 ∙ xi − a ∙ q2 ∙ xi − b ∙ q2 + q2 ∙ yi) = 0
∴ ∑(a ∙ xi + b − yi) (α ∙ a3 ∙ p2 ∙ xi − b ∙ q2 + q2 ∙ yi) = 0 …(7.7.14)
を得る。
式(7.7.13)を式(7.7.14)に代入すると,
∑(a ∙ xi + y� − a ∙ x� − yi) (α ∙ a3 ∙ p2 ∙ xi − y� ∙ q2 − a ∙ x� ∙ q2 + q2 ∙ yi) = 0 …(7.7.15)
であり,この式を展開し,
∑(α ∙ a4 ∙ p2 ∙ xi2 − a ∙ q2 ∙ y�xi+a2 ∙ q2 ∙ x�xi + a ∙ q2 ∙ xiyi + α ∙ a3 ∙ p2 ∙ y�xi − y�2 ∙ q2 + a ∙ x� ∙ y�q2 + q2 ∙ y���yi
−α ∙ a4 ∙ p2 ∙ x�xi + a ∙ x� ∙ y� ∙ q2 − a2x�2q2 − a ∙ x� ∙ q2 ∙ yi − α ∙ a3 ∙ p2 ∙ xiyi + y� ∙ q2yi − a ∙ x� ∙ q2yi − q2yi2) = 0
さらに,aの項で整理すると,
α ∙ a4p2 ∑(xi2 − x�xi) + α ∙ a3p2 ∑(y�xi − xiyi) + a2 ∙ q2 ∑(x�xi − x�2) + a ∙ q2 ∑(−y� xi + xiyi
+x� ∙ y� + x� ∙ y� − x�yi − x�yi) + q2 ∑�−y�2 + y�yi + y�yi − yi2� = 0
vi
b
ax+b
-y
yi
Pi
θ
q
p
u
t
s
vyi
-vxi
y=ax+b
y
x
図 7.7.1 直交回帰の一般解
20
そして,この式にx� = (∑ xi) n⁄ , y� = (∑ yi) n⁄ を代入して,整理すると次の式になる。
α ∙ a4p2 �∑ xi2 −(∑xi)2
n� − α ∙ a3p2 �∑ xiyi −
(∑xi ∑yi)n
� + a ∙ q2 �∑ xiyi −(∑xi ∑yi)
n� − q2 �∑ yi2 −
(∑yi)2
n� = 0 …(7.7.16)
また,上の式において
Sx2 = ∑ xi2 −(∑xi)2
n , Sy2 = ∑ yi2 −
(∑yi)2
n , Sxy = ∑ xiyi −
(∑xi ∑yi)n
とおき、式(7.6.13)を書きなおすと,次に示す aに関する 4次方程式が得られる。
∴ (α ∙ p2Sx2)a4 − �α ∙ p2Sxy�a3 + �q2Sxy�a− �q2Sy2� = 0 …(7.7.17)
または,q2 ∙ Sxyで割ると
∴ �𝛂 ∙ 𝐩𝟐
𝐪𝟐∙ 𝐒𝐱
𝟐
𝐒𝐱𝐲� 𝐚𝟒 − �𝛂 ∙ 𝐩
𝟐
𝐪𝟐� 𝐚𝟑 + 𝐚 − �𝐒𝐲
𝟐
𝐒𝐱𝐲� = 𝟎 …(7.7.18)
これは,一般回帰直線の勾配を求める方程式に他ならないが,p q⁄ = 1 a2⁄ , α = 1とすれば,
� 1a4∙ Sx
2
Sxy�a4 − � 1
a4�a3 + a − � Sy
2
Sxy� = 0
Sx2
Sxy− a−1 + a − � Sy
2
Sxy� = 0
a Sx2
Sxy− 1 + a2 − � Sy
2
Sxy� a = 0
∴ 𝐚𝟐 − �𝐒𝐲𝟐
𝐒𝐱𝐲− 𝐒𝐱𝟐
𝐒𝐱𝐲� 𝐚 − 𝟏 = 𝟎 …(7.7.19)
∴ 𝐚𝟐 − �𝐀𝟐 −𝟏𝐀𝟏�𝐚 − 𝟏 = 𝟎
(4)一般直線回帰
∴ (α ∙ p2Sx2)a4 − �α ∙ p2Sxy�a3 + �q2Sxy�a − �q2Sy2� = 0
または,q2 ∙ Sxyで割ると
∴ �𝛂 ∙ 𝐩𝟐
𝐪𝟐∙ 𝐒𝐱
𝟐
𝐒𝐱𝐲� 𝐚𝟒 − �𝛂 ∙ 𝐩
𝟐
𝐪𝟐� 𝐚𝟑 + 𝐚 − �𝐒𝐲
𝟐
𝐒𝐱𝐲� = 𝟎
∴ �𝛂 ∙ 𝐩𝟐
𝐪𝟐∙ 𝟏𝐀𝟏�𝐚𝟒 − �𝛂 ∙ 𝐩
𝟐
𝐪𝟐� 𝐚𝟑 + 𝐚 − 𝐀𝟐 = 𝟎
(4) 中点直線回帰
一般回帰において
�α ∙ p2
q2∙ Sx
2
Sxy� a4 − �α ∙ p
2
q2� a3 + a − � Sy
2
Sxy� = 0
ここで,
α = pyipxi
= 1
及びp q = 1⁄ とおくと
� 𝐒𝐱𝟐
𝐒𝐱𝐲� 𝐚𝟒 − 𝐚𝟑 + 𝐚 − �𝐒𝐲
𝟐
𝐒𝐱𝐲� = 𝟎
21
� 𝟏𝐀𝟏� 𝐚𝟒 − 𝐚𝟑 + 𝐚 − (𝐀𝟐) = 𝟎
また,b は次式から計算できる。
∴ b = ∑yin− a ∙ ∑ xi
n
RMA 回帰は測定点を通る水平線・鉛直線と回帰直線へ交わる点でできる三角形の面積和を最小にする。中点
回帰はその三角形の斜辺の二等分点における残差ベクトルの平方和を最小にする。また,その斜辺に直交する残
差ベクトルの平方和を最小にすると直交回帰になる。 (5) RMA 回帰 中点回帰は測定点と推定直線とでできる三角形の斜辺の線分を二等分点において,その測定点と二等分点との
距離の総和を最小にするのに対し,RMA はその三角形の面積の総和を最小にする方法である。
�α ∙ p2
q2∙ Sx
2
Sxy� a4 − �α ∙ p
2
q2� a3 + a − � Sy
2
Sxy� = 0
の一般式において,α=1, p2 q2 = 1 a2⁄⁄ とおくと
� 𝟏𝐚𝟐∙ 𝐒𝐱
𝟐
𝐒𝐱𝐲� 𝐚𝟒 − � 𝟏
𝐚𝟐�𝐚𝟑 + 𝐚 − �𝐒𝐲
𝟐
𝐒𝐱𝐲� = 𝟎
Sx2a2 − Sy2 = 0
∴ a2 − �Sy2
Sx2� = 0
∴ 𝐚 = ±�𝐒𝐲𝟐
𝐒𝐱𝟐
また,bは次式で求められる。
∴ b = ∑yin− a ∑xi
n
y on x の回帰式をy = a1x + b1 , x on y の回帰式をy = a2x + b2 つまり,
a1 = SxySx2 , a2 = Sy2
Sxy
であるから,RMA の a はa1(y on x)とa2(x on y)の幾何平均を表す。
a = �A1A2 = �Sy2
Sx2
(別解)直交回帰より RMA を求める
なお,RMA 回帰は中点回帰や直交回帰と同様に考えて,図 7.6.2 の⊿suPiの面積(-UiVi/2)の和を最小にすれば
よい。残差ベクトルviは回帰線に直角に点 tで交わっている。
Step① n個の測定値Pi(xi, yi)を求めたものとする。
Step② 測定値Pi(xi, yi)の重量(pxi, pyi)をそれぞれ 1とする。
Step③ y = ax + bのパラメータ(a, b)の決定
RMA において最小二乗法をあてはめると「目的関数 f は図 7.6.1 に示す⊿suPiの面積 UiVi/2 の和を最小にす
ること」であり,これは次式で表される。
f = 12∑(UiVi) → min. …(7.7.17)
22
そして
Vi = a ∙ xi + b − yi …(7.7.18)
−tanθ = ViUi
より
Ui = −Vitanθ = −(a∙xi+b−yi)
a …(7.7.19)
この二式を式(7.7.17)に代入すると
f = ∑�−(a∙xi+b−yi)2
a� → min. …(7.7.20)
∂f∂b
= 2∑(a∙xi+b−yi)a
= 0
n ∙ b = ∑ yi − a∑ xi
∴ b = y� − ax� …(7.7.21)
∂f∂a
= ∑a∙2(a∙xi+b−yi)xi−(a∙xi+b−yi)2
a2= 0
∑(a ∙ xi + b − yi)(axi − b + yi) = 0
∑(a2xi2 − axib + axiyi + axib − b2 + yib − axiyi + yib − yi2) = 0
∑(a2xi2 + 2yib − b2 − yi2) = 0
∑[a2xi2 − 2yi(y� − ax�) + axiyi − (y�2 − 2axy���+ a2x�2)− yi2] = 0
∑(a2xi2 + 2yiy� − ax�yi − y�2 + 2axy��� − a2x�2 − yi2) = 0
∑(a2xi2 − a2x�2) +∑(−yi2 + yiy�) = 0 ∴ a2Sx2 − Sy2 = 0
∴ a = ±�Sy2
Sx2= ±�A1A2 …(7.7.22)
vi
b
ax+b
-y
yi
Pi
θ
q
p
u
t
s
vyi
-vxi
y=ax+b
y
x
図 7.6.2 直交回帰より RMA を求める
23
(5) aのまとめ
直線回帰 a の方程式の係数の特徴
a2 a3 a2 a
α p q p/q α ∙ p2Sx2 −α ∙ p2Sxy 0 q2 ∙ Sxy −q2Sy2
y on x 1 0 0 0 0 Sx2a −Sxy
x on y 1 0 0 0 0 Sxya −Sy2
直交 0 0 Sxya2 −(Sy2 − Sx2)a −Sxy
RMA 0 0 Sx2a2 0 Sy2
中点 1 1 p2 ∙ Sx2a4 −p2 ∙ Sxya3 0 q2 ∙ Sxya q2Sy2
7.4 マトリックスによる方法(最小二乗法)
(観測方程式法)𝛔𝐱𝐢𝟐 ≡ 𝟎, 𝛔𝐲𝐢𝟐 ≡任意の場合に相当
誤差論において,観測値は正規分布し,それから導く量も正規分布するという仮説に基づいている。そのため,
観測方程式は線形でなければならない。もし線形でなければ,その式の線形化を行う。ここでは,観測方程式法
について解説する。
(1)誤差の定義
εyi=yi − Y …(7.7.1)
ここで,
εyi:誤差 ,yi:観測値,Y:真値
である。
(2)最確値
vyi=yi − y� …(7.7.2)
ここで,
vyi:残差,yi :観測値,y�:最確値
である。
(3)最小二乗の原理
最小二乗の原理は「重み付き残差平方和を最小にすること」なので,これを行列記号で書くと次式になる。
E = vTPv → min. …(7.7.3)
(4)観測方程式
y� = AX + Ao …(7.7.4)
ここで,
y�=y + vyi , 変数X = Xo + ∆X , Xo :近似値,∆X:パラメータ, Ao:定数
y + v = A(Xo + ∆X) + Ao
または
v = A∆X − (AXo + Ao + y)
または
v = A∆X − Y …(7.7.5)
と書いた式を,観測方程式と呼ぶ。
ここで,
Y = AXo + Ao + y
は定数行列である。
24
vyi = axi + b − y …(7.7.6)
この式にn個の観測値pi(xi, yi)を代入すると,
�
v1v2⋮
vn
� = �
x1 1x2 1⋮
xn⋮1
��ab� − �
y1y2⋮
yn
� …(7.7.7)
または,この式を
V = A∆X − Y …(7.7.8)
と表しておく。
(5)正規方程式
式(7.7.3)に式(7.7.5)を代入し∂E ∂∆X = 0⁄ を求めると
f = VTPV = (A∆X− Y)TP(A∆X − Y) → min.
∂f ∂∆X = ∂[(A∆X−Y)TP(A∆X−Y)]∂∆X
� = 0
∂�∆XTAT−YT�(PA∆X−PY)
∂∆X= 0
∂(∆XTATPA∆X−∆XTATPY−YTPA∆X+YTPY)
∂∆X= 0
ATPA∆X + (∆XTATPA)T − ATPY − (YTPA)T = 0
2ATPA∆X = 2ATPY
(ATPA)∆X = (ATPY) …(7.7.9)
また,
P = �py1 ⋯ 0⋮ ⋱ ⋮0 ⋯ pyn
� …(7.7.10)
�x1 x2 … xn1 1 … 1 ��
py1 ⋯ 0⋮ ⋱ ⋮0 ⋯ pyn
��
x1 1x2 1⋮
xn⋮1
��ab� = �x1 x2 … xn
1 1 … 1 ��py1 ⋯ 0⋮ ⋱ ⋮0 ⋯ pyn
��
y1y2⋮
yn
�
�x1py1 x2py2 … xnpn
py1 py2 … py2 ��
x1 1x2 1⋮
xn⋮1
��ab� = �
x1py1 x2py2 … xnpnpy1 py2 … pwy2
��
y1y2⋮
yn
�
�∑pyixi2 ∑pyixi∑pyixi n
��ab� = �
∑ pyixiyi∑ pyiyi
� …(7.7.11)
ただし,観測値Pi(xi, yi)の重量はpyiと仮定した。ATは A の転置行列である。
または記号で次のように表しておく。
∴ NX = F …(7.8.12)
ここで,
N = ATPA , F = ATPY …(7.8.13)
である。
(6)正規方程式の解
逆行列N−1 = (ATPA)−1を計算して,N−1NX = N−1Fより、IX = N−1Fとなり,よって
∴ X = N−1F …(7.8.14)
25
逆行列は以下のように解くことができ,方程式が簡単に求められる。
行列式|N| = �[px2] [px][px] [p] � = [px2][p]− [px]2
転置行列NT = N (Nは対称行列である。)
随伴行列 adjN = �[p] −[px]−[px] [px2]�
逆行列N−1 = adjN|N|
= 1[px2][p]−[px]2
�[p] −[px]−[px] [px2]�
正規方程式の解
∴ X = N−1F = 1[px2][p]−[px]2
�[p] −[px]−[px] [px2]� �
[pxy][py] � …(7.8.15)
つまり,回帰直線式のパラメータ(a, b)は上の式を計算すると,
∴ a = [p][pxy]−[px][py][px2][p]−[px]2
∴ b = −[px][pxy]+[px2][py][px2][p]−[px]2
…(7.8.16)
(基準分散)
σo2 = VTPVr
…(7.8.17)
(パラメータのコファクタ)
GXX = N−1 = 1[px2][p]−[px]2
�[p] −[px]−[px] [px2]� …(7.8.18)
(パラメータの分散)
VXX = σo21
[px2][p]−[px]2�
[p] −[px]−[px] [px2]� …(7.8.20)
ここで,[ ]はガウスの記号である。
7.5 円曲線回帰
Circular curve fitting 直線回帰や円曲線回帰あるいは直角化などは,地図のデジタイジングや写真測量または TS での数値化地図作
成時に道路直線部の直線化,曲線部の正しい曲線化などに応用されている。以下には,円曲線回帰について述べ
ることにする。
Step① n個の測定値Pi(xi, yi)を求めたものとする。
Step② 測定値Pi(xi, yi)の重量(pxi, pyi)をそれぞれ 1とする。
Step③ 円の方程式は�(xi − h)2 + (yi − k)2 = R …(7.9.1)
ここで,
h,k:円の中心の座標,
R:円の半径
である。
式 7.9.1から観測方程式は
xi2 − 2xih + h2 + yi2 − 2yik + k2 = R2
26
−2hxi − 2kyi + (h2 + k2 − R2) = −(xi2 + yi2) …(7.9.2)
または,円の観測方程式は次のように表せる。
∴ Axi + Byi + C = −(xi2 + yi2) …(7.9.3)
ここで,
A = −2h , B = −2k , C = h2 + k2 − R2 …(7.9.4)
n個の観測点の座標を式 7.9.3に代入すると,
⎝
⎜⎛
x1 y1 1x2 y2 1x3⋯xn
y3
yn
1
1⎠
⎟⎞�
ABC� =
⎝
⎜⎜⎛
x12 + y12
x22 + y22
x32 + y32…
xn2 + yn2⎠
⎟⎟⎞ …(7.9.5)
そして,上の観測方程式を次のように表しておく。
DX = F …(7.9.6)
そうすると残差方程式は次のように書ける。
v = DX − F …(7.9.7)
Step④正規方程式
「最小二乗の期待値 Eは,重み付平方残差和を最小にすること」であり,これを行列で表現すると,次のように
なる。
E = vTPv → min. …(7.9.8)
ここで,Pは観測値の重量行列である。
この式に式(7.9.7)を代入すると,
E = vTPv = (DX − F)TP(DX− F) = (XTDT − FT)(PDX− PF)
= XTDTPDX − XTDTPF− FTPDX + FTPF
そこで,∂E ∂X = 0⁄ から
∂E ∂X = DTPDX + (XTDTPD)T − DTPF− (FTPD)T = 0⁄
∴ (DTPD)X = (DTPF) …(7.9.9)
ここで,(ABC … )T = ⋯CTBTATであり,Pは対称行列なのでPT = Pである。
また,P=I(単位行列)ならば,
∴ (DTD)X = (DTF) …(7.9.10)
と書ける。
この式に式 7.9.5を代入して計算すると,
y
x
図 7.9.1 円曲線回帰
27
∴ �∑ xi2 ∑ xiyi ∑ xi
∑ yi2 ∑ yiSymm. n
��ABC� = �
∑ xi3 +∑ xiyi2
∑ xi2yi +∑ yi3
∑ xi2 +∑ yi2� …(7.9.11)
Step⑤ Rの補正量
式(7.9.1) �(xi − h)2 + (yi − k)2 = Rより
vi = R −�(xi − h)2 + (yi − k)2 = R …(7.9.12)
Step⑥ 座標の調整
(方向角) tanTi = yi−kxi−h
…(7.9.13)
∴ Ti = arctan�yi−kxi−h
� …(7.9.14)
(補正ベクトルの成分)
�∆xi = vicosTi∆yi = visinTi
� …(7.9.15)
(調整座標)
�xı� = xi + ∆xi = xi + vicosTiyı� = yi + ∆yi = yi + visinTi
� …(7.9.16)
7.6 Kriging
Kriging(クリジング)は、多くの分野で人気があり、役に立つ地球空間のグリッドを作成する方法です。この
方法は、不規則な間隔のデータから視覚的に魅力的な地図を作り出します。Kriging はデータにおいて提案され
る傾向を表現するため、たとえば、高い点は閉合タイプの等高線によって峰に沿ってむしろ結合されるかもしれ
ません。
(あとがき)
昭和 56年当時私たちは「測量学(理工図書)」(共著)を出版して以来,3~4年経過して,岩淵清行氏(当時
八戸工業大学)から直線回帰,三角測量の四辺形(三角鎖)などに関する質問の手紙をいただいた。当時わたし
は、陸地測量部出身の測量の先輩から三角鎖は三角測量なのだが,実はトラバース測量と同じなのだと聞いてい
た。しかし,その理由は当時,十分に理解できなかった。後に,アメリカ合衆国では三角鎖を三角測量網に採用
していたこと,陸地測量部は日本本土を一等三角網,朝鮮半島は朝鮮総督府の設置した一等三角補点(二等三角
網)により及び満州は三角鎖による三角網を完成させたものと知る。測量・地図百年史により,本土-朝鮮-満
州が結合されていたことがわかり、これにより地形上「三角鎖」は平地における基準点測量に適していて、「三
角測量」は山岳の基準点に適していることが理解できた。そのことと同時にまた,インバールワイヤによる基線
測量において,本来は「長さ 24m製」が正しく,日本製は 25mになっている。「ドイツの 24m製」には意味があ
り,尺定数,温度補正,張力補正(カテナリー補正),傾斜補正などの係数は「24の 2,3,4,8…の数の倍数」に
なっていて,補正計算が整数の係数により便利に行えることがわかった。何も知らない日本人が 25mの長さのイ
ンバールワイヤを製作し,25m測定距離によりそれら係数が整数にならないで苦労して計算したのだとわかった。
岩淵氏の質問はほとんど解決したが,非線形のままで「直線回帰」を解く問題は非常に難しく,すぐには解決
できなかった。それまでは,あるいは今もそうであるが,測量の誤差式はすべてテーラー展開により線形化して、
正規方程式により未知数を解く。説明変数xが正規分布ならば被説明変数yも正規分布しなければならないとさ
れてきたが,厳密にはそれが違っていた。元の関数が非線形ならば,次数を落とさないで非線形のままで解くこ
とも可能になってきた。最初は,デミング解を紹介し,両軸に誤差があり,誤差方程式を「線形化」する場合な
28
どを提案した。しかし,直交回帰や RMA回帰などの非線形解が既に存在したので,両軸に誤差がある場合の一般
的な非線形解がなぜできないのかを問題にされていた。岩淵氏の論文は昭和 61年~平成元年ごろの土木学会学
術講演会に存在する。最終的には,回帰直線に対する残差ベクトルが任意方向に交わる場合の直線勾配 aの 4次
方程式が見出されることになる。
最近分かったことは、直交回帰(MA)は、x、y軸に誤差がある場合の回帰であるが、x、y軸の単位を変える
と回帰直線が変わってしまうことであり、それはデータの標準化をしておかなければならないことである。直交
回帰は両軸に誤差があり、かつ、両軸の単位が同じ時に解析効果がある。
そのため、直交回帰の欠点を補うため、RMA(改良型 MA)が考案された。これは、両軸に誤差があり、軸の単
位を変えても、同様の解析が行える。つまり、回帰直線式は変わらない。
その他、計算機のないときの二分法や三分法も、岩淵氏は紹介していた。
(1989年 10月 K.K.記,1996年 12月,2008年 6月修正)
(2010 年 7月 28日・2011年 3月 19日・2014年 1月 2日小林和夫改訂)
付録 A 直線回帰(Mathematica により回帰直線の決定とプロット図の作成)
n個の点のデータを作成する。
thePoints={{23,43},{21,28},{18,17},{17,16},{17,16}} 次のようなプログラムを作る。{1,x}は直線b+axを示す。
bestline[x_]=Fit[thePoints,{1,x},x]; これもほぼ同じ。
myline[x_]=Fit[thePoints,{1,x},x]; 点の分布図。
p1=ListPlot[thePoints,PlotStyle->PointSize[0.08]]; x軸の範囲指定。
p2=Plot[bestline[x],{x,0,110}]; 結果を表示。
Show[{p1,p2},
29
AxesLabel->{"x","y"},
Frame->True,
FrameLabel->{"NisannkaIou","NisankaTisso"},
Epilog->{PointSize[0.08],Point/@ thePoints}];
付録 B 1)y に誤差,2)xに誤差,3)直交回帰,4)中点回帰,5)RMA 回帰を求める BASIC プログラム。
General.bas(ソース),genaral.exe(プログラム),line.in(点番号,x,y データ),line.out(結果) 参考文献 1. 本間仁,春日屋伸昌「次元解析・最小二乗法と実験式」コロナ社 25版,pp.255-262
2. 岩淵清行,デミングのあてはめ公式を直線の場合に利用する際の注意,土木学会第 41回年次学術講演会(昭
和 61年 11月)
3. Curran, P. J., and A. M. Hay, 1986. The Importance of Measurement Error for Certain Procedures in Remote Sensing at Optical Wavelengths, PE&RS, 52:229-241. 4. 岩淵清行,直線あてはめ覚書,土木学会第 42 回年次学術講演会(昭和 62 年 9 月) 5. 岩淵清行,もう一つの RMA について,土木学会第 43 回年次学術講演会(昭和 63 年 10 月) 6. Curran, P.J., and M.H. Alan, 1986. The Importance of Measurement Error for Certain Procedures in Remote Sensing at Optical Wavelengths, PE&RS, 52: 229-241 7. 春日屋,1985. 対数正規分布に従う水文量の統計的予測,中央大学 100 周年記念論文集、理工学部、
pp.289-310 8. 岩淵清行,直線あてはめに関する覚書,土木学会第 44 回年次学術講演会(平成元年 10 月) 9. Edward M. Mikhail and Gordon Gracie, Analysis and Adjustment of Survey Measurements, 1981, p. 237 10. デミング原著,森口繁一訳、推計学によるデータのまとめ方,岩波書店,1950年
11. 森忠次,測量学 2応用編,丸善,昭和 56 年
12. 田島稔,小牧和雄共著,最小ニ乗法の理論とその応用、東洋書店、昭和 63年、第 2版
13. 米谷栄二,山田善一共著,新版測量学一般編,丸善,昭和 58年,p.363