経済と統計の間で - yoshizoe-stat.jp · 経済と統計 r. a. fisher, statistical methods...

63
経済と統計の間で 美添 泰人 (青山学院大学経済学部) 2009 9 8 統計関連学会連合大会・同志社大学 1

Upload: others

Post on 17-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

経済と統計の間で

美添 泰人(青山学院大学経済学部)

2009年 9月 8日

統計関連学会連合大会・同志社大学

1

Page 2: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

内   容

• 経済と統計◦ 経済の実証分析—モデルの存在

◦ 経済の実証分析—構造の発見

• ベイズ統計学

• 頑健統計学およびデータ解析の視点

• 公的統計における専門家(日本統計学会)の役割◦ 経済の実証分析—市場の動向

◦ 経済統計の品質向上

2

Page 3: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

経済と統計

◦ R. A. Fisher, Statistical Methods for Research

Workers, 1963.

• 統計学とは (i) 集団の研究, (ii) 変動の研究, (iii) データの簡約方法に関する研究とみなすことができる.

• 社会科学においても統計的方法は本質的に大切であって,社会科学が科学の域に達したのは主として統計的方法の賜である.

• 統計的方法に対する社会科学のこの特殊な依存関係によって,統計学は経済学の1部門とみなすべきであるという不幸な誤解が生じた.

• 実は経済学上のデータの処理に適した方法は,今までのところでは,たいていは生物学その他の科学の研究においてのみ発達してきたのである.

3

Page 4: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

経済と統計

◦ 経済の分野には大量の統計資料がある.• Fisher :農業の統計データに比較して経済の分野では豊富な統計資料があり,統計的手法を適用するのに適した分野である.(出所は未確認)

◦ 経済統計を適切に分析する際,いくつかの課題に直面する.そのうち,検証されるべき仮説は経済学の領域における理論ないし経験から導かれるもので,統計学に固有の対象とはいえないが,正確な資料の利用と,適切な分析手法の探求は統計学の本来の課題といえる.

4

Page 5: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

経済統計の利用 — その現状

◦ 経済に関する統計と「経済統計」.

◦ 西村清彦氏(日本銀行副総裁)の発言(冗談?):経済「統計」と「経済」統計.

(a) 経済分析の視点が先にあって,その目的で使える統計を探す.

(b) 経済構造を把握する目的があって,そのために統計を作成し,利用する.

◦ これらに対応する視点は,以下のように言い換えられる.(a) 経済の実証分析—モデルの存在

(b) 経済の実証分析—構造の発見

5

Page 6: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

経済と統計

◦ この報告では,経済「統計」に対する筆者の現状認識と,今後の展望を述べたい.

◦ 経済統計の分析に関わる統計的手法として,(1) ベイズ統計学

(2) 頑健統計学およびデータ解析の視点,

◦ 統計情報の作成・提供・利用に関わる制度的な問題として(3) 公的統計の分析

に触れる.

6

Page 7: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学 — 最近の流行?

• 近年,ベイズ統計の応用が活性化し,日本語によるベイズ統計の解説書も急増している.翻訳も含めて,2007年:2冊,2008年:3冊,2009年:2冊.

これは歓迎すべきことである.

• しかしその一方で,ベイズ統計の本来の意味を十分に理解しているとは言いがたい分析も増加しているように見受けられる.

• ベイズ統計の急速な需要拡大の背景には,直感的に納得できる結果を与えるソフトウェアの登場がある.しかし,多くの直感は,一部の応用分野における経験の反映であり,理論的な根拠とは言えない.

• この時点に,ベイズ統計学が「どのような理由で有効なのか」を確認してみたい.

7

Page 8: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学の構造 — Bayesian (Decision) Theory

• 統計的モデル (X ,Θ,P):標本空間 xϵX,母数空間 θϵΘ,および観測値の分布 P(密度関数を p(x | θ) と書く)

• 統計的問題:標本 x が得られたとき,未知の母数 θ に関して何らかの推論を行うこと.

• 統計的決定問題:Wald (1950)可能な行動 dϵD (D は決定空間)と母数 θϵΘ に対して,損失関数 L(d, θ) ないし効用関数 U(d, θ) が与えられる.このとき,観測値 x にもとづいて最適な行動 (decision rule) d = δ(x)をどう定めるか,という問題.

8

Page 9: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学の構造 — Bayesian (Decision) Theory

• リスク(損失の期待値):R(θ, δ) = E[L(δ(x), θ) | θ] =

∫X

L(δ(x), θ) · p(x | θ)dx は θ の関数

となるため,「ミニマックス」などの基準によって「最適」な δ

が選ばれる.この決定問題の特別な場合として,パラメータの推定問題や,仮説検定の問題が導かれることも良く知られている.Lehmann (1959) など. (これは便宜的な基準)

• ベイズの手法で必要な概念:母数空間 Θ 上に設定される確率分布 p(θ) (事前分布)

• 正統的なベイジアン(Savage (1954) など)では,ベイズの定

理によって事後分布 p(θ | x) =p(x | θ)p(θ)

p(x)を求め,行動 d は事

後期待効用∫

Θ

U(d, θ)p(θ | x)dθ を最大にするように決定される.

(これは原理から導かれる基準)

9

Page 10: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学の構造 — Bayesian Statistics vs.

Bayesian Decision Theory

• 合理的行動による論理整合性 (coherence) の重視.人間の合理的行動に関する若干の仮定( 公理体系)から,事前分布 p(θ) の存在,効用関数 U(d, θ) の存在,行動 d は事後期待効用 E(U | x) を最大にするように選ばれるべきであること,の3つが整合的に導かれる.

◦ L. J. Savage, J. W. Pratt, M. H. DeGroot などの公理体系がある.ある公理体系では,効用は確率の一種である.そのときは事後期待効用も確率の一種となる.

10

Page 11: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学の構造 — Bayesian Statistics vs.

Bayesian Decision Theory

• Bayesian Statistics と Bayesian Decision Theory は区別して考えるべきである: A. P. Dempster

• 決定と統計的推測 (statistical inference) を分離する場合:統計的推測とは,発生し得る(ある効用関数 U による)任意の決定問題に対して必要な情報をあらかじめ整理しておくこと.事後期待効用の計算に用いられるものは U と事後分布 p(θ | x)だから,Bayesian Statistics では,事後分布を計算することが推測の問題そのものである.

• ベイズ統計学の手法が,何故,信頼できる結果を与えるのかという点については,論理整合性が重要な根拠である.

11

Page 12: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学の構造 — データのもつ情報

◦ やや異なったベイジアンの立場として,データのもつ情報を十分に引き出すために,なるべく個人的な主観の入り込む余地のない事前分布を採用し,また,効用関数は特定化しないという立場がある.

◦ この立場は,Savage (1954)によるベイジアン革命以前からBayes-Laplaceの流れをくんでいた Jeffreys (1967)に代表されるものであるが, Box and Tiao (1973) も同じような考え方を採用している.

◦ 標本理論においては,結果的に特別な効用関数と,特別な事前分布を仮定した場合のベイジアンによる解を求めていることになるのが通例である. Pratt (1968) 参照

◦ 推定問題においては,決定方式 d = δ(x) がベイズ推定量 “Bayes

estimator” である.

◦ このような解は効用関数の形が変われば変化するのが普通だから,標本理論の手法とは,かなり恣意的な方法であるということになる.

12

Page 13: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学の構造 — データのもつ情報

データのもつ情報を重視する立場では,情報を持たない事前分布(non-informative prior) を仮定する.

また,この立場は,データの持つ情報を十分に引き出すこと(すなわち,データを特定のモデルに閉じこめてデータの真の意味を見逃す,という愚をおかさないこと)を目的とするデータ解析学派 (data analysis school) とも結びついている.この立場に「情報のある事前分布」を追加したものがきわめて実用的であり,最近のベイズ統計学の流行は,情報のある事前分布を効果的に利用する方法が実用化されたことによる.

あるいは p(θ | x) ∝ p(x | θ)p(θ) という式からわかるように,もし p(θ) に「ある意味で」 θ に関する情報が含まれていなければ,事後分布 p(θ | x) は近似的に尤度関数 p(x | θ) に一致する.したがって尤度関数を直接利用して推論を行う手法は,ベイジアンの特殊な場合であるとみなすこともできる.

尤度関数を直接利用する推論は,たとえば Fraser (1976) に見ることができる.(ただし Fraser自身はベイジアンと同等であるとは考えていない).

13

Page 14: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学 — 標本理論の非整合性

ベイジアンの体系は前提とする公理体系から整合的に導かれるのに対して,標本理論の方は ad hocな手法の寄せ集めであり,その結果として当然のことながら多くの論理的な矛盾が発生している.

以下に記すものはそのごく一部分であるが,それらの問題はベイジアンで考えれば矛盾なく解決されるものである.

• 不偏性• 仮説検定• 信頼区間• 尤度原理 (weak / strong likelihood principle),条件性(conditionality)の原理

• その他,さまざまな原理(不偏性,不変性,一致性,UMVUE, etc.)

14

Page 15: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性—不偏性 (1)

T (x) が θ の不偏推定量:E(T (X) | θ) =

∫X

T (x)p(x | θ)dx = θ (∀θ)

ここで,積分が標本空間X に依存していることから,この基準は標本空間の選び方に依存する.

例:成功の確率を θ とするベルヌーイ試行列において, n 回の試行で r 回の成功が観測されたとする.Θ = {θ | 0 < θ < 1} である.n を固定してデータを観測した場合は r ∼ B(n, θ) が二項分布に従う確率変数,標本空間は X = {0, 1, · · · , n} となり, θ の不偏推定量は θ = r/n で与えられる.

一方,r を固定した場合は n ∼ NB(r, θ) は負の二項分布,標本空間はX = {1, 2, · · ·} となり, θ の不偏推定量は θ = (r − 1)/(n − 1) となる.

◦ この例は,標本理論においては「強い尤度原理」が必ずしも成立しないことを意味している.

◦ ベイジアンでは事後分布による情報の集約(効用関数が確定されるときには決定問題の解まで)が唯一の原理によって処理される.標本理論では問題の性質によって多くの基準ないし原理が採用されている.強い尤度原理もその1つである.

15

Page 16: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論のさまざまな原理 — 弱い尤度原理 講演では省略

標本理論で用いられる代表的な原理のいくつかを紹介する.

弱い尤度原理: p(x | θ) という確率分布を持つ変数の観測値として x1 または x2 が得られたとき,その尤度関数が比例的であれば同一の結論が導かれるべきである.すなわち,h を θ に依存しない関数として

p(x1 | θ) = p(x2 | θ)h(x1, x2)

が成りたつならば,モデルを正しいとする限り x1 と x2 とからは同じ結論が引き出される.

この原理は最小十分統計量のみを用いる推論と同等で,最も基本的なものとみなされている.

16

Page 17: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論のさまざまな原理 — 強い尤度原理 講演では省略

強い尤度原理:異なった確率分布に従う確率変数 x と y についても,その尤度関数に

p(x | θ) = p(y | θ)h(x, y)

という比例関係が成り立つならば,x から得られる結論と y から得られる結論は一致しなければならない.

これは弱い尤度原理よりも厳しい条件である.不偏性 (1) の例では,二項分布と負の二項分布について尤度関数が比例的になっているから,結論は同一でなければならない.

◦ ベイズ統計の体系では,「事前分布が同一なら」,この強い尤度原理が導かれることが明らかである.(しかし,強い尤度原理の成立をベイズ統計の根拠にすることは適当ではない.)

17

Page 18: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論のさまざまな原理 — 条件性の原理 講演では省略

条件性の原理:ある確率変数の分布が θ と無関係であれば, θ に関する推論を行うときにはその確率変数の値は固定して考えてよい.

このような確率変数(統計量)のことを補助統計量とよぶ.

例:精度の異なる 2つの器具を用いて,ある物体の長さ θ を計る問題を考える.ただし,どちらの器具を用いるかはコインを投げて決めるものとする.すなわち y = 1 (表)のとき x | y ∼ N(θ, σ2),y = 0 (裏)のときx | y ∼ N(θ, 9σ2) とする.ただし σ は既知とする.このときの十分統計量は (x, y) であり, y の分布

P{Y = 1} = P{Y = 0} =1

2

は θ とは無関係だから, y は補助統計量である.この例においては,推論を行う際にはどの器具を使ったかを知っているわけだから, y に関しては条件付の分布を考えるのが当然である.

18

Page 19: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性— 条件性の原理 講演では省略

条件性の原理がうまく適用できない例 Basu (1964):

母数空間を θ : −1 ≤ θ ≤ 1 として,整数値を取る確率変数 x (x = 1, · · · , 6)の分布を

p(x|θ) = (x − θ)/12 x = 1, 2, 3

= (x − 3 + θ)/12 x = 4, 5, 6

とする.このとき, θ に関して情報をもたない補助統計量は 6通り存在するが,そのどれに関して条件付分布を考えるかによって結果が異なることが示される.

補助統計量を選ぶということは,条件付分布の標本空間を選ぶということに等しい点に注意する必要がある.

このような難点を避けようとして,多くの追加的な「原理」が持ち込まれている.Cox (1971),Kalbfleisch and Sprott (1970) などが主なものであるが,個々の問題に応じて適用される原理の数を増すことによっては,標本理論の本質的な欠陥を取り除くことはできないのは当然である.

19

Page 20: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性 — 不偏性 (2) 講演では省略

一様最小分散不偏推定量(UMV)の例:

Ferguson(1967, p. 136) の例では,ポアソン過程

p(x | λ) =e−λλx

x!

に関する母数 θ = e−2λ を推定するのに,単位時間における観測回数 x を用いる問題を考える.

このとき UMV は θ = (−1)x となる.すなわち,2単位の時間に 1度も事象の生起しない確率という意味を持ち,母数空間が Θ = (0, 1) である θ の推定量が, x が偶数なら 1,奇数なら −1 という無意味なものになってしまう.

20

Page 21: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性 — 不偏性 (3) 講演では省略

増山 (1969)に紹介されている竹内啓の提示した例:はかりを 1度だけ使用することが許されているとき,その結果 x を用いて,二つの物体 A,B の重さを同時に(A, B によって)不偏推定する.

正解は,たとえばコインを投げて( 1/2 の確率で)表が出たら A を測定し,A = 2x, B = 0 とする.また裏がでたら B を測定して A = 0, B = 2x とする,というものである.

この例ほど不偏推定量の持つ不合理性を明らかにするものは見当たらない.

標本理論では現実に観測されたデータだけではなく,データが可能性として取り得るすべての値を考慮に入れるため,不偏性のみを問題にすると,このように奇妙な結果が生じるのである.

実際,この例では条件性の原理が成立していない.

21

Page 22: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性— 仮説検定

標本理論では,一般に,(1) 弱い尤度原理と (2) 条件性の原理を認めるものの,(3) 強い尤度原理を受け容れない.その理由は次の例に示される.

なお,Birnbaum (1962) は,(1), (2) と (3) の同等性を示している.

x1, · · ·xn を正規分布 N(θ, 1) からの無作為標本として,仮説 H0 : θ = 0 を対立仮説 H1 : θ = 0 に対して検定する標準的な棄却域は, |x| > c/

√n で

与えられる.

強い尤度原理によれば,どのような標本抽出法を用いてもよいことになる.ところが標本平均 x がその限界 c/

√n を超えるまで標本抽出を続けると,

実際に θ = 0 が正しいときでも,この過程が終了する確率は 1となる.したがって,強い尤度原理を受け容れるならば,常に誤った結論を出すことを認めざるを得なくなる.

これが,強い尤度原理,およびこの原理が結論として導かれるベイズ統計の手法に反対する例として広く用いられたものである.

22

Page 23: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性— 仮説検定:Jeffreys の議論

Jeffreysは,上の問題をベイジアンで考えて,次のような事前分布を想定した.

P{θ = 0} = π0, P{θ = 0} = 1 − π0,

∫p(θ)dθ = 1 − π0

(積分範囲は θ = 0 を除く母数空間)

ここで標本平均 x が与えられたときの事後確率を計算すると,

P{θ = 0 | x} =π0 e−nx2/2

π0 e−nx2/2 +√

n/2π

∫p(θ) e−n(x−θ)2/2 dθ

となるが,さきほどの仮説が棄却される値 x = c/√

n を代入して n → ∞とすると, P{θ = 0 | x} → 1 となる.ベイジアンの立場で考えれば,θ = 0 であることをデータが示しているにもかかわらず,有意水準 α の検定では逆の結果を導くことになる.

23

Page 24: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

標本理論の非整合性— 信頼区間

信頼区間:古典的な統計学の教科書に必ず記載される内容は次のとおり.

◦ 与えられた観測値 xから計算された,母数 θ に関する信頼係数 1 − α

の信頼領域 R(θ, x)は,確率変数 x について

Pr{θ ∈ R(θ, x) | θ} = 1 − α ∀θ

が成立するということであり,これは

Pr{θ ∈ R(θ, x) | x} = 1 − α

を意味しない.

• したがって,ある観測値 x が与えられたときには,何も言うことはできない,という極論 (J. Neyman) もある.

24

Page 25: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学と標本理論の関係

p(x | θ)

p(θ | x)

¡¡ªp(x, θ)

- x

......................................................................................................................

....................

.....................

......................

.......................

........................

........................

........................

........................

.......................

.....................

..........

..........

..........

.........

..................

.................

................

..............

.............. .............. ............... ............... ................. .....................................

....................

....................

.....................

......................

.......................

........................

........................

........................

........................

.......................

.....................

....................

...................

..................

.................

..............................

..............

θ を固定して,繰り返し標本 x について評価するか,x を固定して,θ について評価するか,

25

Page 26: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学 — 再び,要約

• ベイズ統計学の理論的な根拠が手法としての論理整合性にあることは,L. J. Savage, D. V. Lindley, J. W. Pratt などが指摘してきた.

• 1960年代には,主観確率の概念も非科学的なものという理解が大勢を占めていた.

• Lindley の Probability and Statistics では,ベイズ統計学の手法でも古典的な手法と同様の結論が導かれることを指摘し,利用者に対して安心感を与えることが意図されていた.

• G.E.P. Box & G. C. Tiao による Bayesian Statistics では,古典的な統計学では解決が困難とされたいくつかの問題に対して,ベイズ統計学が説得的な解を与えることが示された.

• 計量経済学の分野でも R. Shiller による分布ラグの推定手法は,ベイズの手法が大きな成功を収めた例である.

• 1990年代以降にはモンテカルロ法なども登場し,ベイズの手法が急速に普及してきた.

26

Page 27: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイズ統計学 — 事前分布の活用といくつかの問題点

◦ Jeffrey’s prior (報告では省略)

◦ De Finetti theorem (報告では省略)

◦ Principle of stable estimation: p(θ) が異なっても,十分な観測値が利用できれば,事後分布は真の θ に集中する.

ただし,情報のある事前分布に関しては,この議論は成り立たない.(報告では省略)

例としては,美添 (1983) における連立方程式体系の推定と識別性の

議論を参照のこと.

◦ Jeffreys argument, posterior odds, H0 : θ = θ0 と区間推定の比較,一見したところ,矛盾がある?

◦ MCMCの乱用?

27

Page 28: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

事前分布について — Jeffreys の議論,事後オッズ,区間推定

x ∼ N(θ, σ2), 事前分布:θ ∼ N(m, 1/τ0) のときの推論(σ = 1 は既知).

(1) 区間推定 (Credible interval): 事前分布を θ ∼ N(m, 1/τ0) とすると ( τ0 → 0 のとき)

Pr{

x − 1.961√n

< θ < x + 1.961√n

∣∣∣x}

= 0.95

(2) θ = 0 について Jeffreys の事後確率は (τ−11 = τ−1

0 + n−1 として)

P{θ = 0 | x} =π e−nx2/2

π0 e−nx2/2 + (1 − π0)√

τ1/2π e−τ1x2/2

(3) 事後オッズ (posterior odds)は上式の分母の 2つの項の比である.

P{θ = 0 | x}P{θ = 0 | x} =

1 − π0

π0

√τ1

2πen2x2/2(n+τ0)

28

Page 29: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

事前分布について — Jeffreys の議論,事後オッズ,区間推定

◦ ここで x = 0.0012, n = 4, 000, 000, τ0 = 0.01, π0 = 0.5 とすると,

• Credible interval (推定区間)は 0.00022 < θ < 0.00218 とθ = 0 を含まない.

• 事後確率は P{θ = 0 | x} = 0.585 と必ずしも小さくないし,

• 事後オッズも P{θ = 0 | x}/P{θ = 0 | x} = 0.711 となる.

◦ もちろん n をさらに大きくすれば,事後確率は P{θ = 0 | x} → 1,

P{θ = 0 | x}/P{θ = 0 | x} → 0 となる.

◦ このことは,事前分布の相違を反映しているだけで,ベイジアンの矛盾を表しているわけではない.

29

Page 30: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

複雑なモデルと事前分布について — MCMC?

◦ 指数分布族と共役事前分布のような単純な問題は,1960年代までにほぼ完全に解決されている.

◦ 情報のある事前分布の利用,共役分布とは限らない事前分布の導入,複雑な問題への解答が,ベイズ統計学の隆盛を招いた主要な要因である.

◦ しかし,複雑なモデルの導入と,数値計算による事後分布の評価は,ベイズ統計学そのものではない.penalized likelihood など,古典的な統計学における尤度関数の評価でも,同様な結論を導くことができる.

• ベイジアンの有用性は,論理整合性による保証と考えるべきである.

30

Page 31: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイジアン統計学はいつでも有用か

統計的データ解析に際してはデータ処理に関する十分な考察が必要である.

◦ Berger (1995) は,アメリカにおける乗用車の燃費のデータに関して

yijk = β′x(ijk) + α′x∗(ij) + ϵijk

という,複雑なモデルの推定を論じている.

ここで yijk は第 i メーカーの第 j モデルの第 k 観測値の燃費 (の対数) を表し

ており,x(ijk) は乗用車の特性を表すベクトル,β は固定的効果を表すベクト

ル,′ は転置の記号,x∗(ij)

はメーカーとモデルの特性,α は変動的な係数を表

すベクトルである.さらに β に関しては事前の知識から β10 > 0,

β4 ≤ β5 ≤ β6 などが知られており,αij ∼ N(µi, Vi), (j = 1, · · · , Ji) かつ µi

は AR(1) 過程に従うなどと仮定している.

◦ これほど複雑なモデルになると,標本理論では実質的に解くことは不可能となり,数値計算(ベイジアンの手法)は確かに有効である.

◦ しかし,本当にこれほど複雑なモデルが必要なのだろうか?

31

Page 32: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイジアン統計学はいつでも有用か

このデータの問題点は図 1のような強度の非線形性が観察されるところにある.Bergerは被説明変数の対数を取ることによって非線形性を和らげようとしているようだが,その程度の変換では不十分である.

図 1. 排気量 (x) と燃費 (y) の関係

32

Page 33: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイジアン統計学はいつでも有用か

筆者の選んだ変換は図 2のように,y の逆数と x (ここでは排気量) の 3乗根である.EDA (探索的データ解析) の手法を利用したが,物理的な量としても意味があるものが選ばれる結果となった.図 2のような状況であれば比較的簡単な線形回帰モデルによっても十分な分析ができる.

図 2. 排気量の 3乗根 (x1/3) と燃費の逆数 (−1/y) の関係

33

Page 34: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

ベイジアン統計学はいつでも有用か

◦ この例のような注意深い準備作業の上で,なおかつ複雑なモデルを推定する必要があれば,そのときこそベイジアンの強力な分析手法がその力を発揮することになろう.

◦ ベイジアンの手法は悪いモデルに対しても利用可能であるが,統計家のデータを見る能力に代替可能なものではない.

◦ ベイジアンの手法が本当に有効なのは,経済的な知識を統計モデルの中に取り入れるように事前分布を工夫することを通じてである.

◦ ごく一般的な,ただし相当程度複雑なモデルを作り,情報のない事前分布を想定し,MCMCを適用することによって事後分布を評価した,というだけなら,ベイジアンである必然性はどこにも見出せないし,練習問題以上の価値はない.

34

Page 35: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点—要約

◦ 経済統計と外れ値の存在経済統計には外れ値が少なからず存在する.しかし所得や生産などに現れる外れ値の多くは「正しい」観測値であり,経済変数の分布が強い正の歪みを持つことから必然的に発生するものである.そのため,標本調査の実施,統計表の集計にあたっても,頑健統計学の視点の重要性が次第に認識されるようになっている.

◦ 頑健な手法の利用計量分析の中には,頑健ではない推定手法を適用しているにもかかわらず,いくとおりかの条件の下での分析結果に大きな差がないことをもって,ロバストな推定結果が得られたとする主張も散見される.形式的な頑健性の議論は経済分析に適当ではないという意見は尊重するものの,特に経済統計の分析に当たっては,頑健性とデータ解析の視点が重要である.

35

Page 36: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点—現状と評価

• 日常用語とは言えない「頑健性」という表現は,経済分析の分野では明確な定義を意識することなく使われているように見受けられる.

• ある期間の経済分析を,その前後の期間に適用してみて,その結果が大きく異なるかどうかを確認することは分析の姿勢として重要である.

• しかし,最小二乗法で推定した二つの結果を比較すると,両方とも外れ値の影響を同じように受けるため,似たような結果が得られることがある.頑健でない手法から得られた結果を単純に比較するだけでは不十分である.

• 統計学の分野でも,回帰直線を拡張して滑らかな応答曲線を推定する適応的な手法を「頑健」と呼ぶことがあるが,この用法は不正確であろう.

36

Page 37: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点

• 統計的な推論は観測値に基づいて行われるが,同時にデータ発生に関する仮定も重要な役割を果たしている.最も単純な場合でも,無作為性(randomness) や独立性は少なくとも暗黙に仮定されているし,分布に関する仮定や未知の母数に関するある種の事前情報も存在する.

• 一方で,これらの仮定は厳密な意味では正しくない点に注意が必要であり,仮定のほとんどは漠然とした知識や経験に基づく判断を数理的に処理しやすい形で定式化したものと理解すべきである.このようなモデルの仮定が,実際のデータ発生過程からわずかに異なる場合に,推定や検定などの統計的推論にわずかな影響しか与えなければ,数理的な処理が容易な方法を選ぶことは十分に正当化される理由がある.このような意味で安定的な手法が頑健な手法である.

37

Page 38: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 講演では省略

頑健 (robust),母数によらない (nonparametric),適応的 (adaptive)

という3つの手法は相互に関係が深いものの,意味は異なっている.

母数によらない手法 (nonparametric method) とは,広い分布のクラス(連続かつ対称など)に対して確率的な命題が成立することを指すのが一般的な用法であり,厳密な定義があるわけではない.分布によらない(distribution-free) という表現も同じ内容を指している.ノンパラメトリック法と呼ばれる実用的な手法としては,順位に基づく検定や,それから導出される推定が広く利用されている.

38

Page 39: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 講演では省略

しかし,母数(モデル)に基づいた推論と母数によらない(分布の仮定に依存しない)推論の区別は自明とは言えない.

算術平均 x は頑健でない推定量,中央値(メディアン)Mx は頑健な推定量とされるが,モデルに依存するかどうかという基準を用いると,両者とも特定の分布を想定した場合の母集団平均 µ に対する最尤推定量 (MLE)であるから,パラメトリックな推定量である.

母集団分布として正規分布 N(µ, σ2) を仮定した場合が算術平均 x であり,母集団分布として f(x) = (1/2σ)e−|x−µ|/σ という密度関数で表される両側指数分布を仮定した場合が中央値 Mx である.

一方で,これらの推定量は母集団分布とは無関係な基準から導かれるという意味では,ノンパラメトリックな推定量である.たとえば,観測値x1, · · · , xn が与えられたとき,

∑i(xi − a)2 を最小にする a が算術平均 x

であり,∑

i|xi − a| を最小にする a が中央値 Mx である.

39

Page 40: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点

頑健性 (robustness) という表現も,必ずしも厳密に定義されたものとは言えず,仮定がわずかに違っていた場合でも利用できる手法という程度の意味合いで用いられることが多い.Huber (1981) でも「あらゆる仮定からのわずかな相違 (deviations from the assumptions) に対する非過敏性(insensitivity)」 を頑健性と呼んでいる.

最も研究が進んでいるのは分布に関する頑健性 (distributional

robustness) であり,真の確率分布が,正規分布などの想定されたモデルからわずかに異なる場合の問題を扱うものである.頑健性については,分布の他にも独立性や回帰モデルにおける線形性など,さまざまな側面があり,これらの標準的な仮定が成立しない場合の影響の大きさを評価する問題も重要であるが,分布に関する頑健性に比較して,解決すべき多くの問題が残されている.

40

Page 41: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点—概要

◦ ほとんどの古典的な手法について,分布に関する頑健性に関しては,想定された分布(通常は正規分布)よりも,真の分布の裾が広い場合に推定や検定の結果が大きな影響を受ける傾向がある.

◦ 実用的には,外れ値を除去した後で最小二乗法などの古典的な手法を用いることで,極端に悪い結果を避けることはできるが,問題はそれほど簡単ではない.

(1) 回帰分析などでは,通常の手法を用いて外れ値を検出することは容易ではない.最小二乗法では外れ値以外の観測値についての残差は大きくなる一方で,外れ値に対する残差はそれほど大きくない.通常の残差分析では外れ値を検出することは難しい.

(2) 世帯の所得や企業の出荷額など,真の分布が正規分布と大きく異なる場合には,分布を反映した観測値を除去しては正しい分析ができなくなる.

◦ 経験的にも,頑健な手法を直接適用する方が,外れ値を除去してから古典的な手法を適用するよりも安全かつ効率的な手法である.

41

Page 42: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 標準偏差と平均偏差

Tukey による有名な例:分布の散らばりを計る尺度として,標準偏差 s =

√∑(xi − x)2/n と平均偏

差 d =∑

|xi − x|/n を比較すると,次の根拠から標準偏差が優れているとされる.

観測値 (x1, . . . , xn) を正規分布 N(µ, σ2) からの無作為標本と仮定する.n

が大きいとき,s は真の値 σ に近づき,一方 d は√

2/π σ .=. 0.80σ に近づく.さらに,これらの極限の近くでは 2つの尺度は近似的に正規分布に従い,その分散はいずれも n の逆数に比例することが確かめられる.

そこで d の代わりに√

π/2 d を s と比較すると

ARE = limn→∞

var(s)

var(√

π/2 d)

.=. 0.876

が得られる.従って平均偏差よりも標準偏差の方が優れている.

42

Page 43: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 標準偏差と平均偏差

Tukey は現実的な観測値に対する一つの近似として混合正規分布

(1 − ϵ)N(µ, σ2) + ϵN(µ, k2σ2)

を想定した (0 < ϵ < 1, k > 1).k = 3 として ϵ の値を変えて,s と d のARE を計算すると,図 3のようになる.

0.0 0.2 0.4 0.6 0.8 1.0

0.00.5

1.01.5

2.0

図 3. ϵ と ARE

43

Page 44: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 標準偏差と平均偏差

◦ k = 3, ϵ = 0.1 ∼ 0.3 は化学データの近似的な表現とされる.

◦ 図 3によると ϵ が 0.002 と 0.5 の間では s の優位は失われ,またϵ = 0.05 の近くで ARE は 2を超える最大値をとる.これから,現実的な ϵ の値に対しては s は d に比較すると,かなり性能の劣る統計量であることがわかる.

◦ この例のように,一般的に利用される手法の多くは,仮定されたモデルからのわずかな相違が結論に重大な影響を与える.特に正規分布の仮定のもとで「最適な解」として導かれた手法は,現実の観測値が正規分布とわずかに異なる場合にはきわめて不安定な結論を導く.

◦ 問題は,一般的に利用されてきた手法の多くは,正規分布の仮定から導かれるということである.

44

Page 45: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 位置母数の推定

◦ 最も解明が進んでいる問題であり,適当な関数 ψ を用いて,∑ψ(xi − θ) = 0 という形で表現される推定量 θ がよく用いられる.

◦ 観測値の分布 F がモデルとして想定する分布 F0 とは異なるという内容として,「四捨五入による誤差」と「外れ値」を想定することが自然である.こうすると F と F0 は比較的近いが厳密には一致しないという意味で,上記の混合正規分布よりも一般的な状況を表現できる.

◦ 現実の観測値が確率分布 F から発生するとき, F0 の場合と比べて推論が大きく変化しないことが頑健性の内容である.位置母数の推定に関する結論として,上記の ψ が単調かつ有界な関数であれば,θ は頑健であることが知られている.

例: ψ(x) = x とすると θ = x (算術平均)が得られ,ψ(x) = sgn(x) (符号関数)とすると中央値が得られる.

• 算術平均の ψ は有界ではないため,外れ値に対して脆弱であるが,中央値の ψ は有界であり,外れ値から受ける影響が小さい.

45

Page 46: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 位置母数の推定

◦ α刈込み平均は次の式で定義される(図 4).

|x| ≤ k のとき ψ(x) = x,|x| > k のとき ψ(x) = ksgn(x).

◦ k は α に対応して定められるが,特に α → 0 (k → ∞) のときは算術平均,α → 0.5 (k → 0) のときは中央値となる.

図 4. 刈込み平均の ψ 関数

46

Page 47: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 位置母数の推定

◦ 上記の ψ の代わりに,適当な関数 ρ を用いて∑

ρ(xi − θ) を最小にする解 θ とすることもある.ψ を ρ の導関数 ψ = ρ′ と選べば,原理的にこれらは一致する.

◦ 算術平均 x は ρ(x) = x2,中央値 Mx は ρ(x) = |x| から導かれる.

◦ 刈込み平均に対応するのは ρ(x) = x2/2 (|x| ≤ k のとき),ρ(x) = k|x| − k2/2 (|x| > k のとき) としたものである.

◦ いずれも ρ を微分すれば対応する ψ が得られる.

• 実際の応用例: 内閣府が公表している景気動向指数 (CI: Composite

Index) では刈り込み平均が利用され,効果をあげている.

47

Page 48: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 回帰分析

通常の線形回帰モデル: y = f(x) + u において回帰式を f(x) = α + βx とし,誤差項 u に正規分布を想定する.

◦ 仮定が正しければ α, β の推定量としては最小二乗法が最も優れている.

◦ 分布に関する頑健性の問題としては,誤差項 u が正規分布ではない場合,特に裾の広い分布の場合への対策がある.

• 残差を ri = yi − α− βxi と定義するとき,最小二乗法は∑

r2i を最小

にする解として α, β を定めるが,これは外れ値に敏感であり,頑健ではない.

• 分布に関して頑健な推定量は適当な ρ を用いて∑

ρ(ri) を最小とすることで得られる.位置の母数と同様,ρ′ = ψ が有界(かつ単調)であれば頑健となる.

• 頑健な推定法の中でHuber の ψ として知られているものは刈込み平均に対応する ρ または ψ を用いたもので,minimax 問題の解として,優れた性質を持っている.

48

Page 49: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 回帰分析

Huberの推定法では図 5に示す y 方向の外れ値に対しては適切な処理がなされるが,図 6 のような x 方向の外れ値に対しては,これだけでは対処が不十分である.いずれも白い丸印 ◦ が,誤りを取り除いた観測値を示している.図には通常の最小 2乗法による結果だけを掲載している.

0 1 2 3 4 5

01

23

4

x

y

OLS

図 5. y 方向の外れ値

0 1 2 3 4 5

01

23

4

x

y OLS

図 6. x 方向の外れ値

49

Page 50: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — 回帰分析

比較的簡単で高い頑健性を持つ手法として知られているものに最小刈込み 2

乗法 (least trimmed squares, LTS) がある.これは n 個の残差の 2乗を大きさの順に並べて (r2)1:n ≤ · · · ≤ (r2)n:n としたときに,適当な h

(h ≤ n) に対して∑h

i=1(r2)i:n を最小にするように回帰係数を定めるもの

である.h = n ならば最小二乗法となるが,h < n とすれば大きな ri を無視できるため x 方向の外れ値に対処することが可能となる.h .=. n/2 のとき,中央値と類似の頑健性を実現できる.

この手法は統計解析プログラム S や R では提供されており,外れ値が存在するデータを扱う際には有効である.この他にも残差の 2乗のメディアンを最少にする LMS (least median of squares) などが提案されているがLMS は収束が遅く,効率も高くないとされる.

• 経済分析では最小二乗法と頑健な手法を併用し,大きな差が見出された場合に慎重な検討を実施することが現実的,かつ効果的である.

50

Page 51: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — カーネル法の頑健化

• 回帰モデル y = f(x) + u において任意の「なめらかな」関数 f(x) を表現する手法としてカーネルと呼ぶ加重関数 K を適当に選んで x の近くの観測値について y を加重平均することによって f を推定するのがカーネル法であり,

f(x) =1

nh

∑K

(x − xi

h

)yi

と表される.K としては標準正規分布や一様分布など(期待値を 0とする)密度関数が提案されている.

• この手法はノンパラメトリック回帰と呼ばれる.

• 頑健とされることが多いが,それは正しい表現ではない.たしかにf(x) を局所的に推定するため,これから x の値が離れた観測値の影響は小さい.しかし, x の値が近い観測値については y 変数の外れ値の影響を強く受けるため,誤差分布に関する頑健性を持っていないことは明らかである.(移動平均 (MA) 対移動メディアン (RM) の関係と類似)

51

Page 52: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

頑健統計学およびデータ解析の視点 — カーネル法の頑健化

• ただし,この推定量を頑健化することは容易である.そのためには上記の推定法は ∑

(yi − f)2 K(

x − xi

h

)を最小化していること,すなわち最小二乗法に対応することに注意すればよい.

• したがって ρ(x) = x2 の代わりに適当な ρ を用いて∑ρ(

yi − f

σ

)K

(x − xi

h

)を最小化すれば頑健な推定法が得られる.ここで σ は誤差項の標準偏差に相当する尺度である.

52

Page 53: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

公的統計における専門家の役割—要約

◦ 2007年に 60年ぶりに改正された統計法は,日本の公的統計に関わる基本的な制度を規定するものであり,公的統計の体系的な整備に関連して,統計学会の構成員にも密接に関わる点が少なくない.

◦ 新統計法では重要な基幹統計に関する基準などを定めているが,分析に際して質の高い統計を利用可能とするためには,その作成過程に関しても専門家による意見表明と技術的協力が極めて重要である.

◦ 新統計法では公的統計の二次的利用を促進することとしているが,統計の利用価値を高めるためには回答者の理解と信頼に基づいて正確な情報を収集することが前提となる.具体的には委託集計や匿名標本データの提供が計画されているが,これらの二次的利用に関しては,分析に必要な情報を確保しながら実効性のある秘匿措置を講じなければならず,数理統計の専門的な知識が必要となる.

◦ よりよい経済統計を国民の共有財産として利用可能とするために,統計学会の会員が公的統計の分野へ積極的に参入し,効果的な手法を提示することを期待したい.

53

Page 54: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

新統計法の成立まで

• 「経済財政運営と構造改革に関する基本方針 2004」(閣議決定)農林水産統計などに偏った要員配置等を含めて,既存の統計を抜本的に見直す.

◦ 経済社会統計整備推進委員会(座長:吉川洋,内閣府)

◦ 統計法制度に関する研究会(座長:廣松毅,総務省)

• 「経済財政運営と構造改革に関する基本方針 2005」(閣議決定)統計法制度を抜本的に見直し,統計整備に関する「司令塔」機能の強化,経済センサスの実施,サービス統計等の充実.

• 「経済財政運営と構造改革に関する基本方針 2006」(閣議決定)統計整備の中核をなす「司令塔」機能を統計委員会とし,統計整備を進めるため,統計法を改正する.

• 2007(平成 19)年 5月 23日,統計法公布(法律第 53号)

54

Page 55: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

新統計法の概要

1. 公的統計の体系的整備

◦ 統計整備に関する総合的かつ計画的な推進を図るため「基本計画」を閣議決定

◦ 国勢統計,国民経済計算および重要な統計を「基幹統計」として位置づけ,必要な規定を整備

◦ 基幹統計調査について,規定を整備

2. 統計データの利用促進と秘密の保護

◦ 委託に応じた集計による統計の提供(委託集計),匿名性の確保措置を講じた調査票情報の提供に関する規定を整備

◦ 調査票情報の適正管理義務,守秘義務,目的外利用の禁止,騙り調査への罰則などの規定を整備

3. 統計委員会の設置

◦ 基本計画案などについて専門的かつ中立公正な調査審議を行う委員会を内閣府に設置

55

Page 56: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

旧統計法と二次的利用—目的外利用申請

旧統計法第十五条 何人も,指定統計を作成するために集められた調査票を,統計の目的以外に利用してはならない.2 前項の規定は,総務大臣の承認を得て使用の目的を公示したものについては,これを適用しない.

• 統計作成機関との共同研究,委託研究などを除いて,例外的にしか認められなかった

• 国立大学と私立大学の格差

• 作成部署との信頼関係が必要,審査に長期間かかる,利用機関が短い,などの問題

• 最近では科研費などを得れば「公益性」があるものと認められるようになっていた

56

Page 57: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

新統計法における二次利用の規定

新統計法第三章 調査票情報等の利用及び提供

第 32条 調査票情報の二次利用 当該調査を実施した行政機関の長

第 33条 調査票情報の提供 行政機関等その他これに準ずる者 同等の公益性を有する統計の作成を行う者

第 34条 委託による統計の作成等 学術研究の発展に資すると認める場合 その他の総務省令で定める場合

第 36条 匿名データの提供 学術研究の発展に資すると認める場合 その他の総務省令で定める場合

57

Page 58: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

新統計法における基本理念

基本理念:統計法3条

◦ 公的統計は,· · · 体系的に整備されなければならない.

◦ 第 2項 公的統計は,適切かつ合理的な方法により,かつ,中立的及び信頼性が確保されるように作成されなければならない.

◦ 第 3項 公的統計は,広く国民が容易に入手し,効果的に利用できるものとして提供されなければならない.

◦ 第 4項 公的統計の作成に用いられた個人又は法人その他の団体に関する秘密は,保護されなければならない.

58

Page 59: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

利用形態 — 委託集計による利用

◦ 委託集計(いわゆるオーダーメード集計)には個別情報を秘匿したまま,目的に応じた集計表を作成する機能がある.

◦ Luxemburg Income Study のように, 研究者がプログラムを送付し,結果を受け取る形態も想定される.

◦ プログラムの誤りや不適切な分析を避けるためには,疑似データによって事前の分析を実行できることが望ましい.

◦ 簡易なミクロデータで分析した結果を踏まえて,さらに詳細な分析を必要とする研究者には,この方法が向いていると考えられる.

59

Page 60: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

二次利用に関する検討課題

• 具体的な運用は,各省および総務省(政策統括官室:統計基準担当)の今後の対応によって定まる.その動向を注視して,必要に応じて学会からの要望を提示することが望ましい.

一方で,秘密の保護に関して,学会としての規律が必要

• 費用の問題第 38条 手数料第 34条の規定により統計の作成を委託する者,又は第 36条の規定により匿名データの提供を受ける者は,実費を勘案して政令で定める額の手数料を納めなければならない.

◦ 多くの利用者が出ることを期待(ミクロデータ提供の単価が下がる,統計職員が配置される可能性が高まる,など)

60

Page 61: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

二次利用に関する検討課題

• 基本計画では「各府省は,· · · 二次的に提供した統計について報告する」ように定めることを検討している.統計委員会を通じた実施状況の把握と,必要に応じた改善の要求が期待できる.

• データの効果的な提供体制のためには,統計データアーカイブを設立することが必須である.

• 委託集計や匿名標本作成の実施体制をどのように構築するか.

◦ しかし,人と予算は限られている.

• 匿名データ作成技術に対する学会の支援体制を整え,統計作成部局と密接に連携することが重要である.

◦ 学会として Statistical Disclosure Control の研究を推進し,研究者にデータを提供することは有益,かつ安全であることを実績を持って示すことが期待される.

61

Page 62: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

参考資料

舟岡史雄・美添泰人他 (2005) 「ゼミナール 日本の統計改革」(8 月 4 日から 9 月16 日まで,日本経済新聞に 30 回連載)日本経済新聞社

美添 泰人 (1983) 「ベイズの手法による統計分析」,竹内 啓(編)『計量経済学の新展開』,東京大学出版会,第 6 章.

美添 泰人 (1989) 「多重共線性へのベイズ・アプローチ」,鈴木雪夫・國友直人(編)『ベイズ統計学とその応用』,東京大学出版会,第 7 章.

美添 泰人 (1993–96) 「ベイジアン統計入門 (その 1) から (その 19)」,

ESTRELA.

美添 泰人 (1996) 「ベイジアン統計学はいつでも有用か」『統計』第 47 巻第 2 号

Berger, J. O., “Recent Developments and Applications of Bayesian

Analysis,” ISI, IP1-1, pp. 3–14, 1995

Shiller, R. J. (1973) “A distributed lag estimator derived from

smoothness priors,” Econometrica. 41, 77

62

Page 63: 経済と統計の間で - yoshizoe-stat.jp · 経済と統計 R. A. Fisher, Statistical Methods for Research Workers, 1963. • 統計学とは (i) 集団の研究,(ii) 変動の研究,(iii)

 

ご清聴,ありがとうございました

63