「予測にいかす統計モデリングの基本」勉強会 第一章
Post on 13-Apr-2017
92 Views
Preview:
TRANSCRIPT
「予測にいかす統計モデリングの基本」第一章 予測とは何かを考えるTakahiro Yoshinaga (Univ. of Tokyo)
状態空間モデル勉強会
Based on 「予測にいかす統計モデリングの基本」 , 樋口知之 , 講談社 , 2011
2015 年 2 月 24 日 @UT
をするために必要な枠組
2 勉強会の目的
「時系列データをもとに統計モデリング、予測ができるようになる」
time
観測量
時系列データ 統計モデリング 予測
3 章 状態空間モデル アルゴリズム 4, 5 章実装 6, 7 章 ( 粒子フィルタ )
3 本の概要
1. 予測とは何かを考える2. 確率による記述:基礎体力をつける3. 統計モデル:予測機能を構造化する4. 計算アルゴリズム1:予測計算理論を学ぶ5. 計算アルゴリズム2:モデルを進化させる6. 粒子フィルタ:予測機能を実装する7. 乱数生成:不確実性をつくる8. 経験値の総結集:売り上げ予測の精度を上げる9. データ同化:シミュレーションの予測性能を向上させる10. 確率ロボティクス:お掃除ロボを作る
基礎編
実装編
応用編
4 本の概要
1. 予測とは何かを考える2. 確率による記述:基礎体力をつける3. 統計モデル:予測機能を構造化する4. 計算アルゴリズム1:予測計算理論を学ぶ5. 計算アルゴリズム2:モデルを進化させる6. 粒子フィルタ:予測機能を実装する7. 乱数生成:不確実性をつくる8. 経験値の総結集:売り上げ予測の精度を上げる9. データ同化:シミュレーションの予測性能を向上させる10. 確率ロボティクス:お掃除ロボを作る
基礎編
実装編
応用編
5 第一章の概要
「予測が難しいことを理解する」
ナイーブなモデリング:統計的時系列モデル、ニューラルネットワーク、…
データのあてはめ:最適化関数、…time
観測量
時系列データ 統計モデリング 予測
実際のデータを扱うには不十分な点が多い
6 1.1 居酒屋の売り上げ高の予測
具体例:レストランの売り上げデータ代わりに beroberoさんのページのデータを持ってきました
http://heartruptcy.blog.fc2.com/blog-entry-90.html
2012/1/1~2013/12/31繁忙期 (8 月 ) :欠損
7 1.1 居酒屋の売り上げ高の予測
Notation
観測された時系列データ: 時系列データの集合
時刻 t でのデータの予測値:
売り上げデータの予測問題を考える
8 1.1 居酒屋の売り上げ高の予測
モデリングの例:統計的時系列モデル 自己回帰 (AR) モデル
ニューラルネットワーク
過去データの線形和
非線形関数
ai :自己回帰係数(未知) , p : AR 次数 , wt :ノイズ
ここでは、過去データによって現在が規定されるモデルを紹介
例えば、最尤法と AIC で決定
9 1.1 居酒屋の売り上げ高の予測
他にも時系列モデルはたくさんある 移動平均 (MA) モデル
ARMA モデル (AR+MA)
「過去の自分のことはすべて忘れていくスタイル」
10 1.1 居酒屋の売り上げ高の予測
他にも時系列モデルはたくさんある ARIMA モデル
「 ARMA モデルを非定常時系列に拡張」 非定常の場合、平均が時間変動 時系列の階差をとることで平均の揺れを緩和 階差時系列に対して ARMA を適用
ARMA モデルを適用
時系列データが非定常の場合
11 1.1 居酒屋の売り上げ高の予測
他にも時系列モデルはたくさんある GARCH モデル
さらに拡張した有象無象たち…
時系列データの分散が時間変動
すべてのパラメータは正と仮定
時系列解析もじっくり勉強したい…
12 1.1 居酒屋の売り上げ高の予測
モデリングの例: AR モデル仮想的に 100 日分を予測してみた (*)
(*) AR モデルは欠損データがあると R で解析できないので、少しズルをしている (繁忙期のデータもこっそり使っている)
予測はしてみたはいいが…
13 1.1 居酒屋の売り上げ高の予測
手軽に ( データだけから ) 予測値を得られる
経験などに基づく要因を取り込めない - 逆推論できない - 結果の可読性が悪い - 学習の効率性が悪い
利点
欠点
モデリングの例:統計的時系列モデル
14 1.1 居酒屋の売り上げ高の予測(まとめ)
時系列データから予測をしたい
統計的時系列モデルだけだと不十分 ?!経験に基づく要因も取り込みたい
最適化関数による表現1.2 最適化関数の紹介 , 1.3 季節変動を取り込む
15 1.2 期待感を数式で表す
データの当てはめの例:最適化関数データをトレンド成分とそれ以外に分離、トレンド成分を上手くつなげることでデータに滑らかな曲線を当てはめる
トレンド成分
残差
16 1.2 期待感を数式で表す
データの当てはめの例:最適化関数
最適化関数
最適化関数を最小にする μ *を見つける
1. あてはめる直線○とデータ の位置は✕ 近い2. 連続する 3 つの はほぼ✕ 一直線上にある
仮定
(1) α :条件のどちらが強いかをコントロール(手で決める)(2) 最適化関数の関数形はこれ以外でもよい(直観に合ってれば)
17 1.2 期待感を数式で表す
データの当てはめの例:最適化関数:固定した α の元で μt で微分してゼロとおいたときの解
例 : t = 1
残りもじんぐり計算するだけ、解は一意に定まる
18 1.2 期待感を数式で表す
データの当てはめの例:最適化関数もう少しかっこよく書いておく
最適化関数
最小化( μ で微分してゼロ)
19 1.2 期待感を数式で表す
データの当てはめの例:最適化関数
α を決めれば、 μ* は一意に決まる α を決める方法が最適化の範囲を超える μ* の誤差評価ができない 最適化だけでは予測の実行は困難
理解しておくこと
何らかの仮定をおけばデータをフィットできるけど、予測は難しい(何らかの統計モデルを考えなければならない)
20
周期性をもつ成分 st を仮定 (*1)
季節成分の条件(例)
1.3 パターンの表現
周期的なパターンを取り込んでみる具体例:レストランの売り上げデータ
「現時点と一週間前のデータは似てる (*2) 」「週パターンはあまり変化しない」(*1) 加え方の優劣はモデル比較で判断(*2) 横一直線のデータを季節成分としてしまう危険性あり
21 1.3 パターンの表現
最小化 (*)
最適化関数
求まる(*) αμ, αs は手で決める
周期的なパターンを取り込んでみる具体例:レストランの売り上げデータ
22 1.2 と 1.3 のまとめ
時系列データをいろいろな要因によって説明したい
フィットはできるが予測が困難何らかの統計モデルを考える必要あり
最適化関数による表現1.2 最適化関数の紹介 , 1.3 季節変動を取り込む
23 第一章のまとめ
「予測をすることは難しい」
今後の目標経験などの知見を要因に組み込んだ上で統計モデリングを行いたい
time
観測量
時系列データ 統計モデリング 予測
top related