金融情報における時系列分析

68
金融情報における時系列分析 鳥海不二夫 東京大学大学院工学系研究

Upload: fujio-toriumi

Post on 19-Jul-2015

247 views

Category:

Science


1 download

TRANSCRIPT

金融情報における時系列分析

鳥海不二夫

東京大学大学院工学系研究

今日のお話

• 金融情報におけるデータ分析

• 板情報を用いたデータマイニング

–板情報を用いた市場変化の分析

• HMMを用いて市場の空気を読む

–混合ガウスモデルを用いた市場注文状況の変化の検出

• GMMを用いて異常注文を発見する

金融情報におけるデータ分析

• 目的

–株価予測

–市場状態の理解

• 手法

–時系列マイニング

• 株価,板情報

–テキストマイニング

• ニュース,日銀月報,ソーシャルメディア

株価予測

• 人工知能による株価変動予測

–人工知能:「検索」と「推論」が得意↓

ルール発見

膨大なデータから類似性や規則性を発見

http://yaplog.jp/kablog/archive/1358

1997年IBMディープブルー カスパロフに勝利

ディープ・ブルーには過去100年に指された名人達の

全ての棋譜がインプットされており、それを瞬時に取り出すことが可能になっている。

Wikipedia:ディープブルー

上昇する銘柄はどれか?

株式市場の売買データ

• 株式の売買で利用可能なデータ

–株価

–板情報

–出来高

– ファンダメンタル情報

–その他たくさん

• どのようなデータを参照すべきか?

予測のタイプ

• 株価を用いた予測

–テクニカル分析

• 銘柄の経済指標を用いた予測

– ファンダメンタル分析

良い結果は聞かない

• 機関投資家

– リスク最小化

– インデックス追従型証券の設計

テキスト分析による株価予測

専門多様テーマ書き手

Twitter3日後のDJを

86.7%の精度で予測[Bollen10]

ニュース・新聞記事短時間の予測

ランダムより少し良い

日銀月報国債市場で18.6%~42.9%

運用成績を向上[和泉10]

13

テキストマイニングファンドブログ分析で収益率16%

出典:AERA 2012年2月13日

14

Wired Vision 2010年 10月 22日

15

Tweetsからの特徴量抽出J. Bollen;H. Mao;X.-J. Zeng. http://arxiv.org/abs/1010.3003, 2010

• 2008年2月28日~11月28日の 9,853,498 tweets (約1千万)– ユーザ数 2.7百万

– 3.2万tweets/1日

• 心的状態を明言しているtweetsだけを分析– “i feel”,”i am feeling”, “i’m feeling”, “i dont feel”, “I’m”, “I am”,

“makes me” を含む

• Google-Profile of Mood States (GPOMS)指数(日次)を抽出– 気分プロフィール検査(POMS)@心理学の6尺度がベース

• 「友好的な」「不機嫌な」「活発な」「限界ギリギリの」「パニック状態の」等の72表現の質問紙調査

• 平穏、警戒、確信、活気、善意、幸福

– POMSの72表現に関連する964語の辞書とのマッチ

• Google(2006)の4,5-gram共起語(25億語)を使用

16

気分プロフィール検査(POMS)

72種類の表現

「友好的な」「不機嫌な」「活発な」「限界ギリギリの」「パニック状態の」等

17

平穏 警戒 確信 活気 善意 幸福

ダウ平均株価(DJIA)との関係性J. Bollen;H. Mao;X.-J. Zeng. http://arxiv.org/abs/1010.3003, 2010

• GPOMS指数とDJNAとのGranger因果性検定– 2008年2月28日~11月3日

– 「平穏」が2-5日後のDJNAとの因果性があった

• Self-organizing Fuzzy Neural Network(SOFNN)による

予測モデル– 訓練: 2008年2月28日~11月28日テスト: 2008年12月1日~19日

– 方向性の予測: 86.7%

– DJIAだけでも73.3%tDJIA

1tDJIA

2tDJIA

3tDJIA

1t平穏

2t平穏

3t平穏

金融情報におけるデータ分析

• 目的

–株価予測

–市場状態の理解

• 手法

–時系列マイニング

• 株価,板情報

–テキストマイニング

• ニュース,日銀月報,ソーシャルメディア

今日のお話

• 金融情報におけるデータ分析

• 板情報を用いたデータマイニング

–板情報を用いた市場変化の分析

• HMMを用いて市場の空気を読む

–混合ガウスモデルを用いた市場注文状況の変化の検出

• GMMを用いて異常注文を発見する

市場状態の理解(1)

• 予測アルゴリズム

–ある期間では精度が高い

–別の期間では精度が低い

→相場が変化した

• 例:

– 2009年:誰が買っても負ける

– 2013~2014年:誰が買っても勝てる

–同じアルゴリズムは通用しない

市場状態の理解(2)

• トレーダの分析

–実際にトレーディングを行っている人物は誰か?

• 機関投資家

• 個人投資家

• アルゴリズムトレード

–情報が非公開 予測による市場設計

• 不正取引

– インサイダー取引,相場の操作

–不正取引の素早い発見

板情報とは

• 株式市場における注文状況を表したもの

–買い注文と売り注文の状況を知ることができる

板情報のデータマイニング

• 従来の市場分析 = 株価変動の分析

–取引結果のみを利用

• 膨大な注文記録からの市場分析

–情報量が増加

–より詳細な分析が可能売気配

気配値

買気配

1300 981

6300 980

6100 979

977 1700

976 1300

975 1400

注文記録投資家心理 株価

板情報を用いた市場変化の分析

鳥海不二夫,西岡寛兼, 梅岡利光, 石井健一郎板情報による市場相違性の検出人工知能学会論文誌 Vol. 27 No. 3 P 143-150(03/2012)

板情報の観測

リアルタイムに変化する板を標本化

提案手法の流れ特徴抽出

注文数変化量の算出

注文数変化量は注文の規模を表す

売注文 価格 買注文

60 1,700

20 1,600

40 1,500

1,400 20

1,300 10

1,200 50

売注文 価格 買注文

62 1,700

20 1,600

10 1,500

1,400 10

1,300 10

1,200 150買い注文+100

売り注文+2

買い注文+30

売り注文+10

特徴ベクトルの生成

特徴ベクトルの生成

–どのような規模の注文が何回出されたか

–価格変動が発生してから次に発生するまで

–特徴毎に注文が出された回数をカウント,正規化

1.4 0.5 0.1 1.0 0.8 0.2x

注文の規模 小買 中買 大買 小売 中売 大売

カウント 14 5 1 10 8 2

10秒間のカウント結果

提案手法の流れ

時系列モデルの作成

時系列モデルの作成

クラスタリング

• k-means法を使用

–非階層型クラスタリング

–類似したベクトルをまとめてクラスタを生成

• 各クラスタにシンボルを割り振る

A

CB

HMM(Hidden Markov Models)

HMMの利点と類似度算出

• 学習が可能

– Baum-Welchアルゴリズム

• 入力系列を出力する確率が計算可能

– Forwardアルゴリズム

– この確率を類似度とみなすことが可能

• 類似度算出

学習データ

HMM

判定データ

類似度

提案手法の評価実験

• 実市場のデータを用いて実験

–日経225先物

– 45日分(2008年10月~12月)

• 市場が特殊である時間帯を検出できるか

–取引開始直後や取引終了直前は特殊

寄りつきと引けは特殊

特殊時間帯と平常時間の判別

• 2クラス識別問題を定義,識別結果を評価

–特殊時間帯クラスと平常時間帯クラスの識別

– 45分割交差検証法

識別手順

実験結果

• 識別問題

• 結果

–識別問題Ⅰ→ 識別率0.863

–識別問題Ⅱ→ 識別率0.737

特殊時間帯 平常時間帯

識別問題Ⅰ 9:00~9:30 10:00~10:30

識別問題Ⅱ 14:30~15:00 13:30~14:00

特殊時間帯と通常時間帯の判別が可能→本手法の判別能力が示された

市場変化の分析

• 2008年 –サブプライムローン問題をきっかけとする世界的不況

• リーマンショックは予測できなかったのか?

• 仮説:

リーマンショックの前から市場はそれまでとは異なる状態にあった

リーマンショック前の変化

• リーマンショックよりも前の市場を分析

–直前に市場が異常な状態にあれば事前にある程度察知できたはず

• 提案手法を用い,不況の前後で比較分析

暴落半年前 2008年3月,4月

暴落前 2008年5月,6月

暴落直前 2008年7月,8月

リーマンブラザーズの破綻は2008年9月15日

区間A,B,Cの比較

提案手法を利用した手法

• 区間A,Bは判別不能

–類似した市場状況

• 区間B,Cは判別可能

–異なる市場状況

区間A 区間B 区間C

区間A - 0.550 0.621

区間B 0.550 - 0.780

区間C 0.621 0.780 -

その他の手法

HV 区間A 区間B 区間C

区間A - 0.524 0.548

区間B 0.524 - 0.571

区間C 0.548 0.571 -

GARCH 区間A 区間B 区間C

区間A - 0.548 0.571

区間B 0.548 - 0.595

区間C 0.571 0.595 -

考察

• 暴落直前と,それ以前の比較では,高い識別率(0.621, 0.780)

• 暴落前同士では低い識別率(0.550)

• 価格変動に表れない変化も捉えている

–株価を使った手法では低い識別率(0.6以下)

不況を通じて市場の動きが変化

参考分析(1)

• 不況前 –不況直後

• 不況前 –不況の半年後

55

2008/10 2008/11

2006/04 1.000 1.000

2006/05 1.000 0.986

2009/02 2009/03

2006/04 0.974 0.958

2006/05 0.949 0.903

参考分析(2)

• 不況直後 –不況の半年後

• 同一期間内識別(比較実験)

56

2009/02 2009/03

2008/10 0.941 0.935

2008/11 0.806 0.909

2006/04 – 2006/05 0.613

2008/10 – 2008/11 0.781

2009/02 – 2009/03 0.543

まとめ

• 市場の類似性を評価する手法を提案

– 注文の規模に注目して特徴抽出

• 提案手法の有効性評価実験

– 特殊時間を検出する識別問題

– 市場の特殊性を検出できる可能性が示唆された

• 不況の前後で市場変化を分析

– 不況前,不況直後,半年後で市場が変化

– 価格変動には表れない違いも見られた

混合ガウスモデルを用いた市場注文状況の変化の検出

宮崎・和泉・鳥海・髙橋:

混合ガウスモデルを用いた市場注文状況の変化の検出, JPXワーキングペーパー, vol.3 (2013)

http://www.tse.or.jp/about/seisaku/wp/index.html

(「JPXワーキング・ペーパー」で検索するとトップに表れます)

*本発表の内容は、発表者ら個人に属し、株式会社日本取引所グループ及びその子会社・関連会社、及び発表者らが所属する組織の公式見解を示すものではありません。また、ありうべき誤りは、すべて発表者個人に属します。

目的

特異な注文状況を

検出する手法の提供

2010年の増資に際し

内部者取引があった4銘柄において、

公表前の注文状況の特異性を検証

インサイダー取引

• 増資によって株価は大きく変動

• あらかじめ増資情報を知っていれば当該銘柄を購入して儲ける事が可能

• 法律で禁止

– インサイダー取引

• 仮説:インサイダー取引が行われる場合

通常とは異なる取引が存在する

板情報

価格、出来高(数KB/1日)

既存研究• 大山(ニッセイ基礎研究所研究員の眼2012年9月19日)

対TOPIX累積超過収益率• 加藤ら(証券アナリストジャーナル2013年1月号)

累積(異常)株価リターン (異常)売買回転率

板情報

売り注文株数(株)

気配値(円)買い注文株数(株)

150,000 130

50,000 129

128 70,000

127 200,000

価格、出来高(数KB/1日)

板情報(東証FLEX Historical)(数MB/1日)

売り注文株数(株)

気配値(円)買い注文株数(株)

200,000 123

40,000 122

121 40,000

120 140,000

売り注文株数(株)

気配値(円)買い注文株数(株)

490,000 175

250,000 174

173 70,000

172 100,000

2012/4/10 10:21:30.79 2012/6/15 14:01:10.21 2013/1/25 9:54:10.84

価格や出来高より、高度な分析ができる

分析の流れ(全体像)

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

板情報

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

増資発表

時間

学習期間100営業日

入力期間10営業日

(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)

発表前のこの期間の注文状況の特異性を検証

学習特徴ベクトル(8次元)

特徴ベクトルの作成

売り注文株数(株)

気配値(円)買い注文株数(株)

150,000 130

50,000 129

128 70,000

127 200,000

板情報(FLEXデータ)

A+

A2

A1

A0 B1

B0

B2

B-

8次元の特徴ベクトル30分毎に1つ(1日12個)

各位置での注文量

A+ A2 A1 A0 B0 B1 B2 B-

{ 0 0 1,000 0 0 0 0 0 }{ 0 0 0 0 500 0 0 0 }

::

{ 0 0 0 0 1,000 0 0 0 }

30分間

30分間の合計

{3,500 8,000 14,000 28,000 30,000 21,000 9,500 6,300}

対数を取り正規化

分析の流れ(全体像)

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

板情報

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

増資発表

時間

学習期間100営業日

入力期間10営業日

(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)

学習特徴ベクトル(8次元)

12個/日×100日= 1,200個のデータ

分析の流れ(全体像)

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

板情報

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

増資発表

時間

学習期間100営業日

入力期間10営業日

(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)

学習特徴ベクトル(8次元)

混合ガウスモデル

混合ガウス分布

=ガウス分布の線形重ね合わせ

𝑝 𝒙 =

𝑘=1

𝐾

𝜋𝑘𝑁 𝒙|𝝁𝑘 , 𝚺𝑘

ガウス分布:𝑁 𝒙|𝝁, 𝚺 =1

2𝜋 𝑑/2 𝚺 1/2exp −

1

2𝒙 − 𝝁 𝑇𝚺−1 𝒙 − 𝝁

1

2

1

2

1

2

• 𝝅 :混合率• 𝝁 :クラスタ中心• 𝚺 : 分散共分散行列• K :クラスタ数

パラメータ推定1. k-means++アルゴリズム2. EMアルゴリズム3. BICによる評価

分析の流れ(全体像)

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

板情報

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

増資発表

時間

学習期間100営業日

入力期間10営業日

(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)

学習特徴ベクトル(8次元)

混合ガウスモデル

分析の流れ(全体像)

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

板情報

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

売り注文株数(株)

気配値(円)

買い注文株数(株)

150,000 101

50,000 100

99 70,000

98 200,000

増資発表

時間

学習期間100営業日

入力期間10営業日

(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)

学習特徴ベクトル(8次元)

入力特徴ベクトル(8次元)

12個/日×10日= 120個のデータ

不適合データ

不適合度

混合ガウスモデル

不適合度の算出

• マハラノビス距離→ 各クラスタ中心との、分散共分散行列で正規化された距離

𝑀𝐷𝑘 𝒙 = 𝒙 − 𝝁𝑘𝑇𝚺𝑘−1(𝒙 − 𝝁𝑘)

min𝑘𝑀𝐷𝑘 𝒙 > 𝜃𝜎 → 不適合

適合

不適合

𝜃𝜎 = 4の例

不適合度

=モデルに不適合とされた入力ベクトルの数

全入力ベクトルの数(120個)

実験の概要

実験1内部者取引のあった4銘柄

↕同業種他社銘柄

メインの実験

実験3通常の増資銘柄

↕同業種他社銘柄

実験42010年

↕2011,2012年

妥当性の検証

実験1(同業種内での異常検出)内部者取引のあった銘柄と、同業種他社の比較

0

0.05

0.1

0.15

0.2

0.25

業種a 業種b 業種c 業種d

不適合度

内部者取引のあった銘柄

業種平均

𝜃𝜎 = 4の実験結果内部者取引のあった銘柄において

注文状況の特異性を検出

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

業種e 業種a 業種g 業種c

不適合度

実験2・通常の増資銘柄の分析通常の増資銘柄においても実験1と同様の実験を行い、不適合度の高まりが分析対象銘柄に顕著な特徴であるか確認

増資のあった銘柄

業種平均

※バーは0.5標準偏差

𝜃𝜎 = 4の実験結果

実験2(通常の増資銘柄の分析)

実験2で得られた 𝜃𝑖𝑛𝑐 = 𝜃 + 0.5𝜎 という閾値で判定し、増資公表前の注文状況が特異/非特異と判定された銘柄の数

特異 非特異

実験1の結果 4 0

通常の増資銘柄 2 2

通常の増資銘柄と比べても、分析対象銘柄の方が増資公表前10営業日の注文状況の

特異性が高いことを確認

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

2010 2011 2012

不適合度

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

2010 2011 2012

不適合度

実験3・時期別の比較内部者取引があった銘柄の、2010, 2011, 2012年で不適合度を比較

内部者取引があった年

0

0.05

0.1

0.15

0.2

0.25

2010 2011 2012

不適合度

銘柄B

0

0.02

0.04

0.06

0.08

0.1

0.12

2010 2011 2012

不適合度

銘柄A

銘柄D銘柄C

2010年の特異性が高かったことを確認→ 銘柄固有の特性として不適合度が高いことを否定

結論

特異な注文状況を

検出する手法の提供した

2010年の増資に際し

内部者取引があった銘柄において

公表前の注文状況の特異性を示した

今日のお話

• 株式市場におけるデータマイニング

• 板情報を用いたデータマイニング

–板情報を用いた市場変化の分析

• HMMを用いて市場の空気を読む

–混合ガウスモデルを用いた市場注文状況の変化の検出

• GMMを用いて異常注文を発見する