0705

その他の確率過程

1

(Moran, Yule, telegraph, Dirichlet 過程, Levy flight, セルオートマトン、エージェントシミュレーション)

http://www.slideshare.net/ShinjiNakaoka

授業レクチャーノート

授業１つ前に事前公開予定、授業後、追加スライド挿⼊、誤植など訂正分を再アップロード

Lévy flight

2

多くの動物が Brown 運動ではなく、Lévy flight を⾏っている

NicolasE.Humphriesetal.PNAS2012;109:7169-7174

AlbatrossesexhibittruncatedLévy flightpatternsoflandinglocations.

Lévy flight

3

Brown 運動と拡散⽅程式 (直感的な導出)⼀次元空間上を移動 (拡散) する粒⼦を巨視的にみた⽅程式 (拡散⽅程式) を導出

位置 i+1 にいる粒⼦が位置 i に移動する個数

位置 i にいる粒⼦が位置 i-1 に移動する個数

移動する粒⼦の保存則より、以下の関係式を得る：

とおき、極限をとると

拡散⽅程式

感染症の数理モデル稲葉寿５章

Lévy flight

4

拡散⽅程式の解

拡散⽅程式

初期条件

境界条件

解は、平均 0、分散 2(Dt)1/2 の Gaussian 分布で与えられる。

感染症の数理モデル稲葉寿５章

Lévy flight

5

Lévy 分布 (安定分布)

確率密度関数 p(x,t) の特性関数 g(s,t) に関する拡散⽅程式

の解は

であり、特性関数は Lévy 安定である。また、密度関数はべき分布になる。

べき分布はさまざまな分野で出てくる、右に裾野の広い分布である。(web リンク数、タンパク質の相互作⽤数、交友関係 etc)

ここで、𝛼>1 である場合を超拡散 (super-diffusion) と呼ぶ。

A.A.Dubkov,B.Spagnolo,V.V.Uchaikin,Int.J.BifurcationChaos18,2649(2008).

Lévy flight

6

Brown 運動 (左図) と Lévy flight (右図) の⼀例

𝛼=2

Lévy flight

7

Further reading…

Lévy 過程や Lévy 分布 (安定分布) は、Poisson 過程の⼀般化として研究が⾏われている。

Lévy flight は、GIS による個体の追跡によって⽣態学の分野で渡り⿃の⾶⾏や捕⾷者 (predator) の最適な採餌⾏動 (optimal foraging theory) の観点から、理論や実証研究が⾏われてきた。⼀時、不⼗分な観測データを⽤いたことで Lévy flight は誤りであるという結論がなされた時期もあったが、観測技術の向上により、動物の⾏動が Lévy flight にしたがうとする結果が数多く報告されている。

[参考⽂献]G.M.Viswanathan,E.P.Raposo,M.G.E.daLuz,Lévy flightsandsuperdiffusion inthecontextofbiologicalencountersandrandomsearches,PhysicsofLifeReviews5(2008)133-150.

[参考⽂献]A.A.Dubkov,B.Spagnolo,V.V.Uchaikin,Int.J.BifurcationChaos18,2649(2008).

Yule過程

8

Yule 過程：突然変異による新種と属の出現

ある⽣物種を、壺 (属: genus) に⼊ったボールとする。壺からボールを取り出したとき、各ステップ毎に、ある確率で突然変異によって新たな種が⽣じる過程を考える。突然変異は、以下で仮定するように２種類存在すると仮定する：確率 p で突然変異は新たな属を⽣み出す。すなわち、新しい壺が準備され、変異種が新たな壺に格納されると仮定する。確率 1-p で突然変異は新たな属を⽣み出さず、変異種は同じ属に格納されると仮定する。

確率 p

確率 1-p 新しい種

新しい属

ComplexGraphsandNetworks,Linyuan LuandFanChung,AMS(2006)https://www.ma.utexas.edu/users/rav/ComplexNetworks/

Yule過程

9ComplexGraphsandNetworks,Linyuan LuandFanChung,AMS(2006)https://www.ma.utexas.edu/users/rav/ComplexNetworks/

Yule 過程に関して、以下の定理が成⽴する：

[定理] 時間 t の関数 Xi(t) を、i={1,2,…} 種が⼊った属の個数とする。(i) 各 i≥1 に対して Ci が存在し、t→∞ のとき Xi(t)/t→Ci

(ii) C1=p/(2-p), Ci=Ci-1(1-𝛽/i+O(i-2)), 𝛽=(2-p)/(1-p)

(iii) log(C1/Ci)~-𝛽 log(i) ⇒ Ci=i-𝛽

(i) は、種数 i の属の個数が時間に⽐例して増加することを表す。(iii) は、種数 i の属の個数の⻑時間平均が、べき分布であることを表す。

のときを⽰す。続けて⼗分⼤きな t に対してを⽰す (省略)。

(i) の証明

Yule過程

10

(続き) N(t) を時刻 t における種数で、毎時間ごとに 1 つの種が増えるので、N(t)=N(0)+t である。ここで N(0)=1 である場合を考える。このとき Xi(t) は

を満⾜する。再帰的に、X1(t) に関する期待値は、以下の関係式を満⾜する：

とする。計算を⾏うと

を得る。


Yule過程

11

(続き) ここで

したがって

さらにであるから、⼗分⼤きな t に対して


Yule過程

12

(続き) したがって

を得る。すなわち

以下、Xi(t) に対して同様の評価を繰り返すことで、証明が完了する。

(iii) の証明

であるから、両辺の log をとることで以下を得る。

⼗分⼩さな x に対して近似式 log(1+x)~x を⽤いることで、j>>1 に対して


Yule過程

13

Further reading…

Yule 過程は preferential attachment process という形でも知られており、1925 の Yule の⽣物種に対する考察が様々な分野で再発⾒されてきた。近年では、Barabàsi and Albert による複雑ネットワークに関する定式化 (1999) がしられている。種数 i の属の個数の⻑時間平均は、ネットワークの観点からノードがもつリンク数 (次数) に⼀致し、それがべき分布になることを表す。次数が⾼いもの程、リンクを増やしやすいため、富めるものは更に富むという状況が⽣じ、べき分布 (裾野の広い分布) になる。

[参考⽂献]ComplexGraphsandNetworks,Linyuan LuFanChung,AMS(2006)複雑ネットワーク増⽥直紀今野紀雄近代科学社

Dirichlet過程

14

Dirichlet 分布と多項分布の復習

３分でわかる多項分布とディリクレ分布 SlideShare

両者は共役事前分布の関係にある。

出る確率の異なる K ⾯サイコロを考える。⽬ i の出やすさと出る回数について、Dirichlet 分布と多項分布では以下の違いがある。

サイコロをふる回数:

多項分布 (p がパラメーター)：

Dirichlet 分布 (n に相当する 𝛼 がパラメーター)：

サイコロ各⾯の出やすさを決めると、出た⾯の回数が確率的に求まる。

サイコロ各⾯の出た回数を決めると、各⾯の出やすさが確率的に求まる。

Dirichlet過程

15

ノンパラメトリックベイズとの関連からデータの複雑さに応じてモデルの複雑さも学習して決定する枠組み

⽬的サイコロ各⾯の出た回数を決めると各⾯の出やすさが確率的に求まるDirichlet 分布は、出現回数に関するデータ (⽂章の単語や種内の個体数など) があれば利⽤可能。ただし、サイコロの⾯が K ⾯ (有限離散) という制約がある。サイコロの⾯を可算無限個に拡張することで、データの複雑さに応じてサイコロの⾯数も決定できると便利。

Dirichlet 過程

基底測度 G0 (ある確率分布) に似た、無限次元の離散分布 G を⽣成する確率過程で、パラメーター 𝛼 によって G0 と平均的にどれくらい似ているかを調節できる。もし G0 が 1 次元連続分布の場合、G は無限次元の多項分布となるため、Dirichlet 過程は Dirichlet 分布を無限次元に拡張したものと考えられる。

最近のベイズ理論の進展と応⽤[III] : ノンパラメトリックベイズ, 持橋⼤地, 電⼦情報通信学会誌 93(1), 73-79

Dirichlet過程

16

Stick-Breaking Process⻑さ 1 の棒を左から切っていくことで G を⽣成する。まず、区間[0,1] 上の Beta 分布 Beta(1,𝛼) からサンプル v1 を取得し、棒を分割して 𝜋1=v1 とする。残った棒 1-v1 から v2 を Beta(1,𝛼) で分割し、𝜋2=v2(1-v1) とする。この操作を繰り返すことで無限次元の多項分布

を⽣成し、⾼さ 𝜋k のデルタ関数 𝛿(𝜃k) を 𝜃k~G0 に配置したものをG とする：

最近のベイズ理論の進展と応⽤[III] : ノンパラメトリックベイズ, 持橋⼤地, 電⼦情報通信学会誌 93(1), 73-79

Dirichlet過程

17

Poisson-Dirichlet Process との関連

Poisson-Dirichlet 過程は、Gamma 過程から直接 Poisson-Dirichlet 分布を構築する⽅法がしられている。先述の Stick Breaking Process は、以下の定理が⽰すように、Poisson-Dirichlet 過程で size-biased permutation を⾏うことで得ることができる。

定理 P(𝜃): パラメーター 𝜃>0 の Poisson-Dirichlet 分布

P(𝜃) の size-biased permutation (V1,V2,…) は以下で与えられる:

ここで Un は i.i.d. (independent and identically distributad) な Beta 分布 Beta(1,𝜃) であり、いかが成⽴する

ThePoisson-DirichletDistributionandRelatedTopics,Shui Feng,Springer(2010)

Dirichlet過程

18

Dirichlet過程

19

Further reading…

Dirichlet 過程は、近年機械学習やデータマイニングの分野でノンパラメトリックベイズが盛んに研究・応⽤されている。無限混合分布モデルや、階層 Dirichletmodel など、Dirichlet 過程を基礎とした応⽤が盛んに⾏われている。⽇本語で書かれた良書や解説、計算機で実装するための script も Github 等で⾒つけることができる。

[参考⽂献]ノンパラメトリックベイズ点過程と統計的機械学習の数理, 佐藤⼀誠 2016ノンパラメトリックベイズモデル, 上⽥修功, ⼭⽥武⼠, 応⽤数理 17(3), 196-214最近のベイズ理論の進展と応⽤[III] : ノンパラメトリックベイズ, 持橋⼤地, 電⼦情報通信学会誌93(1), 73-79

Dirichlet過程

20

Further reading…

⽣物学研究の観点では、集団遺伝学の分野で研究されてきた Ewensʼs sampling formula (infinite allele model) が、two-step Dirichlet Poisson 過程 (Pitman-Yoh 過程や Chinese Restaurant 過程) と同じであることが証明されている。

[参考⽂献]ThePoisson-Dirichlet DistributionandRelatedTopics,Shui Feng,Springer(2010)TheUbiquitousEwens SamplingFormula,HarryCrane,Statist.Sci.31(2016),1-19.NeutralCommunityTheory:HowStochasticityandDispersal-LimitationCanExplainSpeciesCoexistence,R.S.Etienne,D.Alonso,JournalofStatisticalPhysics128(2007)pp485-510中⽴モデルの新展開, 時⽥恵⼀郎, 数理解析研究所講究録 1706, 1-14

Cellularautomaton

21

off off on off on

off off off on off

on on on off on

off off on off on

on off off on on

Cellular Automaton (CA: セルオートマトン)

セルと呼ばれる格⼦の、あるルールに従った局所的な相互作⽤により、ときには複雑かつ多様なパターンが⽣成される。

CA では cell の grid (左図では⼆次元格⼦)、state (左図では on/off)、neighborhood (隣接するセル)、rule (隣接するセルのstate の組み合わせによって次の state を決定する規則) を与えることで、次のステップでの状態が決定される。

off on off

?

ルールの⼀例

https://en.wikipedia.org/wiki/Elementary_cellular_automaton

Cellularautomaton

22

Elementary Cellular Automaton (ECA)各セルの状態が 0 or 1、かつ近傍合わせて３つの組でルールが定まるとき、Elementary cellular automaton と呼ぶ。ECA は全部で 26=256 個存在

CA の挙動

ECA は、ほとんどの全ての初期配置に対して以下の４つのクラスに分類できることがしられている。

Class 1. ⼗分な時間経過後、全セルの状態が 0 or 1 となる。

Class 2. ⼗分な時間経過後、周期的な挙動を⽰す。

Class 3. カオス的な挙動を⽰す。

Class 4. 周期とランダムなパターンが⼊り混じった複雑な挙動を⽰す。

https://en.wikipedia.org/wiki/Elementary_cellular_automaton

Cellularautomaton

23http://mathworld.wolfram.com/Rule222.html

Class 1. ⼗分な時間経過後、全セルの状態が 0 or 1 となる。

他、Rules 0, 32, 160, 232

Cellularautomaton


Class 2. ⼗分な時間経過後、周期的な挙動を⽰す。

他、Rules 4, 108, 218, 250

Cellularautomaton


Class 3. カオス的な挙動を⽰す。

他、Rules 22, 30, 126, 150, 182

Cellularautomaton


Class 4. 周期とランダムなパターンが⼊り混じった複雑な挙動を⽰す。

Cellularautomaton

27

Further reading…

CA は、elementary CA のみならず、空間伝播する現象はじめ、空間ダイナミクスをシミュレーションするための⼿段として幅広く利⽤されている。ルールも決定論的ではなく、確率性を導⼊したモデルが感染症伝播、変異株の出現など様々な応⽤がある。

[参考⽂献]CellularAutomata,StanfordEncyclopediaofPhilosophyhttp://plato.stanford.edu/entries/cellular-automata/CellularAutomatonModelingofBiologicalPatternFormation,A.Deutsch,S.Dormann (2005)

AgentBasedSimulation

28

エージェントベースドシミュレーション (ABM)

ヒトや動物など複雑な⾏動をとる個体 (エージェント) の相互作⽤によって形成される感染症伝播や⽣態系のダイナミクスを計算機で表現するため、エージェントのとるルールと⾏動変化を個体レベルで記述して時間変化を追跡 (シミュレーション) する⽅法が存在する。これらは⼀般に、Agent Based Model (エージェントベースドモデル) と呼ばれている。

NetLogo など、ABM を実装するソフトウェアは多数存在し、モデルはどこまでも複雑にできる。ここでは、統計解析ソフト R のパッケージである simecol を⽤いた ABM の実装を例に紹介する。

体サイズ成⻑するミジンコ(Daphnia) は、古くから⽣態学で研究されてきた。

T.Petzoldt,K.Rinke,simecol: AnObject-OrientedFrameworkforEcologicalModelinginR,J.ofStatisticalSoftware,22,1--31(2007)


29

⽬的と作業仮説体サイズの⼩さな個体ほど捕⾷されやすく、死亡率が⾼い。サイズ選択的な捕⾷圧によって、個体群ダイナミクスがどう影響されるかを知りたい。

栄養 (ミジンコの餌である植物性プランクトンの量) と温度のみを環境要因と仮定する。

モデル構築時の仮定

体サイズ成⻑は、Von Bertalanffy 曲線に従うと仮定する。体サイズがある⼀定サイズに達すると産卵可能になり、餌の量に応じて産卵数が決まると仮定する。⼀⽅、卵の成⻑は温度依存とする。死亡率は、体サイズに依存して決まると仮定する。

実装とシミュレーションの⽅法エージェントは、体サイズや年齢など個体固有の情報を変数として格納するクラスで定義することが多い。イベント (死亡、成熟、産卵) の待ち時間を確率的に計算して実⾏し、イベント系列を追跡する。



30

R package (simecol) での実装例

ミジンコ個体クラスの定義

個体の年齢を扱う関数個体の⽣存を扱う関数個体の産卵を扱う関数

各イベント (産卵、成熟、死亡) は、条件が満たされた場合に発⽣するため、各関数ではイベント発⽣の条件を記述する必要がある。イベント発⽣の条件は、パラメーターの値に左右されるため (気温など)、パラメーターの値と定義を記述する必要がある。イベント発⽣のルール (起こりやすさと待ち時間) を決定する必要がある。Poisson 過程による確率シミュレーションをルールに採⽤することがある。



31

関数によるイベント発⽣条件の記述各関数 live, survive, hatch は個体とパラメーターを引数にもつ関数として定義



32

パラメーターの定義と値の記述



33

実施例 (個体群振動)

Further reading…

[参考⽂献]V.GrimmandS.F.Railsback,Individual-basedModelingandEcology.PrincetonUniversityPress(2005)

ABM では⾮常に複雑な挙動も柔軟に設定できるため、単純化することで失われるダイナミクスの特徴を表現可能である。⼀⽅、シミュレーションを忠実に再現するためにはそれ相応の情報 (量、種類とも) が必要であり、検証は⼀般に困難である。計算時間や規模も⼤型になる傾向にある。


Memo

34

0705

Education