トピックモデル勉強会: 第2章 latent dirichlet allocation
TRANSCRIPT
「トピックモデルによる統計的潜在意味解析」輪読会第 2 章 Latent Dirichlet Allocation
尾崎 遼
15/08/24
内容この章の目的
統計的潜在意味解析で用いられる統計モデルの一つである Latent Dirichlet Allocation (LDA) について直感的な理解を得る
(学習アルゴリズムは 3 章で扱う)目標
LDA が文章集合をどのようにモデル化しているか説明できるLDA の幾何学的な解釈から名前の由来を説明できるLDA の応用例を挙げることができる
準備 : 多項分布確率分布 π に従って K 個の値のいずれかをとる確率変数 x があるとき、N 回の独立な試行でそれぞれの値がでた回数が従う確率分布を多項分布という。
k 番目の値が出た回数
1回の試行で k 番目の値をとる確率
1 回の試行の場合は以下のようにかける
N 回の独立な試行の結果
準備 : Dirichlet 分布Dirichlet 分布
単体(座標の総和が 1 で定義される空間)上の確率分布
パラメタ(実数)
期待値
分散ただし
準備 : Dirichlet 分布は多項分布の共役事前分布Dirichlet 分布は多項分布の事前分布として用いられる
多項分布のパラメタは単体上の点と解釈できる多項分布の共役事前分布 (conjugate prior) であるから
=多項分布を尤度、 Dirichlet 分布を事前分布とすると、事後分布の形も Dirichlet 分布になる → 数学的な取り扱いが容易になる事後分布 事前分布尤度
nk+αk をパラメタとする Dirichlet 分布になる → 頻度 nk が加算されたイメージ
証明は 式 (2.7)
文書中の単語の共起関係をどのようにモデル化するか潜在トピック
V 種類の単語から成る M 個の文書集合文書
文書 d の i 番目の単語
入力
単語のインデックス
潜在トピックの数 K
文書中の各単語はある潜在トピックから出現すると仮定→ トピックごとの単語の出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定各文書に複数のトピックが潜在していると仮定
→ 文書ごとの潜在トピックの出現分布として、多項分布を設定→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
LDA における生成過程
潜在トピック
V 種類の単語から成る M 個の文書集合文書
文書 d の i 番目の単語
入力
出力文書 d での潜在トピック k の出現確率
文書 d の i 番目の単語がどの潜在トピックから生成されたかを示す潜在変数
潜在トピック k での単語 v の出現確率単語のインデックス
潜在トピックの数 K
各文書での潜在トピック出現確率
各トピックでの単語出現確率
各トピックでの単語出現確率
LDA のグラフィカルモデル
潜在トピック k での単語 v の出現確率単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ文書 d における潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語wd,i を生成した潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθd の超パラメタ
潜在トピック文書
単語
参考 : トピックが文書内で共通の場合のグラフィカルモデル
潜在トピック k での単語 v の出現確率単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語wd,i を生成した潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθ の超パラメタ
潜在トピック文書
単語
LDA の幾何学的解釈 : 準備
単体 simplex d 次元空間において各成分の和が 1 になるような部分空間多項分布のパラメタは単体上の点とみることができる
LDA の幾何学的解釈 : 文書は単語座標単体上の点と見なせる
単語出現分布は単語座標単体上の点である単語座標単体 : 各単語の確率が 1 であるベクトルを基底ベクトルとする単体文書は単語出現分布とみなせる和が 1 になるように正規化すれば確率分布になるよって、文書は単語座標単体上の点と解釈できる
単語出現分布は単語座標単体上の点である潜在トピックは単語出現分布である
よって、潜在トピックは単語座標単体上の点と解釈できる
LDA の幾何学的解釈 : 潜在トピックも単語座標単体上の点とみなせる
潜在トピック出現分布は潜在トピック座標単体上の点と解釈できる潜在トピック座標単体 : 潜在トピックを基底ベクトルとする単体LDA では各文書に潜在トピック出現分布が推定される
よって、文書は潜在トピック座標単体上の点と解釈できる
LDA の幾何学的解釈 : 文書は潜在トピック座標単体上の点ともみなせる
LDA の幾何学的解釈 : まとめ
Latent Dirichlet Allocation の名前の由来文書を、 Dirichlet 分布に従って、潜在( latent )トピック座標単体上に配置( allocate )しているから
文書→単語座標単体 潜在トピック→単語座標単体 文書→潜在トピック座標単体LDA は文書を単語座標単体から潜在トピック座標単体へ射影している
単語座標単体よりも潜在トピック座標単体の方が低次元であるため次元圧縮と捉えることもできる
LDA の応用 1
単語の予測分布を利用する単語の予測分布トピックを介しているので、実際に文章中で現れなかった単語でもよい応用例 : 単語入力予測、言い換えの提案、キーワードによる情報検索、購入履歴に基づく推薦
LDA の応用 2時系列分析
潜在変数から時間ごとに θk 、 φk,v を推定する応用例 : トピックの時系列、バースト、トレンド解析文書の次元圧縮単語を潜在変数の値(潜在トピック)と入れ替える応用例 : 分類器の特徴量として利用単語の潜在的意味潜在変数の値(潜在トピック)を参照することで、同じ単語でも異なる意味だとわかる応用例 : 語義曖昧性の解決、機械翻訳
LDA の応用例 : 3
他のデータBag of XXX になればどんなデータにも適用できる応用例 : 画像処理、バイオインフォマティクス、人の行動解析、画像+テキスト、音楽+歌詞