kdd 2015読み会

11
KDD 2015読み会 Diversifying restricted boltzman machine for document modeling 坪坂正志 2015/8/22

Upload: -

Post on 08-Jan-2017

955 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: KDD 2015読み会

KDD  2015読み会  Diversifying  restricted  boltzman  machine    

for  document  modeling  

坪坂正志  2015/8/22

Page 2: KDD 2015読み会

紹介論文

•  Diversifying  Restricted  Boltzmann  Machine  for  document  modeling  

•  概要  – 文章の潜在変数モデルにおいてよく起きる事象であるメジャーなトピックはよくモデル化されるがマイナーなトピックはモデル化されないという問題を潜在変数モデルの一つであるRBMにおいてトピックをDiversifyするような項を導入して解決した  

Page 3: KDD 2015読み会

RBMについて

•  観測された単語に相当するvと隠れユニットhによって決まるエネルギー関数から決まる確率を最適化する

Page 4: KDD 2015読み会

RBMについて

•  観測された文章から隠れユニットが1になる確率は(3)式で表せる  

•  ベクトルhを文章Vの潜在表現とみなすことができる

Page 5: KDD 2015読み会

RBMの問題点

•  RBMに限らずトピックモデル一般においてLong-­‐tailなトピックの検出が難しいという点がある  – 例えばニュース記事であれば大多数をしめる政治などのトピックが複数出現し、ガーデニングのような小さなトピックは検出されない

Page 6: KDD 2015読み会

Diversify  RBM

•  制約項としてはトピックごとの単語ベクトル間の角度が大きくなるように設定する  

RBMに対してトピックがばらつくような制約項を加える

分散を抑えることにより、各ベクトルがまんべんなく配置される

Page 7: KDD 2015読み会

最適化

•  (P1)を変形した問題(P2)を考え、A~とgを相互に最適化する

Page 8: KDD 2015読み会

文章検索による評価

•  ある文章から近い文章を探してきたときにお互いが同じカテゴリのものかどうかで評価を行う  –  RBMにおいては文章に対応する潜在表現の近いものが対応する  

–  DRBMが既存手法よりも高い精度となっている  •  DocNADE,  PV(Paragraph  vector)はNeural  networkベースの手法  •  PYTM,  LIDAはべき則に基づき新しいトピックができやすくなっているモデル  

•  DPP-­‐LDAはLDAに対してDiversityが起きるようにしたモデル

Page 9: KDD 2015読み会

Long-­‐tailにおける改善

•  Reutersデータセットにおいてカテゴリごとに改善率をみたところ、特にカテゴリに含まれる文章が少ないLong-­‐tailなカテゴリにおいて大幅な精度の改善が達成できている

Page 10: KDD 2015読み会

学習されたトピックの例

•  RBMにおいてはTopic  2とTopic  3およびTopic  4とTopic  5はほぼ同じものが出現している  

•  一方DRBMにおいてはTopic  5のJapanese  eductaionのようなマイナーなトピックが得られている

Page 11: KDD 2015読み会

まとめ

•  RBMに対してトピック間で単語分布がばらつくような制約項を導入したDRBMを提案した