relation classification via convolutional deep neural network (zeng et al.)
DESCRIPTION
Slides about introducing a paper "Zeng et al. Relation Classification via Convolutional Deep Neural Network." presented at COLING 2014 reading group at Tokyo Metropolitan University, Japan.TRANSCRIPT
COLING読み会2014
Relation Classification via Convolutional Deep Neural Network (Zeng et al.)
!
B4 宮崎亮輔
11/05
※このスライド中の一部の図はこの論文中のものです
Agenda❖ Task Definition!
❖ Method!
❖ Word Representation!
❖ Feature Extraction (Neural network)!
❖ Back Propagation!
❖ Experiments!
❖ Conclusion
2
Task Definition
❖ 今までの研究では素性エンジニアリングをしていた!
❖ 複雑なNLPの操作による素性抽出はエラーもある!
❖ e.g. 構文解析, 係り受け解析!
❖ 素性エンジニアリングをせずに関係分類をする!
❖ 名詞にマークのついた入力Sに対して関係分類
3
Word Representation❖ Word Embeddingを使う(いわゆるword2vec)!
❖ Distributed representation の!
❖ dense, low-dimensional, real-valuedなやつ!
❖ 自分でトレーニングして作るのはツライので(4週間かかる研究もある)既存のトレーニングされたものを使う (Turian et al., 2010)!
❖ この後でWord Embeddingを使うシーンがたくさんある!
❖ 全てこれを参照 (Look up table) して使ってる
4
Method最後に全体像を説明するので、!
それまでは部分的なMethodだと思ってなんとなく頭に入れておいてください
5
Lexical Level Features
❖ Word Embeddingsを利用する!
❖ 関係分類したい対象の名詞ペアそれぞれと!
❖ その周辺の単語と!
❖ 名詞ペアの上位語 (WordNetを利用)を!
❖ 連結したベクトルをLexical Level Featuresとして利用
6
Sentence Level Features❖ Word Features!
❖ Window size分だけ連結したWord Embeddingを使ったベクトル!
❖ window size = 3なら!
❖ . (xnは入力文のn番目のword embedding)!
❖ Position Features!❖ 注目している単語とマークされた名詞との距離!
!❖ movingを見ていたら、前も後ろも3!
❖ ベクトルd1, d2としてマップされる
(次元数はhyperparameter)!
❖ この2つを連結したものがSentence Level Features
7
Sentence Level Features
❖ Convolution (Collobert et al., 2011)!
❖ ローカルな全ての素性を活用するためにConvolution!
❖ Sentence Level FeaturesをW1で畳み込む!
❖ 畳み込んだ行列の各rowから値がmaxのものをとりだす!
❖ 一番使える素性を得るため
8
Sentence Level Features
❖ 1層隠れ層を入れる!
❖ maxをとった後のベクトルを入力!
❖ この層の出力にtanhを発火関数として出力する!
❖ Back propagationの計算が楽になる!
❖ この発火関数の出力がSentence Level Features
9
Output
❖ 最後にもう1層!
❖ Lexical FeaturesのベクトルとSentence Featuresのベクトルを連結して入力に使う!
❖ 事前に定義した関係タイプ数と同じ数の出力ノード数!
❖ 出力ベクトルにsoftmaxをかませて確率に
10
From input to output
if window size = 3
xsx1
x2
WF
Sentence Level Features
Window Processing
Convolution
中間
Input sentence
tanh
Lexical Level Features
出力層
Out put
softmax
W1
W2
W3
11
Back Propagation
!
❖ 誤差逆伝搬!
❖ パラメータW1, W2, W3, N, Xを学習する!
❖ Wは各層での重み, Nは上位語のベクトル表現,
XはWord FeaturesとPosition Featuresの連結ベクトル
12
Experiments
❖ SemEval-2010のタスクのデータ・セットを使う!
❖ 10717のアノテーションされた事例、9の関係が定義!
❖ Parameterのtuning!
❖ 既存研究との比較!
❖ どの素性が効いていたか
13
Experiments❖ パラメータのtuning
❖ 先行研究との比較
14
Experiments
❖ どの素性が効いていたか!
❖ Lexical FeatureとPosition Featureが結構効いてる
15
Conclusion
❖ Convolutional deep neural networkで
feature engineeringをしなくても良い結果!
❖ Position Featureを加えると特に結果が良くなった
16