大学の時の研究の話

43
大大大大大大大 大大大大大大大大大大大大大 大大大大

Upload: yuto-suzuki

Post on 15-Apr-2017

364 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 大学の時の研究の話

大学院の研究でどんなことをやってたかの話

鈴木雄登

Page 2: 大学の時の研究の話

自己紹介• 鈴木 雄登• @moc_yuto

• 自然言語処理をやってた– 最近はめっきり。。

• 今は Scala メイン

Page 3: 大学の時の研究の話

はじめに

Page 4: 大学の時の研究の話

そういえば、大学時代の研究の話ってほぼしてないなーっと思った。

Page 5: 大学の時の研究の話

じゃあ久しぶりにしよう!

Page 6: 大学の時の研究の話

研究の話 ( 自然言語処理って身近だよ )

Page 7: 大学の時の研究の話

パフェるググる

リムる

ポジるブロる

チャリる

どういう意味なのだろうか?

Page 8: 大学の時の研究の話

パフェるググる

リムる

ポジるブロる

チャリる

パフェる:パーフェクトを達成するポジる:ポジショニングを取る

Page 9: 大学の時の研究の話

カタカナ動詞の意味を獲得パフェる

語源:パーフェクト言い換え:制覇する

解析器入力 出力

Page 10: 大学の時の研究の話

カタカナ動詞をどうやって集めるか

Page 11: 大学の時の研究の話

カタカナ動詞の収集• Twitter コーパス

– 2011 年 5 月から 2011 年 9 月まで– 約 1 億 3 千万ツイート– どうして Twitter ? 気軽に投稿でき,カタカナ動詞が多く出現しやすいため

• 収集法– MeCab でパースして、以下のようなカタカナの動詞を収集

ex. 「パフェ」+「っ」(動詞非自立),「リム」+「る」(助動詞)

Page 12: 大学の時の研究の話

カタカナ動詞の例頻度 カタカナ動詞 頻度 カタカナ動詞

75249 モテる 12149 ハゲる40873 バレる ・36879 イケる 2014 キョドる23472 ググる ・20373 ウケる 1152 アピる15887 デレる ・13905 リムる ・12523 パクる 342 ポジる

上位 200 位を利用

Page 13: 大学の時の研究の話

提案手法

Page 14: 大学の時の研究の話

言い換えと語源の類似性や共起を考慮したリランキング

カタカナ動詞入力 「アガる」既存辞書での有無 辞書見出し出力

1. パフェ2. パーフェクト3. パフェー4. パーフェクトジオング5. パーフェクトポーション

1. 暗譜2. 倒す3. 解禁4. 達成5. クリア

1. 達成 パーフェクト2. レコーディング パフェ3. 合体 パフェ4. 録 パフェ5. テスト パフェ

3

言い換え獲得 語源獲得1 2

有無 あが・る【上がる/揚がる/挙がる】

全体のフロー

Page 15: 大学の時の研究の話

言い換えと語源の類似性や共起を考慮したリランキング

カタカナ動詞入力 「パフェる」既存辞書での有無 辞書見出し出力

1. パフェ2. パーフェクト3. パフェー4. パーフェクトジオング5. パーフェクトポーション

1. 暗譜2. 倒す3. 解禁4. 達成5. クリア

1. 達成 パーフェクト2. レコーディング パフェ3. 合体 パフェ4. 録 パフェ5. テスト パフェ

3

言い換え獲得 語源獲得1 2

有無

全体のフロー

Page 16: 大学の時の研究の話

言い換えと語源の類似性や共起を考慮したリランキング

カタカナ動詞入力 「パフェる」既存辞書での有無 辞書見出し出力

1. パフェ2. パーフェクト3. パフェー4. パーフェクトジオング5. パーフェクトポーション

1. 暗譜2. 倒す3. 解禁4. 達成5. クリア

1. 達成        パーフェクト2. レコーディング  パフェ3. 合体        パフェ4. 録          パフェ5. テスト        パフェ

3

言い換え獲得 語源獲得1 2

有無

全体のフロー

Page 17: 大学の時の研究の話

言い換えと語源の類似性や共起を考慮したリランキング

カタカナ動詞入力 「パフェる」既存辞書での有無 辞書見出し出力

1. パフェ2. パーフェクト3. パフェー4. パーフェクトジオング5. パーフェクトポーション

1. 暗譜2. 倒す3. 解禁4. 達成5. クリア

1. 達成 パーフェクト2. レコーディング パフェ3. 合体 パフェ4. 録 パフェ5. テスト パフェ

3

言い換え獲得 語源獲得1 2

有無

全体のフロー

Page 18: 大学の時の研究の話

言い換え獲得のアイディア

ゲーセンで   曲を パフェった

ゲーセンで   曲を 制覇した

・カタカナ動詞

・言い換え

格要素の類似性を利用

Page 19: 大学の時の研究の話

カタカナ動詞入力パフェるIPA 辞書内の全動詞制覇する食べる寝る走るクリアする...

ランキングして出力

で :24ゲーセンで: 20・・曲を : 15

連続で :24ゲーセンで:20・・曲を : 15

ベクトル作成

で :24ゲーセンで: 20・・曲を : 15

で :24ゲーセンで: 20・・曲を : 15

で :24ゲーセンで: 20・・曲を : 15

連続で :24ゲーセンで: 20・・曲を : 15

類似度を計算言い換えの獲得

Page 20: 大学の時の研究の話

…パフェる=

曲を : 36ポップンで : 23連続で: 21

ツイート集合

帰り際に遊んだらポップンでパフェった.

ミスした時に限ってあの曲を パフェる

練習してた 曲をパフェった!

連続であの曲を パフェる

ベクトルの作り方

Page 21: 大学の時の研究の話

ベクトル間の類似度計算格要素ベクトルを用いてカタカナ動詞と候補間の類似度を計算する.Jaccard 係数,コサイン類似度を利用して評価した.

x, y の各ベクトルは頻度を要素とした格要素ベクトルである.X,Y は格要素ベクトルの単語集合である.

Page 22: 大学の時の研究の話

簡単に言うと曲を : 36ポップンで : 2連続で: 0

曲を : 242ポップンで : 23連続で: 103

36 × 242 + 2 × 23 + 0 × 103 + … = 合計合計 ÷ ベクトルの列数 = 類似度

単純に両方で同じ単語が頻度高く出現すれば、類似度は高くなる

Page 23: 大学の時の研究の話

言い換えと語源の類似性や共起を考慮したリランキング

カタカナ動詞入力 「パフェる」既存辞書での有無 辞書見出し出力

1. パフェ2. パーフェクト3. パフェー4. パーフェクトジオング5. パーフェクトポーション

1. 暗譜2. 倒す3. 解禁4. 達成5. クリア

1. 達成 パーフェクト2. レコーディング パフェ3. 合体 パフェ4. 録 パフェ5. テスト パフェ

3

言い換え獲得 語源獲得1 2

有無

全体のフロー

Page 24: 大学の時の研究の話

• ゲーセンで   曲を  パフェった

• ゲーセンで  パーフェクトを  取れた.

語源獲得のアイディア

Page 25: 大学の時の研究の話

• ゲーセンで   曲を  パフェった

• ゲーセンで  パーフェクトを  取れた.

語源獲得のアイディア

Page 26: 大学の時の研究の話

語源獲得のアイディア• ゲーセンで   曲を  パフェった

• ゲーセンで  パーフェクトを  取れた.

Page 27: 大学の時の研究の話

• ゲーセンで   曲を  パフェった

• ゲーセンで  パーフェクトを  取れた

語源獲得のアイディア

Page 28: 大学の時の研究の話

語源候補の獲得

カタカナ名詞集合カタカナ名詞全てを調べるには膨大

ルールを用いて候補を絞る

Page 29: 大学の時の研究の話

候補を絞るルール• 表層的なルール

単語の先頭から見て,促音・長音は無視し,それ以外の文字が出てきたら選択しない.例)目的の単語:テク

候補として選択 候補として選択しないテクニック テイクテック ハイテクテーク 心理テクニックテクニカル

Page 30: 大学の時の研究の話

カタカナ名詞集合

格要素ベクトル作成

類似度計算

語源候補

パラダイスパーフェクトパイソンパーツピース ... カタカナ動詞入力パフェる

明日で :24ゲーセンで: 20・・曲を : 15

パフェパーフェクトパフェー ...

候補を絞る

ランキングして出力

獲得フロー

格要素ベクトル作成

Page 31: 大学の時の研究の話

類似度計算• 作成された格要素ベクトルに対して言い換えの場合と同じく以下を適用

– コサイン類似度

Page 32: 大学の時の研究の話

語源候補の頻度考慮• 語源の頻度を考慮

リクる頻度 語源候補9737 リクエスト

823 リク505 リクルートスーツ471 リクスー461 リクナビ

頻度の多いものを優先!

Page 33: 大学の時の研究の話

言い換えと語源の類似性や共起を考慮したリランキング

カタカナ動詞入力 「パフェる」既存辞書での有無 辞書見出し出力

1. パフェ2. パーフェクト3. パフェー4. パーフェクトジオング5. パーフェクトポーション

1. 暗譜2. 倒す3. 解禁4. 達成5. クリア

3

言い換え獲得 語源獲得1 2

有無

1. 達成        パーフェクト2. レコーディング  パフェ3. 合体        パフェ4. 録          パフェ5. テスト        パフェ

Page 34: 大学の時の研究の話

言い換えと語源の関連性• 2つの手法–ペア類似度(スコアの足しあわせ)– 共起

Page 35: 大学の時の研究の話

ペア類似度(スコアの足しあわせ)

言い換えのスコア

語源のスコア ペア類似度のスコア

パフェる語源 : 

言い換え : 2つの関連性を考慮

達成

パーフェクト

Page 36: 大学の時の研究の話

共起

グーグル で 検索 するググる

語源 言い換え

共起しているかどうかを調べる

Page 37: 大学の時の研究の話

実験

Page 38: 大学の時の研究の話

評価指標• MRR (Mean Reciprocal Rank)正解がどのくらい上位に出て来やすいかをスコア化したものR は入力したカタカナ動詞の数, Rank は正解順位.

• Accuracy @ N上位 N 位以内に正解がある確率 順位 結果

1 パフェ2 パーフェクト3 パフェー

Page 39: 大学の時の研究の話

言い換え獲得例コラボる 類似度 ハモる 類似度

1 合作 0.637 輪唱 0.527

2 演奏 0.571 合作 0.527

3 練習 0.55 合唱 0.514

4 重奏 0.549 熱唱 0.514

5 レコーディング 0.523 歌う 0.493

cosine 類似度

• 言い換え獲得:1位のみ表示で約 3割の精度誤り分析– 格要素をあまり取らないものの精度が良くなかった.例)タクる,バグる

Page 40: 大学の時の研究の話

語源獲得例チャリる 類似度 ポジる 類似度

1 チャリンコ 0.576 ポジ 0.250

2 チャリ 0.574 ポジショニング 0.225

3 チャーリー 0.229 ポジション 0.185

4 チャリチャリ 0.187 ポジティブシンキング

0.163

5 チャリチョコ 0.187 ポジティブ 0.141語源獲得:1位のみ表示で約6割誤り分析派生の派生が結果として出力されてしまった.「リプる」の語源は「リプライ」,だが「リプる」から「リプ」が生まれそれが頻出している.

cosine 類似度

Page 41: 大学の時の研究の話

みんないろんな研修やってたよねー

Page 42: 大学の時の研究の話

どんなのやってたか興味あり!時間があるとき、教えてくださいー!

Page 43: 大学の時の研究の話

ご清聴ありがとうございました