nlp introduction based on project next nlp (日本語: 20150522)

34
999 回回回回回回1 回回回回回回回回回 回回回回回回回回 。。 回回回 回回回回回回回回回回回回回回回回回回 、。 An inventor fails 999 times, and if he succeeds once, he's in. He treats his failures simply as practice shots. It doesn't matter if you try and try and try again, and fail. It does matter if you try and fail, and fail to try again. 発発発1876-1958 回回回回回回回 回回回回回 、、 回回回回回回回回 回回回回回 回回回回回 回回回回 回回 、、、 回回回回回回回 回回回回回回回 、、 回回回 Charles F. Kettering

Upload: satoshisekine

Post on 09-Aug-2015

2.368 views

Category:

Technology


1 download

TRANSCRIPT

999 回失敗しても、 1 回うまくいけばいい。それが発明家だ。失敗は、うまくいくための練習だと考えている。

An inventor fails 999 times, and if he succeeds once, he's in. He treats his failures simply as practice shots.

It doesn't matter     if you try and try and try again, and

fail. It does matter     if you try and fail, and fail to try

again.

発明家( 1876-1958)  電動レジスター、点

火装置、セルフスターター、ヘッドライト、空中魚雷、保育器、エンジン使用の発電、有鉛ガソリン、フロン

Charles F. Kettering

自然言語処理 入門トークエラー分析ワークショップ

Project Next NLP

2015 年 5 月 22 日 @ PyData.Tokyo関根聡

動機 我々は上手に失敗しているだろうか?

動機 我々は上手に失敗しているだろうか?

エラーに慣れてしまってはいないだろうか? 本質的ではない精度向上に満足していないだ

ろうか? 何が本質か見失っていないだろうか? 難しい問題を避け、次なる眼新しい課題に移

ろい続けていないだろうか?

目的 エラー分析を通じて自然言語処理の本質的な課題を明

確にする

同じタスクの複数のシステムのエラー分析を重ね合わせる 複数のタスクのエラー分析を重ね合わせる

エラー分析の技術の進展 エラー分析データーの蓄積 エラー分析を通した課題の整理、発見

活動 2014年3月: 年次大会WS (北海道大学)

データ分析、エラー分析の重要性議論 プロジェクト発足

5月19日:キックオフミーティング (情報学研究所) プロジェクトの進め方の議論

9月2、3日:ミッドタームミーティング (首都大学東京) 各グループで集中討論(1日目) 各グループの報告(2日目)

11月:中間報告レポート 進捗報告 アドバイザーからのコメント

3月20、21日:言語処理学会年次大会WS (京都大学) 今後

言語処理学会論文誌特集号 情報処理学会学会誌特集 国際学会ワークショップ

プロジェクトの進め方 NLP のタスクごとに分析を行う (全1

8タスク) 分析方法は各グループの自主性に任せる

それぞれのタスクで事情は異なる 共通の軸を予め設定できない 例えば:共通のデータ、ツール、評価 WS

タスクとリーダー基礎技術   

  形態素解析 鍜治伸裕(東京大学)、森信介(京都大学)  構文解析 河原大輔(京都大学) 

  述語項構造解析 松林優一郎(東北大学) 要素技術  

  固有表現抽出 岩倉友哉(富士通研究所) 照応解析  飯田龍( NICT)  言い換え 藤田篤( NICT)

  語義曖昧性解消 新納浩幸(茨城大学)   知識獲得 柴田知秀(京都大学)

情報アクセス応用   

  情報検索 難波英嗣(広島市立大)要約  高村大也(東工大)、平尾努( NTT)、西川仁( NTT) 

  情報抽出 新里圭司(楽天)  レビュー解析 藤井敦(東工大)、乾孝司(筑波大) 

 Web応用 岡崎直観(東北大学)、荒牧英治(京都大学)  東ロボ 宮尾祐介( NII)、横野光( NII)、松崎拓也(名古屋大学)

  翻訳、文作成支援、対話  

  翻訳 工藤拓(グーグル)、グラム・ニュービッグ(奈良先端大)   日本語校正 山本和英(長岡技科大)、鄭育昌(富士通研)  英文校正 水本智也(奈良先端大)

対話 東中竜一郎( NTT)、船越孝太郎( HRI)

18 のタスクの紹介 目的、技術、課題をエラー分析を通して

紹介 それぞれ1枚のスライド、1分

WS では発表30分  =  30倍濃縮 後は

議論の時間 別の勉強会 個別にご相談ください

([email protected])

18の技術の位置付け

情報検索

情報抽出

要約 Web 応用

レビュー解析

語義曖昧性解消

固有表現抽出 知識獲得照応解析

言い換え

述語項構造解析形態素解析 構文解析

東ロボ

日本語校正

英文校正翻訳

対話

基礎技術

要素技術

情報アクセス応用技術

他応用技術多言語応用技術

1.形態素解析それなに? 文を単語に区切る技術

東京都になったのはいつ東/京都/担った/の/ハイツ

 どうやるの? 単語のつながりのスコアを最適化

かだいは? 辞書に載ってない未知語  (新語・低頻度語、表記ゆれ、固有名詞)

ぶんせき? 未知語を全部辞書登録したらどうなるか?

精度は非常に向上する(76.6->90.0)悪化した理由: ひらがなで書かれた短い語それでもダメな理由: 未知語処理の仕組み

2. 構文解析それなに? 文の構文的構造(文節間の係り受け)を解析する技術

次郎は 太郎が 花子と 見た 映画が 好きだと 言った  どうやるの? 沢山の実例から組み合わせや規則を学習

かだいは? 並列、実例の誤り、節間、規則のカバレージ、品詞誤り、実例の不足

ぶんせき? 1. 実例をクラウドソーシングで作ってみる正解が何かを伝えるのが難しい例もある(定型表現、並列句、複数の係り先)   2. 間違ったら、次のシステムはどのくらい困るのか?評判分析では、係り受けが間違うと大怪我をする「ホテルのサービスは良かったが街(部屋)は最悪」

????

3. 述語項構造解析それなに? 文を述語と構成要素の構造に整理する技術

 

どうやるの? 沢山の実例から組み合わせや規則を学習

かだいは? ゼロ照応 (精度40%、他は90%)   課題の設定の共有化

ぶんせき? データの分析   解析手がかりを類型化(文節内、直接、文内ゼロ、文外ゼロ)

4. 固有表現抽出それなに? 文の中にある名前や数値表現などを見つける技術

太郎は5月18日の朝9時に花子に会いに行った。      人名  日付表現   時間表現 人名

どうやるの? 沢山の実例と辞書による学習

かだいは? 辞書のカバレージ  (新語・低頻度語、表記ゆれ、固有名詞)

ぶんせき? 固有表現を全部辞書登録したらどうなるか?精度は非常に向上する(10ポイント以上 )それでもダメな理由: 「タマ」「クマ」のような一般的表現「大川」「勝田」のような曖昧性のある表現

5. 照応解析それなに? 「これ」「彼」「当社」「(ゼロ)」などが指す実際の対象を見つける技術

                           (0が)     (0が)太郎はプリウスを買った。次の日、それに乗って会社に行った

 

どうやるの? 格情報、意味素性などの特徴を基にした訓練データによる学習

かだいは? 膨大な候補、常識や世界知識の必要性

ぶんせき? どんなところで間違っているのかの分析

アノテーションの誤り、問題機能語相当表現外界照応の問題と混在名詞+“だ”の格要素 。。。 他、数多くの細かい問題

6. 言い換えそれなに? 同じ意味を示す違った表現を扱う技術

重傷を負う恐れがある大ケガをしてしまうかもしれない

 どうやるの? 言い換え表現を大規模データから収集

かだいは? 人間が作り、理解できる言い換え表現は多彩

ぶんせき? 言い換え表現に関わる技術の整理

技術:  知識作成、認識、生成言い換え表現の分類:  助詞の交替、自明要素の明示/暗示、主題の交替  語順の変更、態の交替、違う名詞の利用、共参照の置換

7. 語義曖昧性解消それなに? 違う意味を持つ同じ単語を識別する技術

さんまの  旬  はいつ?さんまの誕生日はいつ?

 どうやるの? 実例による学習

かだいは? 語義の定義、大規模訓練データ作成が困難

ぶんせき? 7人の研究者が独自にエラー原因を分析し、比較

エラー分析には色々な視点がある 解き方、現象、システムが解けない原因、 タスクの成り立ちと解き方、素性の問題 必要な訓練事例の種類、ベースラインとの比較

8. 知識獲得それなに? 常識的な知識を獲得する技術

1)MacBook Air = MBA > ノートパソコン2)ネイマール:サッカー選手、 バンプレスト:企業3){ 犬 、 猫 }が吠える4)Xが犯罪を犯すー>Xが逮捕される

 どうやるの? 大規模文章からパターンや文脈の類似性による手がかり

かだいは? パターンの学習、知識を応用する際の有効性

ぶんせき? 照応解析においてどのような知識がどのくらい必要か

3)猫は犬より賢い。彼らは理由なく吠えるからだ4)Googleはモトローラーを買収した。彼らは破綻していた。4+)メアリーはスーザンの部屋を掃除した。彼女は感謝された

9. 情報検索それなに? 大規模な文書からユーザーが欲しい文章を探す技術

グーグル図書館情報検索、特許検索

どうやるの? 検索要求に関連した単語が含まれる文章を見つける

かだいは? 検索意図と検索単語の関係

ぶんせき? なんでできないかを分析?

単語の知識(同義語、上位下位語、関連語、語義の曖昧性)検索意図(観点)が把握できない常識や世界知識が必要

10. 要約それなに? 文章を短くする技術

長い文章を短くする要点をすぐに捕まるように表現を変える

 どうやるの? 文章中の重要部分を認識、再構成する

かだいは? 重要な文の見つけ方  1つの文を文法性、内容を維持したまま圧縮する  文章の流れを理解する

ぶんせき? それぞれの課題の原因を追求   誤りの種類と原因を整理

種類: 可読性、 内容性(重要な部分が取れている)、 整合性原因: 操作、 特徴量、 パラメーター、 探索、 情報の不足

11. 情報抽出それなに? 文章の中にある情報を構造化する技術

どうやるの? サンプルから、構造化のための規則を学習

かだいは? 様々な表現により事実が述べられる、様々な情報がある

ぶんせき? シンプルなシステムのエラーの体系化

抽出規則(言い換え、照応)、辞書の不足(「復活」=「生産再開」)文章中の適切部分の認識(過去の事例、他社の事例)他の技術のエラー(形態素解析、固有表現抽出、曖昧性)

企業:マルカ食品商品:「ペヤングソース焼きそば」日時:5月19日出来事:生産再開

12. レビュー解析それなに? レビュー文章を解析する技術

 どうやるの? ポジティブ、ネガティブ表現辞書を用意する

かだいは? 様々な表現でレビューが書かれている

ぶんせき? シンプルなシステムのエラーを体系化

文中にポジティブとネガティブが混在する表現辞書のカバレージ複雑な表現中立の認識

のんびりとした

温泉でした。

13. Web 応用それなに? Web上の文章のご利益のある応用技術

どうやるの? 様々な自然言語処理技術の応用

かだいは? なんのことなの?だれのことなの?本当のことなの?

ぶんせき? 「風邪のツイートから、誰が本当に罹っているのかを認識」

「たら」「もし」「じゃなかった」「かもしれない」のような表現の収集過去、否定などの認識よくある周辺人物の辞書(姉貴)、人名認識(さん、君)

もし姉貴が風邪

をひいたら困る

14. 東ロボ(ロボットは東大に入れるか)

それなに? 東京大学の試験に合格するロボット(人工知能)を作る

 

どうやるの? 様々な自然言語処理技術の応用

かだいは?  問題の種類ごとに、解決方法を実現  単純な手法で得点が取れてしまう難しい問題は極端に難しい言語処理以外の技術(図形の認識)

ぶんせき? それぞれの科目、問題種類ごとに課題を整理

15. 翻訳それなに? 自動的に翻訳をする技術

 

どうやるの? 様々な自然言語技術の応用

かだいは? いっぱい。

ぶんせき? 何が間違っているか?どうして間違えたか?を分析

何を: 単語の削除、並べ替え、単語の誤り、モダリティー、未知語どうして: 前処理(形態素解析、構文解析、文分割)

ルール抽出(誤ったルール、ルールがない、スコアが低い)モデル化誤り、探索誤り、原文の誤り

16. 日本語校正それなに? 日本語文章の誤りや不自然な部分を指摘、訂正する技術

私も失敗な(した)ことに(が)ありますバイクは全然(全部)壊れました。

 どうやるの? 辞書、ルールを用意

かだいは? 誤った文章を前提とした自然言語処理基礎技術

ぶんせき? いくつかのシステムのエラーを体系化

表現の洗練: 定型誤り(ら抜き)、用語基準(難しい語)、表現(文体の統一)字種統一、スペルチェック、表記ゆれ、かっこ

表現の正しさ: 言葉遣い、曖昧表現、内容複雑さ、修飾関係、助詞、文体悪化した理由: ひらがなで書かれた短い語

日本語学習者:文法(助詞、複合辞)、語彙、句・文全体

17. 英文校正それなに? 英文の誤りや不自然な部分を指摘、訂正する技術

I met him face by face at Friday to        on

どうやるの? 辞書、ルールを用意。大規模な正例から学習

かだいは? 様々な種類のエラー

ぶんせき? 前置詞の間違え(3つ目に多い種類)に限って分析

どのような前置詞の入れ替えがあるか前置詞の入れ替えとその役割の関係性

18. 対話それなに? ロボットとの対話を実現する技術

U: 台風は大丈夫でしたかS: 台風は必要です U: 雨は必要ですよねS: 朝から雨が降るのです 

 どうやるの? 様々な自然言語技術の応用

かだいは? いっぱい。

ぶんせき? 対話の破綻を類型化する

同じ内容の繰り返し、矛盾した内容、発話として唐突ユーザー発話内容の無視、質問に答えてない原因を「発話、応答、文脈」に類型化

まとめ 18のタスクを通じた自然言語処理入門

あと3つのタスクを計画:辞書作成、文生成、質問応答

意味に関係する所で自然言語処理は突然難しくなる 多くの複雑な問題が絡んでいる 意味の問題の解き方さえも分かっていない

一方で、大規模なデータ、機械学習で応用の広がり

この難問を一緒に解いていこうと思う方、大募集