文章を読み、理解する機能の獲得に向けて-machine comprehensionの研究動向-

Copyright © 2016 TIS Inc. All rights reserved.

文章を読み、理解する機能の獲得に向けて

戦略技術センター久保隆宏

Machine Comprehensionの研究動向

Copyright © 2016 TIS Inc. All rights reserved. 2

自己紹介

文章を読み、理解するということ: Machine Comprehensionとは

Machine Comprehensionの抱える課題

Deep Mindの提案した手法

Teaching Machines to Read and Comprehend

Stanfordによる追試

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

機械が文章を読み、理解する日に向けて

データセットの拡充

「文章を理解している」の定義

現状と展望

新しいチャレンジ

目次

https://arxiv.org/abs/1506.03340



久保隆宏TIS株式会社戦略技術センター

化学系メーカーの業務コンサルタント出身

既存の技術では業務改善を行える範囲に限界があるとの実感から、戦略技術センターへと異動

現在は機械学習や自然言語処理の研究・それらを用いたシステムのプロトタイピングを行う

自己紹介

人とロボットを連携させた接客システムmaicoの発表(@対話システムシンポジウム)

OpenAI Gymを利用した、強化学習に関する講演(@PyConJP 2016)

kintoneアプリ内にたまったデータを簡単に学習・活用(@Cybozu Days 2016)


所属するチームのミッション

chakki

すべての人が、ティータイムに帰れるようにする

すべての人が、ティータイム(15:00)に帰れる(茶帰)社会を実現します。

この実現には、既存の仕事を効率化するのでなく、根本的に「仕事の仕方」を変える必要があります。

しかし、慣れた仕事の仕方というのは簡単には変わりません。だからこそ、実際に「体験」をし、効果を「実感」してもらうことが重要になります。

そのため、私たちは先進的技術を用い、仕事の仕方が変わる体験を提供していきます。

Copyright © 2016 TIS Inc. All rights reserved.

文章を読み、理解するということ

Machine Comprehensionとは

攻殻機動隊 STAND ALONE COMPLEX 第15話機械たちの時間 MACHINES DESIRANTES


システムに文章を読んで理解させるタスクを、Machine Comprehensionと呼びます。

このタスクは、一般的に以下の要素で構成されます。

Context Document

情報源・前提となる文章が与えられる

Query

文章に関する質問を行う

Answer

質問にどれだけ回答できるかを検査する

つまり、ある文書を与え、質問に回答できるかで理解度を測っている、ということです。

※「質問に回答できる」ことをもって理解度と呼んでいいのか？については後述します

文章を読み、理解する


この領域は、ルールベースなモデルが主流でした。

というのも、データを基にした統計的なアプローチには弱点があったためです。具体的には、以下の2点です。

自然言語の文書といった、構造が複雑でしかもノイズを多く含むデータを、うまく表現できるモデルがなかった

それを学習するためのデータがなかった

機械的に生成したデータを基にした検証で、前者についてはNeural Networkがいい仕事をすることが分かってきました。が、(機械的でない)実際のデータが、十分な量ないという課題は残ったままでした。

Machine Comprehensionの抱える課題

データがない



ニュース記事から大量のデータを生成して、学習したぜ！！

Deep Mindの提案した手法 [K. M. Hermann+ 2015]

荒川弘: 鋼の錬金術師

ニュース記事の以下の要素からデータセットを作成した。

ニュースの本文

箇条書きの要約

本文を読んだら、要約の中に抜けている個所があっても、答えられるはずである。そう考えると、本文はContext、穴あきの要約はQuery、穴埋めの回答はAnswerと見なせる。

ニュース記事



上記のような形で、人名や地名などの固有表現をEntityのタグで置き換え、共通の表現にはすべて同じEntityを割り振る。Queryの穴(placeholder)に当てはまるEntityを回答するという形式。

学習用データで、CNNは約9万、Daily Mailは約20万と、それまでとは2ケタぐらい違うサイズのデータの作成を行った(こちらから利用可能)。

Attentionを使ったRNNで60~70%の回答率。

Deep Mindの提案した手法 [K. M. Hermann+ 2015]


https://github.com/thomasmesnard/DeepMind-Teaching-Machines-to-Read-and-Comprehend



問題は解決したのか？



ボリュームはすごいが、タスクとしては簡単。その証拠に、NNで出している精度は簡単なモデルで圧倒できる。

Stanfordによる追試 [D. Chen+ 2016]


Deep Mindの提供したデータセットについて、より詳細な調査を行う。

このデータセットにおけるベースとなる精度 (ベースライン)、また上限を確認

タスクの遂行に、どのような「文書に対する理解」が必要なのかを明らかにする

特徴量ベースの基本的なモデルも含め幾つかのモデルで精度を検証し、どのような「理解」が重要なのかを検証。また、データセットそのものの調査も実施。

Deep Mindの論文

https://arxiv.org/pdf/1606.02858v2.pdf




ベースラインとして使う予定だった、特徴量ベースのモデルですでにDeep Mind側の最高精度のAttentionモデルの精度を上回る(63.8 vs 67.1)

回答候補entityの登場頻度、質問との一致、といった基本的な特徴量が強く効いている

データをサンプリングして、回答の難易度を検証。54%は単純な質問文とのマッチで回答可能で、25%は人でも回答不能(=75%がほぼ上限)

逆に、質問文からの推測が必要(Partial clue)、複数分にまたがる内容の把握が必要(Multiple sentences)は21%しかない





Neural Networkモデルでは72.4%の精度を記録し、これは理論上の上限値(75%)に迫る。その意味では、このデータセットはすでに攻略されたともいえる。

質問文のベクトル x Weight x 本文中の各単語ベクトルでAttentionを作成。これと単語ベクトルを掛け合わせることで、出力 (=質問文との関連度)を導く

質問文/本文双方について、①単語分割、②各単語を分散表現(事前学習済みGloveを使用)に変換、③ Bi-directionalなLSTMで順方向/逆方向にそれぞれencodeし、結合(質問文のLSTMと本文のものは別々)。

本文中にあるエンティティ(=回答候補)について出力の最大値をしらべ、Answerとする。 ※encodeの範囲を絞るWindowを使ったのMemory

Networkも検証しているが精度はよろしくなかった


http://nlp.stanford.edu/projects/glove/



データを注意深く検証すること、基礎的なモデルでの検証を怠ってはならない


機械が文章を読み、理解する日に向けて

攻殻機動隊 STAND ALONE COMPLEX 第15話機械たちの時間 MACHINES DESIRANTES


データセットを拡充させる取り組み(1/2)

MCTest Children Book Test bAbI

概要物語と、それについての選択式の質問のデータセット。物語については、7歳の子供が読める程度のもの。

児童書から21文を抽出し、20文を本文、最後の一文を質問とする。質問は文の一部を空白にする形で作られ、その穴埋め問題となる。

推論による回答(AがBでBがCならA=C的な)を目指し、複数種類のデータセットを提供している(←のCBTもそこから作成されている)。

データ量 660 67万(質問数) 公式サイト参照

データ元クラウドソーシング本(Project Gutenberg) 同上

質問の内容 50%ほどは、複数文にまたがる理解が問われる

CNN/Daily Mailと同様の作りなので、同程度と思われる

文章から得られる情報を基に推論が必要な、高度な質問。

最高精度のモデル

(ハンドメイドの)特徴量ベースのモデル。学習済み分散表現などの外部知識も活用されている。

Window-based Memory Networkただ、n-gram/RNNの言語モデルでも十分

Memory Networkただ、100~200の語彙という極めて小さな、箱庭的な環境での実験にとどまる

http://research.microsoft.com/en-us/um/redmond/projects/mctest/

https://research.facebook.com/research/babi/

https://research.facebook.com/research/babi/


データセットを拡充させる取り組み(2/2)

Stanfordが公開した質問回答のデータセット

Wikipediaの文書に対する質問をクラウドソーシングで作成(回答は文書中の文かその一部になる)。

文書500、質問数10万という大規模データセット。最高精度(@2016/11)は、文書->質問、質問->文書の双方向のAttentionを利用したモデル。

Toyota Technological Institute at Cicagaが公開したデータセット

Deep Mindのデータセットから派生したもので、本文と質問を別の記事からとり、エンティティは人名に限定(=回答は人名となり、誰が何をしたかを推測する)。なお、回答は選択式となっている。

質問数20万で、現在最高精度のものはGated-Attentionを使用したもので6割程度。

https://rajpurkar.github.io/SQuAD-explorer/


https://tticnlp.github.io/who_did_what/index.html



「文章を理解している」の定義

The Story Close Test

4文からなる短いストーリを与え、その正しい結末(=5文目)を予測させるというタスク。(5文の)学習用ストーリーが約5万、実際のStory Close Test問題が約4000問提供されている。

上記サイトから申し込むことで、データセットの入手が可能

http://cs.rochester.edu/nlp/rocstories/


単純な質問回答は、特徴量ベースのモデルでも機能する。これに加え複数文のコンテキストを読むのにNNはうまく機能し、「十分なデータがあれば」良好な精度(7~8割)を出すことができる。

そして、大規模なデータセットは拡充の兆しがある。

今後は、より高度な質問(推論が必要な質問や、複数文の情報を統合する必要があるような質問)への回答を目指していくようになると思われるが、その際はやはりデータセットの問題がついてまわる。

少ないデータからの学習

大規模なデータセットがある分野からの転移学習、事前学習

シミュレーターの作成

これらの点が、今後(というかこれからも)重要になってくると思われる。

現状と展望


新しいチャレンジ

現在Kaggleで行われている、Stack Exchangeのタグを予測するコンペ(~2017/3まで)。

変わっているのは、別のタグで学習させた分類機で他のタグの分類を予測させる、つまり学習結果の転移性能が問われているな点。

小～中学生向けの理科の問題を解くタスク。質問は図があるものとないものがあり、回答は選択式。

事前の知識ベースの構築、論理推論といった力が問われる。データ数は5141。

Stanfordでのアプローチの方法については、こちらの資料の21pからに詳しい。

事前知識の面では、MSが概念関係についての大規模なデータセットを公開している

https://www.kaggle.com/c/transfer-learning-on-stack-exchange-tags

http://stackexchange.com/

http://allenai.org/aristo/science-questions-licensed/

http://www.akbc.ws/2016/slides/manning-akbc16.pdf

https://concept.research.microsoft.com/Home/Introduction


機械が文章を読み、理解する日に向けて世界は進んでいる

攻殻機動隊 STAND ALONE COMPLEX 2nd GIG タチコマな日々第01話


論文輪講を行っています。

論文のまとめ情報は、以下リポジトリで公開しています。

https://github.com/arXivTimes/arXivTimes

もちろん、まとめの投稿もお待ちしています。

https://github.com/arXivTimes/arXivTimes

＜免責事項＞本資料は、作成時点の法規制等に基づき、細心の注意を払い作成しておりますが、その正確性、適用性、完全性、網羅性、有用性、最新性、知的財産権の非侵害などに対して弊社は一切保証いたしません。また当該情報に起因するいかなる損害についても弊社は責任を負いません。本資料より得られるいかなる情報も利用者ご自身の判断と責任において利用していただくものとします。なお、本資料は特定の事項に関する一般的な情報提供を目的としています。提供されている情報は、専門的アドバイザリー、コンサルティング等のサービス提供を意図したものではありません。＜本資料の取り扱いに関して＞本資料は、著作権法及び不正競争防止法上の保護を受けております。資料の一部或いは全てについて、TIS株式会社から許諾を得ずに、いかなる方法においても無断で複写、複製、転記、転載、ノウハウの使用、企業秘密の開示等を行うことは禁じられております。本文記載の社名・製品名・ロゴは各社の商標または登録商標です。

文章を読み、理解する機能の獲得に向けて-machine comprehensionの研究動向-

Data & Analytics