a casual conversation system using modality and word associations retrieved from the web

32
A Casual Conversation System Using Modality and Word Associations Retrieved from the Web Shinsuke Higuchi, Rafal Rzepka and Kenji Araki (e-musu) 2015 9 24 1 / 32

Upload: e-musu

Post on 26-Jan-2017

497 views

Category:

Technology


0 download

TRANSCRIPT

A Casual Conversation System Using Modalityand Word Associations Retrieved from the Web

Shinsuke Higuchi, Rafal Rzepka and Kenji Araki(e-musu)

2015年 9月 24日

1 / 32

Source

http://www.aclweb.org/anthology/D08-1040

2 / 32

Abstract

概要I Web上から抽出された連想語とモダリティを利用した対話システムの提案

I 入力および出力は日本語のみ対応I 返答の際は,命題とモダリティの観点で処理I 連想語の抽出の後,命題を生成しモダリティを付与

I 抽出された連想語のうち 80%以上が正しいと評価,また,モダリティの付与によって対話システムの評価が向上

3 / 32

Introduction (1)

雑談システムについてI chatbotなどの雑談システムの研究はあまりされていないI 多くの開発者は自動で会話を生成するのではなく,多くの戦略 (ルール)をシステムに当てはめようとしている

I 発話の内容や話題を推論することはとても難しいため,前もって会話のシナリオを準備するのはほぼ不可能

4 / 32

Introduction (2)

代表的な雑談システム1. ELIZA

I あらゆる入力文に返答するが新しい情報を提示するわけではなく,情報を要求するような返答のみ

I ex. あなたの母はどのような人物ですか?2. A.L.I.C.E

I データベース内の知識資源を使用I データベースの作成や自動更新はコスト大

これらは人手による無数のルールから成る

5 / 32

Introduction (3)

I ELIZA等を含めた多くの chatbotは人手によるルールが必要とするが,そのことについて時折軽視され,ほとんど研究の対象となっていない

I 曖昧なものであるためな厳密なルールを決定しにくく,結局はヒューリスティックな手法にたどり着いてしまう?

6 / 32

Introduction (4)

I あらゆる話題に対応した対話システムの構築を考えた際,自動的な手法をとった方が現実的

I ElIZAや A.L.I.C.Eは用いていない手法I 膨大でコストが低いネット資源は有用

7 / 32

Introduction (5)

I ユーザの発話内の単語から連想される単語を抽出することにおいてWebを利用することはとても効果的

I 今回のシステムでは,ユーザの発話内の全てのキーワードを使って連想語リストを自動的に生成し,最も強い連想関係にある語 (名詞,動詞,形容詞)を返答文に使用

8 / 32

Introduction (6)

I 本研究において,文は客観的な事柄内容である「命題」と話し手の命題に対する捉え方や伝達態度である「モダリティ」からなるとする

I この考えは言語学上の概念としては問題が多く,現在では主流ではない

I この論文ではWeb資源による連想語抽出とモダリティの付与方法を提案し,評価する

I その他にユーモアな発話機能を追加したシステム実験も紹介

9 / 32

Introduction (7)

I このシステムは日本語の入力と出力をするI 最終的な目標は会話できるカーナビだが,今回は命題生成とモダリティの処理に焦点を当てる

I 今回はテキストベースだが,音声認識も計画してある

10 / 32

Extracting Word Associations (1)

ステップ 1I 発話の形態素解析する際,[名詞,動詞,形容詞]をキーワードとして利用する

I 名詞の連なりを一つの名詞と見なす(ex. 自然 言語 処理 -> 自然言語処理)

11 / 32

Extracting Word Associations (2)

ステップ 2I クエリによって検索されたスニペット (記事の要約)の名詞を頻度順に並べる

I 入力文の単語との共起する単語は高い関連性を示すという考えに基づく

I 今回抽出するスニペットは 500I この数字は実行時間と出力の質との兼ね合いで決定

I 例を以下に示す (input: 札幌は寒い)

rank word freqency

1 雪 522 冬 503 気温 164 時期 125 東京 126 天気 11

12 / 32

Evaluation (1)

I ボランティによるユーザ評価I ユーザに自由に発話を入力させ,システムが 10個の連想語を取ってくる (実験では名詞のみ)

I それらの連想語について 1~3で評価するI 1.正しくない, 2.部分的に正しい, 3.完全に正しいI 2と 3はその連想語が有用なものとして判断

I 結果から雑談システムにおいて連想語は効果があることが分かった

I 被験者には実験を 10回行ってもらい,合計 300単語を評価

13 / 32

Evaluation (2)

I 上位 10単語では約 77%の連想語が,上位 5件では約 80%の連想語が有用と判断された

I 上位ほどより正解であろう連想語が取り出すことができるI 検索エンジンからのスニペットのみを利用することによって最新の情報や速度について保証

I 以上からこの webを使った連想語の自動抽出は妥当な手法と判断できる

14 / 32

General Description of the System

システムの概要作成するシステムは以下の処理を行う

1. ユーザ発話について,キーワード抽出2. Webからの連想語抽出3. 連想語を用いた命題生成4. モダリティの生成,命題への付与* 1,2については前述

15 / 32

Generation of Proposition Using Word Associations (1)

命題の生成I 命題は客観的な事柄の提示として表現され,今回 8つのテンプレートを作成

I テンプレートは IRCチャットログから統計値を取った後,主観的に選別

I 基準は頻度とさまざまな文法構造に柔軟に適応できるかI テンプレートを用いて生成された命題が自然なものがどうかをチェックするため,その命題を検索にかけ,件数が少ない(1000件以下)場合は不自然なものと判断

I 不自然な場合は他のテンプレートを使用I 適応されるテンプレートの順番はあらかじめ決定しておく

16 / 32

Generation of Proposition Using Word Associations (2)

処理の流れ1. 連想される上位の [名詞,形容詞,動詞]を選択2. テンプレートに当てはめる3. 生成した命題を検索のヒット件数で評価し,低ければ他のテンプレートを用いる

Template

(名詞) は (形容詞)(名詞) が (形容詞)(名詞) が (動詞)(名詞) は (動詞)それ は (動詞)(名詞)(形容詞)(動詞)

17 / 32

Adding Modality to the Propositions (1)

モダリティを扱うI モダリティで主観的な判断や態度を表現I Nittaらの研究ではモダリティは副詞を通し,文末に現れるI 本システムでは文の始めと終わりの助動詞をモダリティとして定義する

18 / 32

Adding Modality to the Propositions (2)

モダリティの抽出I 明確なモダリティ抽出の定義はなされていないため,質問表現とインフォーマティヴな表現に分けて考える

I モダリティのパターンは IRCチャットログから前もって以下のように抽出する

1. 末尾のパターンとして文末の助動詞と不変化詞 (日本語の助詞にあたる?)のペアを定義

2. クエスチョンマークのある文を質問文として定義3. 文頭の副詞,感情語,接続詞と 1を合わせた表現をイフォーマティヴな表現として定義

4. 得られた候補を頻度順に並べる

19 / 32

Adding Modality to the Propositions (3)

モダリティの例

informative− expression freqency question freqency

まぁ - けど 21 - ですか? 232まぁ - だな 16 - かな? 90まぁ - ですが 16 - だっけ? 87そこで - ですが 15 - ますか? 69まぁ - だが 14 - なの? 68まぁ - ですよ 12 - とか? 55

20 / 32

Adding Modality to the Propositions (4)

モダリティの正誤I 抽出したインフォーマティヴな表現について,685個のパターンのうち 550個のパターン (80%)を主観的に正しいと判断

I 抽出した質問表現について,396個パターンのうち 292個のパターン (73%)を主観的に正しいと判断

21 / 32

Adding Modality to the Propositions (5)

モダリティの付与I 人間の発話は命題とモダリティから成ると仮定I モダリティのパターンはランダムに決定

I しかし,不自然な命題とモダリティのペアが出来上がる可能性も

I ex. 冬は寒いですよね?I 出来上がった文末部分のフレーズを検索し,ヒット件数でペアの正誤を判断する (実験では 100件)

22 / 32

Experimental Results (1)

システムの評価I 命題のみ利用するシステムと命題とモダリティを利用するシステムを比較

I 5名の被験者がシステムと 10ターンのやり取りをし,6つの観点を 5段階で評価をする

I A(会話を続けたい),B(文法が正しい),C(意味的に自然である),D(語彙が豊富),E(知識が豊富),F(人間味がある)

I 結果として,モダリティを利用した方がシステムの発話をより自然に感じさせる

23 / 32

Experimental Results (2)

会話例

user 何か好きな食べ物ある?system まぁ,食べ物はおいしいですuser 最近はお酒も好きになって来たんだsystem でも,酒は弱いのよねuser 弱いんだ..すぐ酔っちゃうの?system まぁ,それはすごいわねuser 僕は割とお酒は強い方なんだsystem いやぁ,それは強いんで

user 今日は少し肌寒いよね. 夏なのにsystem 朝は肌寒いとか?user 朝から肌寒かったねsystem あぁ,今日は早いな

24 / 32

The System as a Platform

さらなる試みI 様々なモジュールやアルゴリズムを追加したプラットフォームとして働くシステムとしても試みている

I これにより対話システムを改良する新しい考えをテストする環境を構築できる

I ここで,発話内の感情の大きさの推定,およびダジャレ生成機能についての試みを紹介

25 / 32

Testing Affect Analysis

感情分析I Ptaszynskiらが日本語の文書において感情分析の手法を提案I 一般的な感情を表す前後関係を決定し,発話内の特定の感情タイプを抽出する

I ウェブマイニングの技術も使用I 感情タイプの抽出において 65%の水準で人間と同等の性能を発揮

I 現在雑談システムに実装し感情認識が発話行為にどのように影響するかやモダリティの効率的な決定についてテストしている

26 / 32

Implementing PUNDA system

ユーモア表現を用いたシステムの改善I Dybalaらがダジャレ生成の手法を提案

1. 入力文を分析し,ダジャレ候補を生成2. 同音声,始め,内部,最後のmora addition(?)の 4つパターンのいずれかによってダジャレに変形できそうな単語やフレーズを選択

I 入力文と関連する応答のため,「◯◯と言えば」から始まる文を生成

I 残りの箇所はWebから抽出され,クエリとして検索されるI もしも候補文が無い場合はダジャレデータベースからダジャレをランダムに選択

27 / 32

Experiment results (1)

ユーモア表現を用いたシステムの評価I 提案した対話システムとそれにユーモア表現の機能を追加したシステムとを比較

I 8つの観点で 5段階で評価I A(会話を続けたい),B(文法が正しい),C(意味的に自然である),D(語彙が豊富),E(知識が豊富),F(人間味がある),G(会話を面白くしようしたことを感じた),H(会話は面白かった)

28 / 32

Experiment results (2)

ユーモア表現を用いたシステムの評価I 結果はユーモア表現の機能があるシステムの方がスコアが高かった

29 / 32

A Toolkit for Conversation-Related Experiments

I 本システムは対話処理に関する実験をサポートするツールに分解可能

I 人との会話ログの収集としても利用可能

30 / 32

Conclusion and Future Work (1)

結論I あらかじめ膨大な量のルールやデータを用意せずとも,自動で発話を生成する対話システムの作成

I 連蔵語を用いた命題生成I 抽出したモダリティの付与

I 連想語,モダリティは共にシステムを改善するものであった

31 / 32

Conclusion and Future Work (2)

今後の課題I 連想語についてだけでなく,ユーザやシステムのプロフィールなどの情報の獲得

I ユーザのモダリティの認識I ELIZAなどとの比較

32 / 32