自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … ·...

44
平成 26 年度 公立はこだて未来大学卒業論文 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システムの検討 越後谷 萌子 情報アーキテクチャ学科 b1011107 指導教員 迎山 和司 提出日 2015 1 30 Study of a Support System which Picked Keywords Up with Natural Language Processing for Book Illustrations by Moeko ECHIGOYA BA Thesis at Future University Hakodate, 2015 Advisor: Kazushi MUKAIYAMA Department of Media Architecture Future University Hakodate January 30, 2015

Upload: others

Post on 29-Oct-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

平成 26年度 公立はこだて未来大学卒業論文

自然言語処理を用いた小説の挿絵のためのキーワード抽出システムの検討

越後谷 萌子

情報アーキテクチャ学科 b1011107

指導教員 迎山 和司提出日 2015年 1月 30日

Study of a Support System which Picked Keywords Upwith Natural Language Processing for Book Illustrations

by

Moeko ECHIGOYA

BA Thesis at Future University Hakodate, 2015

Advisor: Kazushi MUKAIYAMA

Department of Media Architecture

Future University Hakodate

January 30, 2015

Page 2: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Abstract– Book illustrations are helpful when you want to understand story. In this research,

we think a Support System which Picked Keywords Up with Natural Language Processing for

Book Illustrations. Three informations needed to draw Book illustrations are ”Features of charac-

ter” ”Gesture of character” ”Scenery of story”, and we defines the range of story when extracting

the keywords. And actually we compared keywords extracted with ”KH Coder” and ”CaboCha”

to keywords extracted by human power. The next, we will review the conditions for extracting

keywords in order to increase the matching rate of the extraction results.

Keywords: natural language processing, book illustration, novel

Page 3: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

概 要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用いた小説の挿絵を描くために必要なキーワードを抽出するシステムの検討を目的とする.挿絵とは小説の一場面を描いた図であり,文章に記述された登場人物や場所などの情報が含まれている.本研究では挿絵に必要な情報を定義し,コンピュータによる挿絵に必要な情報の抽出を試みた.すなわち,人間が挿絵を描く際の「物語を読み理解する」「挿絵に必要な情報を取捨選択する」過程に相当する部分である.挿絵に必要な情報の定義は調査と検証の結果から,「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」の3つの分類が妥当であるとわかった.検討したシステムはKH Coderと CaboChaの解析結果を人力により組み合わせることで,挿絵に必要な情報をキーワードとして抽出した.しかし,評価を行った結果,抽出結果について雑情報が混じっていることがわかり,小説の場面毎での分類が必要であると推察された.今後の課題として,キーワードを抽出するときの条件を雑情報を取り除くために精査すること,検討したシステムの抽出結果についてコンピュータで自動化し出力できるシステムの開発を行う必要がある.

キーワード: 自然言語処理,挿絵,小説

Page 4: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

目 次

第 1章 序論 1

1.1 目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

第 2章 関連研究 2

2.1 シナリオの内容を反映した挿絵の生成手法 . . . . . . . . . . . . . . . . . . 2

2.2 物語からの絵の自動生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.3 物語テキストを基にした漫画のコマの生成手法の提案 . . . . . . . . . . . . 3

第 3章 挿絵が含む情報の調査 4

3.1 挿絵が指している情報の分布調査 . . . . . . . . . . . . . . . . . . . . . . . 4

3.2 登場人物に関するキーワードの抜き出し調査 . . . . . . . . . . . . . . . . . 6

3.3 挿絵に必要な情報の定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

第 4章 挿絵に必要な情報の検証 8

4.1 コンピュータの処理を模倣した挿絵の生成実験 . . . . . . . . . . . . . . . . 8

4.1.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.1.2 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.2 挿絵に必要な情報の再定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

第 5章 挿絵に必要な情報の再検証 11

5.1 コンピュータの処理を模倣した挿絵の生成実験 . . . . . . . . . . . . . . . . 11

5.1.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.1.2 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.2 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

第 6章 検討したシステム 14

6.1 概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

6.2 使用した解析エンジン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6.2.1 KH Coder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6.2.2 CaboCha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6.3 KH Coderによるキーワード抽出 . . . . . . . . . . . . . . . . . . . . . . . 17

6.3.1 登場人物の特徴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6.3.2 登場人物が行っている動作 . . . . . . . . . . . . . . . . . . . . . . . 18

6.3.3 登場人物がいる場所 . . . . . . . . . . . . . . . . . . . . . . . . . . 18

6.4 CaboChaを使ったキーワードの補完 . . . . . . . . . . . . . . . . . . . . . 19

i

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 5: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第 7章 検討したシステムの評価 20

7.1 キーワードの一致率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

7.1.1 目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

7.1.2 評価方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

7.1.3 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

7.2 小説と挿絵の内容の対応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

7.2.1 目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

7.2.2 被験者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

7.2.3 手続き . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

7.2.4 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

第 8章 考察 24

8.1 抽出したキーワードの一致率 . . . . . . . . . . . . . . . . . . . . . . . . . . 24

8.2 小説と挿絵の内容の対応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

8.3 キーワードの定義の妥当性 . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

第 9章 結論と今後の課題 27

9.1 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

9.2 今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

付 録A 30

付 録B 31

付 録C 32

ii

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 6: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第1章 序論

本研究の目的と,それに至った背景を以下に述べる.

1.1 目的本研究の目的は,自然言語処理を用いた小説の挿絵を描くために必要なキーワードを抽出するシステムの検討である.対象とする小説は限定しないものとするが,本研究では文章を解析するにあたって主にショートショートを使用する.ショートショートとは短い小説作品のことで,長さに厳密な定義はないが,一般的には 8000字以内の小説を指す.

1.2 背景本研究は「きまぐれ人工知能プロジェクト作家ですのよ [1]」の関連研究である.このプロジェクトでは参考にすべき作家として星新一を挙げ,人工知能に星新一のようなショートショートを創作させる研究を行っている.本研究が目指すコンピュータによる小説からの挿絵の自動生成は,このプロジェクトの目的から見ると二次的なものである.しかし,物語を挿絵の観点から見ることにより,現状難しいとされるコンピュータによる創作活動について有益な知見が得られないかと考えている.挿絵とは文章の一場面を描いた図であり,読者が文章を理解する際の手助けとなっている [2].例えば,読者の対象年齢が低い児童書や,キャラクターの説明に重点を置くライトノベルには,読者の理解を促す目的で挿絵がついている.これらの挿絵には,文章に記述された登場人物や場所などの情報が含まれている.ただし,文章には記述されていない,人間が挿絵を描く際に行間を読み補完した情報も含まれる場合がある.以上のことから逆説的に,物語の行間を読むことができないコンピュータに挿絵を自動生成させた場合,その挿絵は読者が文章を理解する際の手助けと成り得るのかという問いが得られる.以上のことから本研究では,挿絵に含まれる情報を調査・分析し挿絵を描くために必要なキーワードを抽出するシステムを,自然言語処理を用いて実装できるか検討する.すなわち,人間が挿絵を描く際の「物語を読み理解する」「挿絵に必要な情報を取捨選択する」過程に相当する部分を,コンピュータで自動化することである.

1

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 7: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第2章 関連研究

本研究は,挿絵の創作に必要な情報をコンピュータで抽出することに重点を置いているが,先行研究としてコンピュータに絵や文章を創作させるものが多数存在する.以下に関連する先行研究を紹介する.

2.1 シナリオの内容を反映した挿絵の生成手法シナリオの内容を反映した挿絵の生成手法 [3]では,シナリオ内の難解な文章を検出しその部分に相当する挿絵画像を自動的に生成するシステムの提案を行っている.この研究では,挿絵の生成の際,5W1Hにおける「Where(場所)」「When(いつ)」

「Who(誰が)」「What(なにをした)」という4つの情報に着目している.また,評価実験の結果からWhereの情報を提示する背景画像が挿絵には必須であると述べている.しかし,必須であるとしたWhereの情報は,文章からの正確な抽出が難しいと述べている.Whatの情報についても,期待した画像の検索結果が得られず今後の課題となっている.実際に生成された挿絵の一例を図 2.1に示す.

図 2.1: 実際に生成された挿絵 [3]

2.2 物語からの絵の自動生成物語からの絵の自動生成 [4]では絵本に注目し,物語に「場面分割」の処理をした上で分割した場面それぞれに「主要人物抽出」を行い絵を自動生成する.

2

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 8: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

絵生成では物語の文章の行間について,明記されていない情報を絵に盛り込むために以下のアプローチを行っている.はじめに,場面の中で注目する文を決めそれを行う人物を選択し,予め 23の型に分けられた動詞に対応するポーズを 3Dモデルで配置する.つぎに,動作主や動作受け手の多角的な視点から,カメラで写真を撮るように絵を生成する.今後の課題として生成された絵の評価や,物語の文脈を考慮した文章解析の実現が挙げられる.

2.3 物語テキストを基にした漫画のコマの生成手法の提案物語からの絵の自動生成 [5]では,物語テキストから漫画を自動生成するという大目標のために,漫画の設計図にあたるコマ割の決定手法について基礎研究を行っている.このシステムではユーザが物語テキストを入力すると,内部で「登場人物の推定」「動詞と場面が変わる点の抽出」「コマの大きさを決める重要度の決定」を行いコマ割りを出力する.システムの評価では,アンケートによる比較実験および被験者実験を行っている.その結果から,動詞抽出において必要な情報が網羅されていることや,コマの大きさを決める重要度は妥当であることがわかっている.一方で,被験者の意にそぐわないコマ割りも見られたことから,今後の課題としてユーザが任意でコマを削除できるようなアルゴリズムの確立などを挙げている.

3

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 9: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第3章 挿絵が含む情報の調査

挿絵に関する2つの調査を行い,挿絵を描くために必要な情報を検討した.

3.1 挿絵が指している情報の分布調査挿絵を描く際に小説の中で参照された文が,文章のどの位置に分布しているか調査を行った.調査方法は 36編の小説 [6][7]から,小説を構成する文の総数を数えた上で,挿絵を描く際に参照された文が何文目からであるか開始位置と終了位置を調べた.このとき,文は句点で区切られたものを1文とした.例外として,台詞のかっこ (「」や〈〉)内でとじかっこにより句点が省略された文については1文としてカウントした.挿絵は登場人物の動作を描いたものや風景を描いたものなど様々で,和田誠のものが 16枚,片山若子のものが 20枚であった.また,調査した 36編の小説は全て星新一のショートショートで,2名の挿絵が重複しないよう全て違うタイトルを使用した.その結果を以下の表 3.1に示す.参照された文の平均は約 17文であった.

表 3.1: 小説の総文数と挿絵を描く際に参照された文の開始位置(和田誠) [6]

小説タイトル 総文数(文) 参照開始 終了 参照開始 2 終了 2

調整 116 12 28

ねむりウサギ 250 31 43

商品 128 1 2 16 33

国家機密 149 0 4 9 13

宿命 74 0 6 25 35

思わぬ効果 115 0 9 24 34

ガラスの花 107 0 8

服を着たゾウ 131 29 40

さまよう犬 24 0 7

女神 195 0 8 18 23

鍵 209 8 13

繁栄への原理 116 32 53 57 62

遭難 168 47 79

金の力 220 44 61

黄金の惑星 227 3 12 77 105

敏感な動物 238 5 8 17 36

4

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 10: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

この結果について文章の始まりを0,終わりを 100とした場合の分布図 (図 3.1)を作成した.

図 3.1: 挿絵を描く際に参照された文の分布図(和田誠) [6]

また,違う挿絵作家が挿絵を描いている小説 [7]について,同様の調査を行った結果が以下の図 3.2である.

図 3.2: 挿絵を描く際に参照された文の分布図(片山若子) [7]

以上の2つの図から,挿絵を描く際に小説の中で参照された文は,文章の前半に分布する傾向があるとわかった.すなわち,挿絵は物語への導入として用いられていると考えられる.また,参照された文の内容は,挿絵に描かれた登場人物を中心としたその場面における動作や場所であった.

5

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 11: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

3.2 登場人物に関するキーワードの抜き出し調査小説の登場人物を挿絵に描く際に参照されているキーワードを抜き出しまとめた上で,関連・パターンなどがないか調査した.キーワードは,登場人物の性別,年齢,性格,容姿,職業などを断言している部分とする.調査を行った小説は,SF作品が 19編(星新一の悪魔が出てくるショートショート),歴史創作小説2冊,ファンタジー小説3冊,ライトノベル5冊,純文学5編の計 34作品であった.以下に作品一覧を表 3.2として示す.

表 3.2: 調査した作品一覧

ジャンル 小説タイトルSF 悪魔/鏡/よごれている本/悪魔のささやき/窓/敬服すべき一生

魔法の大金/華やかな三つの願い 1-5/とりひき/悪魔の椅子/条件はじめての例/親しげな悪魔/お願い/ゲーム

歴史創作 燃えよ剣/花神ファンタジー ハリー・ポッターと賢者の石/指輪物語/十二国記 月の影 影の海(上)ライトノベル キノの旅 1/涼宮ハルヒの憂鬱/デュラララ!!/テイルズオブジアビス 1

クビキリサイクル純文学 浮雲/舞姫/こゝろ/羅生門/銀河鉄道の夜

結果は,登場人物に関する情報は小説の決まった位置に分布しておらず,品詞などのパターンが見られなかった.一方で,これらの小説はキーワードが7以上か4以下のものに分別でき,比較することで登場人物を構成するキーワードの分類を絞り込むことができた.キーワード7以上の小説をキーワードが多かった小説,キーワード4以下の小説をキーワードが少なかった小説とし,比較した結果を図 3.3として示す.

図 3.3: 登場人物に関するキーワードの比較

6

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 12: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

キーワードが多かった小説は,イラストを全面に押し出したライトノベルや伝記に近い歴史創作小説,非日常を描くファンタジー小説であった.これらの小説は登場人物について平均8キーワードがあり,性別・年齢・職業などの他に体格や髪色,服装などをキーワードとして抜き出すことができた.キーワードが少なかった小説は,日本文学や日常を基板とした SF作品であった.これらの小説は登場人物について 4キーワード以下のものが多く,性別や年齢,職業のいずれか,または名前のみがキーワードとして抜き出せる場合のどちらかに分類された.これらの結果を比較した際,どちらの小説にも見られる登場人物のキーワードは「性別」

「年齢」「職業」の3つであることがわかった.

3.3 挿絵に必要な情報の定義2つの調査結果から挿絵に必要な情報について仮説を立て,キーワードを抽出する際の条件について定義する.本研究では,登場人物の「性別」「年齢」「職業」を物語の前半から参照すると,挿絵を描けるのではないかという仮説を立てた.すなわち,挿絵に必要な情報は,文章の前半にある登場人物の「性別」「年齢」「職業」である.登場人物を軸とした理由は,文章中に複数回単語として出てくるためである.したがって,コンピュータを用いてキーワードを抽出する際に結果が得やすいと考えられる.また,登場人物に関する3つの要素は,登場人物に関するキーワードの比較の結果に基づいている.参照する範囲については,挿絵が指している情報の分布調査の結果を参考とした.以上の条件を仮説1とし,概念図を以下の図 3.4に示す.

図 3.4: 仮説1の概念図

7

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 13: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第4章 挿絵に必要な情報の検証

第3章で定義した挿絵を描くために必要な情報(仮説1)が妥当であるか検証を行った.

4.1 コンピュータの処理を模倣した挿絵の生成実験本実験では,コンピュータの処理を模倣し挿絵を描く実験を行った.ここで述べるコンピュータの処理とは,文章から取り出したキーワードのみから挿絵を生成することである.

4.1.1 実験方法

実験方法は,被験者に読んだことがない小説について,2種類の挿絵を描いてもらい比較を行うものであった.実験の前準備として小説の前半から,登場人物の特徴を人力で抽出した.抽出したキーワードは第 3章の調査から得られた登場人物の「性別」「年齢」「職業」と,その他の情報に分類した.また,挿絵を描きやすそうな場面を「シーン」として,いくつか候補を挙げた.このシーンの中には,登場人物が行っている動作や,いる場所の情報が含まれていた.はじめに,被験者には物語の前半にある登場人物の「性別」「年齢」「職業」のみを提示し,挿絵を描くように教示した.つぎに,その他の情報とシーンを提示し,挿絵を描くように教示した.全ての挿絵を描き終わったあとで被験者に小説本文を読んでもらい,挿絵を描くにあたって必要だと感じた情報はどれであったか,インタビュー形式による聞き取りをインターネット上で行った.

4.1.2 結果

本実験の結果の一例を示す.実験に使用した小説は星新一の「親しげな悪魔」で,「あまりぱっとしない青年が,病院帰りに老人に化けた悪魔に話しかけられる」シーンであった.実際に被験者に提示した情報を表 4.1に示す.

8

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 14: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 4.1: 被験者に提示した情報

登場人物 提示した情報(左図) 提示した情報(右図)青年 性別:男 あまりパッとしない外見

年齢:青年 体が弱い職業:独身というだけで分からず

悪魔 性別:男 ニヤニヤ笑ってる年齢:老人に化けている職業:悪魔

シーン 病院からの帰り道青年が悪魔に話しかけられる

表 4.1にある情報を元に,被験者が描いた挿絵が以下の図 4.1であった.左側の挿絵が登場人物の「性別」「年齢」「職業」のみ,右側の挿絵がその他の情報とシーンを提示したあとの挿絵である.

図 4.1: 親しげな悪魔の実験結果

聞き取りにおいて被験者は,「左図は悪魔という登場人物からファンタジーな世界観を想像した」と述べた.右図で実際の内容に近い挿絵となったのは,「病院帰りという情報から世界観が現代になった」と述べた.本文を読んだ上で,左図で提示された情報に足りないものはあるかという質問には,「登場人物の表情,風貌,状況などの様子について詳細な情報が欲しかった」と述べた.他の被験者についても同様の聞き取りを行ったところ,左図で提示された情報に足りないものは,登場人物の詳細な特徴と,シーンの中でも特に登場

9

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 15: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

人物が行っている動作について情報であると結果が得られた.以上の結果から,第3章で立てた仮説1の定義は不十分であったと考えられる.また,不足していた情報は,登場人物の詳細な特徴と,シーンの中でも特に登場人物が行っている動作であるとわかった.

4.2 挿絵に必要な情報の再定義以上の実験結果から,仮説1は挿絵に必要な情報として不十分であるとわかったため,再度キーワードを抽出する際の条件について見直し再定義した.仮説1に対して以下の条件を仮説2とする.はじめに,挿絵に必要な情報を「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」の 3つに分類する.登場人物を軸としたのは仮説1と同じく,コンピュータを用いてキーワードを抽出する際に結果が得やすいと考えられるためである.「登場人物の特徴」は,仮説1における登場人物の「性別」「年齢」「職業」も含む,特徴であると考えられる情報全てとする.「登場人物が行っている動作」と「登場人物がいる場所」は,仮説1の検証実験の中で「シーン」としていたものを参考に分類した.つぎに,定義した 3つの情報それぞれに,キーワードを抽出する際の範囲について定義する.「登場人物の特徴」については,登場人物に関するキーワードの抜き出し調査の結果に基づき小説の全文から抽出する.「登場人物が行っている動作」と「登場人物がいる場所」については,挿絵が指している情報の分布調査の結果に基づき小説の前半から抽出する.以下に仮説2についての概念図 (図 4.2)を示す.

図 4.2: 仮説2の概念図

10

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 16: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第5章 挿絵に必要な情報の再検証

第4章で再定義した挿絵を描くために必要な情報(仮説2)が,妥当であるか検証を行った.

5.1 コンピュータの処理を模倣した挿絵の生成実験本実験は仮説2に基づき,第4章で行った検証実験と同様の実験を,1編の小説に対して3名の被験者で行った.

5.1.1 実験方法

実験方法は第4章と同様に,読んだことがない小説について被験者に2種類の挿絵を描いてもらい,比較を行うものであった.ただし,被験者に提示する情報は,抽出したキーワードと小説に変更した.実験の前準備として,仮説2に基づきキーワードを人力で抽出した.この際,抽出したキーワードの客観性を担保するため,5名が同様の抽出を行い4名以上が抽出した部分をキーワードとした.すなわち,一致率が 80%以上の部分を,キーワードとした.抽出したキーワードは,「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」に分類した.この際,3つの分類のうちキーワードがなかった登場人物に関しては,仮説2の検証という目的のため除外する.はじめに,被験者には人力で抽出したキーワードのみを提示し,挿絵を描くように教示した.つぎに,小説の本文を提示し,全部読んだ上で前半部分から挿絵を描くように教示した.全ての挿絵を描き終わったあとで,被験者に対して以下の2点の質問を行った.

• 質問1:一枚目の情報は足りていましたか.

• 質問2:二枚目を描いた上で,一枚目にほしいと思った情報はありますか.

5.1.2 結果

本実験の結果の一例を示す.実験に使用した小説は星新一の「悪魔」で,登場人物は語り部である「エス氏」と「悪魔」であった.ただし,「エス氏」という登場人物について,「登場人物の特徴」に関するキーワードが得られなかった.この結果から本実験では,全ての情報が得られた「悪魔」についてのみ,抽出したキーワードを使用した.実際に被験者に提示した情報を,以下の表 5.1に示す.

11

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 17: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 5.1: 被験者に提示したキーワード

登場人物 登場人物の特徴 登場人物の動作 登場人物のいる場所悪魔 色の黒い小さな男 立っている 湖

耳がとがっていて にやにや笑ったような顔で答えた 北の国しっぽがあった ツボにはいり,湖の底で眠っていたのだ

表 5.1にある情報を元に,被験者が描いた挿絵が以下の図 5.1であった.左側の挿絵が抽出したキーワードのみ,右側の挿絵が小説本文を読んだあとで描いた挿絵である.

図 5.1: 悪魔の実験結果

実験後に行った質問について,結果を以下に述べる.質問1については,2名が足りていたと述べた.足りなかったと述べた1名は,「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」という3つの分類はわかりやすかったが,それぞれについて更に詳細な情報が欲しかったと述べた.質問2については,3名とも別の回答が得られた.回答の内容は,「特になし」「季節について知りたかった」「語り手(エス氏)の情報が欲しかった」であった.

12

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 18: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

5.2 考察以上の検証結果から考察を行った.質問1の結果から,仮説2における「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」という3つの分類は,挿絵に必要な情報の定義として妥当であると考えられる.ただし,質問1で足りなかったと述べた被験者がいたことや,質問2の回答からそれぞれについて詳細な情報が求められていることがわかった.また,2種類の挿絵を比較した結果から,「エス氏」のような語り部となる登場人物の情報を除外しても,挿絵は成り立つことがわかった.ただし,被験者が小説を読んだ上で描いた挿絵には,登場人物が全て描かれる傾向があった.

13

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 19: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第6章 検討したシステム

本研究はコンピュータによる挿絵の自動生成を目標としているため,キーワードを抽出するシステムを実装する必要がある.本章では本研究で検討したシステムについて述べる.

6.1 概要本研究で検討したシステムは KH Coderと CaboChaの解析結果を組み合わせている.挿絵に必要な情報は「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」の3つである.はじめに,抽出対象となる登場人物を一人決め,KH Coderで挿絵に必要な情報それぞれについてキーワードを単語で抽出した.つぎに,CaboChaで「登場人物の行っている動作」のキーワードについて,動作の態と目的語の補完を行った.以下に検討したシステムのフロー図 (図 6.1)を示す.コンピュータが自動で処理を行った要素は実線で示した.また,人間が手動で処理を行った要素は破線で表している.

図 6.1: 検討したシステムのフロー図

14

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 20: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

6.2 使用した解析エンジン6.2.1 KH Coder

本研究ではKH Coder[8]を用いて,小説から「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」の抽出を試みた.はじめに,前処理として登場人物の名前をタグ付けし強制抽出の対象とした.つぎに,関連語検索から強制抽出した登場人物を指定し,共起ネットワークを出力した.共起ネットワークは選択した単語を中心として,分析するテキストからリストアップされた関連のある単語を線で結び図を描く機能である.ただし,関連語検索でリストアップされた単語が5つ未満の場合,KH Coderの仕様により共起ネットワークを出力することはできない.以下に結果の一例を図 6.2に示す.

図 6.2: 共起ネットワークの結果例

15

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 21: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

この図は「悪魔」という登場人物を中心としてネットワークを形成している.周りの単語がネットワークの中でどの程度中心的な役割を果たしているかは色分けによって示されており,水色・白・ピンクの順に中心性 [9]が高くなる.色分けのパターンは機能として6種類あり,中心性だけでも「媒介中心性」「次数中心性」「固有ベクトル中心性 (ボナチッチ中心性)」の3種類に対応している.本研究では,共起ネットワークの結果を「固有ベクトル中心性 (ボナチッチ中心性)」で色分けし,中心性が高いと判断された単語をキーワードとしている.

6.2.2 CaboCha

上述の KH Coderの他に係り受け解析に特化したエンジンとして CaboCha[10]を用いて,「登場人物が行っている動作」について削除された情報を補完できないか試みた.ここで述べる削除された情報とは,主に動作の態(受動・能動)と目的語のことを指す.本研究では CaboChaをターミナル上から使用し,主に簡易 Tree表示(図 6.3)と XML表示(図 6.4)で結果の出力を行った.

図 6.3: 簡易 Tree表示における出力結果

図 6.4: XML表示における出力結果

16

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 22: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

6.3 KH Coderによるキーワード抽出KH Coderによるキーワードの抽出方法について,例として星新一の「悪魔」というショートショートを挙げ,KH Coderで抽出したキーワードと人力で抽出したキーワードを比較しながら3つの項目に分け説明する.キーワードを抽出した際の条件としてKHCoderの設定を,以下の表 6.1に示す.

表 6.1: キーワード抽出時のKHCoderの設定

抽出する情報 抽出する範囲 フィルタ設定登場人物の特徴 全文 名詞・サ変名詞・形容動詞・固有名詞・組織名・

人名・地名・ナイ形容・未知語・タグ・形容詞・名詞 C

登場人物が行っている 前半のみ 名詞・サ変名詞・固有名詞・組織名・人名・地名・動作 副詞可能・未知語・タグ・動詞・副詞・名詞 C・

否定助動詞登場人物がいる場所 前半のみ 名詞・固有名詞・組織名・地名・未知語・名詞 C

6.3.1 登場人物の特徴

人力で抽出した「登場人物の特徴」は,「悪魔」という登場人物について「色の黒い小さな男・耳がとがっていて・しっぽがあった」というキーワードであった.KH Coderで抽出したキーワードは以下の図 6.5に示す.この際「金貨」というキーワードは,中心性が低いので除外する.

図 6.5: 「登場人物の特徴」についてのキーワード

17

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 23: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

6.3.2 登場人物が行っている動作

人力で抽出した「登場人物が行っている動作」は,「エス氏」という登場人物について「やってきた・丸い穴をあけた・糸をたらして,魚を釣ろう」という場面であった.KH

Coderで抽出したキーワードは以下の図 6.6に示す.

図 6.6: 「登場人物が行っている動作」についてのキーワード

6.3.3 登場人物がいる場所

人力で抽出した「登場人物がいる場所」は,「エス氏」という登場人物について「湖・北の国」であった.KH Coderで抽出したキーワードは以下の図 6.7に示す.

図 6.7: 「登場人物がいる場所」についてのキーワード

18

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 24: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

6.4 CaboChaを使ったキーワードの補完KH Coderで抽出したキーワードを含む文をCaboChaで係り受け解析することで,キーワードに関する動作の態(受動・能動)と目的語の情報を補完した.この際,係り受け解析をするキーワードの品詞は動詞とする.ここでは「登場人物が行っている動作」における,KH Coderからの抽出結果を例に説明する.図 6.5に示したとおり「登場人物が行っている動作」についてのキーワードは,「釣る」「氷」「楽しむ」「糸」「休日」「魚」「穴」「湖」の8つで,品詞が動詞であるのは「釣る」「楽しむ」の2つである.ただし,ここでは「釣る」というキーワードに絞って手順を説明する.はじめに,「釣る」というキーワードが含まれる文を本文中から検索する.この際,検索の範囲は表 6.1に示した抽出する際の範囲に従うものとする.文の検索はKH Coderの関連語抽出における検索機能を使用した.「悪魔」の前半部分には,該当するキーワードを含む文が1文あった.つぎに,検索した文について係り受け解析を行いXML表示で出力する.出力結果からキーワードが含まれる文節を参照する.この文節が文中で何番目にあるかは,chunk idの値に格納されている.最後に,キーワードが含まれる文節に係っている文節を「目的語」,キーワードが含まれる文節を受けている文節を「動作の態」として補完する.係り受け先については,link

という値で指定されている.以上の方法で「釣る」というキーワードに補完された情報は,「目的語」は「たらして,魚を」であった.動作の態については,文末であったため見られなかった.以下の図 6.8

に実際に行った係り受け解析の結果を簡易 Tree表示で示す.

図 6.8: 「釣る」というキーワードを含む文の係り受け解析結果(簡易 Tree表示)

19

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 25: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第7章 検討したシステムの評価

本研究で検討したシステムについて,2つの側面から評価を行った.

7.1 キーワードの一致率検討したシステムで抽出したキーワード(以下,コンピュータで抽出したキーワード)と,人間が小説を読み抽出したキーワード(以下,人力で抽出したキーワード)がどの程度一致しているのか評価を行った.

7.1.1 目的

コンピュータはどの程度正確なキーワードを抽出できるのか,コンピュータで抽出したキーワードと人力で抽出したキーワードを比較し,評価することを目的とした.

7.1.2 評価方法

コンピュータで抽出したキーワードと人力で抽出したキーワードが,どの程度一致しているのかを百分率で評価した.今回対象としたのは,星新一の登場人物として悪魔が出てくる5編の小説であった.はじめに,コンピュータでのキーワードの抽出を,本研究で検討したシステムの通りに行った.つぎに,人力でのキーワードの抽出を仮説2に基づき行った.この際,抽出の対象となる登場人物は比較という目的のため,コンピュータで抽出した際のものと統一した.評価は「コンピュータで抽出したキーワード」の集合を A,「人力で抽出したキーワード」の集合を Bとしたとき,以下の式で計算した.

キーワードの一致率 =P (A ∩B)

P (A ∪B)× 100

7.1.3 結果

結果について以下の表 7.1に示す.特徴は「登場人物の特徴」,動作は「登場人物が行っている動作」,場所は「登場人物がいる場所」の略である.また,詳細な結果は付録Aの表A.1に添付する.

20

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 26: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 7.1: キーワードの一致率の評価結果

小説タイトル 特徴 動作 場所契約者 0.00 0.00 28.57

よごれている本 0.00 14.29 40.00

鏡 0.00 17.39 9.09

悪魔のささやき 33.33 18.18 0.00

とりひき 0.00 16.67 33.33

平均値 6.67 13.31 22.20

全体の結果として一致率の最小は 0.00%,一致率の最大は「よごれている本」の 40.00

%であった.また,挿絵に必要な情報ごとの平均値では「登場人物のいる場所」についての値が一番高く,「登場人物の特徴」についての値が一番低い結果となった.「登場人物の特徴」については,一致率が 0.00%のものが5編中4編という結果であった.「登場人物の行っている動作」については,CaboChaによる補完を行ったが平均約 13

%であった.「登場人物がいる場所」については,上述の2つの情報より一致率が高いものもあったが,平均すると2割程度となった.

7.2 小説と挿絵の内容の対応検討したシステムの抽出結果のみから描いた挿絵と,小説を読んだ上で描いた挿絵について,それぞれ挿絵が本文の内容と合っているか評価を行った.

7.2.1 目的

検討したシステムで抽出したキーワードから挿絵を描いた場合,小説の挿絵として成り立っているのか,読者の観点から検証を行うことを目的とした.

7.2.2 被験者

被験者は,公立はこだて未来大学の学生 15名であった.

7.2.3 手続き

はじめに,被験者に評価用のアンケート用紙を渡し,以下の2種類の挿絵があることを明示した.

• A:検討したシステムの抽出結果から小説を読まずに描いた挿絵

• B:小説の本文を読んだ上で描いた挿絵

21

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 27: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

この際,被験者には挿絵の絵柄を見せないでおく.その後,挿絵の評価については絵の上手下手ではなく,小説の内容と対応しているかという観点で行うと教示した.つぎに,2種類の挿絵からランダムに選んだ1枚を,小説の本文に添えて被験者に提示した.提示していない方の挿絵は被験者に見えないようにした.また,被験者に小説を読み終えて一枚目の挿絵について評価できるようであれば,次の挿絵を提示すると教示した.小説と2種類の挿絵を見たあと,それぞれの挿絵について 100点満点で評価しアンケート用紙に記入するよう被験者に教示した.この際,被験者には評価軸や採点基準などを明示せず,はじめに教示した評価観点から主観的に評価を行ってもらった.最後に,被験者に対して点数をつけた理由について,インタビュー形式で聞き取りを行った.以上の評価を5編の小説に対して,それぞれ3名ずつ計 15名に行った.実際に使用したアンケート用紙は付録 Bに示す.同様に使用した挿絵も付録 Cとして添付する.

7.2.4 結果

結果は Bよりも Aがふさわしいと評価した被験者は1名もいなかった.詳細を以下の表 7.2に示す.

表 7.2: 小説と挿絵の内容の対応についての評価結果

小説タイトル A B

契約者 20 30

60 80

20 100

よごれている本 10 90

0 100

5 90

鏡 40 90

50 80

0 70

悪魔のささやき 30 100

30 80

20 90

とりひき 60 95

13 100

10 80

平均 24.53 85

点数をつけた理由について,被験者に行った聞き取りの結果を述べる.Aについては,過半数以上の被験者が挿絵に描かれている要素はあっているが,状況や場面が違っていたと述べた.Bについては,13名の被験者が読んだ小説の内容と合ってい

22

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 28: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

たと述べた.一方で,Bについて平均よりも低い 30点をつけた被験者は,挿絵は小説全体の要約であると考えていると述べた.

23

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 29: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第8章 考察

第7章で行った2つの評価から,検討したシステムについて考察を述べる.

8.1 抽出したキーワードの一致率抽出したキーワードの一致率が全体的に低い理由は,コンピュータでキーワードを抽出する際に必要のない情報(以下,雑情報とする)が混じったためと考えられる.例えば,「登場人物の特徴」について「契約者」や「よごれている本」では,人力で抽出したキーワードの数がそもそも0であった.この際,一致率が 100%となるためには,コンピュータで抽出したキーワードの数も0でなければならない.しかし,キーワードが0となる結果は共起からキーワードを抽出するというシステムの仕様上,本研究で行った範囲の解析では見られなかった.この他に考えられる原因は,他の登場人物に関する特徴が混じっていたことや,動詞に係っている目的語の名詞が特徴として抽出されたことが挙げられる.また,「登場人物のいる場所」については,KH Coderのフィルタ設定(表 6.1)で指定した抽出する範囲と品詞が,他の2つの情報より狭かったことから一致したキーワードがあったと考えられる.一方で,最大4割程度の一致率であったのは,登場人物に関する名詞も抜き出していることから,雑情報の割合が増えたためと考えられる.その他の評価においても一致したキーワードに対して,雑情報の数が少なくなった結果はなかった.以上のことから,抽出したキーワードの一致率が低い一因は雑情報が混じったためであると考えられる.「登場人物が行っている動作」については,CaboChaでの情報の補完により「登場人物の特徴」よりは一致したキーワードの数が多かったと考えられる.例えば「手に入れる」というキーワードは,KH Coderのみの場合では「手に」「入れる」と分割されて出力された.しかし,CaboChaによる係り受け解析により「入れる」というキーワードから,それに係っている「手に」という部分を補完することができた.ただし,一致率は全て2割未満という結果であるため,雑情報によって精度が下がっている場合でも,人力で抽出したキーワードのうち二割程度しかコンピュータで抽出できていない問題が挙げられる.理由は検討したシステムでは登場人物と強く関連する単語をキーワードとするためであり,共起ネットワークにおける色分けの時点でそれ以外の単語は,抽出するとした動詞であっても省いてしまうことが挙げられる.また,同じ動詞であっても漢字表記と平仮名表記では別の単語と判別されることや,前後の単語と区別できずに埋もれてしまうことも一因であると考えられる.

24

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 30: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

8.2 小説と挿絵の内容の対応2枚の挿絵の評価と聞き取りの結果から,検討したシステムで抽出したキーワードから挿絵を描いた場合,小説の内容と対応した挿絵は成り立たないと考えられる.理由の一つとして,キーワードの一致率の評価から抽出結果に雑情報が多く,正確な情報が得られなかったことが挙げられる.また,検討したシステムでは,抽出するとした範囲で該当するキーワードを抜き出しすべて提示する.したがって,キーワードの組み合わせ方によっては,小説の内容とは違う場面が成立すると考えられる.小説の本文を読んだ上で描いた挿絵については,小説の内容と対応しており挿絵として成立していると考えられる.また,聞き取りの結果から挿絵を挿入する位置,すなわち挿絵となる場面の選定や枚数などといった,挿絵の内容以外の要素も評価の基準であったと考えられる.以上のことから,キーワードを抽出する際,表 6.1における「抽出する範囲」の他に小説の場面毎での分類が必要であると推察される.

8.3 キーワードの定義の妥当性以上の考察から,そもそも本研究におけるキーワードの定義が妥当であったか考える必要がある.ここでは「キーワードの分類」と「システムの仕様」という2つの観点から考察を行う.

キーワードの分類

キーワードの分類として定義した「挿絵に必要な情報」は,第5章での仮説2の検証から挿絵を描くという観点では妥当であると考えられる.すなわち,コンピュータが挿絵を描く際にも有用な分類であると推察される.読者の観点からは評価を行っていないが,第7章の「小説と挿絵の内容の対応」と同様に評価を行うことで結果が得られるのではないかと考えられる.具体的には,「人力で抽出したキーワードから小説を読まずに描いた挿絵」と「小説の本文を読んだ上で描いた挿絵」の評価を読者の観点から行うことである.

システムの仕様

システムによるキーワードの抽出の定義は共起ネットワークによるキーワード抽出と,KH Coderのフィルタ設定の2点において妥当ではなかったと考えられる.登場人物と共起する単語をキーワードの候補として抽出することは,自然言語処理のシステムとして妥当であったと考えられる.しかし,本研究で検討したシステムの仕様では,登場人物と共起するキーワードの中で中心性が高いもののみが抽出される.すなわち,「挿絵に必要な情報」を抽出し結果として出力する段階で,情報の削除が行われていると考えられる.

25

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 31: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

以上のことから,抽出したキーワードを中心性の高いもののみ結果として出力するシステムではなく,抽出したキーワードを小説の場面ごとに分けて結果を出力するシステムが必要と推察される.KH Coderのフィルタ設定は,「登場人物の特徴」と「登場人物が行っている動作」について,抽出する品詞の絞り込みが十分でなかったと考えられる.主な原因は汎用性をもたせる目的で,どちらも名詞を抽出する設定にしたからである.以上のことから「登場人物の特徴」は名詞,「登場人物が行っている動作」は動詞というように明確に絞り込み,係り受け解析を併用した方が精度自体は向上すると推察される.

26

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 32: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

第9章 結論と今後の課題

本研究の結論と,今後の課題について述べる.

9.1 まとめ本研究では,自然言語処理を用いて小説の挿絵を描くために必要なキーワードを抽出するシステムの検討を目的として,挿絵に必要な情報の定義と,KH Coderと CaboChaによるキーワードの抽出を行った.挿絵に必要な情報の定義は,2回の検証実験から「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」の3つの分類が妥当であるとわかった.KH Coderと CaboChaによるキーワードの抽出は,2つの評価から,雑情報が混じっていることがわかり,小説の場面ごとでの分類が必要であると推察された.最後に,本研究におけるキーワードの定義の妥当性について考察を行った.キーワードの分類については,挿絵を描くという観点において妥当であると考えられる.システムの仕様については,登場人物と共起する単語をキーワードの候補として抽出することは妥当であった.一方で,抽出するキーワードに関する品詞の設定や,キーワードを出力するまでの過程に問題があると推察された.

9.2 今後の課題今後の課題は,キーワードを抽出するときの条件を,抽出結果の一致率を高めるために精査することが挙げられる.具体的には,共起ネットワークにおける中心性の色分けではない,独自のフィルタ設定が必要であると考えられる.また,小説の場面ごとに,抽出したキーワードを分ける必要もあると考えられる.もう一つの課題として,KH Coderと CaboChaの結果について同様のものを,人力ではなくコンピュータで自動化した上で出力できるシステムが必要であると考えられる.

27

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 33: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

謝辞

本研究の機会を与えてくださり,数々の貴重なご指導をいただいた迎山和司准教授 (公立はこだて未来大学)に深く感謝いたします.また,本論文に関して自然言語処理の観点から貴重なご意見,ご指導をいただいた「きまぐれ人工知能プロジェクト 作家ですのよ」のメンバーの皆様に深く感謝いたします.そして,本研究に多くの助言を頂いた迎山研究室の小林真幸さん,八城朋仁さん,Alfred Matthieu Lefebvreさん,Gaetan Guerreroさん,Nicolas Bertrandさん,三田村梨花さん,森貴之さん,上田進太郎さん,沼田健一さんに感謝します.最後になりましたが,本研究で分析を行う際,挿絵を描いていただいた方々に深く感謝いたします.

28

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 34: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

参考文献

[1] 松原 仁, 佐藤 理史, 赤石 美奈, 角 薫, 迎山 和司, 中島 秀之, 瀬名 秀明, 村井 源, 大塚裕子. コンピュータに星新一のようなショートショートを創作させる試み. 人工知能学会全国大会. p1-2, 2013.

[2] 島田 英昭, 北島 宗雄. 挿絵がマニュアルの理解を促進する認知プロセス. 教育心理学研究. Vol. 56, No. 4, p474, 2008.

[3] 五十嵐 晃, 上岡 英史. シナリオの内容を反映した挿絵の生成手法. 情報処理学会研究報告.マルチメディア通信と分散処理研究会報告. 2014-DPS-159(5), p1-6, 2014.

[4] 木島 紗弥子, 曳野 京子, 平川 正人. 物語からの絵の自動生成. 言語・音声理解と対話処理研究会. 人工知能学会. Vol.49, p51-56, 2007.

[5] 嶋航大,鬼沢武久.物語テキストを基にした漫画のコマの生成手法の提案.情報処理学会研究報告. EC, エンタテインメントコンピューティング. 情報処理学会. No.6, p1-7,

2009.

[6] 星新一. ねむりウサギ (星新一ショートショートセレクション 3). 理論社, 2002.

[7] 星新一. きまぐれロボット. 角川文庫, 2006.

[8] 樋口耕一. テキスト型データの計量的分析 ―2つのアプローチの峻別と統合―. 理論と方法.数理社会学会. 19(1), p101-115, 2004.

[9] 安田雪.『実践ネットワーク分析』――関係を解く理論と技法. 新曜社, 2001.

[10] 工藤 拓, 松本 裕治. チャンキングの段階適用による日本語係り受け解析. 情報処理学会論文誌. Vol. 43, No.6, p1834-1842, 2002.

29

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 35: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

付 録A

第7章で行ったキーワードの一致率の評価について,詳細を以下の表A.1に示す.表中のAは「コンピュータで抽出したキーワード,Bは「人力で抽出したキーワード」の省略である.雑情報は,抽出数 (A)から一致したキーワード数を引いた数を示す.

表 A.1: キーワードの一致率の評価結果 詳細

小説タイトル 情報 抽出数(A) 抽出数 (B) 一致したキーワード数 雑情報 一致率契約者 特徴 5 0 0 5 0.00

動作 1 10 0 1 0.00

場所 5 4 2 3 28.57

合計 11 14 2 9 8.70

よごれている本 特徴 14 0 0 14 0.00

動作 8 24 4 4 14.29

場所 5 2 2 3 40.00

合計 27 26 6 21 12.77

鏡 特徴 7 11 0 7 0.00

動作 13 14 4 9 17.39

場所 8 4 1 7 9.09

合計 28 29 5 23 9.62

悪魔のささやき 特徴 2 2 1 1 33.33

動作 9 4 2 7 18.18

場所 6 2 0 6 0.00

合計 17 8 3 14 13.64

とりひき 特徴 7 2 0 7 0.00

動作 7 14 3 4 16.67

場所 12 4 4 8 33.33

合計 26 20 7 19 17.95

30

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 36: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

付 録B

第7章で行った小説と挿絵の内容の対応の評価について,使用したアンケート用紙を以下の図 B.1に示す.

図 B.1: 挿絵評価のためのアンケート用紙

31

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 37: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

付 録C

第7章で行った小説と挿絵の内容の対応の評価について,使用したデータと挿絵を以下に示す.挿絵は左図が「検討したシステムの抽出結果から小説を読まずに描いた挿絵」,右図が「小説の本文を読んだ上で描いた挿絵」である.

契約者

「契約者」は「悪魔がこっそりバーベキューをしようとしたら魔王に見つかり,地上から人間を連れてこいと言われる」というあらすじから始まる.以下に挿絵を図C.1,コンピュータで抽出したキーワードを表 C.1として示す.

図 C.1: 「契約者」の挿絵

32

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 38: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 C.1: 「契約者」からコンピュータが抽出したキーワード

登場人物 情報 与えたキーワード悪魔 特徴 地獄・火・バーベキュー・道具・魔王

動作 もえさかる地獄の火の場所 地獄・火・バーベキュー・道具・魔王

よごれている本

「よごれている本」は「エヌ氏は魔法の本を手に入れた.部屋に眼がひとつ浮かび出たことから,本物だったのだなとつぶやいた」というあらすじから始まる.以下に挿絵を図C.2,コンピュータで抽出したキーワードを表 C.2として示す.

図 C.2: 「よごれている本」の挿絵

33

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 39: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 C.2: 「よごれている本」からコンピュータが抽出したキーワード

登場人物 情報 与えたキーワードエヌ氏 特徴 色・印象・角・大きい・銀色・頭・皮膚・目じり・指・紫

鋭い・鼻・口・歯動作 アパート・帰ってからも・手に入れた・本物とは思っていなかった

本物・晩は机の上にほうり出しておいたのだった・晩・部屋場所 手・部屋・本物・机・アパート

「鏡」は「高層マンションの一室で夫は,向かい合わせに置いた鏡の中から悪魔のしっぽを本で挟んでつかまえた」というあらすじから始まる.以下に挿絵を図C.3,コンピュータで抽出したキーワードを表 C.3として示す.

図 C.3: 「鏡」の挿絵

34

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 40: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 C.3: 「鏡」からコンピュータが抽出したキーワード

登場人物 情報 与えたキーワード悪魔 特徴 弱々しい・振り・衝動・キューッ・残虐・床・壁

動作 なったら,帰るのは土曜日よ・向い・彼は叫んだぱっと閉じてはさんだのだ・鏡から出て鏡に・宙・声を出して鏡台・一歩・逃げ込めないように・キュッ・飛び込む一歩・向き

場所 声・悲鳴・床・壁・頭・キューッ・身・振り

悪魔のささやき

「悪魔のささやき」は「青年は便箋に犯罪の予告を書き始めた.地方から出てきて都会の会社につとめる青年にとって,都会という悪魔は恐るべき影響を及ぼしてくる」というあらすじから始まる.以下に挿絵を図 C.4,コンピュータで抽出したキーワードを表 C.4

として示す.

図 C.4: 「悪魔のささやき」の挿絵

35

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 41: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 C.4: 「悪魔のささやき」からコンピュータが抽出したキーワード

登場人物 情報 与えたキーワード悪魔 特徴 都会・心

動作 地方から出てきてつとめ・地方・会社・仕事・影響を及ぼしてくる下宿・下宿に戻る・影響を及ぼしてくる・書き終わり封をする

場所 目・心・手・都会人・文句・便箋

とりひき

「とりひき」は「音もなく出現した悪魔は,人びとのあいだに悪いことをひろめるのが仕事で,静かな夜に小さな家のなかにいた男を尋ねた」というあらすじから始まる.以下に挿絵を図 C.5,コンピュータで抽出したキーワードを表 C.5として示す.

図 C.5: 「とりひき」の挿絵

36

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 42: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 C.5: 「とりひき」からコンピュータが抽出したキーワード

登場人物 情報 与えたキーワード悪魔 特徴 仕事・音・煙・出現・世の中・人々・悪い

動作 煙が立ちのぼったかと思うと・人々・世の中・出現・ひろめるのが仕事時々あらわれ・立ち上ったかと思うと出現した

場所 口・胸・文句・相手・戸・家・玄関・男・人々・音・世の中・煙

37

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 43: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

図 目 次

2.1 実際に生成された挿絵 [3] . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3.1 挿絵を描く際に参照された文の分布図(和田誠) [6] . . . . . . . . . . . . . 5

3.2 挿絵を描く際に参照された文の分布図(片山若子) [7] . . . . . . . . . . . 5

3.3 登場人物に関するキーワードの比較 . . . . . . . . . . . . . . . . . . . . . . 6

3.4 仮説1の概念図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1 親しげな悪魔の実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4.2 仮説2の概念図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

5.1 悪魔の実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6.1 検討したシステムのフロー図 . . . . . . . . . . . . . . . . . . . . . . . . . . 14

6.2 共起ネットワークの結果例 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6.3 簡易 Tree表示における出力結果 . . . . . . . . . . . . . . . . . . . . . . . . 16

6.4 XML表示における出力結果 . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6.5 「登場人物の特徴」についてのキーワード . . . . . . . . . . . . . . . . . . 17

6.6 「登場人物が行っている動作」についてのキーワード . . . . . . . . . . . . 18

6.7 「登場人物がいる場所」についてのキーワード . . . . . . . . . . . . . . . . 18

6.8 「釣る」というキーワードを含む文の係り受け解析結果(簡易 Tree表示) 19

B.1 挿絵評価のためのアンケート用紙 . . . . . . . . . . . . . . . . . . . . . . . 31

C.1 「契約者」の挿絵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

C.2 「よごれている本」の挿絵 . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

C.3 「鏡」の挿絵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

C.4 「悪魔のささやき」の挿絵 . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

C.5 「とりひき」の挿絵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

38

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA

Page 44: 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システ … · 概要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用

Support System which Picked Keywords Up for Book Illustrations

表 目 次

3.1 小説の総文数と挿絵を描く際に参照された文の開始位置(和田誠) [6] . . . 4

3.2 調査した作品一覧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4.1 被験者に提示した情報 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5.1 被験者に提示したキーワード . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6.1 キーワード抽出時のKHCoderの設定 . . . . . . . . . . . . . . . . . . . . . 17

7.1 キーワードの一致率の評価結果 . . . . . . . . . . . . . . . . . . . . . . . . 21

7.2 小説と挿絵の内容の対応についての評価結果 . . . . . . . . . . . . . . . . . 22

A.1 キーワードの一致率の評価結果 詳細 . . . . . . . . . . . . . . . . . . . . . 30

C.1 「契約者」からコンピュータが抽出したキーワード . . . . . . . . . . . . . 33

C.2 「よごれている本」からコンピュータが抽出したキーワード . . . . . . . . 34

C.3 「鏡」からコンピュータが抽出したキーワード . . . . . . . . . . . . . . . . 35

C.4 「悪魔のささやき」からコンピュータが抽出したキーワード . . . . . . . . 36

C.5 「とりひき」からコンピュータが抽出したキーワード . . . . . . . . . . . . 37

39

BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA