自然言語処理 2011 平成24年1月16日(月)

36
自自自自自自 2011 自自 自自 自自 自 自自 自自 24116() 自自自自自自自自自自自自自自自自自自自 自自自自

Upload: brooke

Post on 29-Jan-2016

64 views

Category:

Documents


0 download

DESCRIPTION

自然言語処理 2011 平成24年1月16日(月). 東京工科大学コンピュータサイエンス学部 亀田弘之. 言語処理システムを本当に実現するためには 何が必要なのか?. NLP システム実現には 何が必要なのか?. 言語データ 言語理論 言語処理理論 各種ツール 設計論 アプリケーションシステム. 1. 言語データ. はじめに言語データありき。. 言語データ 種類と特性. 計算機可読 ( machine-readable) なデータ 音声データ 乳幼児音声、講演データ、対話データ など テキストデータ - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 自然言語処理 2011 平成24年1月16日(月)

自然言語処理 2011平成24年1月16日(月)東京工科大学コンピュータサイエンス学部亀田弘之

Page 2: 自然言語処理 2011 平成24年1月16日(月)

言語処理システムを本当に実現するためには何が必要なのか?

2

Page 3: 自然言語処理 2011 平成24年1月16日(月)

NLP システム実現には何が必要なのか?

1. 言語データ2. 言語理論3. 言語処理理論4. 各種ツール5. 設計論6. アプリケーションシステム

3

Page 4: 自然言語処理 2011 平成24年1月16日(月)

1. 言語データ はじめに言語データありき。

4

Page 5: 自然言語処理 2011 平成24年1月16日(月)

言語データ種類と特性 計算機可読 ( machine-readable) なデータ

音声データ 乳幼児音声、講演データ、対話データ など

テキストデータ Shakespeare 全集、朝日新聞全文データ など

動画像形式のデータもあり 大規模 多言語 など

5

Page 6: 自然言語処理 2011 平成24年1月16日(月)

言語データ【参考となるサイト】 言語情報処理ポータル

http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/

6

Page 7: 自然言語処理 2011 平成24年1月16日(月)

言語データ例の紹介 (NO.1)

Web 中のテキスト サイトの各ページ Blog のテキスト (Youtube などの動画中の音声 )  など

青空文庫 Project Gutenberg Oxford Text Archive (OTA) Linguistic Data Consortium (LDC) 新聞記事データ

など多数のものがあり

Burnard Lou

Mark Liberman

7

Page 8: 自然言語処理 2011 平成24年1月16日(月)

言語データ例の紹介 (NO. 2 )

IPAL 辞書 EDR 辞書 など

研究目的であるならば、必要に応じて出版社等に直接交渉する方法もあり。 (例:広辞苑、徒然草、朝日新聞記事データ など)

横井敏夫

8

Page 9: 自然言語処理 2011 平成24年1月16日(月)

青空文庫 サイト

http://www.aozora.gr.jp/ 利用可能なテキスト

著作権切れのテキスト 共有することを許諾されたテキスト

データ形式 XHTML, テキスト txt, エキスパンドブック形式 ebk

( 文字コード: Shift JIS) ビューア (viewer)

いろいろなものが提供されているhttp://www.sky.sannet.ne.jp/at-sushi/aozora/viewer.html(「青空文庫 ビューア」でも検索のこと)

9

Page 10: 自然言語処理 2011 平成24年1月16日(月)

青空文庫 参考文献

インターネット図書館 青空文庫野口英司編著 , ISBN4-89984-072-1 ( はる書房 )

10

Page 11: 自然言語処理 2011 平成24年1月16日(月)

練習

1. 青空文庫の中から芥川龍之介の作品「蜘蛛の糸」を探してみなさい。

2. ビューアをダウンロードして、作品を表示してみなさい。

3. 青空文庫に自分が貢献できることがないか考えて見なさい。

4. 青空文庫の利点・欠点について考察せよ。5. 清少納言の作品がないのはなぜか? 理由を考え

よ。6. ビューアを自作しなさい。

表示機能の高度化 文字読み上げ機能の追加 など

11

Page 12: 自然言語処理 2011 平成24年1月16日(月)

PROJECT GUTENBERG

諸外国のデータが公開されている。一度サイト内を渉猟してみること。

12

Page 13: 自然言語処理 2011 平成24年1月16日(月)

練習

1. Lewis Carroll の作品を探してみなさい。2. 音声データを再生してみなさい。3. Project Gutenberg の意義を考えなさい。

社会的意義 NLP 研究の立場からの意義

13

Page 14: 自然言語処理 2011 平成24年1月16日(月)

まず、処理対象であるデータをよく観ることが大切。

14

Page 15: 自然言語処理 2011 平成24年1月16日(月)

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論3. 言語処理理論4. 各種ツール5. 設計論6. アプリケーションシステム

15

Page 16: 自然言語処理 2011 平成24年1月16日(月)

2.言語理論  (入門部分はすでにやりましたよね!) 文法とは

規範文法 vs 記述文法 形式文法

Chomsky の文法理論生成文法 ( 句構造文法、文脈依存文法、文脈自由文法、正規

文法 )変形文法、 X バー理論 など

結合価理論モンタギュー文法 など

個々の未解決問題:以下のものの定義は?単語、品詞、統語構造、意味、意図、文脈 など

16

Page 17: 自然言語処理 2011 平成24年1月16日(月)

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論4. 各種ツール5. 設計論6. アプリケーションシステム

17

Page 18: 自然言語処理 2011 平成24年1月16日(月)

3. 言語処理理論 (これもすでにやりました) 形態素解析統語解析(構文解析)意味解析意図解析 文脈解析

18

Page 19: 自然言語処理 2011 平成24年1月16日(月)

言語処理理論の基礎部分 Chomsky のオートマトン理論

有限状態オートマトン  ⇔  正規言語 ブッシュダウンオートマトン   ⇔ 文脈自由言語  など

この理論が多くの局面で使われているが、個別の処理方法も ad hoc ながらも考案されている。その代表が確率を利用するものである。

言語の確率モデル HMM (Hidden Markov Model)  など

( NLP において確率は避けて通れない。)

< 参考図書 > D. Jurafsky & J. H. Martin, Speech and Language Processing,

Prentice Hall(2000). Chapter 7.鹿野 他 , 音声認識システム , オーム社 (2001).  第2章と第3章

19

Page 20: 自然言語処理 2011 平成24年1月16日(月)

言語処理に使われるプログラミング言語 Lisp Prolog Perl Ruby Python C C++ Java  など

20

Page 21: 自然言語処理 2011 平成24年1月16日(月)

言語処理の基礎理論を深く知りたい人に Pierre M. Nugues, An Introduction to

Language Processing with Perl and Prolog, Springer(2006).(理論、実装、応用の概要について書かれており、英語、  フランス語、ドイツ語に対しても言及されている。)

これを読めば専門家になれる!かも

21

Page 22: 自然言語処理 2011 平成24年1月16日(月)

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論 広範囲にわたる知識が必要

4. 各種ツール5. 設計論6. アプリケーションシステム

22

Page 23: 自然言語処理 2011 平成24年1月16日(月)

4. 各種ツール

(補講1月17日(火)4限のときにお話します。)

23

Page 24: 自然言語処理 2011 平成24年1月16日(月)

言語処理の流れ

1. 文字認識2. 形態素解析3. 統語解析(構文解析)4. 意味解析5. 文脈解析6. (未知語獲得)7. (統語規則獲得) など

24

Page 25: 自然言語処理 2011 平成24年1月16日(月)

形態素解析ツール ・タガー Juman茶筅 Kobako/J Brill’s Tagger GoTagger (Brill’s Tagger を改良したもの ) WordFreak

25

Page 26: 自然言語処理 2011 平成24年1月16日(月)

デモ GoTagger Kobako/J (茶筅と Juman は Web を見てください。) OpenNLP

26

Page 27: 自然言語処理 2011 平成24年1月16日(月)

構文解析システム Knp ( 京都大学 ) Sax Bump 自作のプログラム

27

Page 28: 自然言語処理 2011 平成24年1月16日(月)

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論 広範囲にわたる知識が必要

4. 各種ツール 多種多様だが不完全

5. 設計論6. アプリケーションシステム

28

Page 29: 自然言語処理 2011 平成24年1月16日(月)

5. 設計論

1. 理論的枠組みの決定2. モデルの構築 ( 定式化・システム的解明 )3. システム構築

① 仕様の決定② 外部設計③ 内部設計④ コーディング⑤ 検証

4. システムの有効性・妥当性の評価 アプリケーションへの組み込み など

5. 理論・モデルの改良・高度化 29

Page 30: 自然言語処理 2011 平成24年1月16日(月)

新たな設計論の必要性 理論の解明モデル化 プログラミング言語の開発 設計パラダイム(設計手法)

オブジェクト指向型言語: Java, C++関数型言語: Lisp, Haskell, ML手続き型言語: C, Pascal 論理型言語: Prolog

( CS としてもっと深く考えなければいけない!)

30

Page 31: 自然言語処理 2011 平成24年1月16日(月)

6. アプリケーションシステム仮名漢字変換システム 文章要約システム 検索システム データマイニング ( テキストマイニング ) システム 機械翻訳システム 音声対話システム

道案内フライト案内 音声による PC操作補助

誤字脱字検出システム人工無能 など 31

Page 32: 自然言語処理 2011 平成24年1月16日(月)

Web mining Web2.0, Web3.0, Web4.0

32

Page 33: 自然言語処理 2011 平成24年1月16日(月)

参考 URL(SEMANTIC WEB)

http://videolectures.net/iswc07_pell_nlpsw/ http://www.w3.org/TR/rdf-primer/

33

Page 34: 自然言語処理 2011 平成24年1月16日(月)

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論 広範囲にわたる知識が必要

4. 各種ツール 多種多様だが不完全

5. 設計論 新たな設計手法・パラダイムへ?

6. アプリケーションシステム 徐々に実用化? 34

Page 35: 自然言語処理 2011 平成24年1月16日(月)

7.そしてさらに何が必要か?脳神経科学認知科学心理学(認知心理学・発達心理学・社会心理学)教育学 社会学 言語学 コミュニケーション学組織行動論学 論理学 数学 コンピュータサイエンス など 35

Page 36: 自然言語処理 2011 平成24年1月16日(月)

準備は以上で終わりです。これからが研究の始まりです。

36