知-4 知能情報基礎論分野 - 京都大学 › pdf › handout_2013.pdf ·...

21
教授 山本 章博 助教 吉仲 亮 代表教員研究室 : 総合研究7号館 324室 Web: http://www.iip.ist.i.kyoto-u.ac.jp/ Email : [email protected] 当研究室では,「機械学習理論」を中心にして人間の高次推論 機構の性質を解明し,またそれらを用いて,与えられたデータ から適切な情報を取出すための計算機構やソフトウェアを構築 することを目標に研究を行っている.この研究はデータ集合か らの知識発見への応用,数理論理学計算数学との関係の解 明へと展開し,知能情報学における新たな基盤の構築を目指 している. -4 知能情報基礎論分野

Upload: others

Post on 05-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

教授 山本 章博         助教 吉仲 亮

   代表教員研究室 : 総合研究7号館 324室    Web: http://www.iip.ist.i.kyoto-u.ac.jp/    Email : [email protected]

当研究室では,「機械学習理論」を中心にして人間の高次推論機構の性質を解明し,またそれらを用いて,与えられたデータから適切な情報を取出すための計算機構やソフトウェアを構築することを目標に研究を行っている.この研究はデータ集合からの知識発見への応用,数理論理学や計算数学との関係の解明へと展開し,知能情報学における新たな基盤の構築を目指している.

知-4 知能情報基礎論分野

情 報 理 論

研究の特徴 n  情報学基礎理論としての機械学習

n  機械学習を基盤にし,論理や計算に立脚した新しい知的行為の基礎理論を求める

n  特に,データを読むための計算を対象にする.不確実性

n  プログラムを構築するには,構築のための“論理”が必要であるように,データを読むためにもそれ用の“論理”が必要

n  データ構造と代数的手法,数理論理学的手法特に“証明”を活用

人 文 科 学

数 理 論 理

統 計 学

数 学 代 解 数 析

ソ フ ト ウ ェ ア

生 命 情 報

ア ル ゴ リ ズ ム

言 語 処 理

機 械 学 習

知能情報学の 基礎

データマイニングを利用した ソフトウェアの構造解析

実数の離散的構造を利用した 高速な機械学習

導出原理に基づく 確率推論

複雑な文字列の統語情報の抽出

タプル集合の比較による 歴史事件の説明文書評価

昔話の構成 を表す機能列

の推定

SATソルバを用いた 帰納論理プログラミング

楽譜の特徴抽出と分類

機械学習 知識発見

不確実性と論理 データ構造

研究成果マップ

n  Boole値(0, 1)データ,関係データよりも

複雑な構造を持つ(持たせる)データを対象とする学習

n  半構造化文書(web pageなど) n  遺伝子データ(DNA, 二次構造など) n  多項式 n  自然言語文書の構文解析木

n  物語の展開

n  実数の近似値

こだわり所1: データ構造に着目

2進符号化を用いた 高速かつ柔軟なクラスタリング

d1 d4 d5 d2

モジュール(ソースファイル)

メール

d3

m1 m2 m3 m4 m5

d6 m1,m2,m3

m2,m3

m4,m5 d3,d6

d1,d2, d3,d6

d4,d5, d6

m1,…,m5 d6

ソースコード

メーリング リスト

形式概念解析によるソフトウェア構造の抽出

d1 d2 d3 d4 d5 d6

m1 ● ●

m2 ● ● ● ●

m3 ● ● ● ●

m4 ● ● ●

m5 ● ● ●

形式概念 解析

n  ネットを用いて共同開発するフリーソフトウェアのソースコードの構造を形式概念解析を用いて抽出する n  形式概念解析:代数幾何におけるGalois対応を抽象化し

たモデル

正規表現

Win32API

ネットワーク 入出力

カーネル部分

Ruby式の評価

数値の処理

ごみ収集, 資源の管理

Rubyのソースから抽出された構造の例

n  背景 n  Wikipediaは, ユーザーが知識

を自由に編集, 蓄積可能

n  知識の信頼性が問題となる

n  ユーザーはWikipediaの説明文書が最低限必要な内容をどれだけ含んでいるか判断できない

n  目的

n  辞典の説明文書に対して, Wikipediaの説明文書が辞典の内容を含む割合を算出

成果 人手で行った文書比較に対して約49.8%の再現率と約95.1%の精度をもつ手法を提案した

五・一五事件は、 1932年に青年将校らが首相官邸を襲撃し、犬養毅首相を射殺した事件。

五・一五事件は、1932年に起きた青年将校ら犬養毅首相を射殺した事件。

Wikipedia 辞典

タプル集合の比較による説明文書評価

n  方法

n  述語項構造を変形したタプルを利用

n  文の意味まで扱った比較

中大兄皇子と中臣鎌足らは645年蘇我氏を倒す

中大兄皇子らは蘇我氏を倒す

τ = ({倒す}, {中大兄皇子,中臣鎌足}, {蘇我氏}, ∅, {645年}, ∅)

σ = ({倒す}, {中大兄皇子}, {蘇我氏}, ∅, ∅, ∅)

述語項構造解析 係り受け解析

JUMAN, KNPを利用

文書に含まれる文から生成される すべてのタプル同士で比較

Wikipediaの説明文書を評価

Wikipedia

辞典

JUMAN, KNPを利用

述語項構造解析 係り受け解析

述語項構造をタプルに変形し, タプル間の順序関係を定義

n  昔話の文が持つ役割を表現する機能を推定 n  機能 : 昔話全体の位置づけにおける登場人物の行為の類型

n  民話学の概念で数理的定義はない n  登場人物(主人公などの役割が決まっている), 行為, 位置づけで決定できると仮定

機能と昔話の特徴の対応を学習

むかし, 一人の女の子が, お父さんと二人で暮らしていました.

あるとき, 新しいお母さんが, 二人のお姉さんを連れてきました.

この人たちはいじわるで, 女の子をシンデレラと呼びました.

あるひ, お城から, ダンスの会を開くという手紙が届きました.

お母さんとお姉さんたちは, シンデレラに手伝わせて, おしゃれをすると, さっさとお城へ行ってしまいました.

シンデレラが泣いていると, 魔法使いがあらわれました.

贈与者

主人公

登場人物の役割 文の特徴

R1 : 主人公 1

R2 : 偽主人公 0

R3 : 派遣者 0

R4 : 王女 0

R5 : 助手 0

R6 : 贈与者 1

R7 : 敵対者 0

登場人物についての特徴

役割 ガ格の登場人物

R1 1

R2 0

R3 0

R4 0

R5 0

R6 1

R7 0

位置づけについての特徴

⎟⎟⎟

⎜⎜⎜

=

=

=

=⎟⎟⎟

⎜⎜⎜

=

=

=

+⎟⎟⎟

⎜⎜⎜

=

=

=

25.15.025.0

0.100

25.05.025.0

D

A

β

D,

A,

β,

D,

A,

β,

eee

eee

eee

あらわれる

あらわれる

あらわれる

なく

なく

なく

pv = argmax f ∈ F { Σπ∈Π(s) eπ,f } = D

動詞についての特徴

n  昔話の共通要素として, 機能の要素の定式化を行い, 抽出

機能(意味)

α(導入)

α(導入)

α(導入)

A(欠如)

A(欠如)

D(贈与者の登場)

昔話の構成を表現する機能列推定

RNA を a, u, c, g の4種の塩基の 列で表現した RNA配列が, RNAファミリごとに集められており, 同じファミリに属するメンバ配列は, 類似した構造,機能を有する.

タンパク質に翻訳されない機能性RNA領域を発見・識別する手法の開発に大きな注目が集まっている.

RNA配列は,Rfamデータベース サイトより入手することができる.

機能性RNAは制御等の機能を有し, 複雑な生命活動の維持に大きな役割 を果たしていると考えられている.

RNAの構造と機能の予測

・・・

n  導出(証明)を用いたDyck言語の列挙とデータマイニング

S →( ) S → ( S ) S → S S S → T S → S T T →( ) T →( S )

n  RNAの機能推定のためにRNA配列の二次構造を予測

RNA配列 RNA配列の二次構造

c a g c a g c u a g u u 5’ 3’

a

a

u

g g c a u

5’ 3’

c

c

g

u

a-u,c-g : 相補対

n  自然言語・生物配列などに見られる交差する依存構造

n  非連続文字列間の関係を観察して多重文脈自由文法の

規則として抽出 n  学習可能性の理論的な保証

• Swiss-German

• mer em Hans es huus hälfed aastriichewe helped Hans paint the house

• mer d’chind em Hans es huus lönd hälfe aastriichewe let the children help Hans paint the house

〈aabb, ccdd〉

〈ab, cd〉

〈aab, ccd〉

〈abb, cdd〉

〈_ _〉 〈a_c_〉 〈_b_d〉 〈a_bc_d〉

aabbccdd aaabbcccdd aabbbccddd aaabbbcccddd

abcd aabccd abbcdd aabbccdd

abbcdd aabbccdd abbbcddd aabbbccddd

aabccd aaabcccd aabbccdd aaabbcccdd

X2K2

文脈自由を超える複雑な形式言語の学習 Non-context-free phenomena II

• Pseudoknots in biological sequences

CGACU ... GCGAC ... AGUCG ... GUCGC© Sakurambo via Wikimedia Commons

n  言語:学習とは,教師から生徒への情報伝達

目標概念 仮説

 

 

n  論理では「正しさ」という概念が重要

n  学習にも「正しさ」という概念が必要

こだわり所2: 情報伝達の視点

n  数学や論理に用いられている証明には,

学習手続きを用いて意味づけされるものがある.

論理は推論の正しさの保証

∃ x ∀y p(x, y) n  与えられたデータを説明するような正しい推測

(仮説)を生成

n  推測の強弱(尤度)を「正しさ」を用いて制御

こだわり所3: 数学や論理も学習を使っている

n  一階述語論理に基づく機械学習手法 n  離散データに適用しやすい n  明示的な規則が得られる

規則 データ

P(0),P(s2 (0)),P(s4 (0)),...

P(s2 (x))← P(x),P(0).

帰納論理プログラミング

命題論理式

!!!! ! ⊨ ! 0 ↔ ! 0 ∈ ! ∨ ! ! ∈ ! !∧ ( ! ⊨ ! ! 0 ↔ ! ! 0 ∈ ! ∨ … !∧ …!

n  SATソルバーを用いて解を求める n  命題論理式の充足可能性判定器 n  近年になって性能が劇的に向上している

真偽値割り当て 規則

データ

P(0),P(s2 (0)),...

P(s2 (x))← P(x),P(0).

! 0 ∈ ! = T,!! ! ∈ ! = F,!… ,!

!

SATソルバー

n  2つの節が真である確率から,導出形が真である 確率を計算する

論理の不確実性を確率で表現

数学が得意 高収入 高収入 車を

持っている

数学が得意 車を

持っている

導出

真である確率 0.9 真である確率 0.7

真である確率は?

1 - {0.5×(1 - 0.7) + 0.4×(1 - 0.9)} = 0.81

導出原理に基づく確率推論の方法を提案

高収入の人が, 数学が得意である確率

0.4

高収入でない人が, 車を持っていない確率

0.5

n  多項式イデアルの有限生成性と正データからの(教師無し)極限同定学習との関係の解明

n  学習理論から代数学における新たな研究対象の出現

Buchberger Alg. イデアルの要素

Noether性

イデアルの基底

多項式イデアル

計算代数

推定(最尤法など) 試行

統計的一致性

パラメータ

パラメータ付分布

統計手法

学習手法

例の提示

学習の正当性

仮説

学習対象(概念) 学習理論

学習理論・統計学・計算代数

n  データの蓄積が進行,大データが出現

n  数学基礎論の同期

機械学習

代数 数学基礎論

計算論 計算機科学

統計学

データマイニング

アルゴリズム

能力の分析

操作意味論

新対象

現代の機械学習

歓迎

n  システム構築,基礎理論いずれに興味があっても歓迎

n  議論を通じて自ら追究する

n  簡単な事柄でも,自分の言葉で説明する

n  人にわかりやすい表現を考える

n  数学的手法に抵抗がない

オープンラボ

n  総合研究 7号館 3F 323室