知-4 知能情報基礎論分野 - 京都大学 › pdf › handout_2013.pdf ·...
TRANSCRIPT
教授 山本 章博 助教 吉仲 亮
代表教員研究室 : 総合研究7号館 324室 Web: http://www.iip.ist.i.kyoto-u.ac.jp/ Email : [email protected]
当研究室では,「機械学習理論」を中心にして人間の高次推論機構の性質を解明し,またそれらを用いて,与えられたデータから適切な情報を取出すための計算機構やソフトウェアを構築することを目標に研究を行っている.この研究はデータ集合からの知識発見への応用,数理論理学や計算数学との関係の解明へと展開し,知能情報学における新たな基盤の構築を目指している.
知-4 知能情報基礎論分野
情 報 理 論
研究の特徴 n 情報学基礎理論としての機械学習
n 機械学習を基盤にし,論理や計算に立脚した新しい知的行為の基礎理論を求める
n 特に,データを読むための計算を対象にする.不確実性
n プログラムを構築するには,構築のための“論理”が必要であるように,データを読むためにもそれ用の“論理”が必要
n データ構造と代数的手法,数理論理学的手法特に“証明”を活用
人 文 科 学
数 理 論 理
統 計 学
数 学 代 解 数 析
ソ フ ト ウ ェ ア
生 命 情 報
ア ル ゴ リ ズ ム
言 語 処 理
機 械 学 習
知能情報学の 基礎
データマイニングを利用した ソフトウェアの構造解析
実数の離散的構造を利用した 高速な機械学習
導出原理に基づく 確率推論
複雑な文字列の統語情報の抽出
タプル集合の比較による 歴史事件の説明文書評価
昔話の構成 を表す機能列
の推定
SATソルバを用いた 帰納論理プログラミング
楽譜の特徴抽出と分類
機械学習 知識発見
不確実性と論理 データ構造
研究成果マップ
n Boole値(0, 1)データ,関係データよりも
複雑な構造を持つ(持たせる)データを対象とする学習
n 半構造化文書(web pageなど) n 遺伝子データ(DNA, 二次構造など) n 多項式 n 自然言語文書の構文解析木
n 物語の展開
n 実数の近似値
こだわり所1: データ構造に着目
d1 d4 d5 d2
モジュール(ソースファイル)
メール
d3
m1 m2 m3 m4 m5
d6 m1,m2,m3
m2,m3
m4,m5 d3,d6
d1,d2, d3,d6
d4,d5, d6
m1,…,m5 d6
ソースコード
メーリング リスト
形式概念解析によるソフトウェア構造の抽出
d1 d2 d3 d4 d5 d6
m1 ● ●
m2 ● ● ● ●
m3 ● ● ● ●
m4 ● ● ●
m5 ● ● ●
形式概念 解析
n ネットを用いて共同開発するフリーソフトウェアのソースコードの構造を形式概念解析を用いて抽出する n 形式概念解析:代数幾何におけるGalois対応を抽象化し
たモデル
n 背景 n Wikipediaは, ユーザーが知識
を自由に編集, 蓄積可能
n 知識の信頼性が問題となる
n ユーザーはWikipediaの説明文書が最低限必要な内容をどれだけ含んでいるか判断できない
n 目的
n 辞典の説明文書に対して, Wikipediaの説明文書が辞典の内容を含む割合を算出
成果 人手で行った文書比較に対して約49.8%の再現率と約95.1%の精度をもつ手法を提案した
五・一五事件は、 1932年に青年将校らが首相官邸を襲撃し、犬養毅首相を射殺した事件。
五・一五事件は、1932年に起きた青年将校ら犬養毅首相を射殺した事件。
Wikipedia 辞典
タプル集合の比較による説明文書評価
n 方法
n 述語項構造を変形したタプルを利用
n 文の意味まで扱った比較
中大兄皇子と中臣鎌足らは645年蘇我氏を倒す
中大兄皇子らは蘇我氏を倒す
τ = ({倒す}, {中大兄皇子,中臣鎌足}, {蘇我氏}, ∅, {645年}, ∅)
σ = ({倒す}, {中大兄皇子}, {蘇我氏}, ∅, ∅, ∅)
述語項構造解析 係り受け解析
JUMAN, KNPを利用
文書に含まれる文から生成される すべてのタプル同士で比較
Wikipediaの説明文書を評価
Wikipedia
辞典
JUMAN, KNPを利用
述語項構造解析 係り受け解析
述語項構造をタプルに変形し, タプル間の順序関係を定義
n 昔話の文が持つ役割を表現する機能を推定 n 機能 : 昔話全体の位置づけにおける登場人物の行為の類型
n 民話学の概念で数理的定義はない n 登場人物(主人公などの役割が決まっている), 行為, 位置づけで決定できると仮定
機能と昔話の特徴の対応を学習
文
むかし, 一人の女の子が, お父さんと二人で暮らしていました.
あるとき, 新しいお母さんが, 二人のお姉さんを連れてきました.
この人たちはいじわるで, 女の子をシンデレラと呼びました.
あるひ, お城から, ダンスの会を開くという手紙が届きました.
お母さんとお姉さんたちは, シンデレラに手伝わせて, おしゃれをすると, さっさとお城へ行ってしまいました.
シンデレラが泣いていると, 魔法使いがあらわれました.
贈与者
主人公
登場人物の役割 文の特徴
R1 : 主人公 1
R2 : 偽主人公 0
R3 : 派遣者 0
R4 : 王女 0
R5 : 助手 0
R6 : 贈与者 1
R7 : 敵対者 0
登場人物についての特徴
役割 ガ格の登場人物
R1 1
R2 0
R3 0
R4 0
R5 0
R6 1
R7 0
位置づけについての特徴
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
=
=
=
=⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
=
=
=
+⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
=
=
=
25.15.025.0
0.100
25.05.025.0
D
A
β
D,
A,
β,
D,
A,
β,
eee
eee
eee
あらわれる
あらわれる
あらわれる
なく
なく
なく
pv = argmax f ∈ F { Σπ∈Π(s) eπ,f } = D
動詞についての特徴
n 昔話の共通要素として, 機能の要素の定式化を行い, 抽出
機能(意味)
α(導入)
α(導入)
α(導入)
A(欠如)
A(欠如)
D(贈与者の登場)
昔話の構成を表現する機能列推定
RNA を a, u, c, g の4種の塩基の 列で表現した RNA配列が, RNAファミリごとに集められており, 同じファミリに属するメンバ配列は, 類似した構造,機能を有する.
タンパク質に翻訳されない機能性RNA領域を発見・識別する手法の開発に大きな注目が集まっている.
RNA配列は,Rfamデータベース サイトより入手することができる.
機能性RNAは制御等の機能を有し, 複雑な生命活動の維持に大きな役割 を果たしていると考えられている.
RNAの構造と機能の予測
・・・
n 導出(証明)を用いたDyck言語の列挙とデータマイニング
S →( ) S → ( S ) S → S S S → T S → S T T →( ) T →( S )
n RNAの機能推定のためにRNA配列の二次構造を予測
RNA配列 RNA配列の二次構造
c a g c a g c u a g u u 5’ 3’
a
a
u
g g c a u
5’ 3’
c
c
g
u
a-u,c-g : 相補対
n 自然言語・生物配列などに見られる交差する依存構造
n 非連続文字列間の関係を観察して多重文脈自由文法の
規則として抽出 n 学習可能性の理論的な保証
• Swiss-German
• mer em Hans es huus hälfed aastriichewe helped Hans paint the house
• mer d’chind em Hans es huus lönd hälfe aastriichewe let the children help Hans paint the house
〈aabb, ccdd〉
〈ab, cd〉
〈aab, ccd〉
〈abb, cdd〉
〈_ _〉 〈a_c_〉 〈_b_d〉 〈a_bc_d〉
aabbccdd aaabbcccdd aabbbccddd aaabbbcccddd
abcd aabccd abbcdd aabbccdd
abbcdd aabbccdd abbbcddd aabbbccddd
aabccd aaabcccd aabbccdd aaabbcccdd
X2K2
文脈自由を超える複雑な形式言語の学習 Non-context-free phenomena II
• Pseudoknots in biological sequences
CGACU ... GCGAC ... AGUCG ... GUCGC© Sakurambo via Wikimedia Commons
n 数学や論理に用いられている証明には,
学習手続きを用いて意味づけされるものがある.
論理は推論の正しさの保証
∃ x ∀y p(x, y) n 与えられたデータを説明するような正しい推測
(仮説)を生成
n 推測の強弱(尤度)を「正しさ」を用いて制御
こだわり所3: 数学や論理も学習を使っている
n 一階述語論理に基づく機械学習手法 n 離散データに適用しやすい n 明示的な規則が得られる
規則 データ
P(0),P(s2 (0)),P(s4 (0)),...
P(s2 (x))← P(x),P(0).
帰納論理プログラミング
命題論理式
!!!! ! ⊨ ! 0 ↔ ! 0 ∈ ! ∨ ! ! ∈ ! !∧ ( ! ⊨ ! ! 0 ↔ ! ! 0 ∈ ! ∨ … !∧ …!
n SATソルバーを用いて解を求める n 命題論理式の充足可能性判定器 n 近年になって性能が劇的に向上している
真偽値割り当て 規則
データ
P(0),P(s2 (0)),...
P(s2 (x))← P(x),P(0).
! 0 ∈ ! = T,!! ! ∈ ! = F,!… ,!
!
SATソルバー
n 2つの節が真である確率から,導出形が真である 確率を計算する
論理の不確実性を確率で表現
数学が得意 高収入 高収入 車を
持っている
数学が得意 車を
持っている
導出
真である確率 0.9 真である確率 0.7
真である確率は?
1 - {0.5×(1 - 0.7) + 0.4×(1 - 0.9)} = 0.81
導出原理に基づく確率推論の方法を提案
高収入の人が, 数学が得意である確率
0.4
高収入でない人が, 車を持っていない確率
0.5
n 多項式イデアルの有限生成性と正データからの(教師無し)極限同定学習との関係の解明
n 学習理論から代数学における新たな研究対象の出現
Buchberger Alg. イデアルの要素
Noether性
イデアルの基底
多項式イデアル
計算代数
推定(最尤法など) 試行
統計的一致性
パラメータ
パラメータ付分布
統計手法
学習手法
例の提示
学習の正当性
仮説
学習対象(概念) 学習理論
学習理論・統計学・計算代数