20130921(web mining yamaguchi)

33
Linked Open Data オントロジーのサービス活用 山口高平 @OWLDL 1

Upload: takahira-yamaguchi

Post on 15-Jul-2015

3.265 views

Category:

Technology


1 download

TRANSCRIPT

Linked Open Data と オントロジーのサービス活用

山口高平 @OWLDL

1

Agenda

• データマイニングと ビッグデータ人材育成プログラム(H25-H27)

• AIの変遷(特に知識型AI)

• 日本語Wikipediaオントロジー

• LOD (Linked Open Data)

• オントロジーとLODを利用したサービス

~道路利用者支援サービス~

~HRI (Human Robot Interaction)~

2

第1世代(1995-2000年前半) データマイニング開発手順

問題設定 ロイヤルカスタマー早期特定

退会者を少なくしたい

データの理解 データサイズとマシンスペック

外れ値,欠損値,

設定目標とデータの整合性

データ前処理 欠損値処理,離散化

サンプリング

アルゴリズム選択 クラスタリング,相関ルール,決定木学習,

遺伝的アルゴリズム,ニューラルネット...

不満足 アクション

結果後処理 専門家 による評価

6

1 3

3

4

肝炎データマイニング

• 提供データセット

– 患者基本情報

• 患者のプロフィール

– 検体検査結果情報

• 検体検査(血液&尿)の結果 情報 → 院内+外注データ

– 肝生検情報

• 肝生検情報(肝炎の進行具合)

– インタフェロン投与情報

• インタフェロンの投与時期

• データの特徴 – 大規模な未整備時系列データ

• 最大 160 万レコード

• 膨大な数の表記揺れが存在

– 検査項目数が非常に多い

• 最大 950 項目

– 時期により検査項目の再現性が変化&欠損値が多い

• 観測機器&医学の進歩

– 医者によるバイアスが存在

• 重病患者には特殊な検査

5

データ前処理:GPTの8変化パターン

6

• 予測正答率: 60.90% (21/34), 再現率: 1.43% (21/1470)

IF 直前24ヶ月のビリルビンの平均値が高く、TTT(チモール混濁試験)が減少する

THEN GPTが減少に転じる

GPTは周期的な多少の上下動があるもののほぼ一定と理解してきた。

このルールは、GPTの上下動の転移を説明する可能性があり興味深い。

ウィルス活動・バクテリア増殖の周期性とも関連するのか?

データマイニングの課題

• データ整備はコストがかかる

• 他のデータの連携も調べたくなる

• マイニング結果の意味を説明しろと言われても

• マイニング結果も大量になり絞り込みたい。

• 専門家の壁(主観vs.客観)

• 組織の壁

→2000年前半「データマイナーの憂鬱」

→2011年以降「ビッグデータ」 多くの関心

7

スキルと実践を重視したビッグデータ・ イノベーション人材育成プログラム

H25.7-H28.3

慶應義塾大学大学院 理工学研究科

システムデザインマネジメント研究科 経営管理研究科

8

6種類のビッグデータを調査中

納豆菌ゲノム データ(数値)

運転行動 プローブ (時系列 &動画)

位置 情報

人間生活工学 研究センター

静岡県 オープンデータ

国立遺伝 情報学研究所

リクルート

行政データ (数値&画像)

IMES コンソーシアム

就職関連情報 ライフスタイル (テキスト &数値)

ゴルフグッズ 購入履歴データ (数値&テキスト)

ゴルフ ダイジェスト ・オンライン

9

Agenda

• データマイニングと ビッグデータ人材育成プログラム(H25-H27)

• AIの変遷(特に知識型AI)

• 日本語Wikipediaオントロジー

• LOD (Linked Open Data)

• オントロジーとLODを利用したサービス

~道路利用者支援サービス~

~HRI (Human Robot Interaction)~

10

AIの歴史

1956年 ダートマス会議(チェス、定理証明) 探索、推論

1960年~ 第一次AIブーム(単なる期待、Toy Problem)

1970年~ 冬の時代(機械翻訳無理!基礎研究は継続)

1980年~ 第2次AIブーム(知識の時代、 国プロ、産業化、AIベンチャー)

1995年~ 再び冬の時代へ(基礎研究は継続):

インターネットの時代へ

11

AIの現在 ①コンピュータの高速化

②記憶装置の大容量化

③ネットワーク広帯域化

④ソフトウェアのオープン(無料)化

に支えられ,

AI要素技術(探索,推論,学習,知識)は進歩

2010年~ 第3次AIブーム?

AI要素技術の進化と統合(周辺関連技術含む)

による 特化された,でも強力なAI の登場

12

① 探索型AI

AIがゲーム・エンターテイメント を変える?

13

2012.2 AI囲碁 Zen

囲碁はまだまだ!

2012.1 第1回電王戦 故米長元名人vs. ボンクラーズ

1997 AIチェス Deep Blue

AIがプロに迫る&超える

10 120 10 220 10 360

14

2013年3~4月 第2回電王戦@ニコファーレ チーム戦(プロ 1勝3敗1分 コンピュータ)

(2) 計測型AI

AIが産業構造を変える?

15

無人運転(パターン認識) 2012年 ネバダ州免許

2013年 カリフォルニア州免許

掃除(計画)

(3) 知識型AI

AIが情報サービスを変える?

16

ELIZA 人工無能

• 入力文章中のパターンに対して反応 • 会話を理解しているように見せかける、はぐらかす

• 事前に用意された定型的な表現の中から応答 • 俺にはみんなが俺を笑っていることはわかっていたんだ → 特に誰のことを考えていますか? • キーワードが見つからない場合

→ なぜそう思うのですか?

Yuka: 人工無能デモ http://www.simsimi.com/talk.htm

17

エキスパートシステム

ユーザ

知識

ベース

知識

獲得

推論

エンジン

作業

領域

対話

I/F

説明

機能

(専門家)

18

②BRMS

①常識、オントロジー

2003年 QA Challenge !(1) IBM PIQUANT

• 2003~ IBM,PIQUANT

(Practical Intelligent Question Answering Technology) プロジェクト

★閉じた問題ではなく、事前に分からないクイズに解答する という開いた悪構造問題に挑戦

深い論理形式分析と浅い機械翻訳ベースのアプローチを統合

この難しい問題にチェレンジするには、AI技術が未熟で、

マシンパワーも不足して、大きな成果はあげられずに終わる。

19

クイズ人工知能 Watson

★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。 自動的にコーパスを拡大。 ★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出 ★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成, 仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど, 100以上の従来AI技術(20年前の技術もある)の集大成 ★精度、確信度、速度を考慮したAIインテグレーション ★計算力:並列計算による計算パワー ★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。 ★展開性: 医療、金融、行政、マーケティングにも適用可能

20

東大ロボットプロジェクト 2021年東大入試合格を目

指して http://21robot.org/

2011 東大入試AI by 情報学研究所

音声アシスタント

意味検索 知識グラフ

2011 クイズAI ワトソン by IBM →最新手術QA

★ 知識型AIからAIサービスへ

21

Agenda

• データマイニングと ビッグデータ人材育成プログラム(H25-H27)

• AIの変遷(特に知識型AI)

• 日本語Wikipediaオントロジー

• LOD (Linked Open Data)

• オントロジーとLODを利用したサービス

~道路利用者支援サービス~

~HRI (Human Robot Interaction)~

22

①言葉(概念) 分類階層木

②言葉(=固有表現、具体物)ネットワーク

23

織田信長

本能寺

墓所

濃姫 妻

法華宗本門流

日本の 寺院

建築物

日本の神

農民 武士

宗派

1415年

創建年

歴史上の身分

天文3年5月12日

生誕

豊臣秀吉

主君

本蓮寺

宗派

日本の城

岐阜城

建立

1347年

創建年

人・もの・ こと分析

分け方

オントロジー

Wikipediaからオントロジー(言葉階層木,言葉のネットワーク)に自動変換して, 人工物に言葉の意味(Sense)を理解させる →日本語Wikipediaオントロジー

人間には,ウィキペディアの内容(意味)が判るけど人工物(コンピュータ,スマフォ,ロボット...)には判らない

日本語Wikipediaオントロジー

24

日本語Wikipediaオントロジー(文学)

25

26

さらにズームアップ(模式図)

日本の 小説家

小説家

作家

人物

文学

文化

芥川龍之介

文化活動

家族

日本史の人物

代表作

職業

職業

プロパティ定義域

クラス-インスタンス関係

Is-a関係・プロパティ上位下位関係

トリプル

プロパティ値域

日本の 大学

日本の 小説

日本

存命人物

羅生門 蜘蛛の糸

小説家

塚本文

芥川也寸志

芥川貴之志

短編小説

日本

東京帝国 大学英文科

日本の映画作品

作曲家

日本のクラシック音楽の作曲家

オペラ 作曲家

夏目漱石 明治の人物

明治大学の人物 門下生

津田青楓

坊っちゃん こゝろ

小説

時代小説・歴史小説作家

誕生

最終学歴

配偶者 子供

著作

国籍

親族

ジャンル

死没

東京都出身の人物

日本出身の人物

文庫本

クラス

プロパティ

インスタンス

俳人

Extracting Ontologies from Japanese Wikipedia

by 10 kinds of Heuristics

27

Japanese Literature Ontology

from Japanese Wikipedia

Susumu TAMAGAWA, Shinya SAKURAI, Takuya TEJIMA,

Takeshi MORITA, Noriaki IZUMI, and Takahira YAMAGUCHI:

Learning a Large Scale of Ontology from Japanese Wikipedia,

2010 IEEE/WIC/ACM International Conference on Web

Intelligence, pp.279-286 (2010)

5. Property Type

•Symmetric, Transitivity and Functional

4. Property Domain & Range

•Matching the category name and infobox template name

2. Class-Instance Relationship (rdf:type)

•Scraping Listing pages

1. Is-a Relationship (rdf:subClassOf)

•Matching the character string related to the category hierarchy •Matching the category name and infobox template name •Scraping TOC headings

3. Infobox triple

•Scraping Infoboxes

日本語Wikipediaオントロジー http://www.wikipediaontology.org/

クラス数 162,407 インスタンス数 1,867,071 プロパティ数 25,266 クラスを持つインスタンス数 700,104 is-a関係数(rdfs:subClassOf) 58,954 タイプの数(rdf:type) 1,013,926 定義域関係数(rdfs:domain) 30,533 値域関係数(rdfs:range) 72,308 プロパティ上位下位関係数(rdfs:subPropertyOf) 303 上位下位関係数(jwo:hyper) 274,363 関連語・同義語(jwo:nearly) 258,853 動詞とプロパティの対応数(jwo:verb) 63,670 プロパティトリプル数 10,064,292 Infoboxトリプル数 3,006,812 外部への参照数(owl:sameAs) 1,048,957

28

Agenda

• データマイニングと ビッグデータ人材育成プログラム(H25-H27)

• AIの変遷(特に知識型AI)

• 日本語Wikipediaオントロジー

• LOD (Linked Open Data)

• オントロジーとLODを利用したサービス

~道路利用者支援サービス~

~HRI (Human Robot Interaction)~

29

Linked Data Cloud

メディア

地理

政府

生命科学 クロスドメイン

出版物

ユーザー生成 コンテンツ

295のデータセット、310億を超えるトリプル 30

LODの具体例

• DBPedia (2007年~)

– 英語版Wikipediaから構築された,LODのハブ的存在

• BBC (2009年~)

– 英国放送協会が提供しているニュースとテレビ番組の情報

• News York Times (2009年~)

– 蓄積された新聞記事に現れる人名,組織.団体名,地名,主題のキーワード約1万字にURIを与えてLODとして公開

31

• Linked Dataのデータフォーマット

• リソース記述のためのフレームワーク

• シンプルなデータモデル

title author pages

こころ 夏目漱石 300

book

こころ

夏目漱石

300

title

author

pages

<rdf:RDF

xmlns:jpfr-t-sec="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/sec/2010-03-11#"

xmlns:jpfr-oe="http://info.edinet-fsa.go.jp/jp/fr/gaap/o/oe/2010-03-11#"

xmlns:jpfr-t-cns="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/cns/2010-03-11#"

xmlns:jpfr-t-cte="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/cte/2010-03-11#"

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:jpfr-asr-E00197-000="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-

31/01/2011-01-27#"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance#"

xmlns:link="http://www.xbrl.org/2003/linkbase#"

xmlns:xlink="http://www.w3.org/1999/xlink#"

xmlns:jpfr-di="http://info.edinet-fsa.go.jp/jp/fr/gaap/o/di/2010-03-11#"

xmlns:xbrli="http://www.xbrl.org/2003/instance#"

xmlns:iso4217="http://www.xbrl.org/2003/iso4217#"

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:xbrlowl="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#" >

<rdf:Description rdf:about="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-31/01/2011-

01-27#jpfr-asr-E00197-000-2010-10-31-01-2011-01-27-

TheCessionOfAnObligationIsDisadvantageousOpeCF-Prior1YearConsolidatedDuration">

<rdf:type rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#item"/>

<rdf:type rdf:resource="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-31/01/2011-01-

27#TheCessionOfAnObligationIsDisadvantageousOpeCF"/>

<rdf:type

rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#TheCessionOfAnObligationIs

DisadvantageousOpeCF"/>

<xbrlowl:context rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#jpfr-asr-

E00197-000-2010-10-31-01-2011-01-27-Prior1YearConsolidatedDuration"/>

<rdf:value rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">56000000</rdf:value>

<xbrlowl:decimal rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">-6</xbrlowl:decimal>

<xbrlowl:unit rdf:resource="http://www.xbrl.org/2003/iso4217#JPY"/>

</rdf:Description>

http://www.w3.org/RDF/

プロパティ

リソース

RDF

32

日本におけるLOD

国立情報学研究所のCiNii (論文,書籍データ)

国立国会図書館のNDLSH (標目データ)

LOD.AC (博物館・美術館収蔵品データ)

LODチャレンジ

日本語Wikipediaオントロジー

件名(主題表現の統制キーワード)をRDF化

上位、下位、関連件名にSKOSを用いてリンク

日本のWikipediaからオントロジー学習により

大規模なオントロジーを構築.

日本のLODにおけるDBPediaとしての役割が期待されている.

論文や図書・雑誌などの学術情報に関する

RDFデータを公開している.

論文1500万件, 書誌1100万件

14館の博物館資料,日本美術シソーラス,

国指定文化財データベース,文化遺産オンライン,

日本語版DBPedia liteから博物館情報を

対象にRDFデータを構築している

一般の応募者からLOD活用のためのアイデア,及び,

実際のLODデータ,LODを利用したアプリケーションを募集している.

2010年~

2009年~

2011年~

2010年~

2009年~

33

http://citydata.jp/ http://spending.jp/