20130921(web mining yamaguchi)
TRANSCRIPT
Agenda
• データマイニングと ビッグデータ人材育成プログラム(H25-H27)
• AIの変遷(特に知識型AI)
• 日本語Wikipediaオントロジー
• LOD (Linked Open Data)
• オントロジーとLODを利用したサービス
~道路利用者支援サービス~
~HRI (Human Robot Interaction)~
2
第1世代(1995-2000年前半) データマイニング開発手順
問題設定 ロイヤルカスタマー早期特定
退会者を少なくしたい
データの理解 データサイズとマシンスペック
外れ値,欠損値,
設定目標とデータの整合性
データ前処理 欠損値処理,離散化
サンプリング
アルゴリズム選択 クラスタリング,相関ルール,決定木学習,
遺伝的アルゴリズム,ニューラルネット...
不満足 アクション
結果後処理 専門家 による評価
6
1 3
3
4
肝炎データマイニング
• 提供データセット
– 患者基本情報
• 患者のプロフィール
– 検体検査結果情報
• 検体検査(血液&尿)の結果 情報 → 院内+外注データ
– 肝生検情報
• 肝生検情報(肝炎の進行具合)
– インタフェロン投与情報
• インタフェロンの投与時期
• データの特徴 – 大規模な未整備時系列データ
• 最大 160 万レコード
• 膨大な数の表記揺れが存在
– 検査項目数が非常に多い
• 最大 950 項目
– 時期により検査項目の再現性が変化&欠損値が多い
• 観測機器&医学の進歩
– 医者によるバイアスが存在
• 重病患者には特殊な検査
6
• 予測正答率: 60.90% (21/34), 再現率: 1.43% (21/1470)
IF 直前24ヶ月のビリルビンの平均値が高く、TTT(チモール混濁試験)が減少する
THEN GPTが減少に転じる
GPTは周期的な多少の上下動があるもののほぼ一定と理解してきた。
このルールは、GPTの上下動の転移を説明する可能性があり興味深い。
ウィルス活動・バクテリア増殖の周期性とも関連するのか?
データマイニングの課題
• データ整備はコストがかかる
• 他のデータの連携も調べたくなる
• マイニング結果の意味を説明しろと言われても
• マイニング結果も大量になり絞り込みたい。
• 専門家の壁(主観vs.客観)
• 組織の壁
→2000年前半「データマイナーの憂鬱」
→2011年以降「ビッグデータ」 多くの関心
7
6種類のビッグデータを調査中
納豆菌ゲノム データ(数値)
運転行動 プローブ (時系列 &動画)
位置 情報
人間生活工学 研究センター
静岡県 オープンデータ
国立遺伝 情報学研究所
リクルート
行政データ (数値&画像)
IMES コンソーシアム
就職関連情報 ライフスタイル (テキスト &数値)
ゴルフグッズ 購入履歴データ (数値&テキスト)
ゴルフ ダイジェスト ・オンライン
9
Agenda
• データマイニングと ビッグデータ人材育成プログラム(H25-H27)
• AIの変遷(特に知識型AI)
• 日本語Wikipediaオントロジー
• LOD (Linked Open Data)
• オントロジーとLODを利用したサービス
~道路利用者支援サービス~
~HRI (Human Robot Interaction)~
10
AIの歴史
1956年 ダートマス会議(チェス、定理証明) 探索、推論
1960年~ 第一次AIブーム(単なる期待、Toy Problem)
1970年~ 冬の時代(機械翻訳無理!基礎研究は継続)
1980年~ 第2次AIブーム(知識の時代、 国プロ、産業化、AIベンチャー)
1995年~ 再び冬の時代へ(基礎研究は継続):
インターネットの時代へ
11
AIの現在 ①コンピュータの高速化
②記憶装置の大容量化
③ネットワーク広帯域化
④ソフトウェアのオープン(無料)化
に支えられ,
AI要素技術(探索,推論,学習,知識)は進歩
2010年~ 第3次AIブーム?
AI要素技術の進化と統合(周辺関連技術含む)
による 特化された,でも強力なAI の登場
12
2012.2 AI囲碁 Zen
囲碁はまだまだ!
2012.1 第1回電王戦 故米長元名人vs. ボンクラーズ
1997 AIチェス Deep Blue
AIがプロに迫る&超える
10 120 10 220 10 360
14
2013年3~4月 第2回電王戦@ニコファーレ チーム戦(プロ 1勝3敗1分 コンピュータ)
ELIZA 人工無能
• 入力文章中のパターンに対して反応 • 会話を理解しているように見せかける、はぐらかす
• 事前に用意された定型的な表現の中から応答 • 俺にはみんなが俺を笑っていることはわかっていたんだ → 特に誰のことを考えていますか? • キーワードが見つからない場合
→ なぜそう思うのですか?
Yuka: 人工無能デモ http://www.simsimi.com/talk.htm
17
2003年 QA Challenge !(1) IBM PIQUANT
• 2003~ IBM,PIQUANT
(Practical Intelligent Question Answering Technology) プロジェクト
★閉じた問題ではなく、事前に分からないクイズに解答する という開いた悪構造問題に挑戦
深い論理形式分析と浅い機械翻訳ベースのアプローチを統合
この難しい問題にチェレンジするには、AI技術が未熟で、
マシンパワーも不足して、大きな成果はあげられずに終わる。
19
クイズ人工知能 Watson
★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。 自動的にコーパスを拡大。 ★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出 ★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成, 仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど, 100以上の従来AI技術(20年前の技術もある)の集大成 ★精度、確信度、速度を考慮したAIインテグレーション ★計算力:並列計算による計算パワー ★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。 ★展開性: 医療、金融、行政、マーケティングにも適用可能
20
東大ロボットプロジェクト 2021年東大入試合格を目
指して http://21robot.org/
Agenda
• データマイニングと ビッグデータ人材育成プログラム(H25-H27)
• AIの変遷(特に知識型AI)
• 日本語Wikipediaオントロジー
• LOD (Linked Open Data)
• オントロジーとLODを利用したサービス
~道路利用者支援サービス~
~HRI (Human Robot Interaction)~
22
①言葉(概念) 分類階層木
②言葉(=固有表現、具体物)ネットワーク
23
織田信長
本能寺
墓所
濃姫 妻
法華宗本門流
日本の 寺院
建築物
日本の神
農民 武士
宗派
1415年
創建年
歴史上の身分
神
天文3年5月12日
生誕
豊臣秀吉
主君
本蓮寺
宗派
日本の城
岐阜城
建立
1347年
創建年
人・もの・ こと分析
分け方
オントロジー
Wikipediaからオントロジー(言葉階層木,言葉のネットワーク)に自動変換して, 人工物に言葉の意味(Sense)を理解させる →日本語Wikipediaオントロジー
人間には,ウィキペディアの内容(意味)が判るけど人工物(コンピュータ,スマフォ,ロボット...)には判らない
日本語Wikipediaオントロジー
24
26
さらにズームアップ(模式図)
日本の 小説家
小説家
作家
人物
文学
文化
芥川龍之介
文化活動
家族
日本史の人物
代表作
職業
職業
プロパティ定義域
クラス-インスタンス関係
Is-a関係・プロパティ上位下位関係
トリプル
プロパティ値域
日本の 大学
日本の 小説
日本
存命人物
羅生門 蜘蛛の糸
鼻
小説家
塚本文
芥川也寸志
芥川貴之志
短編小説
日本
東京帝国 大学英文科
日本の映画作品
作曲家
日本のクラシック音楽の作曲家
オペラ 作曲家
夏目漱石 明治の人物
明治大学の人物 門下生
津田青楓
坊っちゃん こゝろ
小説
時代小説・歴史小説作家
誕生
最終学歴
配偶者 子供
著作
国籍
親族
ジャンル
死没
東京都出身の人物
日本出身の人物
文庫本
クラス
プロパティ
インスタンス
俳人
Extracting Ontologies from Japanese Wikipedia
by 10 kinds of Heuristics
27
Japanese Literature Ontology
from Japanese Wikipedia
Susumu TAMAGAWA, Shinya SAKURAI, Takuya TEJIMA,
Takeshi MORITA, Noriaki IZUMI, and Takahira YAMAGUCHI:
Learning a Large Scale of Ontology from Japanese Wikipedia,
2010 IEEE/WIC/ACM International Conference on Web
Intelligence, pp.279-286 (2010)
5. Property Type
•Symmetric, Transitivity and Functional
4. Property Domain & Range
•Matching the category name and infobox template name
2. Class-Instance Relationship (rdf:type)
•Scraping Listing pages
1. Is-a Relationship (rdf:subClassOf)
•Matching the character string related to the category hierarchy •Matching the category name and infobox template name •Scraping TOC headings
3. Infobox triple
•Scraping Infoboxes
日本語Wikipediaオントロジー http://www.wikipediaontology.org/
クラス数 162,407 インスタンス数 1,867,071 プロパティ数 25,266 クラスを持つインスタンス数 700,104 is-a関係数(rdfs:subClassOf) 58,954 タイプの数(rdf:type) 1,013,926 定義域関係数(rdfs:domain) 30,533 値域関係数(rdfs:range) 72,308 プロパティ上位下位関係数(rdfs:subPropertyOf) 303 上位下位関係数(jwo:hyper) 274,363 関連語・同義語(jwo:nearly) 258,853 動詞とプロパティの対応数(jwo:verb) 63,670 プロパティトリプル数 10,064,292 Infoboxトリプル数 3,006,812 外部への参照数(owl:sameAs) 1,048,957
28
Agenda
• データマイニングと ビッグデータ人材育成プログラム(H25-H27)
• AIの変遷(特に知識型AI)
• 日本語Wikipediaオントロジー
• LOD (Linked Open Data)
• オントロジーとLODを利用したサービス
~道路利用者支援サービス~
~HRI (Human Robot Interaction)~
29
LODの具体例
• DBPedia (2007年~)
– 英語版Wikipediaから構築された,LODのハブ的存在
• BBC (2009年~)
– 英国放送協会が提供しているニュースとテレビ番組の情報
• News York Times (2009年~)
– 蓄積された新聞記事に現れる人名,組織.団体名,地名,主題のキーワード約1万字にURIを与えてLODとして公開
31
• Linked Dataのデータフォーマット
• リソース記述のためのフレームワーク
• シンプルなデータモデル
title author pages
こころ 夏目漱石 300
book
こころ
夏目漱石
300
title
author
pages
<rdf:RDF
xmlns:jpfr-t-sec="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/sec/2010-03-11#"
xmlns:jpfr-oe="http://info.edinet-fsa.go.jp/jp/fr/gaap/o/oe/2010-03-11#"
xmlns:jpfr-t-cns="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/cns/2010-03-11#"
xmlns:jpfr-t-cte="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/cte/2010-03-11#"
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:jpfr-asr-E00197-000="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-
31/01/2011-01-27#"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance#"
xmlns:link="http://www.xbrl.org/2003/linkbase#"
xmlns:xlink="http://www.w3.org/1999/xlink#"
xmlns:jpfr-di="http://info.edinet-fsa.go.jp/jp/fr/gaap/o/di/2010-03-11#"
xmlns:xbrli="http://www.xbrl.org/2003/instance#"
xmlns:iso4217="http://www.xbrl.org/2003/iso4217#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:xbrlowl="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#" >
<rdf:Description rdf:about="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-31/01/2011-
01-27#jpfr-asr-E00197-000-2010-10-31-01-2011-01-27-
TheCessionOfAnObligationIsDisadvantageousOpeCF-Prior1YearConsolidatedDuration">
<rdf:type rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#item"/>
<rdf:type rdf:resource="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-31/01/2011-01-
27#TheCessionOfAnObligationIsDisadvantageousOpeCF"/>
<rdf:type
rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#TheCessionOfAnObligationIs
DisadvantageousOpeCF"/>
<xbrlowl:context rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#jpfr-asr-
E00197-000-2010-10-31-01-2011-01-27-Prior1YearConsolidatedDuration"/>
<rdf:value rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">56000000</rdf:value>
<xbrlowl:decimal rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">-6</xbrlowl:decimal>
<xbrlowl:unit rdf:resource="http://www.xbrl.org/2003/iso4217#JPY"/>
</rdf:Description>
…
http://www.w3.org/RDF/
プロパティ
リソース
RDF
32
日本におけるLOD
国立情報学研究所のCiNii (論文,書籍データ)
国立国会図書館のNDLSH (標目データ)
LOD.AC (博物館・美術館収蔵品データ)
LODチャレンジ
日本語Wikipediaオントロジー
件名(主題表現の統制キーワード)をRDF化
上位、下位、関連件名にSKOSを用いてリンク
日本のWikipediaからオントロジー学習により
大規模なオントロジーを構築.
日本のLODにおけるDBPediaとしての役割が期待されている.
論文や図書・雑誌などの学術情報に関する
RDFデータを公開している.
論文1500万件, 書誌1100万件
14館の博物館資料,日本美術シソーラス,
国指定文化財データベース,文化遺産オンライン,
日本語版DBPedia liteから博物館情報を
対象にRDFデータを構築している
一般の応募者からLOD活用のためのアイデア,及び,
実際のLODデータ,LODを利用したアプリケーションを募集している.
2010年~
2009年~
2011年~
2010年~
2009年~
33
http://citydata.jp/ http://spending.jp/