linked dataがつくる新しいデータの世界linkedopen data for academia linked...

27
Linked Open Data for ACademia Linked Dataがつくる新しいデータの世界 武田英明 [email protected] 国立情報学研究所 グリッド協議会 37回ワークショップのご案内 公共データのオープン化とクラウド 20121219

Upload: others

Post on 08-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Linked Open Data for ACademia

Linked Dataがつくる新しいデータの世界

武田英明[email protected]

国立情報学研究所

グリッド協議会 第37回ワークショップのご案内 公共データのオープン化とクラウド 2012年12月19日

Linked Open Data for ACademia

Linked Data

• Tim Berners‐Leeが提唱する新しいデータ共有の仕組み

– これまでのWeb:文書のWeb (Web of Documents)– Linked Data: データのWeb (Web of Data)

• 孤立したデータの島から世界でつながるデータのcloudへ

Linked Open Data for ACademia

文書のWeb

Linked Open Data for ACademia

データのWeb

このデータに対応する別のデータ

このデータに別のデータと同じ

この属性の意味は?

異なるデータ源のデータが相互に結びつく

Linked Open Data for ACademia

Linked Dataの記述のしかた

• RDF(+RDFS, OWL)の利用– 簡便な記述方法:<主語> <述語> <目的語> .

<http://www‐kasm.nii.ac.jp/~takeda#me> <rdfs:type> <foaf:Person> .<http://www‐kasm.nii.ac.jp/~takeda#me> <foaf:name> “武田英明” .<http://www‐kasm.nii.ac.jp/~takeda#me> <foaf:gender> “male” .<http://www‐kasm.nii.ac.jp/~takeda#me> <foaf:knows> <http://foaf.me/danbri#me>  .

<http://www‐kasm.nii.ac.jp/~takeda#me>

<http://foaf.me/danbri#me>

foaf:knows

<foaf:Person>

rdfs:type

“武田英明” “male”

foaf:name foaf:gender

Linked Open Data for ACademia

Linked Open Data (LOD)• オープンでリンクできるデータ

– 今のWebが“文書のWeb” 、LODは“データのWeb”

• Linked Dataの5原則

– 事柄の名前にURIを使うこと

– 名前の参照がHTTP URIでできること

– URIを参照したときに関連情報が手に入るように理解可能なデータを提供

– 外部へのリンクも含めよう

(必ずしもオープンとは限らない⇒Linked Data)

Linked Open Data for ACademia

LOD Cloud: 相互リンクがある200以上のデータセット

世界におけるLODへの取り組み

Linked Open Data for ACademiaDBpedia Mobile

Linked Open Data for ACademiaBio2rdf

Linked Open Data for ACademia

http://www.data.gov/

Linked Open Data for ACademia

Linked Open Data for ACademia

LODAC Project

• Linked Dataによるデータ共有を実現する仕組みを確立

– 実践による探求:実際にデータをつくる• サービス化、サービス提供

• 経験の蓄積と方法論化

• 問題の洗い出しと解決

• プロジェクトの実施内容

– 美術館・博物館データのLOD化による統合 (LODAC MUSEUM)– 生物種データのLOD化による統合(LODAC SPECIES)– 関係するデータ、ソフトウエアの構築

• 地理データ (LODAC LOCATION)• DBpedia Japanese• CKAN日本語化

情報・システム研究機構 新領域融合研究センター「異分野共有資源共有・協働基盤の構築」「学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構築」

Linked Open Data for ACademia

本プロジェクトでの構築したDB

LODAC SPECIES: 種名をベースに多様なDBをリンクで接続

博物館

DB

博物館

標本DB

DB種情報DB

TaxonName DBGBIF

DBBioSci.DB

個別

DB

個別

研究DB

名前数: 113118トリプル数:14,532,449

Data from Source BIntegrated data

dc:references dc:references

dc:references dc:references

dc:references dc:references

dc:creatordc:creator

crm:P55_has_current_location

crm:P55_has_current_location

crm:P55_has_current_locationdc:creator

Data from Source AWork

Museum

Creator

Minimum Data to identify entitiesRaw Data for entities Raw Data for entities

LODAC Museum: 博物館・美術館のデータのLOD

検索拡張アプリ

CKAN (日本語): データセット登録レジストリ

DBPedia Japanese

LODAC Location: 位置情報統合

Linked Open Data for ACademia

LODAC Museum

• Linked Dataによるデータ処理のテストベッド

• 美術館・博物館情報の特徴

– 分散性:国内だけでも6,000– 大規模性:それぞれが102~104のデータ

– スキーマの統一性と多様性:一定の標準+α– 統合可能性:作者、作品、場所、モチーフなど

– リンク性:様々な分野の他のデータとのリンクの可能性

Linked Dataによる技術的実験、課題解決

Linked Open Data for ACademia

LODAC Museum

• 国内の美術館の収集公開品に関するDB– 現在

• トリプル数:40,059,131

– 館数:114• 博物館Webサイトからのコレクション情報

• サイエンスミュージアムネットからの標本情報

• 作者、施設等によるデータ統合

• RDFによるデータ公開

• いくつかのアプリケーション

Linked Open Data for ACademiaデータ統合

16

情報源 情報種別 データ数

国立美術館(西美を除く3館) 作品 25180

国立西洋美術館 作品 4373

京都国立博物館 作品 5819

奈良国立博物館 作品 431

福島県立美術館 作品 20

栃木県立美術館 作品 32

秋田県立近代美術館 作品 22

岩手県立美術館 作品 1558

徳島県立近代美術館 作品 18482

山梨県立美術館 作品 262

東京都現代美術館 作品 5416

香川県立東山魁夷せとうち美術館 作品 266

日本美術シソーラスDB 作品 3800

日本美術シソーラスDB 人物 1332

日本美術シソーラスDB グループ 289

日本美術シソーラスDB 所蔵館情報 648

文化遺産オンライン 所蔵館情報 915

国指定文化財データベース 作品 10115

合計 103096

総データ数 特定項目キーの単純文字列統合実験結果

統合項目 情報源 データ数 統合数

所蔵館名 日本美術シソーラス 648 77

文化遺産オンライン 915

国宝・重文資料タイトル

日本美術シソーラス(作品) 3800 74

国指定文化財DB(作品) 10115

作者名による資料タイトル

日本美術シソーラス(人物) 1332 15020各館(作品) 61861

作者名 日本美術シソーラス(人物) 1332 615各館(作品) 61861

「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった

「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出

統合

Linked Open Data for ACademia

データ公開

• RDF公開

– 参照解決可能なかたちでの公開

• SPARQLアクセス

– SPARQLエンドポイント

公開

Linked Open Data for ACademia

Name of creatorName of creator

LODAC ID and associated Ref-Resource IDs

作者ページの例公開

Linked Open Data for ACademia公開

Linked Open Data for ACademiaLinked Dataの利用

‐ Yokohama Art Spot ‐

• 博物館情報と横浜の地域情報のLODを連携したWebアプリケーション

• 横浜市内のアート関連情報

– 施設情報

– イベント情報

– 収蔵品情報(一部の施設のみ)

– Q&A情報

LODAC Museum × 横浜LOD × PinQA(博物館情報) (地域情報)

http://lod.ac/apps/yas/

利用

スポット情報

Linked Open Data for ACademia

施 設

ユーザ

Yokohama Art Spot

RDFストア

SPARQLエンドポイント

RDFストア

SPARQLエンドポイント

LODAC Museum

横浜LOD

作品

所蔵館

アーティスト

アーティスト

施設

イベント

Yokohama Art Spot の構成

全体マップ表示における処理

施設

イベント

HTMLJavaScriptPythonSPARQLWrapper

OWLIM SE

ARC2

RDFストア

SPARQLエンドポイント

PinQA

質問

回答

ユーザ

SPARQL

JSON

D2R

スポット

Linked Open Data for ACademia

Yokohama Art Spot システム構成

作 品

所 蔵館

アーティスト

アーティスト

施 設

イベント質 問

回 答ユーザ

SPAR

QL

スポット情報 イベント情報 施設情報

PinQAヨコハマ・アートLOD

LODAC Museum

JSON

ユーザ Yokohama Art Spot情報の取得 & 提示

‣ 異なるLODのリソース同士のリンク緯度・経

リンク

Linked Open Data for ACademia

施設情報ページにおける情報取得と表示

•施設名•アクセス

•ジャンル•休館日•住所•周辺地図

イベント情報(タイムライン表示)

イベント情報(リスト表示)

すべて横浜LODのデータを使用

利用

Linked Open Data for ACademia

施設情報ページにおける情報取得と表示

標準化された形式で記述

ユーザに適した表示が簡単に実現可能

利用

Linked Open Data for ACademia

施設情報ページにおける情報取得と表示

所蔵品情報(リスト表示)

所蔵品の提示・リンクはLODAC Museum から取得

横浜LODだけでは不可能な情報探索が実現可能

利用

Linked Open Data for ACademia

まとめ• Linked Open Data (LOD)はデータをつなげることにより、データに新しい価値を与える

• LODはデータ処理において新しいアーキテクチャとしても利用可能

• つながった巨大データは新しい情報処理の新しいチャレンジ– e.g., Billion Triple Challenge

収集 洗練 統合 公開 利用

RDFほとんどの処理はRDFで行われる

Linked Open Data for ACademia

http://lod.ac