linked dataの概要と課題
TRANSCRIPT
Linked Dataの概要と課題
高久雅生
筑波大学図書館情報メディア系
1
第63回日本図書館情報学会研究大会シンポジウム2015年10月18日(日) @ 学習院女子大学
自己紹介
• 高久雅生(たかくまさお)
• 所属:筑波大学図書館情報メディア系
• 関心領域
情報検索、情報探索行動、電子図書館
• 書誌データ流通
機関リポジトリソフトウェアの開発、運用
オープンソースの図書館蔵書検索システムNext-L Enju開発者チームの一員
FRBR&RDA勉強会主催者の一人
2
ウェブ上における書誌データ流通
3
?
検索エンジン
出版社
書店
ブログ
SNS
図書館目録
4https://ja.wikipedia.org/wiki/夏目漱石
(最初にまとめから)
• ウェブ上でのプレゼンスを高める信頼性の高い,精緻なデータを活用したい機運
• Linked Data: セマンティックウェブの落とし子ウェブ上のデータの機械処理・理解を目的とする発想なので、既存の書誌情報処理と大きな差異
• Linked Dataを情報資源の組織化という視点で眺めると、識別子・典拠情報管理の部分において共通点が大きいただし、Linked Dataにおける識別子はウェブ空間に由来
※URI = Uniform Resource Identifier
• 国際的・分野横断の応用を期待ただし、直接的な応用アプリケーションはさほど多くない
5
Semantic Web (1)
Tim Berners-Lee, James Hendler, Ora
Lassila. The Semantic Web. Scientific
American, 2001, Vol.284, No.5, pp.35-43.
• WebからSemantic Webへ
• 意味的記述と機械的理解を可能とするWebマークアップ
• エージェント型の応用アプリケーション
6
Semantic Webアプリケーション (1)
• 例: “仕事帰りに寄れる歯医者さんを知りたい”
仕事:平日9:00-18:00
仕事帰りに寄る:つくばエクスプレス(TX)沿線
• 18時以降に診察可能
• TX沿線の駅名:つくば,研究学園,…,南流山,北千住, 秋葉原
• 駅から徒歩 500m 圏内
7
Semantic Webアプリケーション (2)
• Webマークアップを通じた情報抽出
• 曖昧性の解消月=月曜日 = Monday = Mon.
「9:00-13:00・15:00-19:00」
休診日, 診療時間
祝日,祝祭日,年中無休
• 常識の理解1週間 = 月火水木金土日
平日=月~金
8
Semantic Webの課題
• Webの分散性 + 膨大な情報
数千億 - 1兆ページを超えるWeb空間
• 多様な概念や記述によるビッグデータが取得可能
• 情報発信ルートの多彩さ
• 多言語、多文化
統制された語彙使用や慣習を前提としえない
• 汎用モデルの困難さ
計算機アプリケーションによる意味理解は困難
9
Linked Dataの概要
• 経緯:セマンティックウェブの弱点を補うため、シンプルなデータモデルで個別の応用を作りやすくする試み
• 個別のリソースの情報を構造化していくできるところからでよい一つずつプロパティ(property)を追加する
• データモデルRDF(Resource Description Framework)のデータモデル = トリプルモデル(三つ組)
• データ型:リソースとリテラルリソースはウェブ上にアドレスを持つ識別子(URI)として振舞う
10
RDFデータモデル
• RDF (Resource Description Framework)
• グラフデータモデル
ラベル付き有向グラフ
三つ組(Triple)による表現
• 特徴
シンプルで強力なデータ表現
記述規則が複雑となりがち
処理演算に時間がかかる
11
芥川龍之介羅生門著者
Linked Dataの概要 (2)
• 構造化データ
• “ドキュメントとしてのWeb”
→ “データのWeb”
• Linked Dataの4原則
事物をURIを使って名前付ける
事物をHTTP + URIで参照する
URIを参照したときに関連情報を表示する
外部のリソースへのリンクも含める
12
シンプルなWebデータの構造化の手法
• Microformat, Microdata
<a href=“http://masao.jpn.org/”>高久雅生</a>
<a href=“http://masao.jpn.org/” rel=“author”>高久雅生</a>
• テキストに対するマークアップに意味を付与ドメイン(分野)毎に合意された意味関係を付与することにより、アプリケーション利用、再利用を促進
サーチエンジンにおける利用: Schema.org
13
RDFグラフモデルの一例
14
つくば市(つくばし)は、茨城県南部に位置する市である。学術・研究都市としての筑波研究学園都市はつくば市全域を区域とする。特例市、業務核都市、国際会議観光都市に指定されている。(Wikipedia日本語版)
つくば市
茨城県南部
茨城県
市
地方自治体
市町村
都道府県
町村
筑波研究学園都市
特例市
gn:location
gn:location
org:alias
rdf:type
rdfs:subClassOfrdfs:subClassOf
rdfs:subClassOf
rdf:type
Linked Dataの提供例 (DBPedia)
• 例: http://ja.dbpedia.org/page/つくば市
• 百科事典サービスWikipedia上からデータ抽出したもの(+人手による属性同定とマッピング)
http://mappings.dbpedia.org/index.php/Ma
pping_ja
15
16
17
18Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud
diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30)
19Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud
diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30)
出版物
生物系
領域横断
SNS
地理情報
政府系公的データ
マルチメディア
CGM
言語資源
Linked Dataの提供例 (CiNii Articles)
• 通常のWebページ(HTML)
http://ci.nii.ac.jp/naid/130003392336
• RDF表現 (XML)
http://ci.nii.ac.jp/naid/130003392336.rdf
• ボキャブラリ
Dublin Core
Prism (Publishing Requirements for Industry Standard Metadata)(―雑誌情報)
FOAF (The Friend of a Friend)(―著者情報)
20
BIBFRAMEとは (1)
• 米国議会図書館(LC)が2012年に公表した書誌データ用のデータモデル
• FRBR類似の書誌情報のための概念モデル
• Linked Dataの考え方に沿っているデータモデルはRDFグラフモデルを前提
• 4つのコアクラスからなるCreative Work
Instance
Authority
Annotation
21
BIBFRAMEとは (2)
• 概念モデル(データ種別毎の構造)
22
BIBFRAMEに基づくデータ例
23
Work
Instance
heldItem
Rebecca Stefoff.
Al Gore: Fighting
for a Greener
Planet. Lerner Pub
Group, 2008, 48p.
BIBFRAMEのデータ例 (Work)
24
sample:
work
bf:Work
Stefoff, Rebecca, 1951-
Al Gore : fighting for …
lcc:
E840.8.G65
lang:eng
sample:
person1
rdf:type
bf:authorized
AccessPoint
bf:classificationLCC
bf:language
bf:creator
Stefoff, Rebecca, 1951-bf:authorized
AccessPoint
names:
n85352761
bf:Personrdf:type
bf:has
Authoritysample:
worktitle
bf:workTitle
bf:Title
rdf:type
Al Gore
fighting for a greener …
bf:titleValue
bf:subtitle
BIBFRAMEのデータ例 (Instance)
2525
sample:
instance
bf:Instance
Isbn:97815
75059488
rdf:type
bf:isbn13
sample:
instance
title
bf:instanceTitle
bf:Title
rdf:type
Al Gore
fighting for a greener …
bf:titleValue
bf:subtitle
bf:Monograph
24cm.
bf:dimensions
Rev. ed.bf:edition
48 p.bf:extentbf:lccn
bf:Identifierrdf:type
identifiers:
lccnbf:identifier
Scheme
2007049050bf:identifier
Valuebf:publication
bf:Provider
rdf:type
bf:provider
Name bf:Organizationrdf:type
Lerner Publications Co.
bf:label
BIBFRAMEのデータ例 (HeldItem)
26
sample:
work
sample:
instance
sample:
person1
bf:creator
bf:instanceOf
sample:
item1
bf:holdingFor
bf:HeldItem
rdf:type
E840.8.G65 S74 2009bf:shelfMarkLcc
BIBFRAMEの特徴
• シンプルな語彙設計クラス数:約50種類,プロパティ数:約300種 Linked Dataとしての使い勝手 LCが開発してきたLinked Data公開と調和
• http://id.loc.gov/
• ツール群の提供MARC21RDF/XML等との変換など
• 留意点プロパティ群、語彙集合が未確定RDA等を含む,書誌情報流通領域でのLinked Data語彙との調整が必要(?)• RDAと比してLinked Dataへの親和性は高いように見える
27
まとめ
• Linked Data 「データのウェブ」のためのデータ提供方式
RDFデータモデルを前提
• 書誌情報の組織化分野横断でつながるための整備において重要
FRBR,RDA,BIBFRAME,Schema.orgなど種々の書誌情報モデルに基づく形式化が試みられている
• BIBFRAME Linked Dataモデルによる書誌情報のモデル化
仕様は未完成
MARC21からの変換ツール等も提供されている
28
今後に向けて
• 図書館の現場で培ってきた書誌データそのもの(+その方法論)をより広い領域に活かしたり、展開したりするには、Linked
Dataのようなウェブ向けの枠組みを用いることは有用か?
• ウェブ上における情報管理の枠組みはさほど厳密でない点に留意する必要
データ欠損,リンク切れを許容
Linked Data語彙集合における決定版(完全版)が不在
29