도서관에서의 linked data의 활용
DESCRIPTION
현재의 정보이용추세에 맞춰 각종 도서관 및 정보센터가 진화해서 궁극적으로 Social Semantic Digital Library가 될 필요성이 있다. 그러나 아직 대부분의 도서관이 그냥 자료를 전산화시킨 수준에 머물러 있다. 이미 디지털도서관이라는 것들도 Web에 Publish를 못할 뿐만 아니라, 혹시 연결이 되었다 하더라도 자료들 간의 관계 부족으로 Semantic level이 너무 떨어지고 있다. 우리 인간이 이해하는 대로 기계가 이해하게 하면서 Semantic level을 올릴 수는 없을까? 바로 이 점에서 Semantic web이 출발한다. 이 문제를 극복하고자 DCMI를 위시한 ‘다양한’ 메타데이터가 등장했으며 지금은 Linked Data까지 등장하고 있다. 메타데이터가 다양하게 존재하고 있기 때문에 다양하게 섞어서 사용할 수 있다는 장점이 있다. 다양한 상호운용성의 방법 (하나의 메타데이터로 통합 다양한 메타데이터 인정, Metadata Registry, Open Source의 활용 및 Linked data)이 있다. 그중에서 Linked Data를 중심으로 도서관이 어떻게 구체적으로 대응해 나가고 있는지를 미의회도서관 및 스웨덴의 LIBRIS를 중심으로 살펴보고, 이를 바탕으로 아직도 카탈로그의 캡슐에 묻혀 있는 우리나라 도서관의 목록의 실정을 언급하고 Linked data를 중심으로 적극적인 상호운용성의 방법을 제안하고 하고자 한다. 웹에 있는 다양한 Resource사이에 관계를 부여하면서 뜻을 더 명확하게 표현하자는 시도가 바로 Linked Data이다. 이 글에서는 맹자가 말하는 明志, 즉 ‘뜻을 분명히 밝히라’는 가르침을 Tim Berners-Lee가 어떻게 답하는 가를 밝힌다. 이에 그가 제안하는 dereferenceable uri, rdf 및 http를 통한 출판을 간단히 살피고, skos를 위시한 rdf vocabularies를 언급한다. 궁극적으로는 rdf 링크를 통한, 심지어는 다른 데이터 셋을 활용하여 끝없는 탐색을 하게 될 모델을 제공하고자 한다.TRANSCRIPT
Contents 1. Intro 1.1 Brief Overview: from MARC to Linked Data 1.2 Paradigm Shift in www2. MARC 의 문제점 및 Frbr 개념모델의 등장 3. 시맨틱웹의 한 부분으로서의 도서관 목록 3.1 Linked data 를 통한 도서관의 진화
3.1.1 Linked data 의 활용3.1.2 Library related Linked Data projects3.1.3 Possible applications of libraries in the Linked Data
3.2 Controlled Vocabulary 의 활용4. Proposed Models for Libraries with Linked data
2
Intro: 정보검색의 영원한 숙제
3
False Positive / authority control (전거 통제 ) / …Disambiguation 및 Collocation + interoperability
식별자 특히 http uri
1.1 Brief Overview: from MARC to Linked Data
4
Card 목록 MARC: electronic version of the old card
file.
Internet 1 세대 : 데이터의 의미가 아닌 구문의 형태를 인식
Bush (1945)
Tim Berners-Lee(1989)
Global hypertext system
시맨틱웹 : 뜻을 살리자 the meaning (semantics) of information and services on the web is defined
차세대 웹
1.1 Brief Overview: from MARC to Linked Data
Oh my goodness, the original web of documents was just the tip of iceberg.” ( Sir Tim Berners Lee, July 2008)
Linked data: Semantic web 의 한 분야로 웹상에서 분리해서 참조할 수 있는 uri (dereferenceable uri), rdf 및 http uri 를 활용해서 데이터를 의미 있게 연결시키는 방법
Linked Data finally, truly, connects libraries to the web.
5
Paradigm Shift in www
6
Paradigm Shift in 정보탐색전통적 다큐먼트 => HTML browsersA web of data => Linked Data browsers / RDF links. ( 분리할 수 있는 URI)
어떤 data 소스 – rdf 링크를 통한 ( 심지어는 다른 데이터 셋을 활용한 ) 끝없는 탐색
예 ) 어떤 사람 – 그 사람의 고향 – 그 고향의 유명인사 – 그곳에서 태어난
자 , 죽은 자 , - 그 사람이 감독한 영화 – 그 영화의 출연 배우들 – 그들의 배역 – 등등 …… .
7
2. MARC 의 문제점 및 FRBR 개념모델의 등장
기하급수적 데이터 생태계에서 현재의 도서관 자료조직으로 살아남을 수 있을까 ?
No 1:1 Principle (Marc 자체가 아닌 그렇게 사용하지 못한 시스템의 문제 )
8
1 to 1 principle 1 개의 테이블에 해당 자료를 다 넣어도 별 무리가 없는데 , 좀 더 '
명확 ' 하게 구분 짓기 위해서 테이블을 나누는 경우이다 . 심각하지도 어렵지도 않는 단순 명쾌한
관계로 연결 지을 수 있다 .
이 말은 한 레코드 (a record) 안에 모든 것을 다 가지고 있는 큰 덩치를 좀 더 훌륭한 기능을 수행할 수 있게 잘게 하나 하나의 개체로 나누어서 서로 관계를 맺어주자
9
Frbr 개념모델의 등장
frbr 에서는 3 개의 큰 그룹으로 나누고 1 그룹에는 work, expression, manifestation, item (Uniform Title) 2 그룹에는 person & corporate body (names) 3 그룹에는 concept, object, event, place (subject)
으로 크게 나누고 다시 더 세분화해서 필요한 것끼리 1:1 관계를 맺어준다 .
바로 이 1:1 관계가 Collocation 을 맺게 해준다 . (Cutter’s 2nd principle for libraries)
바로 이것이 지금 웹에서 말하는 Web of Data/Linked data 의 기본이 될 수 있다 . 즉 하나 하나의 데이터에 의미를 부여하여 필요한 관계를 맺어주자는 말이다 .
10
“a” Marc Record
11
Monolithic
Meaningful Decompose
12
논리적으로 잘게 나눌 수는 없을까 ?
새롭게 배열 (collocate) 해주자
“ 의미 있게 묶어준다” 고 하여 “ Collocation” 이라고 한다
이 큰 덩치를 어떻게 할까 ?
이젠 , 쓸모있는 부분에 작은 표식 (tag, metadata) 을 하고 필요한 만큼 연결시켜보자 -Link and Tag!!!
integrating framework? 이러한 서지구조의 integrating framework 은 ?
바로 이것이 Functional Requirements for Bibliographic
Records ( 서지 레코드를 위한 기능적 요구 )
간단히 말하면 , 어떤 하나의 query 는 다른 언어 또는 다른 주제명하에 목록이 되어 있어도 검색가능 .
=> 도서관에서의 semantic web 의 시작이었으며 바로 이것이 linked data 이다 .
13
Surrogates vs entities (objects)
14
실제 관계가 맺어지는 모습 _ 토픽 ( 영화 ) 와 토픽 남자배우가 1:1관계
15
실제 관계가 맺어지는 모습
16
실제 관계가 맺어지는 모습
17
실제 관계가 맺어지는 모습
18
실제 관계가 맺어지는 모습
19
실제 관계가 맺어지는 모습
20
( 개념상 ) 다시 전통적인 카드목록으로…
전통적인 카드목록으로 돌아온 셈인데 이 목록에는 특별한 “ 창 (virtual window)” 이 있더라 수십 장의 카드가 아니라 단 한 장에서 더 처리할 수 있는 특수카드 바로 이 창에서 Collocation 을 표현한다 .
( 참조 : 전통적인 Collocation 의 방법은 서명 . 저자명 . 주제명표목 및 분류표 )
카드목록 -> (MARC) flat database -> Ontology with old concept of cataloging is embeded
21
The new card catalogue: the result of searching for person=conrad?.
22
바로 이 창이 저자와 서명을 묶어주는 창 (Collocation) 이다 .
Focusing on works by Joseph Conrad.
23
어떤 저자의 특정 작품이 다른 언어로 번역된 모습을 Collocation 시켜서 보여준다 .
내용과 용기의 분리 _ 토픽맵의 경우
24
내용과 용기의 분리 _ FRBR 의 경우
25
저작에도 표준번호가 부여되기 시작했다 . 개념에도 번호부여 예 ) ISTC
FRBR 개념적모델
26
FRBR 의 1:1 principle: Starting of linked data in library community
27
Works, expressions, manifestations and relations between the two works by Morten Traavik and Joseph Conrad. Boxes are entities, relations are arrows.
28
The work "Heart of darkness" and some of its expressions and manifestations, and the persons responsible.
29
30
FRBR 의 활용 : unified database of information
Music Ontology
문화 예술영역 / 저작권 등
3. 시맨틱웹의 한 부분으로서의 도서관 목록
關係를 표시 못해줬기 때문에 意味 ( 뜻 . Meaning) 가 불명확했다 明確 / 明志 하게 해주자는 시도가 Semantic Web 이며 Web of Data / Linked data 라고도 하며 그 중 온톨로지가 대표적인
기술이다
The Semantic Web is a web of data. [W3C] 에서 (URI 를 통해 어디서든 연결할 수 있는 데이터라면 무엇이든지 가능 )
이제 우리는 도서관의 Semantic level 을 올릴 필요성이 있다 .
31
From reading to understanding
즉 ,
MARC 이후 machine-readable( 기계가 읽을 수 있는 ) 정도의 레벨에서
machine-understandable( 기계가 이해할 수 있는 ) 레벨로 바꾸자는 시도가 바로 시멘틱웹이 지향하는 가치중의 하나이다 .
이렇게 읽는 데에서 이해하는데 40~50년이 걸렸다
도서관에서는 Moving the MARC legacy data into RDA (no AACR2 anymore)
32
3.1 Linked Data 를 통한 도서관의 진화
Linked Data is a methodology for providing meanings and relationships
between things (data, concepts and documents) anywhere on the web, using
- URIS for identifying, - RDF for describing and
- HTTP for publishing_ HTTP allows a client to get a
representation of the document
Rdf is the data format for linked data 33
Closed containers of data
Information systems, such as library catalogs, have
been, and still are, for the greatest part closed containers of data, or “silos” without connections between them.
(by Tim Berners Lee) free from the capsules of the
catalog34
35
도서관 진화의 필요성Social Semantic Digital Library
Involves the community into sharing knowledge
Semantic Digital LibraryAccessible by machines, not only with machines
Digital LibraryOnline, easy searching with a full-text index
coherent, organized collection of resources/
links to other libraries or information/united view Library
Organized collection
3.1.1 Linked data 의 활용 :Fictionfinder
36
37
예 ) 국중 project_2007
Libris 에서의 Linked data활용
38
예 ) linked data: wiki vs dbpedia
Ambidextrous 하라
Web of document => http://wikipedia.org
vs
web of data Dbpedia: the semantic web version of Wikipedia
http://dbpedia.org/page/Dublin 또는
SELECT ?books WHERE { ?books dbpedia2:author <http://dbpedia.org/resource/Ernest_Hemingway>.}
39
A page with hypertext
40
Dbview: A topic with many properties
41
내용과 용기의 분리
42
Wiki 의 dublin 에 대한 hypertext
43
Dbpedia 의 “ Linked data” on dublin
44
Dbpedia 검색 ( 헤밍웨이 저작 )
45
"Ernest hemingway" 의 이름을 갖는 ?who 를 object로 갖는 ?books(subject) 를 찾아라
" 헤밍웨이가 쓴 작품을 나열하라 "
Dbpedia 검색 ( 헤밍웨이 저작 )
46
동명이인이 있을경우 , 모호성이 생길 수 있다 .
그래서 아래와 같이 명시적으로 헤밍웨이를 지정할 수 있다 .
SELECT ?books WHERE {?books dbpedia2:author <http://dbpedia.org/resource/Ernest_Hemingway>.
}
즉 , 헤밍웨이의 uri 를 지정하는 것이다 .
바로 이것이 전거이다 .
Dbpedia 검색 ( 헤밍웨이 저작 )
http://dbpedia.org/snorql/?describe=http://dbpedia.org/resource/The_Old_Man_and_the_Sea
47
노인과 바다에 대한 property 집합
예 ) NYT 의 경우 http://data.nytimes.com/
48
More Examples of linked data Most ontologies dbview-generated from SQL virtual RDF data New: D2R Server provides linked data as well as SPARQL
http://www4.wiwiss.fu-berlin.de/bizer/d2r-server/
FOAF (home brew, LiveJournal, Opera Community etc) Semantic wikipedia Place-names ... etc The biggest challenge is links to other systems
49
Brief Overview
한 페이지에서 하이퍼텍스트로 보여주는 … . [wiki] 에서 다양한 소스에서 관계되는 것을 “ 전부” 모아서 보여주는… [dbpedia] 형태로
Vs
어느 한 도서관에 있는 정보만을 체계적으로 보여주는… [ 전통적 MARC 도서관 ] 에서
여러 도서관에서 관계되는 정보를 모아서 관계 속에서 “ 전부” 모아서 의미를 풍부하게 해주는… semantic digital library 를 만들자
나아가서는 Social semantic digital library 로
=> 어떻게 ?
50
메타데이터의 필요성 그래서
각각의 자원 (resources) 에 고유의 식별자를 주고… 관계를 표시하는 요소에도 고유의 식별자를 주고 … 어떤 틀 위에서 표현을 하게 하자 .
이 식별자가 없으면 Semantic 이라는 말은 결코 있을 수 없다
이때 그 식별자를 표현하기 위해서 만든 것이 있는데… .
뭘까 ????
51
메타데이터의 활용 _DCMI 가 대표적
이 resource 및 관계를 표시하는 식별자를 uri 로 표시한 것이 바로 메타데이터이다 .
이제 기존 Marc 위에 새로운 메타데이터를 새로운 틀 (frame) 위에 더해서 semantic level 을 올리는 것이다 .
기존의 HTML 에 특정 마크업 및 링크를 추가하면 , 컴퓨터가 해당 정보가 어떤 종류인지 파악할 수 있으며 이를 통해 사람도 더욱 편리하게 정보를 얻을 수 있다 .
52
메타데이터의 활용 _as Vocabulary
METS/MODS FRBR SIOC FOAF BIBO SKOS
53
사서들의 새로운 시나리오
54
사서들의 새로운 시나리오
55
사서들의 새로운 시나리오
56
업그레드 된 표준
57
3.1.2 도서관과 관련된 Linked Data 프로젝트
A brief and incomplete list of some library related Linked Data projects:
RDF BookMashup – Integration of Web 2.0 data sources like Amazon, Google or Yahoo into the Semantic Web.
Library of Congress Authorities – Exposing LoC Autorities and Vocabularies to the web using URI’s
DBpedia – Exposing structured data from WikiPedia to the web
UK football clubs with maps of the birthplaces of their players
Rock and Roll Groups and their discography as a SIMILE timeline
LIBRIS – Linked Data interface to Swedish LIBRIS Union catalog
Scriblio+Wordpress+Triplify – “A social, semantic OPAC Union Catalogue”
58
Libris 의 구조
59
Bibo,dc,skos,foaf,libris,geo 등의 vocabulary 를 사용하고 있다
3.1.3 Possible applications of libraries in the Linked Data
Vocabularies & authorities Dublin Core Metadata Terms http://purl.org/dc/terms VIAF http://viaf.org/ (The Virtual International Authority File) LC authorities & vocabularies http://authorities.loc.gov Rameau http://stitch.cs.vu.nl/rameau OAI-ORE http://www.openarchives.org/ore/ Data & Services Catalogues: Libris http://libris.kb.se/ Applications and Services Real-World use cases
60
“things” from the data set (Dbpedia)
The table below contains links to some example “things” from the data set:
Class Examples City Cambridge, Berlin, Manchester Country Spain, Iceland, South Korea Politician George W. Bush, Nicolas Sarkozy, Angela Merkel Musician AC/DC, Diana Ross, Röyksopp Music album Led Zeppelin III, Like a Virgin, Thriller Director Woody Allen, Oliver Stone, Takashi Miike Film Pulp Fiction, Hysterical Blindness, Breakfast at Tiffany's Book The Lord of the Rings, The Adventures of Tom Sawyer,
The Holy Bible Computer Game Tetris, World of Warcraft, Sam & Max hit the Road
Technical Standard HTML, RDF, URI
61
“things” from the data set (Dbpedia)
Sample Resources Some example Linked Data URIs from the DBpedia data set are listed below.
To start surfing the Semantic Web, please enter any of these URIs into the navigation bar of one of the Semantic Web browsers listed above.
http://dbpedia.org/resource/The_Lord_of_the_Rings http://dbpedia.org/resource/Berlin http://dbpedia.org/resource/Category:Cities_in_England http://dbpedia.org/resource/The_Beatles http://dbpedia.org/resource/Paul_McCartney http://dbpedia.org/resource/Category:English_musicians http://dbpedia.org/resource/Semantic_Web http://dbpedia.org/resource/Tetris http://dbpedia.org/resource/Semantic_Web http://dbpedia.org/resource/SPARQL
62
3.2 Controlled Vocabulary 의 할용
웹에서 LCSH publishing 하기 SKOS 의 활용 LCSH in Skos NSDL 메타데이트 레지스트리
63
웹에서 LCSH publishing 하기 Project LCSH into RDF (i.e., create
an RDF representation)
http://lcsubjects.org/ Library of Congress Subject Headings available as linked-data
using the SKOS vocabulary
64
SKOS 의 활용 1_ LCSH
65
http://lcsubjects.org/
LCSH in SKOS
66
LCSH in SKOS
67
LCSH in Topic maps also using SKOS
68
SKOS 의 활용 2_ NSDL Metadata Registry
http://metadataregistry.org/http://metadataregistry.org/rdabrowse.htm
69
NSDL Metadata Registry
70
4. Proposed Models for Libraries with Linked data
출판사는 onix 등을 활용하여 출판하는 책에 대한 간단한 메타데이터 작성 국중에서는 서지사항 및 전거목록을 추가 (DC, Mods, Mets 등 활용 ) 예 ) frbr: work”istc 0A9-2002-12B4A105-7”[ 개념에 대한 검색 활용 ] dc:creator http://purl.org/...... dc:subject http://lcsubjects.org/subjects/sh85118553#concept 예 2) SKOS 등을 활용해서 국가 차원에서 thesaurus 등을 만들고 전 도서관들이 활용하게 한다 (e.g., lc)
지역 도서관에서는 자관에 필요한 메타데이터 입력 ( mods 등 활용 )Mods:shelflocator “123.456”Mods:location http://mylibrarey.gov...... - 가능하다면 이용자들이 직접 입력한 메타데이터 ( 태깅 ) 도 적극적으로 활용한다 . / Community 의 성격에 맞는 Ontology 를 지속적으로 개발한다 .
이 도서관에서는 위키피디어 , flickr, Youtube, delicious 등을 활용하여 적극적인 Mash up (java 또는 PHP script 활용 ) The URI has a hash (#) or follows 303 redirects 해당 이용자가 찾고 있는 정보와 관련된 모든 관련된 정보를 rdf 및 rdf vocabularies (foaf, sioc, skos 등 ) 를 활용해서 Collocation 시킨다 . (same author, same subject, bio ) - 이 때 HTML pages 뿐만 아니라 분리할 수 있는 URI 를 적극 활용한다 (RDF links.) 다른 데이터 소스도 물론 방문하게 한다 . 自館 자료들을 계속해서 http:// 형태로 출판한다 . / Openness
71
Linked data_Advantages over other methods
No crosswalk/mapping- Each one uses his own metadata format, all triples
can be aggregated No data redundancy
- Each one creates only the data he needs, and retrieves already existing information
No harvesting- The data is available directly on the Web
No branding issue- The URIs allow to track down the original data
whatever its origin No software-specific developments
- Everything relies on open standards as RDF, SPARQL … no need to learn a new protocol or query language
72
73
Universal identifiers (URIs): like written word – For “connecting the dots”
Abstract syntax (RDF triples): sentence grammar– Foundation of syntactic interoperability
Vocabularies: words and concepts– Foundation of semantic interoperability
Human-understandable – machine-processable
5. Language of Interoperability
74
Thank you
" 책은 무생물이지만 , 책을 읽는 순간 생물이 되고 친구가 된다 . 책을 생물이 되게 해주고 보관하는
곳이 바로 도서관이다 "