도서관에서의 linked data의 활용

74
1 From Marc to Linked Data 성성성성성성 성성성성성 성성성 [email protected]

Upload: webscikorea

Post on 25-Jan-2015

3.763 views

Category:

Technology


5 download

DESCRIPTION

현재의 정보이용추세에 맞춰 각종 도서관 및 정보센터가 진화해서 궁극적으로 Social Semantic Digital Library가 될 필요성이 있다. 그러나 아직 대부분의 도서관이 그냥 자료를 전산화시킨 수준에 머물러 있다. 이미 디지털도서관이라는 것들도 Web에 Publish를 못할 뿐만 아니라, 혹시 연결이 되었다 하더라도 자료들 간의 관계 부족으로 Semantic level이 너무 떨어지고 있다. 우리 인간이 이해하는 대로 기계가 이해하게 하면서 Semantic level을 올릴 수는 없을까? 바로 이 점에서 Semantic web이 출발한다. 이 문제를 극복하고자 DCMI를 위시한 ‘다양한’ 메타데이터가 등장했으며 지금은 Linked Data까지 등장하고 있다. 메타데이터가 다양하게 존재하고 있기 때문에 다양하게 섞어서 사용할 수 있다는 장점이 있다. 다양한 상호운용성의 방법 (하나의 메타데이터로 통합 다양한 메타데이터 인정, Metadata Registry, Open Source의 활용 및 Linked data)이 있다. 그중에서 Linked Data를 중심으로 도서관이 어떻게 구체적으로 대응해 나가고 있는지를 미의회도서관 및 스웨덴의 LIBRIS를 중심으로 살펴보고, 이를 바탕으로 아직도 카탈로그의 캡슐에 묻혀 있는 우리나라 도서관의 목록의 실정을 언급하고 Linked data를 중심으로 적극적인 상호운용성의 방법을 제안하고 하고자 한다. 웹에 있는 다양한 Resource사이에 관계를 부여하면서 뜻을 더 명확하게 표현하자는 시도가 바로 Linked Data이다. 이 글에서는 맹자가 말하는 明志, 즉 ‘뜻을 분명히 밝히라’는 가르침을 Tim Berners-Lee가 어떻게 답하는 가를 밝힌다. 이에 그가 제안하는 dereferenceable uri, rdf 및 http를 통한 출판을 간단히 살피고, skos를 위시한 rdf vocabularies를 언급한다. 궁극적으로는 rdf 링크를 통한, 심지어는 다른 데이터 셋을 활용하여 끝없는 탐색을 하게 될 모델을 제공하고자 한다.

TRANSCRIPT

Page 1: 도서관에서의 Linked Data의 활용

1

From Marc to Linked Data

성균관대학교 사서교육원조명대

[email protected]

Page 2: 도서관에서의 Linked Data의 활용

Contents 1. Intro 1.1 Brief Overview: from MARC to Linked Data 1.2 Paradigm Shift in www2. MARC 의 문제점 및 Frbr 개념모델의 등장 3. 시맨틱웹의 한 부분으로서의 도서관 목록 3.1 Linked data 를 통한 도서관의 진화

3.1.1 Linked data 의 활용3.1.2 Library related Linked Data projects3.1.3 Possible applications of libraries in the Linked Data

3.2 Controlled Vocabulary 의 활용4. Proposed Models for Libraries with Linked data

2

Page 3: 도서관에서의 Linked Data의 활용

Intro: 정보검색의 영원한 숙제

3

False Positive / authority control (전거 통제 ) / …Disambiguation 및 Collocation + interoperability

식별자 특히 http uri

Page 4: 도서관에서의 Linked Data의 활용

1.1 Brief Overview: from MARC to Linked Data

4

Card 목록 MARC: electronic version of the old card

file.

Internet 1 세대 : 데이터의 의미가 아닌 구문의 형태를 인식

Bush (1945)

Tim Berners-Lee(1989)

Global hypertext system

시맨틱웹 : 뜻을 살리자 the meaning (semantics) of information and services on the web is defined

차세대 웹

Page 5: 도서관에서의 Linked Data의 활용

1.1 Brief Overview: from MARC to Linked Data

Oh my goodness, the original web of documents was just the tip of iceberg.” ( Sir Tim Berners Lee, July 2008)

Linked data: Semantic web 의 한 분야로 웹상에서 분리해서 참조할 수 있는 uri (dereferenceable uri), rdf 및 http uri 를 활용해서 데이터를 의미 있게 연결시키는 방법

Linked Data finally, truly, connects libraries to the web.

5

Page 6: 도서관에서의 Linked Data의 활용

Paradigm Shift in www

6

Page 7: 도서관에서의 Linked Data의 활용

Paradigm Shift in 정보탐색전통적 다큐먼트 => HTML browsersA web of data => Linked Data browsers / RDF links. ( 분리할 수 있는 URI)

어떤 data 소스 – rdf 링크를 통한 ( 심지어는 다른 데이터 셋을 활용한 ) 끝없는 탐색

예 ) 어떤 사람 – 그 사람의 고향 – 그 고향의 유명인사 – 그곳에서 태어난

자 , 죽은 자 , - 그 사람이 감독한 영화 – 그 영화의 출연 배우들 – 그들의 배역 – 등등 …… .

7

Page 8: 도서관에서의 Linked Data의 활용

2. MARC 의 문제점 및 FRBR 개념모델의 등장

기하급수적 데이터 생태계에서 현재의 도서관 자료조직으로 살아남을 수 있을까 ?

No 1:1 Principle (Marc 자체가 아닌 그렇게 사용하지 못한 시스템의 문제 )

8

Page 9: 도서관에서의 Linked Data의 활용

1 to 1 principle 1 개의 테이블에 해당 자료를 다 넣어도 별 무리가 없는데 , 좀 더 '

명확 ' 하게 구분 짓기 위해서 테이블을 나누는 경우이다 . 심각하지도 어렵지도 않는 단순 명쾌한

관계로 연결 지을 수 있다 .

이 말은 한 레코드 (a record) 안에 모든 것을 다 가지고 있는 큰 덩치를 좀 더 훌륭한 기능을 수행할 수 있게 잘게 하나 하나의 개체로 나누어서 서로 관계를 맺어주자

9

Page 10: 도서관에서의 Linked Data의 활용

Frbr 개념모델의 등장

frbr 에서는 3 개의 큰 그룹으로 나누고 1 그룹에는 work, expression, manifestation, item (Uniform Title) 2 그룹에는 person & corporate body (names) 3 그룹에는 concept, object, event, place (subject)

으로 크게 나누고 다시 더 세분화해서 필요한 것끼리 1:1 관계를 맺어준다 .

바로 이 1:1 관계가 Collocation 을 맺게 해준다 . (Cutter’s 2nd principle for libraries)

바로 이것이 지금 웹에서 말하는 Web of Data/Linked data 의 기본이 될 수 있다 . 즉 하나 하나의 데이터에 의미를 부여하여 필요한 관계를 맺어주자는 말이다 .

10

Page 11: 도서관에서의 Linked Data의 활용

“a” Marc Record

11

Monolithic

Page 12: 도서관에서의 Linked Data의 활용

Meaningful Decompose

12

논리적으로 잘게 나눌 수는 없을까 ?

새롭게 배열 (collocate) 해주자

“ 의미 있게 묶어준다” 고 하여 “ Collocation” 이라고 한다

이 큰 덩치를 어떻게 할까 ?

이젠 , 쓸모있는 부분에 작은 표식 (tag, metadata) 을 하고 필요한 만큼 연결시켜보자 -Link and Tag!!!

Page 13: 도서관에서의 Linked Data의 활용

integrating framework? 이러한 서지구조의 integrating framework 은 ?

바로 이것이 Functional Requirements for Bibliographic

Records ( 서지 레코드를 위한 기능적 요구 )

간단히 말하면 , 어떤 하나의 query 는 다른 언어 또는 다른 주제명하에 목록이 되어 있어도 검색가능 .

=> 도서관에서의 semantic web 의 시작이었으며 바로 이것이 linked data 이다 .

13

Page 14: 도서관에서의 Linked Data의 활용

Surrogates vs entities (objects)

14

Page 15: 도서관에서의 Linked Data의 활용

실제 관계가 맺어지는 모습 _ 토픽 ( 영화 ) 와 토픽 남자배우가 1:1관계

15

Page 16: 도서관에서의 Linked Data의 활용

실제 관계가 맺어지는 모습

16

Page 17: 도서관에서의 Linked Data의 활용

실제 관계가 맺어지는 모습

17

Page 18: 도서관에서의 Linked Data의 활용

실제 관계가 맺어지는 모습

18

Page 19: 도서관에서의 Linked Data의 활용

실제 관계가 맺어지는 모습

19

Page 20: 도서관에서의 Linked Data의 활용

실제 관계가 맺어지는 모습

20

Page 21: 도서관에서의 Linked Data의 활용

( 개념상 ) 다시 전통적인 카드목록으로…

전통적인 카드목록으로 돌아온 셈인데 이 목록에는 특별한 “ 창 (virtual window)” 이 있더라 수십 장의 카드가 아니라 단 한 장에서 더 처리할 수 있는 특수카드 바로 이 창에서 Collocation 을 표현한다 .

( 참조 : 전통적인 Collocation 의 방법은 서명 . 저자명 . 주제명표목 및 분류표 )

카드목록 -> (MARC) flat database -> Ontology with old concept of cataloging is embeded

21

Page 22: 도서관에서의 Linked Data의 활용

The new card catalogue: the result of searching for person=conrad?.

22

바로 이 창이 저자와 서명을 묶어주는 창 (Collocation) 이다 .

Page 23: 도서관에서의 Linked Data의 활용

Focusing on works by Joseph Conrad.

23

어떤 저자의 특정 작품이 다른 언어로 번역된 모습을 Collocation 시켜서 보여준다 .

Page 24: 도서관에서의 Linked Data의 활용

내용과 용기의 분리 _ 토픽맵의 경우

24

Page 25: 도서관에서의 Linked Data의 활용

내용과 용기의 분리 _ FRBR 의 경우

25

저작에도 표준번호가 부여되기 시작했다 . 개념에도 번호부여 예 ) ISTC

Page 26: 도서관에서의 Linked Data의 활용

FRBR 개념적모델

26

Page 27: 도서관에서의 Linked Data의 활용

FRBR 의 1:1 principle: Starting of linked data in library community

27

Page 28: 도서관에서의 Linked Data의 활용

Works, expressions, manifestations and relations between the two works by Morten Traavik and Joseph Conrad. Boxes are entities, relations are arrows.

28

Page 29: 도서관에서의 Linked Data의 활용

The work "Heart of darkness" and some of its expressions and manifestations, and the persons responsible.

29

Page 30: 도서관에서의 Linked Data의 활용

30

FRBR 의 활용 : unified database of information

Music Ontology

문화 예술영역 / 저작권 등

Page 31: 도서관에서의 Linked Data의 활용

3. 시맨틱웹의 한 부분으로서의 도서관 목록

關係를 표시 못해줬기 때문에 意味 ( 뜻 . Meaning) 가 불명확했다 明確 / 明志 하게 해주자는 시도가 Semantic Web 이며 Web of Data / Linked data 라고도 하며 그 중 온톨로지가 대표적인

기술이다

The Semantic Web is a web of data. [W3C] 에서 (URI 를 통해 어디서든 연결할 수 있는 데이터라면 무엇이든지 가능 )

이제 우리는 도서관의 Semantic level 을 올릴 필요성이 있다 .

31

Page 32: 도서관에서의 Linked Data의 활용

From reading to understanding

즉 ,

MARC 이후 machine-readable( 기계가 읽을 수 있는 ) 정도의 레벨에서

machine-understandable( 기계가 이해할 수 있는 ) 레벨로 바꾸자는 시도가 바로 시멘틱웹이 지향하는 가치중의 하나이다 .

이렇게 읽는 데에서 이해하는데 40~50년이 걸렸다

도서관에서는 Moving the MARC legacy data into RDA (no AACR2 anymore)

32

Page 33: 도서관에서의 Linked Data의 활용

3.1 Linked Data 를 통한 도서관의 진화

Linked Data is a methodology for providing meanings and relationships

between things (data, concepts and documents) anywhere on the web, using

- URIS for identifying, - RDF for describing and

- HTTP for publishing_ HTTP allows a client to get a

representation of the document

Rdf is the data format for linked data 33

Page 34: 도서관에서의 Linked Data의 활용

Closed containers of data

Information systems, such as library catalogs, have

been, and still are, for the greatest part closed containers of data, or “silos” without connections between them.

(by Tim Berners Lee) free from the capsules of the

catalog34

Page 35: 도서관에서의 Linked Data의 활용

35

도서관 진화의 필요성Social Semantic Digital Library

Involves the community into sharing knowledge

Semantic Digital LibraryAccessible by machines, not only with machines

Digital LibraryOnline, easy searching with a full-text index

coherent, organized collection of resources/

links to other libraries or information/united view Library

Organized collection

Page 36: 도서관에서의 Linked Data의 활용

3.1.1 Linked data 의 활용 :Fictionfinder

36

Page 37: 도서관에서의 Linked Data의 활용

37

예 ) 국중 project_2007

Page 38: 도서관에서의 Linked Data의 활용

Libris 에서의 Linked data활용

38

Page 39: 도서관에서의 Linked Data의 활용

예 ) linked data: wiki vs dbpedia

Ambidextrous 하라

Web of document => http://wikipedia.org

vs

web of data Dbpedia: the semantic web version of Wikipedia

http://dbpedia.org/page/Dublin 또는

SELECT ?books WHERE { ?books dbpedia2:author <http://dbpedia.org/resource/Ernest_Hemingway>.}

39

Page 40: 도서관에서의 Linked Data의 활용

A page with hypertext

40

Page 41: 도서관에서의 Linked Data의 활용

Dbview: A topic with many properties

41

Page 42: 도서관에서의 Linked Data의 활용

내용과 용기의 분리

42

Page 43: 도서관에서의 Linked Data의 활용

Wiki 의 dublin 에 대한 hypertext

43

Page 44: 도서관에서의 Linked Data의 활용

Dbpedia 의 “ Linked data” on dublin

44

Page 45: 도서관에서의 Linked Data의 활용

Dbpedia 검색 ( 헤밍웨이 저작 )

45

 "Ernest hemingway" 의 이름을 갖는 ?who 를 object로 갖는 ?books(subject) 를 찾아라

" 헤밍웨이가 쓴 작품을 나열하라 "

Page 46: 도서관에서의 Linked Data의 활용

Dbpedia 검색 ( 헤밍웨이 저작 )

46

동명이인이 있을경우 , 모호성이 생길 수 있다 .

그래서 아래와 같이 명시적으로 헤밍웨이를 지정할 수 있다 . 

SELECT ?books WHERE {?books dbpedia2:author <http://dbpedia.org/resource/Ernest_Hemingway>.

}

즉 , 헤밍웨이의 uri 를 지정하는 것이다 .

바로 이것이 전거이다 .

Page 47: 도서관에서의 Linked Data의 활용

Dbpedia 검색 ( 헤밍웨이 저작 )

http://dbpedia.org/snorql/?describe=http://dbpedia.org/resource/The_Old_Man_and_the_Sea

47

노인과 바다에 대한 property 집합

Page 48: 도서관에서의 Linked Data의 활용

예 ) NYT 의 경우 http://data.nytimes.com/

48

Page 49: 도서관에서의 Linked Data의 활용

More Examples of linked data Most ontologies dbview-generated from SQL virtual RDF data New: D2R Server provides linked data as well as SPARQL

http://www4.wiwiss.fu-berlin.de/bizer/d2r-server/

FOAF (home brew, LiveJournal, Opera Community etc) Semantic wikipedia Place-names ... etc The biggest challenge is links to other systems

49

Page 50: 도서관에서의 Linked Data의 활용

Brief Overview

한 페이지에서 하이퍼텍스트로 보여주는 … . [wiki] 에서 다양한 소스에서 관계되는 것을 “ 전부” 모아서 보여주는… [dbpedia] 형태로

Vs

어느 한 도서관에 있는 정보만을 체계적으로 보여주는… [ 전통적 MARC 도서관 ] 에서

여러 도서관에서 관계되는 정보를 모아서 관계 속에서 “ 전부” 모아서 의미를 풍부하게 해주는… semantic digital library 를 만들자

나아가서는 Social semantic digital library 로

=> 어떻게 ?

50

Page 51: 도서관에서의 Linked Data의 활용

메타데이터의 필요성 그래서

각각의 자원 (resources) 에 고유의 식별자를 주고… 관계를 표시하는 요소에도 고유의 식별자를 주고 … 어떤 틀 위에서 표현을 하게 하자 .

이 식별자가 없으면 Semantic 이라는 말은 결코 있을 수 없다

이때 그 식별자를 표현하기 위해서 만든 것이 있는데… .

뭘까 ????

51

Page 52: 도서관에서의 Linked Data의 활용

메타데이터의 활용 _DCMI 가 대표적

이 resource 및 관계를 표시하는 식별자를 uri 로 표시한 것이 바로 메타데이터이다 .

이제 기존 Marc 위에 새로운 메타데이터를 새로운 틀 (frame) 위에 더해서 semantic level 을 올리는 것이다 .

기존의 HTML 에 특정 마크업 및 링크를 추가하면 , 컴퓨터가 해당 정보가 어떤 종류인지 파악할 수 있으며 이를 통해 사람도 더욱 편리하게 정보를 얻을 수 있다 .

52

Page 53: 도서관에서의 Linked Data의 활용

메타데이터의 활용 _as Vocabulary

METS/MODS FRBR SIOC FOAF BIBO SKOS

53

Page 54: 도서관에서의 Linked Data의 활용

사서들의 새로운 시나리오

54

Page 55: 도서관에서의 Linked Data의 활용

사서들의 새로운 시나리오

55

Page 56: 도서관에서의 Linked Data의 활용

사서들의 새로운 시나리오

56

Page 57: 도서관에서의 Linked Data의 활용

업그레드 된 표준

57

Page 58: 도서관에서의 Linked Data의 활용

3.1.2 도서관과 관련된 Linked Data 프로젝트

A brief and incomplete list of some library related Linked Data projects:

RDF BookMashup – Integration of Web 2.0 data sources like Amazon, Google or Yahoo into the Semantic Web.

Library of Congress Authorities – Exposing LoC Autorities and Vocabularies to the web using URI’s

DBpedia – Exposing structured data from WikiPedia to the web

UK football clubs with maps of the birthplaces of their players

Rock and Roll Groups and their discography as a SIMILE timeline

LIBRIS – Linked Data interface to Swedish LIBRIS Union catalog

Scriblio+Wordpress+Triplify – “A social, semantic OPAC Union Catalogue”

58

Page 59: 도서관에서의 Linked Data의 활용

Libris 의 구조

59

Bibo,dc,skos,foaf,libris,geo 등의 vocabulary 를 사용하고 있다

Page 60: 도서관에서의 Linked Data의 활용

3.1.3 Possible applications of libraries in the Linked Data

Vocabularies & authorities Dublin Core Metadata Terms http://purl.org/dc/terms VIAF http://viaf.org/ (The Virtual International Authority File) LC authorities & vocabularies http://authorities.loc.gov Rameau http://stitch.cs.vu.nl/rameau OAI-ORE http://www.openarchives.org/ore/ Data & Services Catalogues: Libris http://libris.kb.se/ Applications and Services Real-World use cases

60

Page 61: 도서관에서의 Linked Data의 활용

“things” from the data set (Dbpedia)

The table below contains links to some example “things” from the data set:

Class Examples City Cambridge, Berlin, Manchester Country Spain, Iceland, South Korea Politician George W. Bush, Nicolas Sarkozy, Angela Merkel Musician AC/DC, Diana Ross, Röyksopp Music album Led Zeppelin III, Like a Virgin, Thriller Director Woody Allen, Oliver Stone, Takashi Miike Film Pulp Fiction, Hysterical Blindness, Breakfast at Tiffany's Book The Lord of the Rings, The Adventures of Tom Sawyer,

The Holy Bible Computer Game Tetris, World of Warcraft, Sam & Max hit the Road

Technical Standard HTML, RDF, URI

61

Page 62: 도서관에서의 Linked Data의 활용

“things” from the data set (Dbpedia)

Sample Resources Some example Linked Data URIs from the DBpedia data set are listed below.

To start surfing the Semantic Web, please enter any of these URIs into the navigation bar of one of the Semantic Web browsers listed above.

http://dbpedia.org/resource/The_Lord_of_the_Rings http://dbpedia.org/resource/Berlin http://dbpedia.org/resource/Category:Cities_in_England http://dbpedia.org/resource/The_Beatles http://dbpedia.org/resource/Paul_McCartney http://dbpedia.org/resource/Category:English_musicians http://dbpedia.org/resource/Semantic_Web http://dbpedia.org/resource/Tetris http://dbpedia.org/resource/Semantic_Web http://dbpedia.org/resource/SPARQL

62

Page 63: 도서관에서의 Linked Data의 활용

3.2 Controlled Vocabulary 의 할용

웹에서 LCSH publishing 하기 SKOS 의 활용 LCSH in Skos NSDL 메타데이트 레지스트리

63

Page 64: 도서관에서의 Linked Data의 활용

웹에서 LCSH publishing 하기 Project LCSH into RDF (i.e., create

an RDF representation)

http://lcsubjects.org/ Library of Congress Subject Headings available as linked-data

 using the SKOS vocabulary

64

Page 65: 도서관에서의 Linked Data의 활용

SKOS 의 활용 1_ LCSH

 

65

http://lcsubjects.org/

Page 66: 도서관에서의 Linked Data의 활용

LCSH in SKOS

66

Page 67: 도서관에서의 Linked Data의 활용

LCSH in SKOS

67

Page 68: 도서관에서의 Linked Data의 활용

LCSH in Topic maps also using SKOS

68

Page 69: 도서관에서의 Linked Data의 활용

SKOS 의 활용 2_ NSDL Metadata Registry

http://metadataregistry.org/http://metadataregistry.org/rdabrowse.htm

69

Page 70: 도서관에서의 Linked Data의 활용

NSDL Metadata Registry

70

Page 71: 도서관에서의 Linked Data의 활용

4. Proposed Models for Libraries with Linked data

출판사는 onix 등을 활용하여 출판하는 책에 대한 간단한 메타데이터 작성 국중에서는 서지사항 및 전거목록을 추가 (DC, Mods, Mets 등 활용 ) 예 ) frbr: work”istc 0A9-2002-12B4A105-7”[ 개념에 대한 검색 활용 ] dc:creator http://purl.org/...... dc:subject http://lcsubjects.org/subjects/sh85118553#concept 예 2) SKOS 등을 활용해서 국가 차원에서 thesaurus 등을 만들고 전 도서관들이 활용하게 한다 (e.g., lc)

지역 도서관에서는 자관에 필요한 메타데이터 입력 ( mods 등 활용 )Mods:shelflocator “123.456”Mods:location http://mylibrarey.gov...... - 가능하다면 이용자들이 직접 입력한 메타데이터 ( 태깅 ) 도 적극적으로 활용한다 . / Community 의 성격에 맞는 Ontology 를 지속적으로 개발한다 .

이 도서관에서는 위키피디어 , flickr, Youtube, delicious 등을 활용하여 적극적인 Mash up (java 또는 PHP script 활용 ) The URI has a hash (#) or follows 303 redirects 해당 이용자가 찾고 있는 정보와 관련된 모든 관련된 정보를 rdf 및 rdf vocabularies (foaf, sioc, skos 등 ) 를 활용해서 Collocation 시킨다 . (same author, same subject, bio ) - 이 때 HTML pages 뿐만 아니라 분리할 수 있는 URI 를 적극 활용한다 (RDF links.) 다른 데이터 소스도 물론 방문하게 한다 . 自館 자료들을 계속해서 http:// 형태로 출판한다 . / Openness

71

Page 72: 도서관에서의 Linked Data의 활용

Linked data_Advantages over other methods

No crosswalk/mapping- Each one uses his own metadata format, all triples

can be aggregated No data redundancy

- Each one creates only the data he needs, and retrieves already existing information

No harvesting- The data is available directly on the Web

No branding issue- The URIs allow to track down the original data

whatever its origin No software-specific developments

- Everything relies on open standards as RDF, SPARQL … no need to learn a new protocol or query language

72

Page 73: 도서관에서의 Linked Data의 활용

73

Universal identifiers (URIs): like written word – For “connecting the dots”

Abstract syntax (RDF triples): sentence grammar– Foundation of syntactic interoperability

Vocabularies: words and concepts– Foundation of semantic interoperability

Human-understandable – machine-processable

5. Language of Interoperability

Page 74: 도서관에서의 Linked Data의 활용

74

Thank you

" 책은 무생물이지만 , 책을 읽는 순간 생물이 되고 친구가 된다 . 책을 생물이 되게 해주고 보관하는

곳이 바로 도서관이다 "