linked data.hwp

22
Linked Data 동향과 전망

Upload: buidang

Post on 01-Feb-2017

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Linked Data.hwp

Linked Data 동향과 전망

2009. 9.

TopQuadrant Korea

개발팀 오원석

[email protected] , 010-6274-5133

Page 2: Linked Data.hwp

- 1 -

1 Linked Data의 개요

□ 등장배경

o 링크드 데이터(Linked Data)는 시맨틱 웹이 표방하는 데이터의 웹

(Web of Data) 세상을 만들기 위한 구체적인 방법

Web of Document

(Web 1.0)

Web of Data

(Semantic Web 또는 Web 3.0)

객체 문서(document) 사물(thing), 리소스라고도 함

링크의

단위

문서(document)간 단순 링크

(href)사물(또는 리소스간) 의미적 링크

표현

형식

HTML(Hyper Text Markup

Language)

RDF(Resource Description

Format)

목적 인간의 이해 기계의 이해

[표 3 : 문서웹과 데이터웹의 비교]

o WWW(World Wide Web)을 처음 개발한 Tim Berners-Lee에 의

해 2006년 최초로 제안됨.

시맨틱웹은 단지 데이터를 웹으로 제공하는 것이 아니라, 데이터 간의

링크를 만듦으로써, 인간이나 기계 모두 데이터의 웹을 탐험할 수

있도록 해준다. Linked data를 통해 유용한 데이터를 얻게 되면, 그

데이터에 관계된 데이터로 계속되는 항해가 가능하다. - Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html

Page 3: Linked Data.hwp

- 1 -

□ Linked Data의 정의

Linked Data는 역참조할 수 있는(dereferenceable) URI를 통해

웹 데이터를 공개, 연결, 공유하는 방법

o 데이터를 웹에 공개, 공유하기 위해

- 사물(thing)에 대한 이름으로 URI(웹에서의 유일식별자)를 부여

* 예: 비틀즈 - http://dbpedia.org/page/The_Beatles

o URI를 통한 데이터의 접근 및 이용

- 누구나 웹을 통해(HTTP protocol), 유용한 정보를 찾을 수 있음

o URI를 서로 링크(owl:sameAs를 이용)함으로써 데이터의 매쉬업,

재사용 가능

[그림 1 : 비틀즈에 대한 DBPedia에서 opencyc, freebase, zitgist로의 링크]

□ Linked Data의 유용성

링크드 데이터를 통해 데이터를 서로 연결(link)함으로써,

o 데이터의 재사용 가능

- 내가 만든 데이터가 아니라도 URI를 이용하여 링크만 해주면 이

용할 수 있음

o 데이터의 중복 감소

- 링크드 데이터를 통해 공개된 데이터를 이용하면 내가 원하는

데이터가 이미 존재하는지, 어디에 존재하는지 알 수 있으므로,

Page 4: Linked Data.hwp

- 1 -

- 시스템의 사일로(silo) 문제에 의해 발생된 불필요한 데이터 중복

의 문제를 해결

o 데이터의 상호운용성 극대화 및 데이터의 통합

- 시맨틱 웹 표준인 RDF 형태의 데이터로 발행(publish)되므로 마

치 하나의 글로벌 데이터베이스처럼 질의하고 이용

o 데이터의 부가가치 창출

- URI로 구별되는 데이터 리소스의 자유로운 접근 및 이용이 가능

하므로 큰 노력없이 데이터의 매쉬업이 가능

o 네트워크 효과

- 초창기의 웹과 같이 데이터의 자유로운 연결과 이용은 새로운

데이터를 낳으므로 데이터 네트워크화가 가속화됨(Network of

Data, Cloud of Data)

Page 5: Linked Data.hwp

- 1 -

2 Linked Data 관련 현황

□ W3C SWEO의 Linking Open Data Project(LOD)

o SWEO : Semantic Web Education & Outreach Interest Group

- 시맨틱웹의 필요성과 장점을 알리기 위한 교육과 시맨틱웹 기술

및 전략 개발을 목적으로 함

- 2008년 3월 공식활동은 중단했으나, Linking Open Data Project

를 계속 수행

- Linked Data 확산을 위한 주요 역할 담당

o Linking Open Data Project의 목적

- 다양한 공개 데이터 셋을 RDF 형태로 웹에 퍼블리싱하여, 다양

한 데이터 소스 간의 RDF 링크를 설정함으로써, 공유 데이터

(data common)를 통해 웹을 확장하고자 함

- DBPedia(Wikipedia를 시맨틱 데이터화한 데이터베이스)를 중심

으로 시작, 프로젝트 초기인 2007년 5월 당시 5 억개의 RDF 트

리플, 12 만개의 링크

- 2009년 3월 4조 7천억개의 트리플과 1억 4천만 개의 링크로 급

속히 증가 - 네트워크 효과

- W3C SWEO 그룹을 중심으로 Linked Data를 활용한 다양한 유

즈케이스, 도구, 방법론 등이 개발 진행되고 있음

Page 6: Linked Data.hwp

- 2 -

Page 7: Linked Data.hwp

- 1 -

□ 미국과 영국 정부의 Linked Data 추진 동향

[1] 미국

o data.gov 를 Linked Data로 변환

- data.gov(http://www.data.gov)

* 연방 정부의 행정부서에서 생성된 기계 가독형 데이터 셋을

공개함으로써 정부의 투명성을 높이고 부가가치를 창출하고자

하는 목적으로 오바마 집권 이후 구축

* 연방 정부의 데이터에 대한 접근을 개선하고 이에따라 혁신적

인 아이디어를 장려함으로써 정부의 벽을 뛰어 넘어 데이터의

창조적 이용을 확대하고자 함.

- 구축된 data.gov 의 일부를 RDF로 변환하여 Linked Data cloud

에 합류하고자 함. (Tim Berners-Lee와 함께 시맨틱 웹의 창시자

인 Jim Hendeler교수의 Tetherless World 팀이 프로젝트 수행)

- 현재까지 16개의 데이터 셋을 RDF화 함(3천억 개의 트리플).

* 참고: http://data-gov.tw.rpi.edu/wiki/Data.gov_Catalog

그림 7 일주일 동안 발생한 세계의 지진맵 - 인터랙티브 데모

Page 8: Linked Data.hwp

- 1 -

- 데모 설명

* URL: http://data-gov.tw.rpi.edu/demo/exhibit/earthquake.html

* data source : Dataset 34 (Worldwide M1+ Earthquakes, Past 7 Days,

US Geological Survey)

* 최근 관찰된 지진에 대해 패싯 브라우저를 이용한 인터랙티브한 검색

* 사용된 기술 : RDF, SPARQL, SPARQL Query Web Service, XSLT Web

Service, MIT SIMILE Exhibit API

[2] 영국

o 영국 수상인 Gordon Brown은 미 오바마 정부의 data.gov 와 같

이 정부 데이터의 공개 및 접근을 위해 Tim Berners-Lee(special

advisor로서)에게 도움을 줄 것을 요청(2009. 7)

- “행정 정보을 광범위한 모든 사람들이 접근할 수 있고 이용할

수 있게 하기 위해...”

o Digital Britain report

- 영국의 인터넷 접근성(connectivity)를 높이기 위한 광대역 네트

워크 및 무선 네트워크에 대한 인프라 투자 뿐만 아니라 모든

공공 데이터의 공개와 접근을 위한 작업에 착수

Page 9: Linked Data.hwp

- 1 -

3 Linked Data 구현 사례

□ W3C SWEO의 Linking Open Data Project(LOD)

o 영국 BBC Programmes와 Music 사이트

- 페이지 단위의 기존 웹사이트 구조를 리소스 단위로 재구성

- 각 리소스 마다 URI 부여

- 리소스를 결합하여 하나의 오브젝트(즉, 웹페이지)로 구성

BBC의 TV, Radio 프로그램을 기술하기

위한 온톨로지

Resources -

http://bbc.co.uk/programmes/:id/credits

[여러 리소스들(미디어 플레이어, 크레딧 정보, 컨텐츠 등)이

조합되어 하나의 프로그램을 기술하는 웹 페이지의 예]

Page 10: Linked Data.hwp

- 1 -

- BBC가 자체적으로 데이터를 구축하지 않고 Linked Data 의 공

개 데이터를 참조하여 구성된 마돈나에 대한 웹페이지의 예

- 음악가의 프로파일 - MusicBrainz에서 가져옴

- 일대기(biography) - Wikipedia에서 가져옴

- BBC 라디오 각 프로그램에서 play 된 횟수 - BBC 콘텐츠 이용

□ 소셜 시맨틱 웹 어플리케이션 - SemaPlorer

o 독일 Koblenz대학의 연구팀에서 개발한 SemaPlorer

- 링크드 데이터로 공개된 분산 데이터 셋을 이용하여 멀티미디어

데이터를 검색하고 브라우징 하는 어플리케이션

- 2008년 7th Int. Semantic Web Conference의 Billion Triples

Challenge 우승작

- Sparql을 이용하여 여러 데이터 셋을 마치 하나의 데이터베이스

처럼 질의, 검색

Page 11: Linked Data.hwp

- 1 -

- DBPedia(Wikipedia의 RDF 버전), Geonames(지리 정보), CIA

World Facbook, Eurostat(통계 정보), WordNet(영어 사전) 등의

Linked Data를 포함

화면에서 선택한 위치에 대한 다양한 형태의 데이터(사전에서 검색된 주요

건물에 대한 설명), 이미지(관련 사진), 그곳에 살고 있는(또는 살았던) 중요한

인물에 대한 정보 등을 탐색, 확장, 브라우징

□ DBPedia Mobile

o Mobile로 구현된 Linked Data를 이용한 다양한 데이터 셋의 위

치 기반 탐색 확장, 퍼블리싱을 위한 위치 인식 클라이언트

o 사용 예

- 모바일 이용자의 현재 위치에 관련된 인물을 탐색

- 거기서 태어났다거나, 사망했다거나, 또는 거기서 일을 했다거나

하는 등의 데이터셋 안에 있는 관련 정보

- 그 인물이 작가라면 RDF Book Masup이나 Project Gutenberg

데이터 소스로 탐색 확장

Page 12: Linked Data.hwp

- 1 -

- 이용자가 로컬 밴드에 관심이 있다면 MusicBrainz로 가서 그 앨

범에 대해 알아볼 수 있음

- 사진과 리뷰를 통해 현재 위치를 퍼블리쉬할 수 있음

iPhone 3G로 구현된 DBPedia Mobile

□ 미국 의회도서관 LCSH(Library of Congress Subject Headings)

o 미의회 도서관의 전거 데이터와 표준 어휘들(Authorities and

Vocabularies)을 역참조가능한(dereferenceable) URI를 통해 접근

함으로써 기계가 처리할 수 있도록 공공 데이터화 함

- URI: http://id.loc.gov/authorities/{identifier}

- 주제어, 세부분류, 장르/형식 등 관련 데이터 제공

o 이용자 측면의 장점

- 데이터의 자유로운 접근

- 다양한 포맷으로 다양한 범위의 통제어휘를 다운로드

- Linked Data를 통해 미 의회도서관의 데이터를 자신의 메타데이

터에 링크시킬 수 있음

Page 13: Linked Data.hwp

- 1 -

- 개념과 데이터 값 간의 관계를 시각화할 수 있음

o 의회도서관 측면의 장점

- Linked Data를 통해 데이터가 이용될 때 출처로서 미의회도서관

의 가치 상승

- 데이터 이용 활성화 및 간단한 이용방법을 통해 예산 절감

Linked Data로 구현된 미국 의회도서관의 LCSH 사이트

Page 14: Linked Data.hwp

- 1 -

□ BestBuy.com

GoodRelations 사이트

o BestBuy.com은 시장 점유율 19%의 최상위 전자제품 리테일러

o BestBuy는 GoodRelations Ontology를 기반으로 온라인 매장의 제품

데이터를 RDF화 하여 공개(publishing)(2009, 6.)

- 새로운 아이디어와 기술의 도입으로 매출 증가

- '소매업의 연결된 세계' 추진

- 제품 정보(카탈로그)를 RDF화하여 외부 웹 개발자들이 접근, 이용할

수 있게 하여 제 3자 웹사이트인 ConsumersPrice.com에 연결함으로

써 ConsumersPrice.com에서 특정 가격에 특정 Best Buy 제품이 제공

될 때 푸쉬 서비스를 받을 수 있음

o GoodRelation Ontology

- Linked Data 기반의 제품 및 상거래 데이터(commercial data)의 데

이터웹을 조성하기 위해 만든 e-commerce 도메인의 범용적인 데이터

모델(온톨로지)

Page 15: Linked Data.hwp

- 1 -

- 상업적, 비상업적 목적 모두에 대해 저작권이 공개된 온톨로지

- http://purl.org/goodrelations

- Linked Open Commerce Dataspace를 지향하고 있음

o 제품 및 가격 정보를 GoodRelations 온톨로지를 이용하여 Linked

Data로 퍼블리싱

- 약 45만개 개별 아이템에 대하여 세부 정보를 2천7백만개의 RDF 트

리플로 관리

- 누구나 자유롭게 접근, 이용(다운로드, 질의)할 수 있으며 자신의 목

적에 따라 매쉬업할 수 있음.

Page 16: Linked Data.hwp

- 1 -

4 Linked Data의 동향

□ 정부

o 2009년 들어 공공 데이터의 공개 운동이 본격화되고 있음

- 시맨틱 웹 창시자인 Tim Berners-Lee의 정부 데이터의 Linked Data

화 주장[4]

- free public access to raw bulk data that anyone can process for

analysis and mashups

[ 미국 ]

- 오바마 정부의 Open Government Initiative

- data.gov의 Linked Data 변환 추진

[ 영국 ]

- 미국과 유사한 정부 데이터의 공개 추진 움직임

- 2009년 2월 Power of Information Taskforce Report : 정부가 정보에

대한 최대한 접근과 유용화를 통해 국민의 창의적 혁신을 지원하고,

개인과 커뮤니티가 삶의 질을 개선하고 더 나은 정보에 의한 판단을

통해 솔루션을 만들어 낼 수 있도록 도와야 함.

- Tim Berners-Lee를 초빙하여 정부 데이터의 Linked Data화

o W3C eGovernment Interest Group (http://www.w3.org/2007/

eGov/IG/wiki/Main_Page)

- "Improving Access to Government through Better Use of the Web"

- 2009. 5. proposal

Page 17: Linked Data.hwp

- 1 -

- 정부의 공공 데이터를 웹으로 공개, 접근 및 이용하도록 하기 위해

풀어야 할 이슈와 이에 대한 다각적인 노력(현황)에 대해 서술

- "Publishing Open Government

Data"(http://www.w3.org/TR/2009/WD-gov-data-20090908/) - 2009. 9.

Working Draft

- 정부의 공공데이터를 링크드 데이터 원칙에 따라 공개, 공유하기 위

한 가이드 라인 제시

o Linked Data 기술을 Open Government Data에 적용(Tim

Berners-Lee)하는 이유

- Open : RDF/XML이라는 표준 포맷을 이용, 다양한 어플리케이션에

서 데이터 접근, 사용이 가능

- Modular : 데이터가 리소스 단위로 표현되므로 다양한 매쉬업과 데

이터 통합이 가능 - 행정기능의 효율화

- Scalable : 쉽게 Linked Data를 추가할 수 있으며(확장성), 시간이 지

나도 지속성이 있음

□ 기업

o 시맨틱 웹 기술이 안정, 성숙의 단계 - Linked Data를 real

world problem에 대해 실제 솔루션으로 적용, 확산하는 시점

- 사례 : BBC Programmes and Music, BestBuy.com, NewYork

Times

o Linked Data를 기업에 적용하는 장점

- 기업 내, 외부의 다양한 이질적인 데이터의 통합 가능

- 이를 통한 민첩한 의사 결정

- 소비자, 유통 회사, 또는 부품 업체 등 각 부분의 외부

Page 18: Linked Data.hwp

- 1 -

counterpart와의 자유로운 데이터 교환 및 데이터 재사용

- 오픈 API와 오픈 데이터를 이용한 자동화된 시맨틱 서비스

- 데이터(internal, external data)의 분석 및 다양한 매쉬업을 통한

시맨틱 마케팅

□ R&D

온톨로지 기반의 비즈니스 생태계의 가치[10]

o 전통적으로 생명공학, 의학 분야의 데이터의 온라인화가 일찍 시

작되었으며 Linked Data로의 이전도 다른 분야에 비해 빠름.

o 주로 생명공학(Bio2RDF, UniProt), 의학(PubMed, LinkedCT), 약

학(DailyMed, DrugBank) , 우주공학(nasa spaceflight data), 공간

(Geonames, GeoSpecies, Linked GeoData) 분야의 데이터 셋들

이 LOD(Linking Open Data)에서 제공되고 있음.

o 이 외에 IEEE, LIBRIS, DBLP, CiteSeer, ACM 등의 서지데이터베

이스가 LOD에서 제공되고 있음.

Page 19: Linked Data.hwp

- 2 -

Bio2RDF.org에서 이용할 수 있는 생명과학 분야 데이터셋

Page 20: Linked Data.hwp

- 1 -

4 Linked Data 전망

o 링크드 데이터의 의의

- 공통된 링크드 데이터의 원칙에 따라 데이터를 퍼블리싱 함으로

써,

- 데이터 통합/매쉬업

- 분산 질의(다양한 데이터 셋 간의)

- Serendipity 가능(우연한 데이터의 발견)

- 데이터의 재사용과 매쉬업을 통한 부가가치 창출

o 궁극적으로 데이터/콘텐츠를 둘러싼 생태계를 조성(data

ecosystems)

- 오픈 API와 오픈 데이터를 통해 누구나 데이터/서비스를 만들

고 자유롭게 주고 받고, 이용할 수 있는 환경을 만들고자 함.

o 시맨틱웹의 창시자인 Tim Berners-Lee는 “raw data now"라는 슬

로건을 주장

- 가공되지 않은 데이터(row data) 채로 이용자에게 공개

- 어떻게 이용할 것인가는 이용자에게 맡김

- 앱스토어와 같이 데이터를 이용하는 툴(API)을 제공함으로써 이

용자가 창의적으로 개별 요구에 맞게 데이터를 이용할 수 있도

록 해야 한다고 주장

o 미국/영국의 사례에서 보듯이 e-Government 분야의 공공 데이터

를 링크드 데이터화하는 작업이 주요하게 진행되고 있음.

- 이것은 공공 데이터를 국가적 자원(전력, 무선망 등과 같은 인프

라 , SOC)으로 인식하고 링크드 데이터를 통해 공공 데이터의

Page 21: Linked Data.hwp

- 1 -

공개 및 연계함으로써 국가적인 데이터의 인프라스트럭처를 구

축하는 것임

o 링크드 데이터를 통해 데이터의 웹이 형성되면 기계(에이전트)간

의 데이터의 자유로운 상호 교환과 의미처리가 가능한 지능형

유비쿼터스 환경을 이룰 수 있는 기반이 됨.

o 한국형 Linked Data Cloud를 조성하기 위해서는 우선 핵심 데이

터 셋을 선정하여 링크드 데이터화 하고 이를 바탕으로 활용 및

확산하는 네트워크 효과를 발생시키는 전략이 필요

Page 22: Linked Data.hwp

- 2 -

[참고문헌]

1. Tim Berners-Lee, "Design Issues: Linked Data", 2006.

http://www.w3.org/DesignIssues/LinkedData.html

2. Linking Open Data Project Wiki

http://esw.w3.org/topic/SweoIG/TaskForces/CommunityPRojects/

LinkingOpenData

3. Irene Celino, "From research to business: the Web of Linked Data",

2009. 04

http://www.slideshare.net/iricelino/from-research-to-business-the-

web-of-linked-data

4. Tim Berners-Lee, "Putting Government Data online", 2009. 6.

http://www.w3.org/DesignIssues/GovData.html

5. "Open Government: Berners-Lee and the UK to Show Obama How

It's Done", posted by Marshall Kirkpatrick, June 10, 2009,

http://www.readwriteweb.com/archives/open_goverment_berners-lee

_and_the_uk_to_show_obam.php

6. http://blogs.talis.com/nodalities/2009/06/britain2.php

7. "Moving Data.gov towards the Semantic Web", Posted by Paul

Miller, August 10th, 2009,

http://blogs.zdnet.com/semantic-web/?p=319

8. "Web inventor to help Downing Street open up government data",

posted by Charles Arthur, 10 June, 2009,

http://www.guardian.co.uk/technology/2009/jun/10/berners-lee

-downing-street-web-open

9. Martin Hepp, "Semantic Web Based E-Commerce: The Good

Relations Ontology", Semantic Web Technology Conference 2009,

2009. 6.

10. "A CIO's Strategy for Rethinking "messy BI"", TechnologyForecast,

2009, spring, PriceWaterHouseCoopers