우리도 배워야 한다 . - europeana 와 bbc

32
우우우 우우우 우우 . - Europeana BBC 2014.5.12. 우우우 ( 우우우우우우 DataLab, [email protected]) 2014 LOD 를 를를를 .

Upload: kaden

Post on 22-Jan-2016

89 views

Category:

Documents


9 download

DESCRIPTION

우리도 배워야 한다 . - Europeana 와 BBC. 2014.5.12. 박진호 ( 성균관대학교 DataLab , [email protected]). 2014 LOD 를 말하다. 대표 브랜드. …. 유럽 디지털문화유산 검색 서비스. 데이터 API. Europeana 의 모든 프로젝트와 관련 정보 검색 http://pro.europeana.eu. 유로피아나는 유럽 전역에 유럽의 문화유산에 대한 자유롭고 신뢰할 수 있는 접근 제공 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 우리도 배워야 한다 . -  Europeana 와 BBC

우리도 배워야 한다 . - Europeana 와 BBC2014.5.12. 박진호 ( 성균관대학교 DataLab, [email protected])

2014 LOD 를 말하다 .

Page 2: 우리도 배워야 한다 . -  Europeana 와 BBC

2 | 312014.6.27. MARU 180 - THINK 룸 .

대표 브랜드

유럽 디지털문화유산 검색 서비스

데이터 API

Page 3: 우리도 배워야 한다 . -  Europeana 와 BBC

3 | 312014.6.27. MARU 180 - THINK 룸 .

Europeana 의 모든 프로젝트와 관련 정보 검색http://pro.europeana.eu

Page 4: 우리도 배워야 한다 . -  Europeana 와 BBC

4 | 312014.6.27. MARU 180 - THINK 룸 .

• 유로피아나는 유럽 전역에 유럽의 문화유산에 대한 자유롭고 신뢰할 수 있는 접근 제공• 유로피아나 문화 유산 컨텐츠에 대한 광범위한 접근은 물론 창의 , 혁신 촉진 지원

– 유로피아나 API : 서비스 개발자 , 외부의 웹사이트 , 응용프로그램이 유로피아나 컬렉션 검색

– 링크드 오픈 데이터 : 컨텐츠를 재사용하기 위한 방법 . 웹에서 유로피아나에서 수집한 메타데이터에 접근하고 더 풍부하게 할 수 있도록 함

Page 5: 우리도 배워야 한다 . -  Europeana 와 BBC

1. Europeana - History

• 2005: 유럽연합집행위원회 (European Commission) 의 유럽 디지털도서관 프로젝트 제안 (i2010 의 중요 전략 중 하나인 디지털도서관 )

• 2007: i2010 자금지원으로 EDLnet(European Digital Library Net-work 프로토타입 시작

• 2008:  유로피아나 프로토타입 서비스 시작 (11 월 20 일 )

• 2009: 5 백만 건 수집 달성

• 2010– 유로피아나 자금 , 컨텐츠 추가 승인 요청 통과 (2 월 ). – 유로피아나 컬렉션 1,000 만건 달성– 유럽연합집행위원회의 경쟁력 혁신 프레임워크 프로그램 (CIP CIP ICT-PSP)

의 자

• 2012 : CC0 기준에 준해서 자유롭게 재사용이 가능하도록 유로피아나의 모든 메타데이터 공개 . 유로피아나 켈렉션 2,500 백만 달성

• 2013 : 유럽 2020 의 중요한 전략 중 하나로 유럽의 Digital Agenda를 지원하는 중요한 프로젝트로 계속 진행

2014.6.27. MARU 180 - THINK 룸 . 5 | 31

Page 6: 우리도 배워야 한다 . -  Europeana 와 BBC

2. Europeana - APIs

• 유로피아나 APIs 를 통해서 유로피아나의 데이터베이스를 새로운

응용서비스 개발 등에 직접 활용 가능

– REST-API: 유로피아나 웹사이트에서 이용자들이 볼 수 있는 데이터와 동일한

데이터의 검색과 탐색활동이 가능하도록 함

– LOD: SPARQL 을 통해서 보다 진보적인 시맨틱 검색 , 탐색활동 지원이

가능한 완전한 데이터셋 다운로드 지원 ( 현재 전체 약 3,100 백만 레코드 중

2,000 만 데이터셋을 제공 )

2014.6.27. MARU 180 - THINK 룸 . 6 | 31

Page 7: 우리도 배워야 한다 . -  Europeana 와 BBC

3. Europeana - LOD

• LOD 구조화된 데이터를 발행하는 방법으로 메타데이터가 서로 연결되고 풍부해지도록 함으로써 동일한 컨텐츠에 서로 다른 표현들이 발견될 수 있도록하고 연관된 자원간의 연결을 만들어냄

• 유로피아나 포털 안에 존재하는 모든 객체에 대한 메타데이터는 개방되어있고 , CC0 Public Domain Dedication 과 유럽의 Data Ex-change Agreement(DEA) 규정에 따라 자유롭게 API 를 통해서 다운로드가 가능함

• 데이터는 EDM(Europeana Data Model) 에 따라 모델링

2014.6.27. MARU 180 - THINK 룸 . 7 | 31

http://creativecommons.org/publicdomain/zero/1.0/

http://pro.europeana.eu/support-for-open-data

Page 8: 우리도 배워야 한다 . -  Europeana 와 BBC

EMD

• EDM 은 초기에 Europeana Semantic Elements(ESE) 모델에서 출발

– 표현하고자 하는 대상객체를 나타내는 메타데이터의 공통 요소 발굴

– 상호운용성 강화

– 원본 데이터의 손실을 최소화

– 객체와 메타데이터 레코드 분리

– 동일 객체에 대한 다양한 레코드 정보 연결 허용

– 다른 객체를 하나의 요소로 포함해서 표현되는 객체 ( 예 , 그림책 ) 의 표현 지원

– 통제어휘에 기반해서 개념간의 관계를 반영할 수 있는 구조

• 메타데이터 상호운용성 확보

– 서로 다른 데이터 모델간의 조화

– 특정 도메인별 요구사항들의 조화

– 데이터 손실을 줄이고 원본 데이터와 함께 운용할 수 있는 방식 고려

2014.6.27. MARU 180 - THINK 룸 . 8 | 31

Page 9: 우리도 배워야 한다 . -  Europeana 와 BBC

3. Europeana Apps

2014.6.27. MARU 180 - THINK 룸 . 9 | 31

• 실제 유로피아나의 OpenAPI 와 Linked Data 를 활용한 응용시스템 개발 사례• 현재 약 100 개의 사례 존재

Page 10: 우리도 배워야 한다 . -  Europeana 와 BBC

10 | 502014.6.27. MARU 180 - THINK 룸 .

Page 11: 우리도 배워야 한다 . -  Europeana 와 BBC

4. Europeana Creative Challenge

2014.6.27. MARU 180 - THINK 룸 . 11 | 31

• 2013 년 2 월부터 30 개월간 진행• 유로피아나가 구축한 콘텐츠를 산업계에서 창의적으로 활용할 수 있도록 지원

Page 12: 우리도 배워야 한다 . -  Europeana 와 BBC

5. Europeana - Cloud

• 유로피아나의 메타데이터를 보다 풍부하게 하고 이용자들에게 메타데이터는 물론 관련된 콘텐츠 제공

• 현재의 메타데이터 수집 방식

– 일방적 커뮤니케이션 구조로 풍부한 메타데이터 확장과다양한 관점의 반영이 어려움

2014.6.27. MARU 180 - THINK 룸 . 12 | 31

Page 13: 우리도 배워야 한다 . -  Europeana 와 BBC

5. Europeana - Cloud

• 유로피아나 회원기관들이 공통의 시스템을 통해서 메타데이터를 업로드하고 메타데이터를 관리 ( 메타데이터 요소명 정의 , 편집 , 삭제 , 주석 달기 등 ) 수행

• 3 Party 들이 메타데이터를 관리 ( 다운로드 , 편집 , 삭제 , 주석 달기 등 ) 허용

• 연구자 집단의 참여 허용

2014.6.27. MARU 180 - THINK 룸 . 13 | 31

Page 14: 우리도 배워야 한다 . -  Europeana 와 BBC

6. Europeana Business Plan

2014.6.27. MARU 180 - THINK 룸 . 14 | 31

유로피아나 참여 기관은 하나의 생태계로써 유기적으로 움직여야 함

데이터 모델링 , 관련 지적재산권 등 모두가 유로피아나의 켄텐츠를 이익창출이 가능한 구조 구축네트워크의 효과를 통해 일반이용자 ( 최종이용자 ) 도 새로운 서비스 개발이 가능한 도구와 인프라 제공

개방과 공유에 더욱 집중지식정보에 접근하기 위한 가자 기본은 메타데이터로 이런 데이터들이 제대로 충분히 개방되고 있는지 점검향후에는 개방된 데이터들이 어떻게 활용되고 있는지를 증명할 것임

Page 15: 우리도 배워야 한다 . -  Europeana 와 BBC
Page 16: 우리도 배워야 한다 . -  Europeana 와 BBC

1. BBC 의 문제

• 온라인으로 텍스트 , 비디오 , 오디오 등 많은 컨텐츠를 게시함

• 대부분의 데이터가 방송별 브랜드와 특정 지식분야를 위한 것임

– 특정 지식분야 : 음식 , 음악 , 뉴스 등

• 특정 지식분야 상호간의 인터링킹은 존재하지 않았으며 , 데이터를 충분히 활용하고 있지 못함

2014.6.27. MARU 180 - THINK 룸 . 16 | 31

Page 17: 우리도 배워야 한다 . -  Europeana 와 BBC

2. 해결방향

• DBPedia 는 통제어휘집으로써의 역할과 서비스를 제공

• 새로운 시스템으로 구 시스템을 부드럽고 유연하게 전환

– BBC 의 라디오 , TV채널 , 프로그램 브랜드를 지원할 수 있는 서비스 개발(bbc.co.uk/programmes)

– 기존에 개방형 웹 표준 (LOD) 을 준수하는 서비스와 통합된 새로운 음악 서비스 제공 (bbc.co.uk/music)

– 아주 간단한 탐색 요소 (네비게이션 요소 ) 로 상황적 , 의미적 탐색 지원

– 모든 BBC 온라인 컨텐츠를 분류하고 여러 어휘집 사이에 동등성을 확보하기 위해 웹 식별자 활용

2014.6.27. MARU 180 - THINK 룸 . 17 | 31

Page 18: 우리도 배워야 한다 . -  Europeana 와 BBC

2. 해결방향

• BBC 도메인 간에 연결 지행 : 프로그램 , 사람 , 장소 , 주제 간의 관계설정

• CIS( 자동 분류 시스템 ) 로 데이터는 자동으로 분류됨

– CIS 는 5 개의 주요 상위 Class 로 구성 (Proper names, Subjects, Brands, Time periods, Places)

• 객체는 다양한 도메인에서 ( 프로그램 , 음악 등 ) 사용될 수 있고 동일명칭의 경우 매핑을 통해서 구분하고 식별함

• CIS 의 개념을 Dbpedia 와 연결

2014.6.27. MARU 180 - THINK 룸 . 18 | 31

Page 19: 우리도 배워야 한다 . -  Europeana 와 BBC

2. 해결방향

2014.6.27. MARU 180 - THINK 룸 . 19 | 31

공유 ( 공통 ) 모델링 +

공유 ( 공통 ) 언어 ( 표현방식 )+

공유 ( 공통 ) 의 이해=

지속적인 이용자 경험

주제별 , 도메인별 공유 ( 공통 ) 된 기본 요소 ( 장소 , 사람 등 ) 에 의한 온톨로지 모델링과 누구나 이해가능한 구조의 모델링 (properties 구성 )

RDF/OWL 등 표준 준수

DBPedia 등 동일 개념에 대한 연결

결국에는 이용자에게 혜택 제공

Page 20: 우리도 배워야 한다 . -  Europeana 와 BBC

3. DSP(Dynamic Semantic Publishing) Framework

• BBC 링크드 데이터의 핵심

– BBC 스포츠 사이트 , BBC 2012 올림픽 콘텐츠 작성에 직접 활용

• DSP 는 향상된 이용자 경험과 참여 수준을 높이기 위해 자동적으로 통합 , 출판 , 게시 , 컨텐츠 객체의 목적변경 등을 온톨로지 모델에 기반한 정보 설계로 해결하고 있으면 핵심으로 링크드 데이터 기술을 활용하고 있음

• DSP 는 HTML 과 RDF 로 데이터를 출판하고 또한 내부적으로 관리함

• DSP 의 RDF 활용은 RDF 가 의미 탐색 , 콘텐츠 재사용 , 검색엔진 순위 등에 있어서 자동화된 처리가 가능하여 효율적이며 , 다차원적인 접근점과 풍부한 정보 탐색을 가능하게 함에 기인

• DSP 는 관련자 ( 기사작성자 등 ) 들의 최소한의 관리만을 요구하며 , 대부분의 출판 자료는 자동으로 메타데이터와 콘텐츠 상태를 수집하고 관련된 이야기나 BBC 정보자산과 링크를 관계를 설정함

2014.6.27. MARU 180 - THINK 룸 . 20 | 31

Page 21: 우리도 배워야 한다 . -  Europeana 와 BBC

21 | 312014.6.27. MARU 180 - THINK 룸 .

2010 년 월드컵에 적용된 BBC 내 정보자산 , 태그 , 도메인 온톨로지 관계도

Page 22: 우리도 배워야 한다 . -  Europeana 와 BBC

4. BBC Linked Data Platform

• DSP 가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여한 것과 같이 BBC 의 모든 컨텐츠에 태깅을 허용한다는 생각에 기초

– BBC 가 관심을 갖는 모든 유형의 주제 ( 스포츠 , 정치 , 자연 , 음악 등 ) 에 대해서 링크드 데이터 질의와 저장이 가능한 과정과 도구 제공

– 현재 BBC 링크드 데이터의 대표적인 사례로 거론되는 BBC Programmes과 Music 을 포함해서 BBC 는 매일 엄청난 양의 기사를 생산 , 저장

– 기존의 BBC 콘텐츠 관리 시스템은 개방되고 연결된 구조의 웹에서 재활용되고 서비스되는데 부적합

– 링크드 데이터 플랫폼은 의미태깅에 따라 출판되는 각각의 저작물에 일반적인 메타데이터 모델을 적용하여 저장하는데 이 모델은 모든 유형의 컨텐츠에 적용가능한 유용한 속성들을 포함하고 있어 서로 다른 시스템과의 컨텐츠 조합을 쉽게 함

2014.6.27. MARU 180 - THINK 룸 . 22 | 31

Page 23: 우리도 배워야 한다 . -  Europeana 와 BBC

4. BBC Linked Data Platform

• DSP 가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여한 것과 같이 BBC 의 모든 콘텐츠에 태깅을 허용한다는 생각에 기초

– 링크드 데이터 플랫폼의 주 목적은 모든 BBC 저작물이 데이터 뒤에 숨겨져 있는 의미를 이해할 수 있도록 하고 “ things” 에 대한 검색이 가능하도록 하는 API 를 제공하는 것임

– 이는 해당 객체 (things) 가 갖는 미래의 모습을 예측하는 것이 아니고 현재 존재하는 이 객체와 관련된 사실들과의 연결을 가능하게 하는 것임

– 현재 BBC 는 음악 , 스포츠 ( 축구와 올림픽 ), 정치 , 학습 분야를 플랫폼에서 출판하고 있으며 향후 다양하게 발전할 것임

2014.6.27. MARU 180 - THINK 룸 . 23 | 31

Page 24: 우리도 배워야 한다 . -  Europeana 와 BBC

5. BBC News Juicer

• 모든 BBC 의 뉴스와 스포츠 기사에 대해서 개념 ( 사람 , 장소 , 시간 , 사건 등 ) 을 추출하고 외부 데이터셋 (DBpedia, GeoNames 등 ) 과 동일 개념으로 matching

• 시맨틱 프로토타이핑 플랫폼으로 개념 추출 (Concept extraction) - DBPedia 로 의미적 개념 매칭 (Semantic concept matching to DB-Pedia) - 의미적 주석 (Semantic Annotation) - RDF 저장 등의 과정을 지원

2014.6.27. MARU 180 - THINK 룸 . 24 | 31

Page 25: 우리도 배워야 한다 . -  Europeana 와 BBC

6. 실제 웹사이트를 구축하는 방식

2014.6.27. MARU 180 - THINK 룸 . 25 | 31

개념적 모델링 : 도메인별 전문가와 실제 이용자 참여 . 중요 요소 리스트화 및 관계설정 구축될 웹 페이지가 아니라 모델링 대상에만 집중

데이터모델링

URI 디자인 : 사람중심의 가독성 , hackable, 지속적인 접근성 , 각각의 객체를 구분할 수 있는 하나의 식별자 , 향후 변화가 가능한 명칭 - 구조는 제외

웹 페이지 디자인 : 모든 객체를 표현할 수 있는 각각의 페이지 구성

레이아웃 적용

테스트 : 시스템적 기능 , 성능 외에 개념적 모델링이 반영되었는가 등 확인

Page 26: 우리도 배워야 한다 . -  Europeana 와 BBC
Page 27: 우리도 배워야 한다 . -  Europeana 와 BBC

• 유럽연합의 프로젝트 : 2012 년 11 월 ~ 2014 년 11 월

• FP7 의 지원 프로젝트 : 교육관련 기관이 웹에서 활용 가능한 공공 , 개방형 데이터의 채택과 개발을 지원

Page 28: 우리도 배워야 한다 . -  Europeana 와 BBC

• Linked Education Cloud 는 교육적 애플리케이션과 관련된 웹 데이터셋의 저장소이자 목록

• Web of Data 즉 , Linked Data 원칙 ( 표준 ) 에 맞추어 데이터를 제공하고 Linked Up Community 로부터 입력된 데이터에 기초하여 구축

Page 29: 우리도 배워야 한다 . -  Europeana 와 BBC

• 3competitions: Veni, Vidi, Vici(왔노라 , 보았노라 , 이겼노라 )

• 교육을 목적으로 하는 개방형 웹 데이터의 통합과 분석을 위한 툴 디자인 및 개발• Veni Competition: 2013 년 6 월 - 2013 년 9 월

• Vidi Competition: 2013 년 11 월 – 2014 년 5 월

• Vici Competition: 2014 년 6 월 – 2014 년 10 월

Page 30: 우리도 배워야 한다 . -  Europeana 와 BBC

• Open Education 은 가장 일반적이고 광범위하게 활용되고 있는 Open Educational Resources(OER: 자유롭게 접근이 가능하고 교수 , 학습 , 연구 등 교육관련 활동에 있어서 개방형 라이센스로 자유롭게 활용 가능한 자원 ) 의 개념으로 생각하지만 ,

• Open Education 은 교육적 데이터와 관련된 것들을 개방하는 측면을 포함하는 보다 OER 보다 광범위한 개념

• Open Education 작업반은 Open Education 에 관심이 있는 사람이나 조직 모두를 위해 설립

Page 31: 우리도 배워야 한다 . -  Europeana 와 BBC

31 | 312014.6.27. MARU 180 - THINK 룸 .

• Europeana 유럽 문화유산에 대한 통합적 접근점 제공 노력 디지털 documents 서비스에서 자연스럽게 data 중심 서비스 강화로 변화

( 이용자와 제공 컨텐츠의 활성화 측면에서 고려 ) 단순 데이터 서비스 강화가 아니라 명확한 비전 -목표 - 실행계획 - 단위과제

아래에 필요한 연구 , 기술인프라 , 개발 , 장기적 이용자 참여 수행

• BBC LOD 로 공개된 데이터의 적극적 채용과 활용 LOD 는 BBC 의 문제점 해결하고 보다 나은 서비스 제공을 위한 방법으로 선택

(받아들여야하는 기술 트렌드로 선택한 방법이 아님 )

• LinkedUp LOD 데이터는 더 많아져야 하지만 내가 필요한 ( 특정 도메인 ) 데이터를 찾기는 여전히 어려움

특정 도메인이나 목적 (Open Education)/ 용도 /필요성이 명확한 또 다른 노력이 LOD 에 필요함

Page 32: 우리도 배워야 한다 . -  Europeana 와 BBC

[ 참고자료 ]

• Atherton, M. (2011), Beyond the Polar Bear [PowerPoint slides]. Retrieved from http://www.slideshare.net/reduxd/beyond-the-po-lar-bear

• http://linkedup-challenge.org/

• http://www.bbc.co.uk/blogs/internet

• http://www.europeana.eu

• http://linkedup-project.eu/

2014.6.27. MARU 180 - THINK 룸 . 32 | 31