linked open data annual conference

22
inked Open Data Annual Conference 정정정정정정정 NDSL 정정정정 정정정 정정정정 1 DB 정정정 2 정정정 정정 3 NDSL 정 Linked Open Data 정정정 4

Upload: dea

Post on 14-Jan-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Linked Open Data Annual Conference. NDSL 과 Linked Open Data. 사업개요. 1. DB 객체화. 2. 콘텐츠 구축. 3. 맺음말. 4. 정보서비스센터 NDSL 서비스실 김완종. 사업 개요 및 추진 배경. 1 .1. 국가 과학기술 경쟁력 제고를 위한 차세대 과학기술정보 서비스 모형 개발. 서비스 요구. 데이터의 개방 및 공유 ( 샘플 LOD 구축 ). 차세대 분석형 정보 서비스. 최적의 검색 서비스. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Linked Open Data Annual Conference

Linked Open Data Annual Conference

정보서비스센터 NDSL 서비스실 김완종

사업개요 사업개요1

DB 객체화 DB 객체화2

콘텐츠 구축 콘텐츠 구축3

NDSL 과 Linked Open Data

맺음말 맺음말4

Page 2: Linked Open Data Annual Conference

2

사업 개요 및 추진 배경

•NDSL 데이터 공유 필요

•Linked Open Data

자동 변환기술 개발

•콘텐츠별 공개ㆍ공유가능 범위 설정 및 지침 마련

•객체형 DB 를 근간으로 한차세대 분석형 정보서비스 모델 필요

•분석형 정보서비스 시범 사이트 개발

서비스 요구

•객체형 DB 검색 최적화 필요

•검색 최적화 알고리즘 연구 수행을 통한 검색 서비스 시범 개발

최적의 검색 서비스데이터의 개방 및 공유( 샘플 LOD 구축 )

차세대분석형 정보 서비스

•Legacy DB 구조의 제약

•고품질 데이터 객체화 ,

마이크로화 필요

•마이크로 DB 스키마 구축

고부가 콘텐츠화( 객체형 DB 설계 )

1.1

Page 3: Linked Open Data Annual Conference

3

개발 사업의 목표

지능화 공유화

1.2

Page 4: Linked Open Data Annual Conference

4

시스템 개념도

국내 국외

NDSL DB & 이용 통계

객체화 , 마이크로화

객체화 DB 개방형 콘텐츠 (RDF Triple)

개방형 데이터화

객체화 DB 스키마개방형 고부가 콘텐츠 생성

알고리즘( 트리플 변환 규칙 )

Linked Open Data

분석형 서비스 개방형 서비스(Linked Open Data)

고성능검색 서비스

개방형 고부가콘텐츠

동시발생 , 유사도 , Linked Open Data

연구환경 선진화를 위한 스마트 정보유통체제 구현

객체화 , 개방화

1 2

34 5

2.1

Page 5: Linked Open Data Annual Conference

5

DB 객체화

개별 분석 통합 분석 객체 DB 스키마 설계 마이그레이션 수행

• SCOPUS, XML Full-

Text, OAK Central,

NDSL 분석

• 엔티티 및 관계 생성

방향성 설정에 활용

• 개념데이터 추출

• 객체 대상 선정

• SCOPUS, XML Full-

Text, OAK Central,

NDSL 을 대상으로 개별

분석한 내용을 통합하여

분석

• 개념 데이터 통합

• 개념모델 추출

• 세부 속성 정의

• 객체 DB 테이블 설계 및

컬럼 속성 정의

• 논리 ERD 정의

• 물리 ERD 정의

• 데이터 대상 선정

• 식별체계 정의

• 개체를 식별하고 대상

데이터를 객체 DB

데이터로 생성

• 객체 DB 생성

DB 객체화 프로세스

2.2

Page 6: Linked Open Data Annual Conference

6

DB 객체화 – 통합 구조도

저자전거 사용

논문

그림 / 표

참고

논문소속

기관

논문저자

저자저자소속

저널

발행논문

권호정보

초록

본문

1

0/n

11

0/1

0/1

1

0/n0/n

1

1

1/n

1

11

1

11

1

0/n

1/n

1/n

0/n0/n

0/n0/n

저널 - 기관

1

1

0/n

0/n

1

권호식별자 : 저널 id_ 권 _ 호

논문식별자 (PK)논문제어번호논문국문명논문명논문명대표언어논문발행연도논문출판일DOIKOI주제분야권호식별자 (FK)시작페이지종료페이지국문키워드영문키워드학회코드저작권저작원연도라이선스

기관 id 획득 필요

그림표식별자 (PK)논문식별자 (PK)그림표제목그림표링크그림표구분

본문참고문헌

1

1

0/n

0/n논문식별자 (PK)언어타입 (PK)초록

본문식별자 (PK)논문식별자 (PK)순서섹션타입본문

권호식별자 (PK)저널식별자 (FK)권호권호명대등권호

본문식별자 (PK)논문식별자 (PK)참고문헌식별자 (PK)

논문식별자 (PK)참고문헌식별자 (PK)참고문헌순서

논문식별자 (PK)저널식별자 (PK)

저널식별자 (PK)저널명저널국문명저널명대표언어DDCP_ISSNE_ISSN과학기술표준분류무료전자저널여부코직넘버ISSNISBN발행국

논문식별자 (PK)저자식별자 (PK)

저자식별자 (PK)저자국문명저자영문명저자영문전체명이메일팩스연락처학위구분전공연도저자전공출생일사망일

참고문헌

0/n

1

참고문헌식별자 (PK)참고문헌타입참고문헌명참고문헌국문명참고문헌명대표언어시작페이지종료페이지권호DOI참고문헌저널영문명참고문헌저널국문명참고문헌저자명참고문헌저자국문명참고문헌저자명대표언어발행연도논문식별자

기관전거 사용

1

입수처

1

순서 (PK)논문식별자 (PK)입수출처상태상태날짜

심사정보1

0/1

0/1순서 (PK)논문식별자 (PK)심사구분심사날짜

2.3

Page 7: Linked Open Data Annual Conference

7

객체화 DB 논리 스키마 설계2.4

Page 8: Linked Open Data Annual Conference

8

객체화 DB 물리 스키마 설계2.5

Page 9: Linked Open Data Annual Conference

9

객체화 DB 마이그레이션 프로세스

데이터 대상 확정

환경 설정

식별체계 정의

개체식별

스키마 생성

데이터 적재

단순적재 전후처리시행

NDSL XML

XML FullText 1852 건

객체 DB

준비단계

실행단계

KIS11 (u-Gate)KIS09 (OCEAN)KIS08 (e-Gate)전거데이터

2.6

Page 10: Linked Open Data Annual Conference

10

DB 마이그레이션 대상 선정

- 국내 논문 중 초록이 존재하는 최근 3 년- 국내 논문 중 초록이 존재하지 않는 최근 1 년- 논문번호가 ‘ JAKO’ 로 시작하는 논문

마이그레이션 대상

2.7

필터링 조건

- 논문 데이터 : KIS11 (u-Gate) DB 의 FAST_ARTICLE_NEW 테이블- 국내 논문 : FAST_ARTICLE_NEW 테이블의 dbt2 컬럼값이 JAKO 인 것- 초록 존재 여부 : FAST_ARTICLE_NEW 테이블의 korabstract 와 engabstract 컬럼값- 최근 3 년 : FAST_ARTICLE_NEW 테이블의 pubyear 컬럼값이 2010 이상- 최근 1 년 : FAST_ARTICLE_NEW 테이블의 pubyear 컬럼값이 2012 이상- 논문번호 시작 : 논문번호 처음시작이 ‘ JAKO’ 로 시작하는 논문

Page 11: Linked Open Data Annual Conference

11

DB 마이그레이션 대상 선정

최종 마이그레이션 수행 대상 논문수

2.7

1 차 전체 논문수국내논문 중 최근 3 년간

초록 보유 논문수

국내논문 중 최근 1 년간

초록 미보유 논문수

건수55,854,05

8

131,203 14,691

145,894

2 차 1 차 결과 JAKO 로 시작하는 논문 NART 로 시작하는 논문

건수 145,894115,773 30,121

대상논문

Page 12: Linked Open Data Annual Conference

12

콘텐츠 구축 – 트리플 변환 프로세스

12

데이터 분석 온톨로지 스키마 생성 트리플 변환 트리플 적재

• 변환 대상이 되는 데이터에

대하여 데이터 구조 및

데이터 현황을 파악하고

데이터 간의 관계를

분석하는 단계

• 일반적으로 중심이 되는

데이터를 파악하고 그

데이터들의 관계를 파악함

• 중심이 되는 데이터 이외에

세부적인 데이터를

분석하고 정리

• 대상 데이터의 특성을

파악하여 변환에 고려

• 온톨로지에 사용할 pre-

fix 를 정의하고 데이터의

특성을 고려하여 많이

사용하고 있는 vocabu-

lary 를 적용할 것인지

고려

• 인스턴스의 식별체계를

정의

• 중심이 되는 데이터를

바탕으로 온톨로지 클래스

생성

• 분석된 데이터 간의 관계를

통해 온톨로지 프로퍼티

생성

• 변환 대상이 되는 데이터를

변환하기 위해 수집하는

규칙을 생성

• 수집된 데이터와 온톨로지

스키마 간의 변환 매핑이

이루어지도록 매핑 규칙을

생성

• 변환기를 통해 트리플 (

온톨로지 인스턴스 ) 을

생성

• 생성된 트리플을 트리플

저장소로 적재

• 필요에 따라 추론규칙을

적용하기도 함

• 추론규칙은 기본적인 ax-

iom 에 따라 추론을 하는

것과 사용자가 정의한

규칙에 따라 추론을 하는

방법이 가능

3.1

Page 13: Linked Open Data Annual Conference

13

콘텐츠 구축 – R2RML 을 활용한 변환 규칙 활용@prefix rr: <http://www.w3.org/ns/r2rml#>.@prefix bibtex: <http://data.bibbase.org/ontology/#>.@prefix dc: <http://purl.org/dc/elements/1.1/>.@prefix dct: <http://purl.org/dc/terms/>.@prefix foaf: <http://xmlns.com/foaf/0.1/>.@prefix prism: <http://prismstandard.org/namespaces/basic/3.0/>.@prefix pur: <http://prismstandard.org/namespages/pur/3.0/>.@prefix schema: <http://schema.org/>.@prefix kisti: <http://lod.ndsl.kr/ontology/>.

<#JournalTableView1> rr:sqlQuery """select journal.JOURNAL_ID, KOR_NAME, FOREIGN_NAME, COUNTRY, KOJIC, P_ISSN, E_ISSN, ISBN, MAIN_LANG, FREE_FLAG, ELEC_FLAG, VALUE from ndml_journal journal, ndml_classification_code classcode where journal.JOURNAL_ID=classcode.JOURNAL_ID and TYPE='1'""".<#TriplesMap1>a rr:TriplesMap;rr:logicalTable <#JournalTableView1>;rr:subjectMap [

rr:template "http://lod.ndsl.kr/ontology/journal/{JOURNAL_ID}";rr:class kisti:Journal;

];rr:predicateObjectMap [rr:predicate foaf:name;rr:objectMap [ rr:column "KOR_NAME"; rr:language "ko"];];rr:predicateObjectMap [rr:predicate foaf:name;rr:objectMap [ rr:column "FOREIGN_NAME"; rr:language "en"];];rr:predicateObjectMap [rr:predicate prism:location;rr:objectMap [ rr:column "COUNTRY" ];];rr:predicateObjectMap [rr:predicate kisti:kojic;rr:objectMap [ rr:column "KOJIC" ];];rr:predicateObjectMap [rr:predicate prism:isbn;rr:objectMap [ rr:column "ISBN" ];].

Prefix 영역

TableView 영역

TriplesMap 영역

3.2

Page 14: Linked Open Data Annual Conference

14

콘텐츠 구축 – 변환기 실행 및 결과

• Setting 폴더안의 setting.properties 을 통해 변환하고자 하는 변환규칙과 형식 ,

데이터베이스 접속 정보를 입력• Start.bat 파일을 실행하면 변환기 실행이 시작

구분 건수

객체

DB

생성

논문 115,773

저널 775

저자 39,865

기관 47,678

본문이 있는 논문 1,706

참고문헌이 있는 논문 88,476

출판사 ( 학회 ) 608

트리플 변환 10,365,313

트리플 적재

( 추론된 트리플 포함 )

30,485,729

3.3

Page 15: Linked Open Data Annual Conference

15

LOD 기반 기술 구현 – Linked Data 발행 구조도

3.4

Page 16: Linked Open Data Annual Conference

16

LOD 기반 기술 구현 – 트리플 적재

R2RML 트리플 변환기를 통해 생성한 개방형 고부가 콘텐츠를 OntoBase2.0 에 적재하는 과정을 수행

owl_low 단계의 추론규칙을 적용하여 데이터를 적재

트리플을 적재하기 위한 트리플 저장소의 구조도

3.5

Page 17: Linked Open Data Annual Conference

17

LOD 기반 기술 구현 – Linked Data 발행3.6

Linked Data 발행 메인 페이지

Page 18: Linked Open Data Annual Conference

18

LOD 기반 기술 구현 – Linked Data 발행3.6

Linked Data 발행 소개 페이지

Page 19: Linked Open Data Annual Conference

19

LOD 기반 기술 구현 – Linked Data 발행3.6

SPARQL Endpoint 화면

Page 20: Linked Open Data Annual Conference

20

LOD 기반 기술 구현 – Linked Data 발행

SPARQL 결과화면

3.6

- [SPARQL 질의 ]

• NDSL LOD 트리플에 질의 수행

- [SPARQL Endpoint]

• SPARQL Endpoint

를 활용하여 KISTI

NDSL LOD

시범서비스에 SPARQL 질의 수행

Page 21: Linked Open Data Annual Conference

21

LOD 기반 기술 구현 – 검색 결과 화면의 LOD3.7

검색서비스 예 )

Page 22: Linked Open Data Annual Conference

22

맺음말

성과활용계획

• 국내 LOD 확산 계기 마련

• NDSL 콘텐츠의 품질 혁신으로 다양한 고부가 서비스 개발 기반 마련

• 연구자 간 정보개방 및 공유 활성화 기반으로 활용

• 국가 R&D 생산성 향상에 기여하는 국가과학기술정보센터 역할 수행

차세대 과학기술정보서비스 모형 개발

4