src슬라이드(2총괄1세부) 이상구

9
이이이 이이이 이이 이이이 이이 Agile Data Warehouse 이이이이 이이 이이이 선선선선선선 SRC 1

Upload: srcdsc

Post on 09-Aug-2015

603 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Src슬라이드(2총괄1세부) 이상구

1

이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이상구

선도연구센터 SRC

Page 2: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

I

II

III

IV

연구의 주제 및 성격

연구의 선도성

연구의 융합성

연구 실적 목록

V 향후 계획

목차

Page 3: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

이질적인 데이터를 그래프 구조라는 일관된 모델로 상호 연결하여 통합하고 , 통합된 그래프에 대한 분석을 통하여 종합적 지식을 발견

연구의 주제 및 성격 – 이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

주식변동

재해 사회적 현상

Lifelog

Multimedia

Web

Enterprise

다양한 소스에서생성되는 이종적 정보

다양한 정보를 그래프 모델 기반으로 연결한 통합 그래프

그래프 모델기반 통합

종합적 지식 발견

통합 그래프 구조 분석

1 단계 : 이종적 데이터 2 단계 : 통합 데이터 그래프 3 단계 : 종합적 지식

Page 4: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

• 기존의 지식발견은 정보를 목적에 맞게 특정 형태로 정제한 다음 기계학습 등의 방법을 적용함

• 기존의 방식으로는 무수한 요인으로부터 종합적으로 영향을 받는 현상에 대한 지식을 발견하기 어려움

• 그래프 기반 데이터 통합은 이러한 문제에 대응하기 위한 새로운 지식발견 기법으로 기대됨

연구의 선도성

연구 주제의 선도성 연구 방법의 선도성

고정된 변수들 사이의 관계분석

통합된 그래프 분석을 통하여 미리 상정하지 않은 상관관계의 발견

기존 연구 한계

기존 방법은 이질적 요소 간의 상관관계 분석에 한계

이질적 개체 들을 통합 분석하기 위한 이론적 근거 미비

노드 간 유사성을 기반으로 한 이질적 데이터 분석의 이론적 근거 마련

그래프 모델에 기반한 이질적 데이터 통합 및 융합 분석

이종적 데이터를 일관된 모델로 표현하지 못하여 융합분석이 힘듦

이질적 데이터를 유연한 그래프 모델 기반으로 표현하여 융합

연구 성과의 선도성

도메인 간 융합을 고려하지 못하는 분석 모델

의외의 요인을 반영하기 힘든 지식발견 기법

주식변동 , 재해 , 사회적 현상 등의 종합적 현상을 위한 새로운 지식발견 기법

이질적 데이터의 통합적 분석

기존 연구 한계

지식의 입체적 / 구조적 해석

기존 연구 한계

무수한 요인으로부터 종합적으로 영향을 받는 현상에 대한 지식발견 기법

과학적 알고리즘을 통한 지식 창출

Page 5: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

• 여러 도메인의 요소를 종합적으로 고려하는 지식발견 기법을 연구함으로서 , 학제 / 산업 분야 간 융합 발전에 기여

• 컴퓨터공학부와 임상약리학과 연구팀의 상호협력을 통한 과정적 융합성 추구

연구의 융합성 – 주제적 융합성과 과정적 융합성

연구 주제의 융합성 연구 과정의 융합성

의료정보 분석 : 실제 데이터 분석을 통한 새로운 지식발견 연구

데이터 처리

종합적 정보 분석

데이터 통합 : 종합적 지식 발견을 위한 이종 데이터 통합

데이터 처리 ( 컴퓨터 공학 )

의료정보분석 ( 임상약리학 )

데이터 분석과 시각화 부분 모두에서 다른 팀들과의 협업을 수행

종합적 지식 발견 : 통합된 대용량 데이터 분석을 통한 고도화된 지식 발견

의료 데이터 정제 및 제공을 통하여 융합적 지식발견 연구 촉진

연구 인력의 융합성

의료데이터 정제 및 분석 컴퓨터 공학 연구팀에서 개발한

종합적 지식발견 기법을 적용 및 검증 수행

대용량 데이터에서의 종합적 지식 발견을 위한 선도적 기술 연구

그래프 모델을 기반으로 이종적 데이터를 연결 짓고 종합적으로 분석

컴퓨터공학 ( 이상구 교수 연구팀 )

임상약리학 ( 유경상 교수 연구팀 )

타 분야와의 융합 연구 경험 및 지식을 갖춘 연구인력으로 구성

통계학 ( 이영조교수 연구팀 )

데이터 모델링 및 분석 알고리즘 분야 에서 선도적 연구 수행

공학 및 기술 데이터의 효과적 분석을 위한 알고리즘 개발 진행

컴퓨터 공학

데이터 분석을 위한 과학적 알고리즘 제공

통합 데이터를 활용하는 분석 수행

통계학

의료 데이터 정제및 제공을 통한 지식발견 연구 촉진

신기술을 응용한의료지식 발견 수행

임상약리학

종합적 지식 발견을 위한 이종 데이터 통합 기술제공

통합된 대용량 그래프 분석을위한 최적화된 기술 제공

이종적 데이터 통합 빛 분석

기술

Page 6: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

• 컴퓨터공학부와 임상약리학과 연구팀이 협업하여 당뇨병 의료데이터 분석을 진행

• RDB2Graph 변환 도구 개발 및 Personalized PageRank 기반 인과관계 분석 적용

• 사전 지식 없이 그래프 기반 분석으로 의료 지식에 부합하는 규칙성을 발견함을 확인

연구의 융합성 – 융합 연구 사례 : 당뇨병 의료데이터 분석 연구

RDB2Graph 변환 도구(RDB2Graph: A Generic Framework for Modeling Relational Databases as Graphs, JIST

2014)

의료 데이터 내의 인과관계 분석을 위한 그래프 모델( 그래프 모델을 이용한 당뇨환자의 처방 및 검사결과의 상관관계 분석 , 동계 KCC 2014)

Page 7: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

• 그래프 기반 데이터 통합 및 그래프 분석 알고리즘 연구 성과를 산출

• SCI 저널 논문 2 건 발표 및 컴퓨터공학부 지정 저명 학술지에 준하는 top conference 인 WWW, SIGIR 등에 논문 다수 발표

• Youngki Park, Sungchan Park, Woosung Jung, Sang-goo Lee, Reversed CF: A fast collaborative filtering

algorithm using a k-nearest neighbor graph, Expert Systems with Applications 2015 (SCIE)

• Sangkeun Lee, Minsuk Kahng, Sang-goo Lee, Constructing Compact and Effective Graphs for

Recommender Systems via Node and Edge Aggregations, Expert Systems with Applications 2015

(SCIE)

연구 실적

그래프 기반 데이터 통합 통합 그래프 분석

로그데이터의 그래프 변환(Jaeseok Myung, WWW 2013)

음악청취 로그 수집 / 분석(ByoungJu Yang, WWW 2012)

RDF 개체 검색 질의 처리(Minsuk Kahng, SIGIR 2012)

kNN 그래프 생성(Youngki Park, KCC 2014)

Semantic PageRank(Hee-gook Jun, ICOMP 2014)

RDB 기반 RDF 처리를 위한 Trinus System(Seungseik Kang, PhD Thesis 2013)

그래프 기반 의료데이터 분석(Kangmin Yu, 동계 KCC 2014)

RDB2Graph 변환 도구(Kangmin Yu, JIST 2014)

RDB 기반 RDF 처리 연구(Seungseok Kang, PhD Thesis 2013)

Graph Aggregation 을 통한 추천

(Sangkeun Lee, ESWA 2015, SCIE)

kNN 그래프를 활용한 추천(Youngki Park, ESWA 2015, SCIE)

Page 8: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

연구 실적 목록

논문명 게재연월 저널명 구분Reversed CF: A Fast Collaborative Filtering Algorithm Using a K-nearest

Neighbor Graph 201505 Expert Systems with Applications SCIE

Constructing Compact and Effective Graphs for Recommender Systems via Node and Edge Aggregations 201505 Expert Systems with Applications SCIE

논문명 학회명Exploiting Paths for Entity Search in RDF Graphs SIGIR 2012

Exploiting Various Implicit Feedback for Collaborative Filtering WWW 2012

Proximity-Based Fallback Model for Hybrid Web Recommender Systems WWW 2013

RDB2Graph: A Generic Framework for Modeling Relational Databases as Graphs JIST 2014

Weighted Semantic PageRank Using RDF Metadata on Hadoop ICOMP 2014

StdSort: Efficient Pre-Processing for Faster Vector Similarity Join Using Standard Deviation ICUIMC 2015

논문명 학회명

Canopy Clustering 을 이용한 k-Nearest Neighbor 그래프 생성 알고리즘 2014 한국컴퓨터종합학술대회맵리듀스 프레임워크 상 벡터 유사 조인 연구 현황 2014 한국 정보과학회 동계학술발표회

그래프 모델을 이용한 당뇨환자의 처방 및 검사결과의 상관관계 분석 2014 한국 정보과학회 동계학술발표회

• 그래프 기반 데이터 통합 및 그래프 분석 알고리즘 연구 성과를 산출

• SCI 저널 논문 2 건 발표 및 컴퓨터공학부 지정 저명 학술지에 준하는 top conference 인 WWW, SIGIR 등에 논문 다수 발표

< 학술지 실적 >

< 국제 학술대회 실적 >

< 국내 학술대회 실적 >

Page 9: Src슬라이드(2총괄1세부) 이상구

이상구 | 이질적 데이터 통합 분석을 위한 Agile Data Warehouse 기반기술 개발

이질적 데이터 통합 분석을 위한 Agile Warehouse 기반기술

향후 계획 – 추진 로드맵

Optimized by Initial Guessing Revision

Opti-mized by

DT

<Optimizing Fully Personalized PageRank Computation>

그래프 기반데이터 통합

통합 그래프 분석을통한 지식발견

순서 및 시간을고려한 그래프 분석

대용량 데이터 분석을 위한 최적화

TODO

• 향후 순서 및 시간을 고려한 그래프 분석 및 대용량 그래프 분석을 위한 Fully Per-

sonalized PageRank 계산 알고리즘 개발