황승원 포항공대 교수

Post on 26-Jul-2015

806 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

마이크로소프트연구소인재 육성 플랫폼교수 협력 사례 발표황승원 ( 포항공대 컴퓨터공학과 )

마이크로소프트연구소와의 협업 영역

커리큘럼 혁신

• 교재 및 수업 개발• 커리큘럼 자원제공• 초청강연

인재육성• 인턴십• 박사과정 펠로우십• 패컬티 펠로우십

연구협력• 연구 주제별

프로젝트• 패컬티 특별

프로젝트• 방문 연구원

프로그램

학술교류• 연례교수회의• 21 세기 컴퓨팅

컨퍼런스• 지역 별 워크샵

컴퓨터 공학의 발전 과학적 발견과 연구 가속화 차세대 공학도 육성

마이크로소프트연구소와의 협업 소개

연구 내용 요약 : Data(-driven) Intelligence

• 기존 검색 결과에 지능을 더함• 지능은 웹 사용자들에 의해 자동적으로 훈련되며 계속적으로 진화• 검색뿐 아니라 모든 소프트웨어의 공통 지능 역할을 함

연구 내용 요약 : Data(-driven) Intelligence

• 제품사례 : Microsoft Spartan/Cortana, Wearable device 구글 지식그래프

연구협력 분야에서의 협업• 지식 그래프 구축• 지식 번역 ( 자연어그룹 협업 , 사례 #1)

ACL, EMNLP, ACM TOIS, IEEE TKDE 등 저명 학회 및 저널 게재 • 지식 확장 ( 데이터베이스그룹 협업 , 사례 #2)

ICDE, VLDB, VLDB Journal 등 저명 학회 및 저널 게재

• 플랫폼으로서의 검색• 성능 예측 및 선택적 가속화 ( 시스템그룹 협업 , 사례 #3)

Bing 검색엔진 적용 , SIGIR, WSDM 저명 학회 학술상

• 특이점• 학술교류 ( 토양 )– 다양한 그룹에의 노출 (3 그룹 , 10 명의 연구원과 협업 )• 공동 연구 프로젝트 ( 씨앗 ) 방문연구원 및 인턴쉽 프로그램을 통해 지속성과

영향력 증대

인재육성 분야에서의 협업

선발 과정 인턴 기간 인턴 이후

공동 연구를 진행하면서 연구자로서의 통합적 평가를 통해 인턴십 선발

지속적 멘토링 제공

인턴십이 끝나도 멘토링이 지속된다기간 중 공동 연구 진행 , 공동 멘토링을 통한 학생 역량 강화 기간 후 협력 지속을 통해 새로운 주제 발굴 , 장기적 선순환아시아 (6m): 5 명 , 레드몬드 (3m): 4 명 , 펠로우 : 2 명 , 3 PhDs

커리큘럼 분야에서의 협업• 인재육성 협업의 수혜범위를 전체로 확대• 교육환경에서 다루기 힘든 큰 코드를 교육에 활용 가능 • 윈도우 코드를 운영체제 강의에 활용• 윈도우 아키텍트의 강연 , 저서 등을 교육교재로 활용• 대학 간 교재개발 교류 및 공유

• Azure 사용을 통해 빅 데이터를 교육에 활용 가능• 대규모 소셜네트워크의 분석 가능• 병렬화를 통한 가속화 프로젝트

마이크로소프트연구소와의 협업의 특징 • 주제 선정의 자율성• 학술교류를 통해 다양한 분야의 전문가와 협업 지원 • 인턴쉽을 통한 학생 공동 멘토링 및 협력 지속 • 학교에서 얻기 힘든 규모의 데이터와 시스템 사용 기회• 저명 학회 등 학문적 수월성 독려• 연구 결과를 제품화 하는 경험

연구 내용 상세 소개

사례 #1 지식 확장Microsoft 는 유명한 개체이므로 지식이 잘 구축되어있지만…

어려운 자연어 문제

사례 #2 지식 번역

• 자동번역을 어색하게 만드는 주범 , 자연어분야 오래된 골치거리

• 微软 [weiruan] 은 mary 와 달리 발음상 유사성 없음

두 문제는 사실상 동일한 문제이다

#1 #2

부트스트래핑 기법

• 1 단계 : Mary 와 같이 확실한 번역쌍으로 초기화

• 2 단계 : Microsoft 의 경우 관련 개체들의 번역쌍 점수를 전파

• 3 단계 : 2 단계를 더 이상 변화가 없을때까지 반복함

Rij

Rij

번역과 확장 모두에서 제품의 성능을 능가

• 기존 제품은 발음유사도가 크거나 , 기번역쌍이 존재하는 잘 알려진 개체에 대해서만 좋은 성능을 보임

• 부트스트래핑 기법을 통해 잘 알려진 개체의 높은 정확도를 덜 알려진 개체에 전파하여 비슷한 수준으로 끌어올림

기존 제품 새로운 방법0

10

20

30

40

50

60

70

80

잘 알려진 개체덜 알려진 개체

사례 #3 플랫폼으로서의 지능

• 다양한 소프트웨어에서 끊임없이 검색이 일어남• 검색어의 복잡도와 관계없이 고르게 즉각적인 결과 필요

“Mi-crosoft”

Long

Short

비용예측 자원관리자

Prediction model

데이터 지능 활용

•검색어 중요도 (idf) 및 점수 분포 (min, max, var, ..)를 근거로 유추

Inverted index for “Microsoft”

Processing Not evaluated

Doc 1 Doc 2 Doc 3 ……. Doc N-2 Doc N-1 Doc N

Docs sorted by static rankHighest LowestWeb documents

……. …….

•검색어 외의 복잡도 요소를 모델링하고 예측함

검색엔진 기능 모델링

<Fields related to query execution plan>rank=BM25Fenablefresh=1 partialmatch=1language=en location=us ….

<Fields related to search keywords>Redmond (MS or Microsoft)

Bing 제품화 : 50% 효율향상

50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 95050

100

150

200

Sequential Degree=3

Predictive

Query Arrival Rate (QPS)

Resp

onse

Tim

e (m

s)

50% throughput increase

향후 협업 계획 및 발전 방향• IoT 검색 플랫폼• 지식의 생성 및 질의가 위치를 가진 기기에서 이루어짐• 질의어에 시공간의 의미가 더해질때 , 검색 성능 최적화 , 예측 , 및 가속을 위한

연구협업 진행 중

Q&A

top related