의미기반검색을위한...

62
의미기반 검색을 위한 국가 언어자원 시스템 개발현황 및 발전전략 2009. 9. 17 한국과학기술정보연구원 정도헌 2009년도 지능형도서관 기반기술 지원사업

Upload: others

Post on 24-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

의미기반 검색을 위한국가 언어자원 시스템 개발현황 및 발전전략

2009 9 17

한국과학기술정보연구원 정 도 헌

2009년도 지능형도서관 기반기술 지원사업

KISTI _2

CONTENTS

연구개발 사업일반

PART 3

연구개발 현황보고(시스템 시연)

KISTI 기반기술 소개(참고)

PART 2

PART 1

KISTI _3

국내외 현황 및 당면과제

KISTI _3

1-1

연구개발 사업 일반PART 1

1 국내외 주요 언어자원 구축현황

2 당면과제와 해결방안

KISTI _4

국내외 주요 언어자원 구축 현황

KISTI _4

해외

국립중앙도서관

국회도서관

국회도서관 시소러스

사회과학분야 약 6만건(외국어 포함 약 10만건)

국회도서관 원문 및 색인어 리스트 각종 주제명표목표 전문용어사전 주요 웹문서 국내외 관련

시소러스 등 참조

2006년 기존 시소러스 보정 작업

KISTI

과학기술분야 시소러스 구축 및 지능형 어휘망 구축사업

과학기술분야 약 10만건 + 전문용어 영한대역집 약 30만건(15만 쌍) 보유

언어자원 구축 및 시스템 개발 검색기술 및 시맨틱 웹 기술 연구 등 활발

시소러스 개발관리 기술 보유하고 기술이전을 다수 수행

WordNet 1985년부터 프린스턴 대학 주도하에 시작한 synset 기반의 대규모 어휘사전

UMLS(Unified Medical Language System) 1986년부터 생의학분야의 어휘자원을 구축하여 의

미기반 컴퓨터 시스템을 개발하기 위한 프로젝트(미국)

EDR 전자사전 일본 전자사전 연구소 주도하에 9년여 개발된 국가주도형 개념사전

해외의 언어자원 응용시스템들은 자국언어를 중심으로 장기간의 프로젝트 하에 지속 발전되어 구문분석

번역 시맨틱 검색 등에 다양하게 응용하고 있음

시소러스형 주제명 표목표

전 주제분야 약 50만건

1994년 개발한 국중 주제명 검색요어집과 분류기호참조시스템의 색인어 국중소장자료목록DB 국

가자료공동목록DB 초중고 교과서의색인어를 추출 조합

2006년 8월 시스템 기능 개선 오픈

KISTI _5

당면과제와 해결방안

KISTI _5

국가 지식 언어자원의 필요성

의미기반 검색 기술 적용의 어려움

[당면과제] 기존의 언어자원들은 개별적으로 구축되고 제한적으로 적용되어 활용성이 매우 저조함국가차원에서 공공도서관 등에 직접 활용할 수 있는 대량의 언어자원 제공 시스템이 필요함

[해결방안] 다양한 분야의 시소러스를 병합하여 대규모의 국가 지식 언어자원 시스템을 구축하기 위해서는어휘개념간의 상호 개념연결망을 생성하고 동적으로 해석하는 언어자원 융합기술이 매우 중요

[당면과제] 수많은 언어자원을 정보서비스에 성공적으로 적용하지 못한 것은 시소러스 온톨로지 등에서 선언된개념어간의 복잡한 관계성을 제대로 검색환경에 반영하지 못하였기 때문임

[해결방안] 의미기반의 검색이 가능하려면 어휘간 복잡한 개념 관계를 잘 해석하는 추론기술의 개발과 생성관리시스템 개발이 선행되어야 함

구축된 자원을 활용하는 기술 부족

[당면과제] 언어자원을 활용한 의미검색 서비스를 구현하기 위해서는 개별 기관이 각각 언어자원을 도입하고시스템을 구축 유지해야 하는 어려움이 존재(특히 공공도서관에 새로운 기술의 적용은 매우 어려움)

[해결방안] 국내 최대의 언어자원 시스템을 오픈 환경(OpenAPI 등)을 통해 보급 확산하며검색에 응용할 수 있는 각종 컴포넌트를 제공함

KISTI _6

연구사업 목표 및 내용

KISTI _6

1 당해연도 목표 및 연구내용

2 최종목표 및 연도별 내용

3 목표시스템

4 주요 성과지표

1-2

연구개발 사업 일반PART 1

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 2: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _2

CONTENTS

연구개발 사업일반

PART 3

연구개발 현황보고(시스템 시연)

KISTI 기반기술 소개(참고)

PART 2

PART 1

KISTI _3

국내외 현황 및 당면과제

KISTI _3

1-1

연구개발 사업 일반PART 1

1 국내외 주요 언어자원 구축현황

2 당면과제와 해결방안

KISTI _4

국내외 주요 언어자원 구축 현황

KISTI _4

해외

국립중앙도서관

국회도서관

국회도서관 시소러스

사회과학분야 약 6만건(외국어 포함 약 10만건)

국회도서관 원문 및 색인어 리스트 각종 주제명표목표 전문용어사전 주요 웹문서 국내외 관련

시소러스 등 참조

2006년 기존 시소러스 보정 작업

KISTI

과학기술분야 시소러스 구축 및 지능형 어휘망 구축사업

과학기술분야 약 10만건 + 전문용어 영한대역집 약 30만건(15만 쌍) 보유

언어자원 구축 및 시스템 개발 검색기술 및 시맨틱 웹 기술 연구 등 활발

시소러스 개발관리 기술 보유하고 기술이전을 다수 수행

WordNet 1985년부터 프린스턴 대학 주도하에 시작한 synset 기반의 대규모 어휘사전

UMLS(Unified Medical Language System) 1986년부터 생의학분야의 어휘자원을 구축하여 의

미기반 컴퓨터 시스템을 개발하기 위한 프로젝트(미국)

EDR 전자사전 일본 전자사전 연구소 주도하에 9년여 개발된 국가주도형 개념사전

해외의 언어자원 응용시스템들은 자국언어를 중심으로 장기간의 프로젝트 하에 지속 발전되어 구문분석

번역 시맨틱 검색 등에 다양하게 응용하고 있음

시소러스형 주제명 표목표

전 주제분야 약 50만건

1994년 개발한 국중 주제명 검색요어집과 분류기호참조시스템의 색인어 국중소장자료목록DB 국

가자료공동목록DB 초중고 교과서의색인어를 추출 조합

2006년 8월 시스템 기능 개선 오픈

KISTI _5

당면과제와 해결방안

KISTI _5

국가 지식 언어자원의 필요성

의미기반 검색 기술 적용의 어려움

[당면과제] 기존의 언어자원들은 개별적으로 구축되고 제한적으로 적용되어 활용성이 매우 저조함국가차원에서 공공도서관 등에 직접 활용할 수 있는 대량의 언어자원 제공 시스템이 필요함

[해결방안] 다양한 분야의 시소러스를 병합하여 대규모의 국가 지식 언어자원 시스템을 구축하기 위해서는어휘개념간의 상호 개념연결망을 생성하고 동적으로 해석하는 언어자원 융합기술이 매우 중요

[당면과제] 수많은 언어자원을 정보서비스에 성공적으로 적용하지 못한 것은 시소러스 온톨로지 등에서 선언된개념어간의 복잡한 관계성을 제대로 검색환경에 반영하지 못하였기 때문임

[해결방안] 의미기반의 검색이 가능하려면 어휘간 복잡한 개념 관계를 잘 해석하는 추론기술의 개발과 생성관리시스템 개발이 선행되어야 함

구축된 자원을 활용하는 기술 부족

[당면과제] 언어자원을 활용한 의미검색 서비스를 구현하기 위해서는 개별 기관이 각각 언어자원을 도입하고시스템을 구축 유지해야 하는 어려움이 존재(특히 공공도서관에 새로운 기술의 적용은 매우 어려움)

[해결방안] 국내 최대의 언어자원 시스템을 오픈 환경(OpenAPI 등)을 통해 보급 확산하며검색에 응용할 수 있는 각종 컴포넌트를 제공함

KISTI _6

연구사업 목표 및 내용

KISTI _6

1 당해연도 목표 및 연구내용

2 최종목표 및 연도별 내용

3 목표시스템

4 주요 성과지표

1-2

연구개발 사업 일반PART 1

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 3: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _3

국내외 현황 및 당면과제

KISTI _3

1-1

연구개발 사업 일반PART 1

1 국내외 주요 언어자원 구축현황

2 당면과제와 해결방안

KISTI _4

국내외 주요 언어자원 구축 현황

KISTI _4

해외

국립중앙도서관

국회도서관

국회도서관 시소러스

사회과학분야 약 6만건(외국어 포함 약 10만건)

국회도서관 원문 및 색인어 리스트 각종 주제명표목표 전문용어사전 주요 웹문서 국내외 관련

시소러스 등 참조

2006년 기존 시소러스 보정 작업

KISTI

과학기술분야 시소러스 구축 및 지능형 어휘망 구축사업

과학기술분야 약 10만건 + 전문용어 영한대역집 약 30만건(15만 쌍) 보유

언어자원 구축 및 시스템 개발 검색기술 및 시맨틱 웹 기술 연구 등 활발

시소러스 개발관리 기술 보유하고 기술이전을 다수 수행

WordNet 1985년부터 프린스턴 대학 주도하에 시작한 synset 기반의 대규모 어휘사전

UMLS(Unified Medical Language System) 1986년부터 생의학분야의 어휘자원을 구축하여 의

미기반 컴퓨터 시스템을 개발하기 위한 프로젝트(미국)

EDR 전자사전 일본 전자사전 연구소 주도하에 9년여 개발된 국가주도형 개념사전

해외의 언어자원 응용시스템들은 자국언어를 중심으로 장기간의 프로젝트 하에 지속 발전되어 구문분석

번역 시맨틱 검색 등에 다양하게 응용하고 있음

시소러스형 주제명 표목표

전 주제분야 약 50만건

1994년 개발한 국중 주제명 검색요어집과 분류기호참조시스템의 색인어 국중소장자료목록DB 국

가자료공동목록DB 초중고 교과서의색인어를 추출 조합

2006년 8월 시스템 기능 개선 오픈

KISTI _5

당면과제와 해결방안

KISTI _5

국가 지식 언어자원의 필요성

의미기반 검색 기술 적용의 어려움

[당면과제] 기존의 언어자원들은 개별적으로 구축되고 제한적으로 적용되어 활용성이 매우 저조함국가차원에서 공공도서관 등에 직접 활용할 수 있는 대량의 언어자원 제공 시스템이 필요함

[해결방안] 다양한 분야의 시소러스를 병합하여 대규모의 국가 지식 언어자원 시스템을 구축하기 위해서는어휘개념간의 상호 개념연결망을 생성하고 동적으로 해석하는 언어자원 융합기술이 매우 중요

[당면과제] 수많은 언어자원을 정보서비스에 성공적으로 적용하지 못한 것은 시소러스 온톨로지 등에서 선언된개념어간의 복잡한 관계성을 제대로 검색환경에 반영하지 못하였기 때문임

[해결방안] 의미기반의 검색이 가능하려면 어휘간 복잡한 개념 관계를 잘 해석하는 추론기술의 개발과 생성관리시스템 개발이 선행되어야 함

구축된 자원을 활용하는 기술 부족

[당면과제] 언어자원을 활용한 의미검색 서비스를 구현하기 위해서는 개별 기관이 각각 언어자원을 도입하고시스템을 구축 유지해야 하는 어려움이 존재(특히 공공도서관에 새로운 기술의 적용은 매우 어려움)

[해결방안] 국내 최대의 언어자원 시스템을 오픈 환경(OpenAPI 등)을 통해 보급 확산하며검색에 응용할 수 있는 각종 컴포넌트를 제공함

KISTI _6

연구사업 목표 및 내용

KISTI _6

1 당해연도 목표 및 연구내용

2 최종목표 및 연도별 내용

3 목표시스템

4 주요 성과지표

1-2

연구개발 사업 일반PART 1

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 4: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _4

국내외 주요 언어자원 구축 현황

KISTI _4

해외

국립중앙도서관

국회도서관

국회도서관 시소러스

사회과학분야 약 6만건(외국어 포함 약 10만건)

국회도서관 원문 및 색인어 리스트 각종 주제명표목표 전문용어사전 주요 웹문서 국내외 관련

시소러스 등 참조

2006년 기존 시소러스 보정 작업

KISTI

과학기술분야 시소러스 구축 및 지능형 어휘망 구축사업

과학기술분야 약 10만건 + 전문용어 영한대역집 약 30만건(15만 쌍) 보유

언어자원 구축 및 시스템 개발 검색기술 및 시맨틱 웹 기술 연구 등 활발

시소러스 개발관리 기술 보유하고 기술이전을 다수 수행

WordNet 1985년부터 프린스턴 대학 주도하에 시작한 synset 기반의 대규모 어휘사전

UMLS(Unified Medical Language System) 1986년부터 생의학분야의 어휘자원을 구축하여 의

미기반 컴퓨터 시스템을 개발하기 위한 프로젝트(미국)

EDR 전자사전 일본 전자사전 연구소 주도하에 9년여 개발된 국가주도형 개념사전

해외의 언어자원 응용시스템들은 자국언어를 중심으로 장기간의 프로젝트 하에 지속 발전되어 구문분석

번역 시맨틱 검색 등에 다양하게 응용하고 있음

시소러스형 주제명 표목표

전 주제분야 약 50만건

1994년 개발한 국중 주제명 검색요어집과 분류기호참조시스템의 색인어 국중소장자료목록DB 국

가자료공동목록DB 초중고 교과서의색인어를 추출 조합

2006년 8월 시스템 기능 개선 오픈

KISTI _5

당면과제와 해결방안

KISTI _5

국가 지식 언어자원의 필요성

의미기반 검색 기술 적용의 어려움

[당면과제] 기존의 언어자원들은 개별적으로 구축되고 제한적으로 적용되어 활용성이 매우 저조함국가차원에서 공공도서관 등에 직접 활용할 수 있는 대량의 언어자원 제공 시스템이 필요함

[해결방안] 다양한 분야의 시소러스를 병합하여 대규모의 국가 지식 언어자원 시스템을 구축하기 위해서는어휘개념간의 상호 개념연결망을 생성하고 동적으로 해석하는 언어자원 융합기술이 매우 중요

[당면과제] 수많은 언어자원을 정보서비스에 성공적으로 적용하지 못한 것은 시소러스 온톨로지 등에서 선언된개념어간의 복잡한 관계성을 제대로 검색환경에 반영하지 못하였기 때문임

[해결방안] 의미기반의 검색이 가능하려면 어휘간 복잡한 개념 관계를 잘 해석하는 추론기술의 개발과 생성관리시스템 개발이 선행되어야 함

구축된 자원을 활용하는 기술 부족

[당면과제] 언어자원을 활용한 의미검색 서비스를 구현하기 위해서는 개별 기관이 각각 언어자원을 도입하고시스템을 구축 유지해야 하는 어려움이 존재(특히 공공도서관에 새로운 기술의 적용은 매우 어려움)

[해결방안] 국내 최대의 언어자원 시스템을 오픈 환경(OpenAPI 등)을 통해 보급 확산하며검색에 응용할 수 있는 각종 컴포넌트를 제공함

KISTI _6

연구사업 목표 및 내용

KISTI _6

1 당해연도 목표 및 연구내용

2 최종목표 및 연도별 내용

3 목표시스템

4 주요 성과지표

1-2

연구개발 사업 일반PART 1

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 5: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _5

당면과제와 해결방안

KISTI _5

국가 지식 언어자원의 필요성

의미기반 검색 기술 적용의 어려움

[당면과제] 기존의 언어자원들은 개별적으로 구축되고 제한적으로 적용되어 활용성이 매우 저조함국가차원에서 공공도서관 등에 직접 활용할 수 있는 대량의 언어자원 제공 시스템이 필요함

[해결방안] 다양한 분야의 시소러스를 병합하여 대규모의 국가 지식 언어자원 시스템을 구축하기 위해서는어휘개념간의 상호 개념연결망을 생성하고 동적으로 해석하는 언어자원 융합기술이 매우 중요

[당면과제] 수많은 언어자원을 정보서비스에 성공적으로 적용하지 못한 것은 시소러스 온톨로지 등에서 선언된개념어간의 복잡한 관계성을 제대로 검색환경에 반영하지 못하였기 때문임

[해결방안] 의미기반의 검색이 가능하려면 어휘간 복잡한 개념 관계를 잘 해석하는 추론기술의 개발과 생성관리시스템 개발이 선행되어야 함

구축된 자원을 활용하는 기술 부족

[당면과제] 언어자원을 활용한 의미검색 서비스를 구현하기 위해서는 개별 기관이 각각 언어자원을 도입하고시스템을 구축 유지해야 하는 어려움이 존재(특히 공공도서관에 새로운 기술의 적용은 매우 어려움)

[해결방안] 국내 최대의 언어자원 시스템을 오픈 환경(OpenAPI 등)을 통해 보급 확산하며검색에 응용할 수 있는 각종 컴포넌트를 제공함

KISTI _6

연구사업 목표 및 내용

KISTI _6

1 당해연도 목표 및 연구내용

2 최종목표 및 연도별 내용

3 목표시스템

4 주요 성과지표

1-2

연구개발 사업 일반PART 1

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 6: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _6

연구사업 목표 및 내용

KISTI _6

1 당해연도 목표 및 연구내용

2 최종목표 및 연도별 내용

3 목표시스템

4 주요 성과지표

1-2

연구개발 사업 일반PART 1

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 7: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _7

어휘개념 연결망의 기초해석을위한 핵심 추론엔진개발(KISTI 전담개발)

-기본규칙 5개 해석수준의추론기능 개발

대량의 언어자원을 시각적으로관리하는 지능형 언어자원관리도구 개발

-전문가의 언어자원 검증작업을지능적으로 지원함

표제어 기준 약 50만건 이상 구축

주요 대역어(한-영) 우선어-비우선어 관련어휘(RT) 계층관계(BTNT) 등을중심으로 구축함

기존사업을 통해 생산된언어자원 활용성 검토

KISTI가 보유한 대량의언어정보 및 학술정보를적극적으로 활용

기초 언어자원 수집 분석 및 구축

OpenAPI 환경을 통한 언어자원시스템 공공 서비스 개시

1차년도 2개 이상의 검색서비스적용 목표

- 의미기반 검색환경을 ldquoOA 기반국가 리포지터리rdquo 시스템에적용

-ldquoKISTI 과학기술정보서비스NDSL 서비스 개선

의미기반 검색의정보서비스 응용핵심 추론기술 및 지능형

언어자원 관리도구 개발

당해연도 목표 및 연구내용

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 8: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _8

1차년도(2009)

기초 언어자원 수집 분석및 구축(약 50만 어휘목표)

핵심 추론기술 개발

시각화 기반 대용량언어자원 관리도구 개발

의미기반 검색의정보서비스 응용

2차년도(2010)

3차년도(2011)

언어자원 의미망생성관리 시스템 개발 및의미기반 검색의 적용

언어자원 확대 및품질제고

추론엔진 기능 고도화

지능형 언어자원 관리도구개발 및 보급

의미기반 검색 솔루션개발

검색엔진에 융합된의미기반 검색환경 완성

세계 최대 언어자원 공공서비스(약 150만어휘수준)

추론기술 안정화 및 보급

지능형 언어자원 관리기술상용화 수준 달성

의미기반 검색엔진 상용화수준달성

국가 지식 언어자원시스템 완성 및 의미기반검색 기술의 공공보급확산

최종목표 및 연도별 내용

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 9: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _9

목표시스템

목표시스템 구성도As-Is vs To-Be

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 10: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _10KISTI _10

언어자원

표제어 구축건수

고객 만족도 제고(OA 공통)

논문 및 특허건수(OA 공통)

평가항목 해당연도 최종목표

50만 건 150만 건

- 85점 이상

논문 2건특허 1건

논문 6건특허 2건

의미검색 기술의

서비스 응용적용 2 개 보급 100개

(OA서비스탑재)

주요 성과지표

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 11: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _11

활용방안 및 발전전략

KISTI _11

1 기대성과

2 응용분야 및 활용방안

3 상용화 방안

1-3

연구개발 사업 일반PART 1

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 12: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _12

공공도서관 보급 확산활동을 통한 대국민 지능형 서비스를 확대함(그림참고)

국가차원의 언어정보 시스템을 구축함으로써 이를 활용하는 관련 연구개발 및 산업발전에

이바지함

국가차원의 각종 지식정보 서비스를 지원함으로써 사회문화적 수준 향상에 기여

연구개발을 통해 산학연의 고른 발전과 연계협력을 지원함

기대 성과

공공도서관 적용의 예

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 13: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _13

응용분야 및 활용방안

대학도서관 공공도서관 전문정보센터 등 정보 서비스 관련분야

관련 연구기관 및 개별연구자 등 연구개발 분야

의미기반 검색 전문개발 업체 및 관련 산업체 등 산업기술분야

응용분야

국가 지식 언어자원 제공환경을 통해 도서관 정보센터 및 공공기관

에 대해 무상 보급 확산을 실시 (OpenAPI 환경을 이용한 Mash-

Up 응용환경을 지원함)

전문개발을 하는 관련 산업체를 위한 핵심기술을 제공함

- 언어자원 시스템 이용 및 응용

- 핵심추론기술 및 의미기반 검색기술

- 대용량 언어자원 관리용 워크벤치 활용기술

외산 의미기반 검색 솔루션의 유입을 줄이고 우수한 국내 솔루션을

해외에 수출

활용방안

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 14: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _14

상용화 방안

한글자원에 기반한 세계 최대규모의 국가 지식 언어자원 시스템을활용하여 공공보급 및 상용화 주력

- 1차년도 50만건 최종 150만건 이상 규모

의미기반의 정보검색 시스템 연구개발을 통해 시맨틱 검색시장에서의 국가 경쟁력 확보

상용화 방안

기술이전 목록 주요 핵심기술내용 이전시기 이전형태

OpenAPI 환경 언어자원 활용 및 MashUp환경 제공 2010년 SW

핵심 추론엔진 기술 자원생성 및 관리기술 추론기술 2010년 특허기술

지능형워크벤치 기술 자원관리를 위한 인터페이스 기술 2010년 SW특허기술

의미기반 검색기술 언어자원 시스템을 이용한 시맨틱 검색 2011년 특허기술

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 15: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _15

추진체계 및 추진전략

KISTI _15

1 실천목표와 수행전략

2 연구개발 부문별 추진전략

3 사업추진 체계 및 역할

4 주요 일정

1-4

연구개발 사업 일반PART 1

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 16: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _16

실천목표와 수행전략

구분 2009년(1차) 2011(최종)

목표 공공도서관 정보센터 등에 국가차원의범용 언어자원 시스템 이용환경을 제공(Open Services)

궁극적인 목표는 언어자원 기반의 정보검색환경의 지능화(=의미기반 정보검색=시맨틱 검색)

실천목표(RampD목표)

1) 언어자원 약 50만건 구축을 목표2) OA 국가 리포지터리 시스템 적용을통한 서비스 제공(검색 환경의 구현)

1) 언어자원 시스템과 검색엔진(IR 환경)과의유기적인 결합

2) 검색대상인 정보자원에 대한 의미해석기술의 개발

3) 의미기반 검색 솔루션의 상용화 수준 달성및 보급확산

수행전략 1) 시소러스의 자원 + 대역 유사어자원등의 포괄적인 융합을 위해기계처리가 가능한 관계추론 시스템개발에 주력

2) 정보서비스 프로토타입 개발을 통해차년도 보급을 준비

3) 지속적인 국가 언어자원 시스템의발전(공공부문 학계 산업계에 대한지원) 유관기관 협력강화

1) 언어자원은 일반개념의 구조와 함께 검색에유용한 전문용어 측면을 강화함(시소러스 + 공기어 정보 + 용어 유사도+ 어형정보 + 다국어정보 등)

2) 검색엔진은 Lucene과 같은 오픈소스기반을 활용하고 각종 추가기능을 개발

3) 수천만건 수준의 DB를 학습할 수 있는대용량 범용 자동분류 엔진을 개발하는것이 중요한 기술적 목표

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 17: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _17

언어자원 조사및 수집 방안

연구개발 부문별 추진전략

어휘 개념관계분석 및

개념설정 방안

핵심 추론엔진개발 방법

재사용을고려한

언어자원 생성관리도구 개발

방법

정보서비스응용 및

의미기반 환경구축 방법

KISTI 보유자원과 가용자원수집을 통한효율적인 초기자원 수집

내외부 전문가 그룹을 활용 각종 가용언어자원 조사 수집

전문가 그룹 활용 관계설정

자동화된 방법으로 어휘 네트워크구축

추론 핵심기술 집중개발

KISTI 전담 RampD 영역

RIA(Rich Internet Applications) 기반

인터페이스 구축

운영위원회 통해서비스 시나리오

도출

실 서비스 적용

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 18: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _18

bull 문화체육관광부 도서관정보정책기획단

bull KISTI 정보유통본부

bull 오롬윈

bull 중앙대학교 산학협력단

bull 전문가 운영위원회

사업추진 체계 및 역할

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 19: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _19

bull 3-4월 사업개시 사업 세부전략 수립

bull 5월 내부진행 본격화(기획 개발)

bull 6월 용역사업 발주 유관기관 협력 개시

bull 7-9월 산학연 역할 분담 및 주요업무 추진

bull 제1차 전문가 운영위원회 (827)

bull 제2차 전문가 운영위원회 (9월-10월 중)

bull 10월 개발 시스템 오픈을 위한 최종점검

bull 10-12월 전국도서관 대회 등 성과시연 및 발표

bull 2010년 1월 최종시스템 오픈 서비스 개시

bull 2010년 2월 1차년도 사업 최종완료

주요 일정

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 20: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _20

국가 언어자원 시스템 개발현황

KISTI _20

1 도전과제

2 언어자원 구축현황

3 지능형 워크벤치 개발현황

연구개발 현황보고(시스템 시연)PART 2

2-1

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 21: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _21

bull 추론에 의한 언어자원의 융합(2009년)- 언어자원 융합시 하나씩 사람이 검토할 수는 없고 종합적으로 한눈에 해결할수 없는가

- 사람에 의한 인위적인 병합이 아니라 혼재된 온톨로지 안에서 기계적으로 동작할 수 있는가

- 소규모 데이터의 정교함보다 양적 규모의 확보가 더욱 중요함

(양적 규모 = 실용화)

- 시맨틱 자원의 개방과 집단지성 활용환경이 완성도를 높일 수 있음

(웹+개방+이용)

도전과제 1

다양한 시소러스나 언어자원을 병합

A CB+ +Brsquo

같은 분야지만다른 개념체계 융합의 문제

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 22: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _22

bull 의미기반의 검색(2010년)- 대상자원에 대한 의미색인을 잡는 것(IR) + 의미해석을 하는 것(Semantic)

- 수천만건 수준의 다양한 정보자원을 의미적으로 해석해야 함

- 최대관건은 대용량 자동분류 학습모델의 생성

- 사전연구 및 아키텍쳐 구축완성(2009)

ldquo대용량 문서학습을 위한 동적학습 파이프라인 생성기술rdquo

- 시범적용은 2009년부터 본격적인 적용은 2010년 이후

A

B C

동적학습 기술을 통해서로 다른 도메인(사이트) 또는

데이터베이스간의 상호운용성을 보장(=시맨틱 에이전트간의 의사소통)

도전과제 2

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 23: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _23KISTI _23

언어자원 구축 현황

1차년도 사업을 통해최소 60만~ 최대 100만 개념어 수집 및 융합

공동활용이 가능 하도록공공 서비스 오픈

bull KISTI 구축 자원 (최소 30만~ 최대 160만)- 원자력 분야 시소러스 약 5000 엔트리 (구축완료)

- 기계추출 동의어 자원 약 30만건 (정제작업 중)

- 과학기술 대역사전 약 30만 엔트리 (미정)

- 다국어 기계추출 용어 약 100만건(미정)

bull 국립중앙도서관 주제명표목표 20만 엔트리 (9월중)

bull 중앙대 산학협력단 언어자원연구팀 약 10만 엔트리구축 중(11월 말까지)

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 24: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _24

지능형 워크벤치 개발현황

KISTI _24

bull KISTI STEAK 시스템(ver2008)의 추론엔진과 비쥬얼 처리기술에

기반하여 X-인터넷 환경의 FLEX 기술로 재개발(Conversion)

bull 유사동의어 중심의 의미 네트워크 제공

bull 실시간 추론에 의해 네트워크 관리(개념의 생성변경해제)

bull 언어자원 융합시 발생하는 개념충돌 자동검출 및 관리(핵심기술)

bull 11월 개발완료 예정

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 25: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _25

지능형 인터페이스 주요기능

KISTI _25

1 OpenAPI를 이용한 인터페이스 개발

2 용어간 개념오류 자동검출 기능

연구개발 현황보고(시스템 시연)PART 2

2-2

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 26: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _26KISTI _26

기본검색 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=basic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=basicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 1

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 27: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _27KISTI _27

네트워크 생성 관련 API

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rtampkeyword=accidents

동의어

관련어

관련어 2차 httpsteakkistirekrsteak_interface_v1pyapi_type=netbasic_rt_expampkeyword=accidents

httpsteakkistirekrsteak_interface_v1pyapi_type=netbasicampkeyword=accidents

(시연) OpenAPI를 이용한 인터페이스 개발 2

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 28: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _28

(시연) OpenAPI를 이용한 인터페이스 개발 3

KISTI _28

중의어 처리관련 API

인증 및 통계관련 API (개발예정)

용어간 개념오류 처리관련 API

오류관계 리스트 반환

오류용어 상세정보를 반환

httpsteakkistirekrsteak_interface_v1pyapi_type=err_term_list

httpsteakkistirekrsteak_interface_v1pyapi_type=err_pair_infoampid_num=18

httpsteakkistirekrsteak_interface_v1pyapi_type=append_amb_grpampkeyword=price

httpsteakkistirekrsteak_interface_v1pyapi_type=neighbor_searchampkeyword=tv||ambgrp01

중의어 그룹생성

중의어 이웃노드검색

용어간 관계생성 관리 API

httpsteakkistirekrsteak_interface_v1pyapi_type=checkampkey_1=aaaaampkey_2=bbb

httpsteakkistirekrsteak_interface_v1pyapi_type=createampkey_1=aaaaampkey_2=bbbbamprule=RTampsub_rule=rt

httpsteakkistirekrsteak_interface_v1pyapi_type=deleteampid_num=21151

httpsteakkistirekrsteak_interface_v1pyapi_type=changeampid_num=21149amprule=SYNampsub_rule=trans

관계체크

관계생성

관계삭제

관계변경

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 29: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _29

용어간 개념오류 자동 검출 기능

KISTI _29

bull 시소러스 온톨로지 유사어 사전 등 다양한 언어자원 융합시 발생하는

언어자원의 개념충돌을 자동으로 찾아내는 추론엔진의 핵심기능

bull 지능형 워크벤치의 핵심기술임

ltCaptured on Sep15gt

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 30: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _30

다국어 전문용어 시스템 개념

KISTI _30

3-1

PART 3 KISTI 기반기술 소개

1 관련기술 연구성과

2 다국어 전문용어 관리시스템

3 전문용어 계층과 데이터베이스 동기화

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 31: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _31

관련기술 연구성과

bull STEAK 과학기술전문용어 생성 및 분석 시스템

(Super Terminology Sys for the Evaluation and Analysis of Knowledge)

bull 연구개발 내용

1) 특허출원 2건

ldquo다국어 전문용어 자원 제공 시스템 및 방법(2008)rdquo

ldquo의미기반 자동연계 시스템 및 방법(2008)rdquo

2) 주요논문

ldquo웹정보의 자동 의미연계를 통한 학술정보 서비스의 확대방안 연구(2009)rdquo

ldquo규칙기반 시스템을 이용한 전문용어의 의미망 최적화 연구(2008)rdquo

ldquo과기전문용어의 주제분야별 전문성과 자동분류 성공률간의 연관성 비교(2007)rdquo

ldquo과학기술전문용어의 다국어 의미망 생성과 분석(2006)rdquo 등 다수

3) 소프트웨어 지재권 등록

ldquo토픽기반의 학술정보 자동태깅 시스템(2008) 외 10여건

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 32: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _32

다국어 지원 검색시스템 구축

용어 콘텐트 구축

bull 검색 서비스의 성능 및 기능개선을 통한 이용자 중심의 서비스 개발가능

bull 응용연구에 적합한 전문용어의 다국어 자원구축을 통해 산학연의 연구개발을 지원함

bull 동북아 CJK 정보자원의 검색을 위한 자국어 기반 상호검색 지원환경을 제공함

차세대 기술로의 발전을 위한 기초연구 수행

bull 온톨로지 시소러스 구축시 발생하는 비용 대 효율성 저하

bull 주제전문가 부족의 이유로 지속수행이 어려움

bull 주제전문가별 개념정립의 차이가 존재

bull 지속적으로 생산관리할 수 있는 용어 콘텐트 체계를 구축하고

bull 이용자의 검색어를 분석하고 피드백하여 재적용할 수 있는 용어체계가 있어야 함

bull 전문용어 의미체계 및 분류체계 자동매핑 등 연구개발을 수행하고

bull 자동분류 온톨로지 생성연구 등 차세대 응용연구 및 기술로의 발전을 도모함

다국어 전문용어 관리시스템

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 33: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _33

bull 데이터베이스에서 추출한 키워드는 용어분류체계를 고려하여 구축하며bull 다국어 대역파일을 이용해 기구축된 용어들을 상호연계(링크생성)함

분류다국어 키워드데이터베이스

한-영-일-중대역파일

데이터베이스

분류체계분류코드키워드

발생빈도

분류

분류

분류

분류 분류

한1

한2

한3

영1

영2

영3

일1

일3

한1 영1

영1 일1

영1 중1

분류

분류

중1

중2

LAYER 2

LAYER 1

H 체인생성

V 체인생성

전문용어 계층과 데이터베이스 동기화

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 34: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _34

전문용어 네트워크 생성방안

KISTI _34

3-2

PART 3 KISTI 기반기술 소개

1 용어 네트워크 생성의 예

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 35: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _35

용어 네트워크 생성의 예 (16)

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

자연상태의 용어 lsquo우라늄rsquo 관련어

uranium 관련 키워드를 모두 추출한 결과 그림과 같이 4개의 도메인에서 7개의 용어가

검색됨 이 중 두개의 그룹은 이미 대역파일 정보가 일부 생성되어 있음

A우라늄과 B우라늄은 각기 다른 도메인에 존재하므로(다른 분류 빈도정보 등을 포함)

같은 값으로 취급하지 않음

-A B 도메인은 대역파일 형태로 존재

-CD 는 분류정보와 문헌내 발생빈도

등의 정보를 담고 있는

LAYER 0(문헌레이어)과 연계된 정보를

포함한 도메인

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 36: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _36

lsquo(도메인)우라늄rsquo 으로 링킹 체인 생성

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウラン

ldquoA우라늄 = B우라늄rdquo 의 관계를 생성함

이로써 Auranium은 Bウラン 을 찾을 수 있으며 현재 용어간 거리(링킹 체인)는 4차임

용어 네트워크 생성의 예 (26)

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 37: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _37

A우라늄 B우라늄

Auranium Buranium

Curanium Duranium

Bウランlsquouraniumrsquo 으로 링킹생성

복잡한 상호참조

(도메인)uranium 의 관계에서도 동일한 상호 링킹이 일어남

위와 같이 모든 상호참조를 할 경우엔 용어 개수 N에 대해 N(N-1)2의 링킹 업데이트가 일어나야 하며 비효율적인 관리 구조를 갖게 됨 (구조적 틈새효과(structural hole)가 감소)

4(4-1)2=6 회의 링킹생성이 일어나며 노드가 늘어날수록 기하급수적으로 체인이 증가함

용어 네트워크 생성의 예 (36)

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 38: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _38

lsquouraniumrsquo으로 링킹생성

우선어 생성규칙 적용 A우라늄 B우라늄

AUranium(A1)

BUranium(B2)

CUranium(C0)

DUranium(D0)

Bウラン

참조노드의 수 (그림안의 (도메인체인수))를 이용해 기존의 대표용어에 (N-1)회의 링크 생성과정을 거쳐 심플한 연계체인을 생성함BUranium의 중간매개 역할(=정보력 구조적틈새)이 증가

이 경우 4-1=3회의 링크 생성으로 해결 만약 모든 용어의 참조노드 수가 같다면 임의로 지정하거나 자동으로 선택하도록 함

용어 네트워크 생성의 예 (46)

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 39: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _39

lsquo우라늄rsquo과 lsquouraniumrsquo으로

모두 링킹생성A우라늄 B우라늄

AUranium BUranium

CUranium DUranium

Bウラン

앞의 과정을 모두 적용한 결과실제 용어체계에서 흔히 발생하는 형태로 자동 링크생성 프로세스를 수행한 최종결과 모델

Auranium rArr Bウラン 을 찾아가는 거리는 가장 먼 거리가 4 가장 짧은 거리는 2

용어 네트워크 생성의 예 (56)

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 40: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _40

A우라늄 B우라늄

AUranium(3)

BUranium(5)

CUraniumDUranium

(3)

Bウラン

D용어1

D용어2

A용어1

신규 용어 생성 추가시 다국어 용어체계 확장도

용어 집단에 A용어1 D용어1 D용어2 등이 계속 (언어에 상관없이) 추가될 수 있으며

어느 노드에 생성되어도 모든 용어는 동일하게 검색될 수 있음

용어 네트워크 생성의 예 (66)

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 41: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _41

시맨틱 네트워크의 생성 및 관리

KISTI _41

3-3

PART 3 KISTI 기반기술 소개

1 시맨틱 네트워크 생성방안

2 용어 네트워크 그래프

3 시맨틱 네트워크 관리

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 42: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _42

시맨틱 네트워크 생성방안 12

Triple Data Type 1

S SHIP O 선박V hasSynonym

URI URI

hasID hasIDSymmetric Property

(대칭속성)

Triple Data Type 2

S SHIP O SHIPV hasDummy

URI URI

hasID hasID더미 속성 추가(동일 스트링)

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 43: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _43

S SHIP O 선박V hasSynonym

DS SHIP

V hasDummy

O 배V hasSynonym

DS SHIP O 船舶V hasSynonym

V hasDummyDummy Subject

1 모든 속성(V)은 Transitive amp Symmetry Property2 즉 모든 노드에서 동의어 검색이 가능하게 됨

시맨틱 네트워크 생성방안 12

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 44: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _44

용어 네트워크 그래프 1

용어 ID (URI) 기준 complex network

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 45: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _45

용어 네트워크 그래프 2

용어 스트링 기준 + 용어별 노드 수(동일 스트링 갯수 이웃한 용어 노드수)

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 46: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _46

시맨틱 네트워크 관리 1

1 Creating Relationship

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 47: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _47

2 Deleting Relationship

[Agent] ndash [인자]두 노드간의 관계를 강제 해제함

시맨틱 네트워크 관리 2

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 48: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _48

3 Transforming Relationship

명시적인(Rule-Based) 관계를 설정하여 네트워크 통제

[정보화] ndash [Information Technology]두 노드 간의 관계를 관련어로 변환함

시맨틱 네트워크 관리 3

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 49: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _49

시맨틱 네트워크 추론

KISTI _49

3-4

PART 3 KISTI 기반기술 소개

1 전문용어 간 유사도 측정

2 유사도 변화에 따른 네트워크 변화

3 의미망 최적화를 위한 생성규칙 알고리즘

4 시맨틱 추론엔진의 동작

5 기계 추론 과정

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 50: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _50

전문용어간 유사도 측정

bull 키워드 vs 분류간 유사도

bull 키워드 vs 키워드 유사도

bull 전체 네트워크 vs 키워드 유사도

유사도 측정

- 코사인 계수를 측정하고- TFIDF 측정하여 가중치 반영

가중치색인어의번째구성하는를문헌는와

)()(

)(

1

2

1

2

1

iYXyx

yx

yx

YXSim

ii

t

i

i

t

i

i

t

i

ii

TEXT MINING

KISTI _36

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 51: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _51

유사도 변화에 따른 네트워크 변화

lsquoConstructionrsquo 키워드를 검색하여

유사도 임계치를 적용하기 전과

유사도 임계치를 적용한 후의

네트워크 변화 및 용어의 품질 확인

유사도 슬라이드 기본값 00에서키워드와 네트워크 전체의 유사도는

0519(약 52)

유사도 슬라이드를 계속 증가시켜 07에서키워드와 네트워크 전체의 유사도는

0981(약 98)

KISTI _37

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 52: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _52

Thold 유사 임계치(=05)

Nodes 용어 노드리스트

Similarity 용어와 네트워크간 유사도

Max_Similarity Thold 변화에 따른

Similarity의 최대값

NET_count 네트워크 노드의 개수

MAX_count 최대허용 개수 (ex15)

MID_count 권장 개수 (ex10)

MIN_count 최소허용 개수 (ex5)

Final_NET_count 추천된 노드개수

INPUT 검색용어 네트워크 전체 노드값

OUTPUT 최적화된 네트워크 노드값

Calculate Similarity btwn Keyword and Network

IF Nodes Exist (Similaritygt= Thold)

IF Similarity gt=95

IF MAX(NET_count) while Network Changes gt= MAX_count

THEN MAX_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE IF 90 lt= Similarity lt 95

IF MAX(NET_count) while Network Changes gt= MID_count

THEN MID_count is Final_NET_count

ELSE

THEN MAX(NET_count) is Final_NET_count

ELSE (Similarity lt 90)

IF NET_count of Max_Similarity gt= MIN_count

THEN MIN_count is Final_NET_count

ELSE

THEN NET_count of Max_Similarity is Final_NET_count

Return Top Final_Net_count Nodes of Network

ELSEIF Nodes Not Exist

THEN Return None

의미망 최적화를 위한 생성규칙 알고리즘

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 53: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _53

추론 2단계 텍스트마이닝을 이용한 의미최적화

(특허출원 2008)

추론 1단계 규칙에 기반한 추론기본 개념연결망 상태

시맨틱 추론엔진의 동작(Backward Chaining)

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 54: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _54

기계 추론 과정

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 55: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _55

STEAK 시스템과 서비스 응용(ver2007 amp 2008)

KISTI _55

3-5

PART 3 KISTI 기반기술 소개

1 STEAK란

2 STEAK 관리자 인터페이스

3 Semantic Searcher

4 응용의 예

5 NDSL 전문용어 확장

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 56: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _56

Super Terminology System for the Evaluation and Analysis of Knowledge

Social Network 및 시맨틱 웹 기술을 적용한 다국어 전문용어 생성관리 시스템

STEAK 란

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 57: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _57

STEAK 관리자 인터페이스

네트워크 중심성 분석 네트워크 드로잉 용어간 유사도 분석 네트워크 주제분석 전문용어와 주제간 유사도 측정을 통한 주제별 분포도 생성

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 58: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _58

(1) 노드의 원 크기 주제분야별 전문성(특정분야의 용어일수록 지름이 큼)

(2) 노드간 링크상 아이콘 관계정보를 표시 RT(관련어) SA(명시적동의어)AMB(동형이의어) 등

(3) 노드의 색 표준 주제분야를 표시(검은색은 검색대상 DB에 매칭이안되는 용어 표시)

(4) 유사도 슬라이드 유사도를 조절해 주제분야별도 유사한 용어만을추천하는 기능(최적화 기능과 관련)

(5) 주제분야 리스트 현재 적용중인 표준주제분야를 보여줌

Semantic Searcher (STEAK ver2008) 의 기능구성

(6) 2차 공기정보 그래프 검색어를 중심으로 검색대상 데이터베이스에 동시출현 빈도가 높은 개념어들을 보여줌(1차 네트워크와 결합하여 사용함)

(7) 주제분야 전문성 정보 검색어의 주제분야별 강도와 전체네트워크의 주제분야 분포 및 유사도 등을 보여줌

(8) 네비게이션 도구 그래프를 직접 조작할 수 있는 네비게이션 도구모음(확대축소 이동 최적화뷰 등)

(9) 추론규칙 적용버튼 개념간에 설정된 추론규칙을 적용하는 기능(실시간 네트워크가 변화함)

(10) 공기정보 리스트 6번의 그래프를 리스트로 보여줌

(11) 유사개념어 리스트 메인 그래프상의 모든 유사개념어를 주제분야 유사도 순으로 리스트함

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 59: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _59

(응용의 예 12) 기존의 검색방식

아드레날린

RANKING검색결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

이용자의 단순질의 검색실행

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 60: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _60

(응용의 예 22) 서비스 개선(안)

아드레날린

아드레날린 에피네프린 adrenaline epinephrin epinephrine 肾上腺素

RANKING전체 결과 셋에서 랭킹부여

REFINING주제분야 저널 연도 언어 등으로 검색 결과를 재구성

STEAK 시스템을 이용한질의확장시

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 61: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

KISTI _61

wwwNDSLkr 의 전문용어 확장

감middot사middot합middot니middot다

Page 62: 의미기반검색을위한 국가언어자원시스템개발현황및발전전략oak.kisti.re.kr/files/workshop2_5.pdf · 발전(공공부문, 학계, 산업계에대한 지원),

감middot사middot합middot니middot다