6.최광선 semantic search and mining
DESCRIPTION
TRANSCRIPT
Korea Use Case
Semantic Search and Mining 언어 통계적 분석을 활용한 검색 서비스의 만족도 향상
2010. 11. 12
최광선 부장 / 시맨틱그룹
Contents
Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
2. Saltlux’s Approach to Semantic Search
3. Saltlux’s Experiences
2
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
History of Searchhttp://www.searchenginejournal.com/search-engine-history/13152/
Notable Search Engine Milestones :
3[IN2][IN2] and STORM™STORM™
• 1994 : : Yahoo! created by Stanford University students Jerry Wang and David Filo in a campus trailer. Yahoo was originally an Internet
bookmark list and directory of interesting sites.
• 1996 : Sergey Brin and Larry Page, two Stanford University students test Backrub, a new search engine which ranks sites based on inbound
link relevancy and popularity. Backrub would ultimately become Google.
• 1998 : Goto.com launches with Sponsored Links and paid search. Advertisers bid on Goto.com to rank above organic search results which
were powered by Inktomi. Goto.com is ultimately acquired by Yahoo.
• 2000 : Yahoo partners with Google and lets Google power their organic results instead of Inktomi. Beforehand Google was a little known
search engine. The end result, Yahoo introduces their largest competitor to the world and Google becomes a household name.
• 2003 : Google launches AdSense after acquiring Blogger.com. AdSense serves contextually targeted Google AdWords ads on publisher sites.
The mix of AdSense and Blogger.com leads to a surge in monetized simple Internet publishing and a blogging revolution.
• 2006 : Google acquires user generated video sharing network YouTube which ultimately becomes the 2nd most used search property in the
world. Google is still working on properly monetizing YouTube.
• 2009 : In an attempt to challenge Google’s 70% grip of the search market, Yahoo and Microsoft join forces to partner on a 10 year search
deal. And the future is now.
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : Yahoo! Search Monkey
Yahoo 일반일반일반일반 검색검색검색검색 화면화면화면화면
전통적인전통적인전통적인전통적인 검색검색검색검색 결과결과결과결과
�타이틀, 요약, URL수준의 정보만 제공
SearchMonkey의의의의 검색검색검색검색 결과결과결과결과
�Higuma Japanese 레스토랑에 대한 리뷰,
사진, 별점, 주소, 전화번호와 같은 추가적인
정보들을 제공
�Yahoo!Search 크롤러가 웹 페이지와
4[IN2][IN2] and STORM™STORM™
�검색 사용자들에게 기존 검색의 몇 줄 안 되는 텍스트보다 유용한
정보를 제공하기 위해 웹 사이트의 구조화된 데이터(페이지의
시맨틱 마크업 정보 또는 데이터 피드)를 사용
특특특특 징징징징
SearchMonkey 검색검색검색검색 화면화면화면화면
�Yahoo!Search
RDF/Microformat 데이터, Data RSS Feed
등 데이터들을 수집하고, SearchMonkey를
통해 정의된 메타데이터들을 추출합니다.
Yahoo!Search 검색 시, 추출된 웹 페이지
메타데이터 정보를 이용하여 검색 결과를
재구성하여
�컨텐츠들에 대한 메타데이터들은 FOAF,
SIOC, DC, vCard, vCalender 등 상위
온톨로지와 사용자정의 데이터 형식을
이용하여 MicroFormat, eRDF, RDFa형태로
생성
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : Powerset
5[IN2][IN2] and STORM™STORM™
�문장으로 구성된 질의에 응답된 결과제공Henry Vii married Elizabeth
�사람, 장소, 사물에 대한 다양한 사실의
발견
�질문의 의미와 관련한 콘텐츠 식별
�검색 결과에 대한 요약
특징
�미니 뷰어를 통한 문서 요약결과 제공
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : Open Calais
�식별된 개체명을 구조화(온톨로지)화여외부의 어플리케이션에서 활용
6[IN2][IN2] and STORM™STORM™
�콘텐츠로 부터 개체명(Named Entity)를식별함
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : EVRI
7[IN2][IN2] and STORM™STORM™
�개념어에 대한 정제된 정보 제공
�소셜 미디어를 통한 실시간 검색
�개념어간 관계 네트워크를 통한 탐색
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : COGNITION
�개념어 해석을 통한 관련 인스턴스검색vehicle (개념어) � DC-9 (인스턴스 명)
�개념어 해석을 통한 관련 개념어 검색vechicle(개념어) � plane (하위 개념어)
�개념어 해석
8[IN2][IN2] and STORM™STORM™
�동의어 해석, 개념어 해석, 의미분석, 구문 분석, 불린 연산 등을통한 다양한 질의
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : Wolfram Alpha
�검색어에 대한 분석된가정과 이해 표시� 인물
�인명 정보와 관련 분석통계 제시
9[IN2][IN2] and STORM™STORM™
�제시된 검색어에 대한대안어 제시
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : 네이버 랩 시맨틱 영화검색�인물에 대한 개체명 인식
10[IN2][IN2] and STORM™STORM™
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : 네이버 랩 시맨틱 영화검색
�인물 중심의 의미기반 검색
11[IN2][IN2] and STORM™STORM™
�확장 검색 그래프를 통한 탐색
What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례사례사례사례 : 네이트 시맨틱 검색�검색어 자동완성
12[IN2][IN2] and STORM™STORM™
�검색어 중심의 관련 정보 구성
�문장 분석을 통하 의미 키워드
식별 및 구조화된 검색 결과
제공
Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
위키피디아(Wikipedia)에서는 …
13[IN2][IN2] and STORM™STORM™
Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
키워드 검색 (Keyword Search) vs. 시맨틱 검색 (Semantic Search)
14[IN2][IN2] and STORM™STORM™
Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
시맨틱 네트워크 (Semantic Network)
휴대폰
모바일폰
동의어
기업생산자
휴대단말기
하위어
전자제품
하위어 핸드폰
동의어브랜드
소유
제품
15[IN2][IN2] and STORM™STORM™
휴대폰
휴대전화
동의어
터치폰 스마트폰
하위어
애니콜
O/S탑재
햅틱
사이언
제품
블랙잭
WinCE
LG
삼성
소유
소유
제품제품
탑재
Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
사례 : 솔트룩스 아울림
16[IN2][IN2] and STORM™STORM™
�중심 주제어(토픽) 제시
�중심 주제어 간의 연관성
분석을 통한 네트워크 구성
�주제 도메인, 시간, 관계를
통한 네트워크 필터링과 탐색
Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
어휘 통계(공기성 분석)를 이용한 시맨틱 네트워크의 구축
삼성전자는 휴대폰 햅
틱을 새롭게 출시를 하
였다. 햅틱은 풀 터치폰
기능을 가지고 있고, 애
니콜 브랜드 중 가장
고가의 제품이 될 것으
로 보인다.
,
핸드폰 시장에 새로운
바람이 불고 있다. 특히,
고가 핸드폰 중 햅틱과
iPhone이 터치폰 이라
는 새로운 기능으로 고
객을 유혹한다.
휴대폰핸드폰
삼성전자
햅틱
애니콜
17[IN2][IN2] and STORM™STORM™
삼성전자 휴대폰 햅틱 터치폰 애니콜
삼성전자
휴대폰
햅틱
터치폰
애니콜
핸드폰
핸드폰
삼성전자 휴대폰 햅틱 터치폰 애니콜 핸드폰
삼성전자 7 5 3 6 2
휴대폰 9 4 3 0
햅틱 5 4 2
터치폰 2 0
애니콜 0
핸드폰
Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
문서 군집(클러스터링)을 이용한 의미의 구별
보르도
프랑스
와인 보르도
LCD
TV
18[IN2][IN2] and STORM™STORM™
포도 삼성
Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
토픽랭크
특성 벡터 추출/색인 문서 집합 선정 : VSM Word Co-occurrence 분석
19[IN2][IN2] and STORM™STORM™
특성 벡터 추출/색인 문서 집합 선정 : VSM
토픽 클러스터링
linear
systems
systems
constraintsdiophantine
equations
compatibility
natural numbers
Criteria
strict
inequations
nonstricttypes
solutions
components
Upperbounds
set
minimal construction
algorithms
토픽간의 네트워크 구성
Word Co-occurrence 분석
Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
토픽랭크
애니콜
햅틱사이언
블랙잭
WinCE
LG
삼성
개체명/관계 인식
20[IN2][IN2] and STORM™STORM™
휴대폰
휴대전화
모바일폰
동의어
터치폰 스마트폰
하위어
기업생산자
휴대단말기
하위어
전자제품
하위어
애니콜
O/S탑재
핸드폰
동의어
햅틱
사이언
브랜드
소유
제품
블랙잭
WinCE
LG
삼성
소유
소유
제품제품
탑재
Put Toghether Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
정보 마이닝 기술을 이용한 검색 성능의 향상
키워드키워드키워드키워드 기반기반기반기반 검색검색검색검색 시스템의시스템의시스템의시스템의 구조구조구조구조
�키워드키워드키워드키워드 추출추출추출추출수집된 정보로 부터 검색 대상이되는 키워드를 선별함
�색인기색인기색인기색인기선별된 키워드를 중심으로 색인을생성함
�인덱스인덱스인덱스인덱스((((색인파일색인파일색인파일색인파일))))생성된 색인 결과를 질의하기 쉽도록정리한 파일
검색검색검색검색 시스템의시스템의시스템의시스템의 구조구조구조구조
21[IN2][IN2] and STORM™STORM™
정보정보정보정보 마이닝마이닝마이닝마이닝 기반기반기반기반 검색검색검색검색 시스템의시스템의시스템의시스템의 구조구조구조구조정리한 파일
�랭킹랭킹랭킹랭킹키워드를 중심으로 정보(문서)들의관련성을 측정함
�검색검색검색검색질의에 적합한 결과 목록을 구성하여제공함
�질의질의질의질의 분석기분석기분석기분석기사용자의 질의를 기계가 이해할 수있는 질의로 변환
�특성특성특성특성 추출추출추출추출정보 마이닝에 사용될 통계적 패턴을식별
�정보정보정보정보 마이닝마이닝마이닝마이닝대상 정보들에 대해 요약, 분류, 군집을 수행
Two type of Semantich Search Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
시맨틱 검색의 접근법
�의미 메타데이터 자동 생성
(RDF, RDFa, GRDDL 등의
활용)
�대용량 지식 베이스의
강한강한강한강한 시맨틱시맨틱시맨틱시맨틱 검색의검색의검색의검색의 특징특징특징특징
�키워드 및 개체명을
중심으로 한 특성 추출
�정보의 구조화 통계에
약한약한약한약한 시맨틱시맨틱시맨틱시맨틱 검색의검색의검색의검색의 특징특징특징특징
22[IN2][IN2] and STORM™STORM™
약한약한약한약한 시맨틱시맨틱시맨틱시맨틱 검색과검색과검색과검색과 강한강한강한강한 시맨틱시맨틱시맨틱시맨틱 검색검색검색검색
�대용량 지식 베이스의
구축과 질의
�온톨로지 및 규칙 기반
질의와 추론
�상황인지 등과 연계 가능한
검색 서비스
기반한 의미 분석
�공기어 분석, LSA(Latent
Semantic Analysis) 등의
기법이 활용됨
�정보의 군집과 분석
�자동 분류와 요약
Why Semantic Search ? Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
시맨틱 검색의 효과정확률
• 고품질 형태소 분석• 랭킹 기술 (Page Rank)• 손맛 (지식인 등)• 유의어 사전(시소러스)
• 시맨틱 (semantic meta-data : semantic annotation, triple)• Text Mining (IE, NE, Clustering, Classification)• Human Computing, Collective Intelligence(user comment, evaluation, tag)
• Personalization, Intent Driven Ranking
• 온톨로지 (Subsumption 리즈닝) • Text Mining (Word Clustering)• Meta-search, Mash-up
23[IN2][IN2] and STORM™STORM™
재현율
연결/분석성
Saltlux’s Approachs Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
시맨틱 검색에 대한 접근 방법
의미의미의미의미 모호성모호성모호성모호성 해소해소해소해소
�시장(mayor, market, hunger), 말(speech, horse, checker, end) 등의 용어 의미를구분해 색인, 검색 시 의미에 따른 분류 수행
�개체명 인식, 시맨틱 어노테이션, 용어 군집, 온톨로지 기술 등 적용
�핸드폰 = 휴대폰 = 셀룰라폰, 과일 ⊃ 사과 ∋
개체개체개체개체 특징특징특징특징
(property) (property) (property) (property)
확장확장확장확장 검색검색검색검색
�솔트룩스.대표이사, 솔트룩스.주소, 솔트룩스.제품 등과 같이 검색 대상 개체의구체적 특징들에 대해 확장 검색할 수 있는기능.
�트리플 관점에서 predicate를 통한 정보네비게이션 형태를 취함
�구축된 온톨로지를 활용하거나, 텍스트로부터부분 구문분석(partial parsing)을 통해 관련정보를 자동 추출 가능(네이트 시맨틱 검색유형)
24[IN2][IN2] and STORM™STORM™
어휘어휘어휘어휘 개념개념개념개념
확장확장확장확장 검색검색검색검색
�핸드폰 = 휴대폰 = 셀룰라폰, 과일 ⊃ 사과 ∋ 부사, 정치인 ⊃ 대통령 ∋ 이명박 등의개념적 상하위 관계, 동의어/유의어 관계, 인스턴스 등을 확장하여 검색
�예를들어, 정치인을 검색하면, 이명박이라는키워드를 포함한 문서도 검색
�시소러스(워드넷) 및 온톨로지 활용, 질의 시포함관계 추론 가능
�온톨로지 파퓰레이션 등 자동화 기술 통한자동 구축 가능
유형)�한국어의 경우 의존 문법 기반한 분석 유리.
연관연관연관연관 주제주제주제주제
확장확장확장확장 검색검색검색검색
�천안함-침몰-어뢰, 장동건-고소영-결혼 등과같이 연관된 주제들을 연결해 확장 검색할 수있는 기능
�특정 주제를 둘러싼 컨텍스트와 트랜드이해를 목적으로 함 – 공기어분석, LSA, 토픽랭크 등의 분석 기법 적용
의도의도의도의도 기반기반기반기반 검색검색검색검색
�냉면-맛집/요리법/역사, 청담동-교통/식당/카페 등, 사용자의 검색 의도에따른 목적 주제를 제시하는 검색
�사용자 로그 등 검색 패턴 분석을 통해 주제에따른 사용자 의도 발견과 주제별 인덱싱
[IN2] Discovery 2 Korea Use Case : Semantic Search and Mining
3. Saltlux’s Experiences
An integrated solution for Semantic Search
• 최신정보, 통합검색, 오늘의 토픽 (관심
주제어), 중요 토픽 동향, 이미지 및 동영상
검색, 외부 연계 검색 등이 한눈에 제공되는
통합 검색 포탈 지원
• 의미기반 질의어 자동 완성
기능
25[IN2][IN2] and STORM™STORM™
[IN2] Discovery 2 Korea Use Case : Semantic Search and Mining
3. Saltlux’s Experiences
An integrated solution for Semantic Search
• 확장 가능한 의미기반 분석
서비스 컴포넌트 (Discovery
Box)
• 외부 정보 연계 검색
• 중요 키워드 제시
• 검색어에 대한 문서량 트렌드
26[IN2][IN2] and STORM™STORM™
• 검색어에 대한 문서량 트렌드
• 최근 검색어
• 인기 검색어
• 지식 저장소 별 검색결과
통합 제공
• 실시간 미리보기 결과
• 요약보기, 개체보기, 내용보기
등 다양한 미리보기 제공
• 자동번역 연결 기능
• 실시간 미리보기
• 유사문서 검색
135-848 서울특별시 강남구 대치동 967 덕일빌딩 5, 6, 7 층Tel : 02-3402-0081 Home : www.saltlux.com
Fax: 02-3402-0082 E-mail : [email protected]
Thank you!