6장 텍스트와 멀티미디어 언어 및 특성

45
최최최최최최최 Chapter 6 1 6 장 장장장장 장장장장장 장장 장 장장 장 장 6.1 장장 6.2 장장장장장 6.3 장장장 6.4 장장장 장장 6.5 장장장장장 6.6 장장 장장 장 장장

Upload: anakin

Post on 19-Mar-2016

86 views

Category:

Documents


14 download

DESCRIPTION

목 차 6.1 소개 6.2 메타데이터 6.3 텍스트 6.4 마크업 언어 6.5 멀티미디어 6.6 연구 동향 및 쟁점. 6장 텍스트와 멀티미디어 언어 및 특성. 6.1 소 개. 텍스트 - 지식 전달의 주된 형태 - 다양한 형식과 언어로 작성 문헌( document) - 정보의 한 단위 - 주로 디지털 형태의 텍스트 - 다른 미디어도 포함 - 논리적 단위: 논문, 단락, 사전 항목, … - 물리적 단위: 파일, 전자 메일, 웹 페이지, …. 6.1 소 개(계속). 문헌의 구성 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 1

6 장 텍스트와 멀티미디어 언어 및 특성

목 차

6.1 소개

6.2 메타데이터

6.3 텍스트

6.4 마크업 언어

6.5 멀티미디어

6.6 연구 동향 및 쟁점

Page 2: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 2

6.1 소 개

• 텍스트 - 지식 전달의 주된 형태 - 다양한 형식과 언어로 작성

• 문헌 (document) - 정보의 한 단위 - 주로 디지털 형태의 텍스트 - 다른 미디어도 포함 - 논리적 단위 : 논문 , 단락 , 사전 항목 , … - 물리적 단위 : 파일 , 전자 메일 , 웹 페이지 , …

Page 3: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 3

6.1 소 개 (계속 )

• 문헌의 구성 - 작성자가 기술한 일정 형태의 구문 , 구조 - 저자가 명시한 의미 - 스타일 : 프린터나 화면에 출력될 문헌의 외양 - 메타데이터 (metadata): 문헌 자신에 관한 정보

Page 4: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 4

6.1 소 개 (계속 )

• 문헌의 구문 (syntax)– 구조 , 스타일 , 의미 , 외부 기능 등을 표현– 많은 경우 암시적으로 주어짐– 선언적 언어나 프로그래밍 언어로 표현하기도 함

• 문헌 편집기 : 서술적 형태• TeX: 식자용 언어• SGML: 개방적 언어 -- 호환성과 융통성 제공

– 문헌의 의미는 용도와도 관련이 있음• 포스트스크립트 (postscript) 지시자 : 출력 목적

Page 5: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 5

6.1 소 개 (계속 )

• 문헌의 스타일 (style)– 대부분의 문헌은 특정 포맷 스타일을 지님– 정보와 스타일간의 독립성 추구– TeX, RTF(Rich Text Format): 스타일이 문헌에

내재– 스타일은 매크로로 보완 가능

• 예) TeX에서 LaTeX– 스타일은 보통 저자에 의해 정의됨– 독자가 스타일의 일부 결정 가능

• 예) 웹 브라우저의 옵션– 오디오 , 비디오 같은 다른 미디어의 처리도 포함

Page 6: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 6

6.2 메타데이터

• 메타데이터– 데이터의 구성 및 정의역과 이들간의 관계에 대한 정보– 데이터에 대한 데이터– 예) DBMS: 스키마 , 관계의 명칭 /필드 /속성 ,

속성의 정의역• 메타데이터의 유형 [Marchionini]

– 서술적 메타데이터 (Descriptive Metadata)• 의미 외적인 메타데이터• 문헌 작성 방법에 관한 정보• 저자, 출판일 , 출처 , 길이 , 장르 등을 포함• 예) Dublin Core Metadata Element Set: 15개 필드

Page 7: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 7

6.2 메타데이터 (계속 )• 메타데이터의 유형(계속)

– 의미적 메타데이터 (Semantic Metadata)• 문헌의 내용/주제에 대한 정보• 예) 미국 국회 도서관 주제 코드• 예) MEDLINE 시스템의 생체 임상 의학 논문

– 질병, 해부학, 약품 등에 관련된 주제 항목 부여• 용어 체계 (ontology)

– 주제 기술을 위한 용어의 계층 분류 (taxonomy)– 의미적 용어를 표준화화기 위해 사용

• 메타데이터 포맷– MARC(Machine Readable Cataloging Record)

• 도서관 레코드 포맷 , 제목 /저자 등 서지 항목 필드 존재– USMARC: MARC의 미국 버전

• 서지 정보 교환용 미국 국가 표준

Page 8: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 8

6.2 메타데이터 (계속 )

• 웹 메타데이터– 용도

• 목록 작성 ( 예 : BibTeX), 내용 등급 부여 , 지적 재산권 , 디지털 서명 , 프라이버시 수준 , 전자상거래 응용 등

– RDF(Resource Description Framework)• 웹 메타데이터 표준• 노드와 부가적인 속성 / 값 (attribute/value) 쌍으로 구성

• 노드– URL(Uniform Resource Locator)– URI(Uniform Resource Identifier)

– 비텍스트 객체의 메타 서술에도 유용• 예 ) 이미지 서술용 키워드 집합

Page 9: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 9

6.3 텍스트

• 텍스트 코딩 체계– 초기 : 7 비트 사용

• EBCDIC, ASCII– ISO-Latin: 8비트 ASCII

• 악센트 , 발음 구분 기호 포함– Unicode(ISO 10616): 16비트 코드

• 한글 , 한자 등 동양 언어 표현 가능

Page 10: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 10

6.3.1 포맷

• 텍스트 포맷의 유형– ASCII 형태 : 높은 호환성 , 정보의 추출 /수정이 용이

• 예) TeX– 이진 형태 : 필터 필요

• 예) Word, HWP 같은 워드프로세서로 작성된 문헌• 주요 텍스트 포맷

– RTF: 워드프로세서용 , ASCII 구문– PDF(Portable Document Format) : 인쇄용– 포스트스크립트 : 인쇄용– MIME(Multipurpose Internet Mail Exchange)

• 전자 메일용• 다중 문자 집합, 다중 언어 , 다중 미디어 지원

Page 11: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 11

6.3.1 포맷 (계속 )

• 대표적인 압축 소프트웨어 /포맷– Compress: Unix– ARJ: PC– ZIP: gzip, Winzip– uuencode/uudecode, binhex

• 이진 파일과 7비트 ASCII 텍스트 사이의 변환

Page 12: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 12

6.3.2 정보 이론 (information theory)

• 엔트로피 (entropy) – 정보의 내용 (content)/불확실성 (uncertainty)을

포착하기 위한 개념– 텍스트의 정보량을 정량화– 정의

: 알파벳의 심볼 수 , pi: 심볼의 출현 확률• 심볼의 확률에 따라 다름

– 예) =2일 때 , 확률이 같으면 1, 한 심볼만 나타나면 0

– 심볼의 확률을 구하기 위한 텍스트 모델 필요– 텍스트 압축의 한계

1

2logi

ii ppE

Page 13: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 13

6.3.3 자연언어 모델링

• 자연언어 모델– 이항 (binomial) 모델

• 심볼의 출현 확률이 독립적인 것으로 간주– 유한 문맥 (finite-context) 모델 , 마코프(Markov) 모델• 현재 심볼의 출현 확률을 구할 때 , 이전 k 개의 심볼을 고려 k 차 모델 ( 이항 모델은 0 차 모델로 간주됨 )

– 유한 상태 (finite-state) 모델 : 정규 언어 정의– 문법 모델 : 문맥 자유 (context free) 언어등을

정의

Page 14: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 14

6.3.3 자연언어 모델링 (계속 )• Zipf의 법칙

– 문헌 내에서 단어의 분포에 대한 모델– 빈도가 i 번째인 단어의 빈도는 최고 빈도 단어의 1/i배– n/(iHV()): 빈도가 i 번째인 단어의 출현 횟수 F

• V: 어휘 (서로 구분되는 단어) 수 , n: 텍스트의 단어 수• HV(): 전체 출현 빈도의 합이 n 이 되도록 다음과 같이

정의되는 V 의 차 조화수 (harmonic number)

• 간단한 공식에서는 =1을 사용 : HV() = O(log n), 부정확함

>0인 경우 : HV() = O(1), 실제 데이터에 잘 맞음– 보통 는 1.5 ~ 2.0을 사용

V

j jHV

1

1)(

Page 15: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 15

6.3.3 자연언어 모델링 (계속 )

• Zipf의 법칙 ( 계속 )– Mandelbrot 분포

• c: 추가된 매개 변수• k: 모든 빈도의 합이 n 이 되도록 하는 값• 데이터 실험 결과 더 좋은 모델로 제안됨

)(/)( ickHV

Page 16: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 16

6.3.3 자연언어 모델링 (계속 )• 불용어 (stopword)

– 의미를 전달하지 않는 단어 무시 가능– 텍스트의 약 50%를 차지하는 고빈도 단어는 대부분 불용어– 예) TREC-2 컬렉션에서 가장 빈도가 높은 단어

the, of, and, a, to, in• 음의 이항 분포 (negative binomial distribution)

– 문헌 컬렉션에서 단어의 분포에 대한 모델– 어떤 단어를 k 번 포함하는 문헌의 수

• p, : 단어와 문헌 컬렉션에 종속적인 매개 변수– 예) Brown Corpus에서 ‘ said’의 경우

» p=9.24, =0.42 kk ppkk

kF

)1(1

)(

Page 17: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 17

6.3.3 자연언어 모델링 (계속 )• Heaps의 법칙

– 어휘의 크기 증가를 예측하는 매우 정확한 법칙– 단어 수가 n 인 텍스트의 어휘 수

V = Kn = O(n )• k, : 특정 텍스트에 종속적인 값

– 보통 k 는 10 ~ 100, 는 0 ~ 1; 의 일반적인 값은 0.4 ~ 0.6– 문헌 컬렉션에도 적용

• 단어의 평균 길이– 전체 텍스트에서 평균적인 단어의 길이는 일정

• 짧은 단어가 충분히 반복하여 출현하기 때문– 예) TREC-2 컬렉션의 경우

• 평균 단어 길이: 5문자 – 변동 범위는 4.8 ~ 5.3 , 불용어 제외시: 6 ~ 7 문자

• 어휘 집합 단어의 평균 길이: 8 ~ 9 문자 어휘 저장 공간 결정

Page 18: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 18

6.3.4 유사도 모델• 유사도 (similarity)

– 문자열이나 문헌 사이의 구문적 유사도– 거리 함수 (distance function)를 사용하여 측정

• 대칭적이어야 함 : 인자의 순서에 무관• 삼각 부등식 관계를 만족해야 함

– distance(a,c) distance(a,b) + distance(b,c)• 해밍 거리 (Hamming distance)

– 길이가 같은 경우, 문자가 서로 다른 위치의 수• 편집 거리 (edit distance): Levenshtein 거리

– 동일한 문자열이 되도록 연산을 적용할 최소 문자 수• 연산 : 삽입 (insertion), 삭제 (deletion), 치환 (substitution) • 예) color ~ colour: 1, survey ~ surgery: 2

– 편집 거리 개념의 확장• 가중치 부여 , 전치 (transposition) 연산 추가

Page 19: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 19

6.3.4 유사도 모델 (계속 )• 최장 공통 부분열 (LCS : Longest Common

Subsequence)– 공통이 아닌 문자를 삭제하고 남은 문자열

• 연속할 필요는 없지만 원래 문자열 순서는 유지– 예) survey ~ surgery: surey

• 문헌의 유사도– 행을 심볼로 간주하고 최장 공통 행을 구하는 방법

• 유닉스의 diff• 많은 시간이 걸리고 유사한 행들이 고려되지 않음• 유사한 행들을 고려하는 방법

– 행들 사이에 가중치를 부여한 편집 거리– 모든 문자에 대해 LCS 계산

– 문헌의 특징을 추출하여 비교하는 방법– Dotplot: 문헌의 유사도를 가시적으로 보여주는 도구

Page 20: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 20

6.4 마크업 언어

• 마크업 (markup)– 텍스트의 포맷 방식 , 구조 정보 , 의미 , 속성 등을

기술하는 데 사용될 수 있는 부가적인 텍스트 구문– 예 ) TeX의 포맷 명령어– 마크 (mark): 태그 (tag)

• < 시작 태그 > 마크된 부분 < 종료 태그 >– SGML: 마크업용 표준 메타언어– XML: 웹용 메타언어

• SGML의 부분 집합– HTML: 웹용 마크업 언어

• SGML의 실례 (instance)

Page 21: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 21

6.4.1 SGML

• SGML(표준 일반 마크업 언어 , Standard Generalized Markup Language – ISO 8879)– 텍스트 마크업용 메타언어

• Goldfab 주도 그룹이 개발• 태그에 기초하여 마크업 언어를 정의하는 규칙 제공

– 문헌 형식 정의 (document type definition)• 문헌 구조를 기술• 문헌의 구성 부분을 기술하고 명명• 문헌의 구성 부분 사이의 관련성 정의

– SGML 문헌의 구성• 문헌 구조 기술• 태그로 마크된 텍스트 자체

Page 22: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 22

6.4.1 SGML(계속 )• DTD(문헌 형식 선언 : Document Type Declaration)

– 문헌 형식 정의 부분을 명시– 구성 요소나 속성의 의미 , 응용 관례

• 형식적으로 표현 못하지만 ,• 주석 (comment)을 사용하여 비공식적으로 표현 가능

– 의미적 정보는 주석이나 별도의 문서로 주어짐• 태그

– 시작 태그 : <tagname>– 종료 태그 : </tagname>– 동일한 태그가 응용에 따라 다른 의미를 지닐 수 있음– 태그의 속성 (attribute)

• 시작 태그 부분에 ‘ attname=value’ 형식으로 주어짐

Page 23: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 23

6.4.1 SGML(계속 )

Page 24: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 24

6.4.1 SGML(계속 )• SGML 포맷

– SGML은 포맷과 내용을 분리• 포맷을 기술할 장치가 없음• SGML 문헌에는 종종 출력 명세 (포맷 방법 )가 추가됨

– 출력 명세 표준• DSSSL(Document Style Semantic Specification Language)

• FOSI(Formatted Output Specification Instance)• 문헌과 스타일 정보를 연관짓는 방식을 정의

• SGML 의 이용 예 : TEI(Text Encoding Initiative)– 목적 : 전자 텍스트 작성 및 교환에 대한 지침 제공– SGML DTD 를 통해 여러 문헌 포맷 제공– TEI Lite 가 많이 사용됨

Page 25: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 25

6.4.2 HTML

• HTML(Hyper Text Markup Language)– SGML의 한 실례

• SGML의 관례를 준수– 1992년에 개발 , 1997년에 4.0 발표– 대부분의 웹 문서는 HTML로 작성됨– 하이퍼텍스트 , 멀티미디어 , 작고 단순한 문헌에 적합– HTML DTD가 있으나 보통 명시적으로 참조하지는 않음– 이미지 , 오디오 같은 다른 미디어도 포함 가능– 메타데이터 필드 제공 : 특정 응용에 사용 가능– 동적 HTML(DHTML, Dynamic HTML)

• 자바 스크립트 같은 프로그램이 포함된 경우

Page 26: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 26

6.4.2 HTML(계속 )

Page 27: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 27

6.4.2 HTML(계속 )

• 단계식 스타일 시트 (CSS: Cascade Style Sheets)– HTML은 문헌의 표현 스타일을 고정시키지 않음– 저자 , 예술가 , 식자공이 HTML 페이지에 대해 미적

감각을 향상시키는 가시적 효과를 생성할 수 있는 강력하고도 조작하기 쉬운 방법을 제공

– 서로 다른 구성 요소의 표현 스타일을 정의하기 위해 차례로 (단계적으로 ) 사용 가능

– 문헌의 표현 정보와 내용을 분리• 웹 사이트 유지 단순화• 웹의 접근성 증가

– 문제점 : 스타일 시트간의 일관성 부재 , 불완전성

Page 28: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 28

6.4.2 HTML(계속 )

• HTML 4.0의 기능 및 용도– 스타일 시트 , 국제화 , 프레임 , 풍부한 테이블과 폼

(form), 장애인을 위한 접근 연산 등을 지원– 순수 (strict) HTML

• 모든 표시 정보를 CSS에 맡기고 단지 표시 방법과는 무관한 마크업에만 관심을 둠

– 과도기적 (transitional) HTML• CSS를 이해하지 못하는 과거의 브라우저가 페이지를 판독할 경우를 위해 모든 표시 자질을 사용

– 프레임셋 (frameset) HTML• 브라우저의 윈도우를 프레임으로 분할할 때 사용

Page 29: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 29

6.4.2 HTML(계속 )• HTML의 제약

– 데이터를 매개 변수화하거나 (parameterize) 의미 자질을 부여하기 위해 사용자가 자신의 태그나 속성을 명시하는 것을 허용 못함

– 데이터베이스 스키마나 객체지향 계층 구조를 표현하기 위한 중첩 구조의 명시를 지원 못함

– 데이터를 소비하는 응용 프로그램이 데이터를 삽입할 때 , 그 구조적 유효성 검사를 허용하는 유형의 언어 명세를 지원 못함

• SGML, HTML, XML– SGML은 HTML에서 결여된 확장성 , 구조화 , 유효성 처리

가능– SGML은 웹 응용에서 불필요한 선택 자질 포함

• 비용 /이득 비율이 나쁨• 보다 단순한 메타 언어인 XML 개발

Page 30: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 30

6.4.3 XML• XML(eXtensible Markup Language)

– SGML을 단순화한 부분 집합 : 일종의 메타 언어– HTML의 제약을 많이 제거

• 의미 마크업 허용• 새로운 태그 정의 가능• 복잡한 구조 정의 허용 – 예 ) 제한이 없는 중첩 구조• 데이터의 유효성 검사 기능• 자바 스크립트나 프로그램 인터페이스를 통한 작업 대체 가능

– 보다 엄격한 마크업 구문 요구• 종결 태그 생략 불가• 대소문자 구분• 모든 속성 값은 인용 부호로 싸야 함

Page 31: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 31

6.4.3 XML(계속 )

Page 32: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 32

6.4.3 XML(계속 )• XML의 DTD

– DTD의 사용이 선택적– DTD가 없으면 , 분석 중에 태그 수집– 태그 이름에 중의성이 있으면 , 이름 공간 (namespace)을 사용하여

해결 가능

• 확장 스타일 시트 언어 (XSL: Extensible Style sheet Language)– CSS에 대응– 고도로 구조적임– XML 문서 변환 및 스타일 부여 기능

• 예 ) 표 내용의 자동 추출

• 확장 링크 언어 (XLL: Extensible Linking Language)– 외부 /내부 링크등 여러 유형의 링크 정의

Page 33: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 33

6.4.3 XML(계속 )• XML의 활용

– 수학 마크업 언어 (MathML: Mathematical Markup Language)• 수식 표현과 수학적 표현의 의미를 나타내기 위한 두 가지 태그 집합

– 동기화 멀티미디어 통합 언어 (SMIL: Synchronized Multimedia Integration Language) • 웹에서 다양한 유형의 객체에 대해 위치와 활성 시간을 명시할 수 있는 멀티미디어 표현의 스케줄을 나타낼 수 있는 선언적 언어

– 자원 기술 형식 (Resource Description Format)• RDF를 사용하여 기술해야 하는 XML용 메타데이터 정보

Page 34: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 34

6.5 멀티미디어

• 멀티미디어– 여러 유형의 매체에서 기원한 다양한 디지털 데이터

취급– 매체 유형 : 텍스트 , 오디오 , 이미지 , 비디오

• 용량 , 포맷 , 처리 제약 등에서 차이가 있음• 예 ) 오디오 , 비디오는 실시간 제약 조건 요구• 매체 유형에 따라 서로 다른 이진 포맷 필요

Page 35: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 35

6.5.1 포맷

• 이미지 포맷– XBM, BMP, PCX: 단순한 비트맵 포맷

• 많은 기억 공간 요구– GIF(Graphic Interchange Format): Compuserve

• 압축 저장 형식– JPEG(Joint Photographic Experts Group) 포맷

• 손실 압축– TIFF(Tagged Image File Format)

• 문서 교환용– TGA(Truevision Targa image file)

• 비디오 게임 보드와 관련– PNG(Portable Network Graphics)

• 1996년에 인터넷용의 비트맵 이미지 포맷으로 제안

Page 36: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 36

6.5.1 포맷 (계속 )

• 오디오 포맷– AU, WAVE– MIDI: 전자 악기와 컴퓨터 사이의 음악 교환용 표준– Real Audio, CD 포맷 : 오디오 도서관용으로 활용

• 애니메이션 /동영상 포맷– MPEG(Moving Pictures Expert Group) 포맷

• 기본 이미지를 기준으로 변화를 코딩• 압축 지원 , 관련 오디오 포함

– AVI, FLI– QuickTime: Apple

• 압축 지원 , 관련 오디오 포함

Page 37: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 37

6.5.2 텍스트 이미지

• 텍스트 이미지 (textual image)– 텍스트를 포함하는 문헌의 이미지– 보통 스캔하여 만듬– 많은 부분이 텍스트이므로 검색 및 효율적인 압축이 가능

• 텍스트 심볼을 추출하여 검색 및 압축 향상 가능• 텍스트 이미지 검색

– 이미지를 서술하는 키워드 집합 사용– OCR을 사용하여 텍스트 인식

• 오인식 문제로 인해 근사 탐색이 적합 , 하지만 이 경우 속도 저하

– 추출된 심볼을 통해 이미지 검색이나 순차 검색 기법 적용

Page 38: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 38

6.5.3 그래픽과 가상 현실• 컴퓨터 그래픽 메타파일 (CGM: Computer Graphic Metafile)

– 그래픽 객체와 관련 속성을 개방적으로 교환하기 위해 제정– 장치 독립적인 방법으로 그래픽 데이터 저장– 벡터 그래픽 , 래스터 (raster) 그래픽 , 텍스트 표현 가능– 메타파일: 그래픽 성분의 집합

• 가상 현실 모델 언어 (VRML: Virtual Reality Modeling Language)– 3D 객체 세계 기술을 위한 파일 포맷– Silicon Graphics OpenInventor 파일 포맷의 한 부분– 3D 그래픽과 멀티미디어가 통합된 경우까지 고려– 응용 영역

• 공학, 과학의 시각화, 멀티미디어 프리젠테이션, 오락• 교육용 타이틀 , 웹 페이지, 공유 가상 세계

– 사실상 웹의 표준 모델링 언어

Page 39: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 39

6.5.4 HyTime• HyTime(Hypermedia/Time-based Structuring Language)

– 멀티미디어 문헌 마크업을 위해 정의된 표준 (ISO/IEC 10744)– SGML 구조

• 코딩된 문헌의 표현에 독립적인 구조– HyTime 구성체를 사용하는 개별 문헌 모델에 대해 DTD 작성

허용– 몇몇 메타 DTD를 제공

• 새로운 멀티미디어 마크업 언어의 설계가 용이– 그래픽 인터페이스 , 사용자의 항해 (navigation) 상호작용 ,

시간대와 화면상의 미디어 배치를 직접 명시하지는 않음– 하이퍼미디어 개념

• 문헌 객체의 복잡한 위치 표현• 문헌 객체 사이의 관계 (하이퍼링크 )• 문헌 객체 사이의 수치적 조정 관계

Page 40: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 40

6.5.4 HyTime(계속 )• HyTime 구조

– 링크 및 주소 설정 기본 구조• 하이퍼링크의 구문과 의미를 담당

– 스케줄 구조• 기본 구조에서 유도• 임의의 복잡한 하이퍼미디어 구조에 대한 추상적 프리젠테이션 정의– 음악과 대화식 프리젠테이션을 포함

– 표현 변환 (rendition) 구조• 스케줄 구조의 응용• 표현 변환 규칙을 적용하여 새로운 스케줄의 생성을 정의

Page 41: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 41

6.5.4 HyTime(계속 )

• HyTime의 응용– 표준 음악 기술 언어 (SMDL: Standard Music Description

Language)• 음악 정보를 단독으로 혹은 다른 매체와 함께 표현하는 구조• 멀티미디어의 시간적 순차화 정보 지원

– 대화 문헌용 메타파일 (MID: Metafile for Interactive Documents)• SGML과 HyTime에 기반을 둔 공통 교환 구조• 다양한 저작 시스템으로부터 데이터를 취함• 사람의 개입이 최소인 형태로 상이한 프리젠테이션 시스템에서 보여주기 위해 구조화함

Page 42: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 42

6.6 연구 동향 및 쟁점

• 웹 언어의 분류

Page 43: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 43

6.6 연구 동향 및 쟁점 (계속 )• 주요 동향

– 주로 웹을 중심으로 적용– 다른 작업 결과들의 통합과 집중

• 개방 문헌 구조 (ODA: Open Document Architecture)– SGML의 유럽 대안 표준 (ISO 8613)– 전자적으로 문헌을 공유하기 위해 설계– 논리적 구조 , 배치 , 내용 (벡터와 래스터 그래픽 포함 )을 정의– ODA 파일의 형태

• 포맷된 (formatted) 형태 : 편집 불가– 내용이나 배치에 관한 정보를 지닐 수 없음

• 처리 가능 (processable) 형태: 편집 가능– 논리적 정보를 지닐 수 있음

• 포맷된 처리 가능 (formatted processable) 형태 : 편집 가능– 모든 정보를 지닐 수 있음

– 요즘은 ODA를 많이 사용하지 않음

Page 44: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 44

6.6 연구 동향 및 쟁점 (계속 )• 최근 개발 동향

– 문헌 객체 모델 (DOM: Document Object Model)에 대한 정의• DOM은 자바 같은 프로그래밍 언어로부터 HTML과 XML 객체를 조작하기 위해 상호 운영 가능한 클래스와 메소드의 집합을 제공

– VRML과 DHTML의 통합• HTML과 웹 브라우저에 대해 단계식 스타일 시트와 문헌 객체 모델을 포함하는 개선된 자질과 구조 확장을 제공

– STEP(Standard Exchange for Product Data format)과 SGML의 통합• STEP은 상품 데이터 포맷을 다룸

– MARC• MARC를 XML로 변환• DTD 정의를 통해 MARC를 SGML로 변환

– CGM: XML로 분석 가능한 새로운 코딩 방법 개발• 웹 연구자와 상업적 판매자에게 주목을 받고 있음

Page 45: 6장 텍스트와 멀티미디어 언어 및 특성

최신정보검색론 Chapter 6 45

6.6 연구 동향 및 쟁점 (계속 )

• 최근 개발 동향 (계속 )– 기타 새로운 제안

• DML(Signed Document Markup Language)• VML(Vector Markup Language)• PGML(Precision Graphics Markup Language)

– 포스트스크립트와 PDF의 2D 이미지 모델에 기반