(19) 대한민국특허청(kr) (12) 공개특허공보(a)

19
(19) 대한민국특허청(KR) (12) 공개특허공보(A) (51) Int. Cl. 6 G06F 17/30 (11) 공개번호 특1999-025846 (43) 공개일자 1999년04월06일 (21) 출원번호 특1997-047649 (22) 출원일자 1997년09월19일 (71) 출원인 한국과학기술연구원 박원훈 서울특별시 성북구 하월곡동 39-1 (72) 발명자 박동인 대전광역시 유성구 구성동 시스템공학연구소 자연어정보처리연구부 박영찬 대전광역시 유성구 구성동 373-1 한국과학기술원 전산학과 남기춘 대전광역시 유성구 구성동 373-1 한국과학기술원 전산학과 최기선 대전광역시 유성구 구성동 373-1 한국과학기술원 전산학과 백태현 서울특별시 서초구 양재동 244-6 삼덕빌딩 2층 오롬테크 권오욱 대전광역시 유성구 구성동 373-1 한국과학기술원 전산학과 (74) 대리인 이원희 심사청구 : 있음 (54) 컴퓨터 시스템 상에서 한국어 전문 정보 검색을위한 시스템 요약 본 발명은 문서에 포함된 모든 단어에 대하여 색인 작업을 수행하고 색인에 의해 저장된 문서 하부 구조 로부터 사용자의 요구에 대하여 자료를 검색하는 전문 정보 검색 시스템에 관한 것으로 특히, 특정 문서 를 입력받아 해당 문서에 존재하는 어절을 추출하는 어절 추출 모듈과, 상기 어절 추출 모듈에서 추출된 어절들에 대하여 각 어절들이 문서내에 존재하는 위치 정보를 추출하는 위치정보 추출모듈과, 상기 위치 정보 추출모듈에서 추출된 각 어절들에 대한 위치정보와 각 어절에 의한 색인어를 역색인 구조로 변환 구축시키는 색인구조 구축 모듈, 및 상기 색인구조 구축모듈에서 구축된 역색인 구조를 압축하여 상기 문서 하부구조를 생성시키는 압축모듈을 포함하는 것을 특징으로 하는 한국어의 전문 정보 검색을 위한 색인 시스템과 그에 대응하는 검색 시스템을 적용하면, 문서를 색인하고 압축하는 과정에서 전문을 색인 하여 정보의 손실을 최소화하며, 이러한 색인구조 구축시에 색인구조 압축알고리즘을 사용하여 저장공간 을 극소화하고, 색인시에 빠른 검색기능을 제공할 수 있다. 대표도 도2 명세서 도면의 간단한 설명 도 1은 비정형 문서정보 검색 엔진 모델의 색인 구조에 대한 구조 예시도 도 2는 본 발명에 따른 한국어 전문 정보 검색을 위한 시스템 구성도 도 3은 코스퍼에서 어절의 수 측정에 따른 실제 치와 가정 치에 대한 그래프 예시도 도 4a 내지 도 4d는 본 발명에 따른 어절의 추출과정에 다른 위치정보와 그 추출 예시도 도 5는 일반적인 역 색인 파일의 구성 예시도 도 6은 본 발명에 따른 역 색인 파일의 구조 도 7은 도 6에 도시되어 있는 역 색인 파일의 구조를 저장하는 과정을 수행하는 프로그램 예시도 19-1 공개특허특1999-025846

Upload: trinhtu

Post on 31-Jan-2017

218 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

(19) 민 특 청(KR)(12) 공개특 공보(A)

(51) Int. Cl.6

G06F 17/30

(11) 공개 특1999-025846

(43) 공개 1999년04월06

(21) 원 특1997-047649

(22) 원 1997년09월19

(71) 원 과 술연 원 원

특 시 월곡동 39-1

(72) 동

전 역시 동 시스 공 연 연 정보처 연

전 역시 동 373-1 과 술원 전 과

전 역시 동 373-1 과 술원 전 과

전 역시 동 373-1 과 술원 전 과

특 시 동 244-6 빌 2층 크

전 역시 동 373-1 과 술원 전 과

(74) 원희

심 청 :

(54) 컴퓨 시스 에 전문 정보 검 시스

본 문 에 포 든 단 에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시스 에 것 특히, 특정 문

당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존 는 치 정보 는 치정보 과, 치

정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 , 조 에 역 조 여

문 조 생 시키는 포 는 것 특징 는 전문 정보 검 시스 과 그에 는 검 시스 적 , 문 고 는 과정에 전문

여 정보 실 , 러 조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제공 수 다.

2

간단

1 비정 문 정보 검 엔 조에 조 시

2는 본 에 전문 정보 검 시스

3 스퍼에 절 수 측정에 실제 치 가정 치에 그래 시

4a 내 4d는 본 에 절 과정에 다 치정보 그 시

5는 적 역 파 시

6 본 에 역 파 조

7 6에 시 는 역 파 조 저 는 과정 수 는 그램 시

19-1

공개특 특1999-025846

Page 2: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

8a 8b는 저 조에 드 포맷 시

9는 정보 검 조 시

10 처 과정 시

는 술 그 종래 술

본 문 고 는 과정에 전문 여 정보 실 , 러 조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제

공 컴퓨 시스 에 전문 정보 검 그 조에 것 다.

또 , 본 런-랭스 엔 (run-rength encoding) 각 절 치정보에 , 치정보 저 시에 적 치값 여 런-랭스 엔 높 고 특히 문 조에 적 다.

적 , 컴퓨 시스 전과 정보 저 식 적 나 크 등 태에 CD 나 LD등 적 저 매체 태 전 고 다. 술 같 저 매체들

점 량 나 에 가 저 매 펙트(compact) 저 매체 수 다는 점 가 고 다.

또 , 신 전에 힘 특정 고 는 정보 는 들고 특정 다수 람들과 공 는 경 가 늘 나고 다. , 매 특정 정보(개 적 생 , 연 , 가 , 등등) 제 고는 신망에 연결 가 간에 측에 저 는 정보들 공 게 는

것 다.

라 , 량 정보 검 거나 저 특정 식들 제 고 , 들 제 고 다. 그러므 , 가 특정 에게 정보 가치 휘 는 빠 검

, 빠 검 루 수 저 식에 물 계층적 조가 저 는 식에 라 적 정 다.

그에 라, 근래 제 식 에 가 적 라 수 는 식 (정 는 주제나 심 또는 문 가 정 단 ) 식 , 러 검 는 정보 검 라는 것 , 정보 검 는 문 주제 나 심 ( 키워드) 검 특정 쉰(mashine) 여 동 찾 내는 과 , 에 적 문 찾

내는 검 다.

, 에 문 키워드 찾 내 라고 는 , 러 동 는 크게 나타낼 수 다.

첫 째 는 빈 고 는 계적 식 다. 여 에는 단순 빈 에 (Luhn ), 는 (2 Poisson ), 는 (Dennis-Salton

), 문 n차원(n개 ) 는 공간 (Vector Space Model) 등 들 수 다.

또 , 째 는 1984년 본에 동 에 동 에 보고 식문 제 정 에 나타나 는 같 , 정보 여 문 미 탕 여 는 식 다.

그러나, 술 같 키워드 는 식에 계적 나 정보 는 다 게 그 문 가 가 는 식 나타내 다. 뿐만 니라, 적절 제 시킬

수 에 적 문 검 에는 미흡 점 다.

술 같 내 에 내 다 참고문헌 참조 히 수 것 므 생략 다(참조문헌: Joel L. Fagan, Automatic Phrase Indexing for Document

Retrieval: An Example of Syntatic and Non-Syntatic Methods, ACM, 1987, pp.91-101).

, 본적 키워드 는 식에 계 식에 는 문 에 적 다. 그러 원 는 문 경 , 문 내에 는 여러 가 주제들에 다 적

에는 적 문 다. 그러므 같 식 정보 검 시스 들 주 문 나 신문 등과 같 주제가 정 짧 문 에 만 처 여 , 술

같 내 에 내 다 참고문헌 참조 히 수 것 므 생략 다(참조문헌: G. Salton, J. Allen and Chris Bukkely, Approach to Passage Retrieval

in Full Text Information System, SIGIR'93, 1993, pp.49-58).

라 , 술 같 문제점 극복 는 문 에 처 강 여 만 , 여러 가 키워드 는 시스 에 문제점에 문 전문 여 검 는 시스 에 느끼게 다. 그러나, 같 는 전문 정보 검 경 에

에 과다에 생 는 저 량 가 처 시 생 는 검 공간 너무 커 는 여 능 감 에 문제점 가 고 다.

술 같 능 감 에 문제점 적 식 저 게 는 문

19-2

공개특 특1999-025846

Page 3: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

스(Text Database) (Compression) 는 식 , 술 같 내 에 내 다 참고문헌 참조 히 수 것 므 생략 다.

참조문

1. Justin Zobel, Alistair Moffat, Ron Sacks-Davis, An Efficient Indexing Technique for Full-Text Database System, Proceeding of the-18th VLDB Conference Vancouver, British Columbia, 1992, pp.352-362 .

2. Gordon Linoff and Craig Stanfill, Compression of Indexes with Full Positional Information in Very Large Text Database, SIGIR'93, 1993, pp.88-95 .

3. Y. Choueka, A.S. Fraenkel, S.T. Klein, Compression of Concordances of Concordances in Full-Text Retriever System, ACM, 1988, pp.597-613 .

라 , 문 에 포 든 단 에 고, 에 저 문 조 에 여 검 는 정보 검 제 는 , 전문 정보 검 라 칭 다. 또

, 전문 정보 검 시스 전 문 정보 실 가 다는 점 특징 다. 여 과 존 에 여 적 가능 다는 점 가적 가 다.

에, 에 처 는 존 과는 간 다 게 다. 주 전문 정보 검 시스 들 에 나타나는 (Term)에 정 게 치 는 가 문 만 에게 보여 다. 러 는 는 존 가 가 는 문 내에 가 치 는

과 문 순 (Document Ranking)에 문 다. 그 는 전문 는 문 에 는 문 크 가 커 문 내에 주제가 여러 가 가 수 문 다.

라 , 문 내에 논 적 단 다 게 여 존 과 같 문 내에 느 가 치 는가 보여주 다. 또 , 전문 정보 검 문 검 는 시스 에 다.

펴본 경 에 전문 정보 검 생 동 는 든 에 생 는 경 다. 라 , 좀 체적 에 전문 정보 검 가 는 동 펴보 .

처 는 존 정보 검 주 에만 존 다. , 는 만 다. 러 주 처 는 정보 가 고 여 다. , 태

결과 다 , 격 빈 수에 가 치 가 는 태 다. 그 고 종적 각 단 에 문 내 치정보 가 게 는 , 다 참조문헌 참조 히 수 것 므 생략 다(참조문헌: 과 술원, 비정 문 정보 검 엔 개 , 공 , 1993). 술 조에 조 는 첨 1에 시 는

같다.

술 같 경 문제점 는 만 문 정보 실 생 다. 그고 에 처 에 문제가 는 여러 태 원 복원에 문제가 다. 원 복원 경 경 는 조 접미 , 접 , 조 등 것 처 고 는 절에 제거

다.

러 경 시스 능 태 에 존 게 는 , 태 역시 태 전에 존 다. 그러므 만 미등 경 에 정 에 다. 뿐만니라 원 복원에 가 는 경 에 느 것 택 것 가 택 는 것 역시 100%

정 가 다. 원 복원 경 에 든 에 처 경 에 문제는 심각 다.

술 존 식에 생 수 는 문제 정 여 나열 , 첫째 는 문 만 나타내므 정보 실 래 수 , 째 는 시스 능 너무 태 전에 집 적 존 게 에 라 미등 여 특히 고 가 많 문 에 가능 많 다.

경 는 전문 정보 검 쉽게 결가능 문제 다. 만 정보 검 문제점 많다. 특히 가 심각 것 복 띄 쓰 차 에 문제 다.

루고 는 술적 과제

같 문제점 본 적 문 고 는 과정에 전문 여 정보 실 , 러 조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제공 컴퓨 시스 에 전문 정보 검

시스 제공 는 다.

또 , 본 런-랭스 엔 (run-rength encoding) 각 절 치정보에 , 치정보 저 시에 적 치값 여 런-랭스 엔 높 고 특히 문 조에 적 다.

적 달 본 특징 문 에 포 든 단 에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시

스 에 에 , 특정 문 당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존 는 치 정보

19-3

공개특 특1999-025846

Page 4: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

는 치정보 과, 치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 , 조 에

역 조 여 문 조 생 시키는 포 는 다.

적 달 본 가적 특징 절 당 문 내에 존는 정 특정 문 절 여 식 는 다.

적 달 본 가적 특징 절 에 절 는 특정 문 는 스페 스 단 , . ) ? ' ! ` 탭문 , 문

는 다.

적 달 본 가적 특징 치정보 절 에 각각 절에 여 문 집 에 나 문 여 여 는

문 ID , 당 문 내에 째 문단에 그 절 포 는 가 나타내 문단 , 문단내에 그 절 는 문 치 나타내는 문 , 문 내에 째에 그 절

는 가 나타내는 절 여 는 다.

적 달 본 가적 특징 문단 식 각 문 에는 문단 치 는 종 특정 시문 가 각 문단 에 존 는

다.

적 달 본 가적 특징 특정 시문 는 태그(tag) 는 다.

적 달 본 가적 특징 태그(tag)는 ;P 태 갖는 다.

적 달 본 가적 특징 치정보 문 여 여 문단내 존 는 문 는 . ? ! 스페 스 탭,

문 조 에 다.

적 달 본 가적 특징 조 동등 물 계층 갖는 제 크들과, 각 크들 물 계층에 비 여 단계낮 물

계층에 존 는 식 크들 다 존 엮여 는 트라 조 갖는 다.

적 달 본 다 특징 , 특정 문 당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존

는 치 정보 는 치정보 과, 치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 ,

조 에 역 조 여 문 조 생 시키는 포는 여 문 에 포 든 단 에 여 수 고 에 저

문 조 에 여 료 검 는 전문 정보 검 시스 에 전문 정보 검 검 에 :

가 게 는 실 가능 내 드 는 과, 에 드에 여 문 조 검 는 문 조 검 과, 문 조 검 에 검 조 저 는 스 여 조

제 는 조 신 , 조 신 에 제 문 들 에 드에 는 문 는 문 포 는 다.

, 첨 참조 여 본 에 람 실시 히 다 과 같다.

, 본 에 술적 경 펴보 , 본 에 는 전문 정보 검 정여 결 다. 라 , 저 가 생각 문제는 에 적 단

태 문 조 가 므 많 에 가능 것 가 다.

에 펴본 같 에 각 에 원 복원 에 Stemizing과는 달 문제 다. 그러므 는 단 절단 다. 그 고 문 조는 널 쓰 고 역 파 (Inverted Index File) 택 다. 조는 빠

에 무 는 조 져 다.

또 , 단 절단 생 게 는 수는 크게 가 것 보 다. 는 절 그 주 심 편 다. 그러므 전 경 에 나 에

많 절들 절단 그 수가 수적 가 것처럼 보 다.

그러나, 본 에 는 량 문 퍼스에 다 태 절 수는 적 적 것 가정 다. 그 고 문 집 거 경 에 생 는 절 수는 느 정 에 문 가 가 라

가 든가 또는 적 극 수만 가 것 다.

제 는 전문 정보 검 저 문 에 절단 태 고 여 에 문 내에 치정보 가 게 다. 러 태 치정보 가 역 파

파 게 다. 러 문 저 조가 , 가 는 정보 들 게 다. 본 시스 검 에 는 (Boolean Model) 경 여 다. 그러므

문 저 조에 검 에 파 원래 태 는 제(Decompression) , 에 에 적 문 보여 다.

라 , 술 같 능 수 본 에 조는 첨 2에 시 는 같 는 , 2에 시 는 에 첨 1 과 비 여

19-4

공개특 특1999-025846

Page 5: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

펴보 , 2에 시 는 전문 는 1에 키워드 는 달 키워드 고 가 치(weight) 정 는 다. 것과 찬가 전문 문 내 전체 , 문 내 든 단 저 문 다.

, 적 문 란 검 시스 에 문 내 는 것 말 는 것 , 전문 전 동 펴보 , 많 정보 검 에 는 전에 경 에 람에 여 여 다. 러 람에 여 는 경 , 는 람 주 에 여 여 다. 그러므 람에 라 나 달라 다.

그러나, 동 경 는 람 경 는 달 나 에 여 여 검 시스 에 신 높여 다는 점 다. 러 동 정보 검 시스 에 가 게 수

에 가 시스 , 신문 시스 등 문 시스 수적 다.

동 여러 가 많 에 여 고 다. 가 많 는 고 는 문 검 시스 에 검 게 는 키워드 식 많 고 다. 러 키워드 식 문 주제 나 심 문 내에 정 규칙에 찾 낸다. 러 키워드 식에

는 키워드 찾 내는 식 다. 정 규칙에 거 여 는 키워드가 실제 그 문 키워드가 닌 경 문 키워드 는 다.

라 , 러 정보 실 는 전문 등 는 , 전문 문 든 단 는 식 다. 러 전문 문 든 저 므 그 저 공간 거 과 검 시간 커 는 담 가 게 다. 러 결 조 므 거 저 공간 고, 조 검 에 적 조 경 고 또 조 가 므

I/O시에 보다 많 가 고 게 I/O 시간 여 검 시간 다. 전문 검 경 , 에 검 문 들 에 여 는 검 식보다는

나타내는 단 들 문 에 정 게 나타나고 는가 나타내는 에 과적 다. 동는 과 문 집 에 치정보 다. 러 치정보는 검

시에 여러 가 다 검 가능 제공 여 에 수 다.

라 , 첨 2에 시 는 본 에 에 는 동 에 전문 식 또 치정보 제공 다. 또 , 러 적 저 는

조 저 개 라 고, 조 저 는 역 파 조 러 역 파 조 는 개 라 다.

그러므 , 적 개 과정 펴보 , 절 과 치정보에 료 조 정 여는 , 전문 단 절단 다. 단 는 경 절과 단 단 가 같 므 Stemizing 란 에 여 원 복원 여 다. 같 단 쉽 경 정 규칙에 여 원 여 전체 수 다. 그러나

같 절 경 에는 원 복원 태 에 여 만 가능 다. 또 , 태 결과가 매 여러 가 결과가 므 태그(Tagger) 또는 정 규칙에 여 그 나

택 게 다. 러 정보 는 시스 경 정 100% 보 다. 그 고 많 정보 , 여 다.

같 단 많 히브 (Hebrew) 경 에는 매 다 문 적 평균 수천개 고 동 는 2만여개 정 다. 러 히브 전문 Y. Choueka 논문에는 원 복원 고 각각 원 에 가능 단 들 스트 가 고 는 식

택 다. 러 스트 , 정 여 가 시스 능 좌 다.

에 전문 에 단 는 다 과 같 가 태 나누 볼 수 다.

첫째, 태 단 , 태 단 는 존 정보 검 시스 는 단 같다. 단 존 시스 에 는 키워드 심 만 단 만, 전문 정보 검 시스 에 는 뿐만 니라, 동 , 등 단 여 다. 그 는 문 정보 만 나타내는 것보다는 다 들에 나타내 만 정보

실 수 다.

러 시스 정 태 본적 보 다. 러 보 전과 많 정보에 개 과 , 가 다. 태 단 경 , 종가 절단 종 보다 수십에 수만 정 다는 점 가 다. 단점 는 적 듯 태 정 보 과 원래 문 가 가 고 는 정보 므 생 는 실 가 수 다.

째 는 절단 , 문 그 가공 태 고 는 적 다. 절단 문 에 든 정보 가 게 만 절 종 가 매 많 조에 저게 생 는 문제가 심각 다. 그러나, 러 절단 조는 정보

극 시점에 게 수 다. 뿐만 니라 다 흡수가 가능 , 는 든 정보 그 가 다는 점에 다.

절단 단 결정 는 는 에 것과 태 과 같 여러 가 정보 므 생 는 공간과 시간 점 다. 물 절 집 태 집 보

다 크므 생 는 조시 저 공간 다.

본 에 는 문 에 는 절 수는 전체 절 집 보다 주 다는 가정에 절단 전문 다. , 느 정 문 에는 다 절 문 에 는

생 것 란 가정 다. 다 러 절 수가 실제 문 에 게 나타나는가 보

19-5

공개특 특1999-025846

Page 6: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

여 다. 는 신문 , 과 전, 논문 문 에 180만개 절에 나타나는 절 수 조 다.

그 조 결과는 첨 3에 시 는 같 태 그래 나타나는 , 첨 3에 시 는 그래 펴보 , 가정 경 에는 느정 절 수가 가 다가 절 보

가 는 것 주 것 만, 실제 는 180만 절 조 결과 많 절 가 에는 가 는 비 감 는 보 고 다. 물 퍼스(corpus) 크 가 주 크게 가정과 같 그래 그 게 것 다.

그 고, 첨 3에 실제 경 갑 경 가 는 경 는 문 들 첨가 보 다. , 퍼스 는 전문 에 는 가정 가정 그래 에 정 그 는 것 보다 량 퍼스에 가능 다는 것 보 다.

또 , 본 에 전문 가는 절 단 , 치정보 역시 절단 는 , 러 절단 는 스페 스 단 뿐만 니라 ,, ., ), , ?, ', !,

`, 탭문 , 문 등 다. 그러나, 그 쓰 에 절 수 는 , , [, {, }, ] 등 특수 문 는 그 매 므 절단 는다.

또 , 치 정보 여 문 집 에 나타나는 치 다 과 같 튜 는 , 그 식 문 ID, 문단 , 문 , 절 등 순 루 다.

문 ID는 문 집 에 나 문 여 여 는 숫 고, 문단 는 문내에 째 문단에 그 절 포 는 가 나타내 다. 또 , 문 는 문

단내에 그 절 는 문 치 나타내 그 고, 절 는 문 내에 째에 그 절 는 가 나타낸다. 또 , 문단 치 는 종 시문 (markup string)

나 태그(tag) ;P 다.

과 같 절 과 치정보 절 과 치 정보 여 가 첨 4a 내 4d에 시 는 , 4a는 정보 제공 는 문 , 4b내 4d는 절

에 치정보 가 다.

술 같 치정보 가 절 에 는 결과 적 여 그 정보 역 파 조 시키는 , 조 는 적 저 과 빠 탐 시간 가 만족 는만큼 다 수 다. 라 그

첨 5 참조 여 펴보 다 과 같다.

5는 적 역 파 에 , 역 파 과 정보 가 고 는 나눌수 는 , 본 에 정보는 치정보만 다. 그러므 , 본 시스 에

역 파 과 치정보 가 는 포 팅 나눌수 다.

또 , 본 에 는 휘는 절 다. 그러나 검 시에는 적 원만 검 므 시스 에 절과 검 단 원 매치(match)시 다. 라

, 첨 6에 같 , 심 든 단 원 보 절 에 치 므 는 절 과 단 매치가 가능 트라 (Trie) 조

다.

, 스 검 (Prefix Search) 게 다. 스 검 가라는 에 파 에 가가, 가는, 가간에, ....., 가 정보 등 절 찾 주게 다. 러

스 검 가 는 특 검 에 히 다.

또 , 본 에 는 첨 6에 시 는 같 , 에 과 포 팅 에 포스칭 , 역 닝 는 , 6에 포 팅 파 본 주 크는 트라 노드에 끝나는 절 생 는 치 정보가 포스팅 에 가 저 생 는 조 가킨다.

에 는 본 에 파 생 과정 펴보 다. , 전문 정보 검 시스 에 적 는 것 본 문에, 본 에 전문 정보 검 각 펴보 다 과 같다.

, 본 에 조 만들 술적 경 펴보 , 본 에 고 는 조는 Prefix Omission Method Run-length Method Variable Length Method 여

조 생 시키는 , 본 에 전에 조 저 에 여 다 과 같다.

, 6에 시 는 역 조 저 는 식 고 적 7에 시 같다.

7에 시 같 고 식 저 저 고 신 들에 치정보는 신 치정보 포스팅 에 치 래에 게 는 식 므 , 나 에 스 검 시에 포스팅

에 치정보 찾는 에 다

7에 시 는 고 식에 라 저 는 조 포스팅 조 드는 첨 8a 8b에 시 는 같다. , 8a는 조 드 식 고, 8b는 포스팅조 드 식 다.

같 드 식 갖는 조에 여 펴보 , 7비트 헤드 가 는 , 저 2비트는 키 노드에 나타나는 문 에 헤드 , 다 2비트는 노드 시 다. 다 3비

19-6

공개특 특1999-025846

Page 7: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

트는 포스팅 파 에 그 노드 치정보 가 는 스 주 나타낸다.

, 키는 2비트 고 12비트 정 수 는 , 문 숫 , 특수문 , 든 드 여 12비트 나타낼 수 다. 다 키헤드 2비트에 가 펴보 다 1과 같다.

[ 1]

2비트 키신

0 5비트

1 7비트

10 9비트

11 12비트

또 , 키 찬가 2비트 갖는 역시 고 8비트 가 나타내는 , 그 는 래 2에 나타내 다.

[ 2]

2비트 신

0 0비트

1 2비트

10 4비트

11 8비트

, 2에 신 가 '00' 경 는 노드 차 가 1 경 나타내는 것 에 게 다.

또 , 3비트 는 스는 고 24비트 나나태는 , 스 드는 노드 스 차 가 '0' 거나 보다 큰 숫 가 다. 라 , 러 경 런랭스 가 에

게 게 다. 그 고 0 경 에는 헤드 3비트만 뿐, 드에는 실제 당 드가 나타나 는다.

[ 3]

2비트 신

0 0비트

1 6비트

10 8비트

11 10비트

100 12비트

101 16비트

110 24비트

1내 3 조 트라 여 저 는 과정 펴보 는 , 포스팅 파 저 는 과 비슷 다. 나 절에 정보 가 는 든 드들 가 는

단 블 라고 가정 든 블 8 수 비트에 시 여 접 스가 가능 게 다.

또 , 스 미 헤드(Prefix Omission Head)는 4비트 는 , 각 비트 치에 존 는 논 값들 태에 라 나타내는 미가 다 4 같 다 게 나타난다.

[ 4]

스 미 헤드 논 태 미

1 째 비트 블 시 '1', 니 '0' 다.

2 째 비트 드 문 ID가 같 '1', 니 '0' 다.

3 째 비트 드 문단 가 같 '1', 니 '0' 다.

4 째 비트 드 문 가 같 '1', 니 '0' 다.

4에 수 는 같 2, 3, 4 째 비트가 '1' 경 , 각각 드는 나타날 가 다, 그 고 절 는 적 고 주 복 가능 적 므 헤드는 다.

다 드 각각 드에 헤드 조 펴보 , , 문 ID 드 헤드는 2비트

19-7

공개특 특1999-025846

Page 8: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

, 드 크 는 24비트 , 래 5에 시 는 같 다.

[ 5]

2비트 신 크

0 8비트

1 12비트

10 16비트

11 24비트

또 , 문 헤드 문단 헤드 역시 2비트 , 드 드는 고 12비트 래 6에 나타나 는 같다.

[ 6]

2비트 신 크

0 4비트

1 6비트

10 8비트

11 12비트

또 , 절 헤드는 1비트 , 드 드는 고 8비트 , 헤드가 '0' 4비트고, '1' 8비트 다. 또 , 정보 헤드는 블 첫 째 헤드 경 에만 드는 나타난다. , 미 스 헤드 첫 째 헤드 경 에만 드는 나타난다.

본 에 컴퓨 시스 에 전문 정보 검 제 에 각 건들에 여 펴보 므 , 들 시뮬 에 결과

래 들 참조 여 간략히 펴보 다 과 같다.

, 7에 나타낸 실 실험에 퍼스 , 그 종 크 그에 다 절 생 나타내는 것 다.

[ 7]

스퍼 종 크 (Byte) 절수 생 절수

전 전 논문 2,367편 3,589K 97,685 278,727

정보과 논문 1,001편 1,277K 27,331 106,328

보 신문 1,655편 3,263K 67,349 270,591

, 1에 나타낸 같 각각 퍼스에 여 파 들 크 파들 크 에 크 는 래 8에 나타낸 같다.

[ 8]

스퍼 종

포스팅 포스팅

전 전 논문 2,367편 1,851,968 2,094,770 570,320 1,108,195

정보과 논문 1,001편 440,784 799,740 139,717 379,307

보 신문 1,655편 1,253,616 2,038,120 407,895 1,015,702

에 라, 각각 퍼스 들에 에 는 래 9에 나타난 같다.

[ 9]

스퍼 종 조에 원래 문 크 에 비

전 전 논문 2,367편 42.7% 42.8%

정보과 논문 1,001편 41.8% 42.2%

보 신문 1,655편 43.2% 43.6%

19-8

공개특 특1999-025846

Page 9: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

실험 결과에 펴보 , 에 존 는 정보과 퍼스에 가 좋 과 보 , 수식과 가 많 비 차 는 전 전 퍼스에 는 가 나 보 고 다. 그러나, 술 퍼스 종 에 라 38%에 50%내 보 고 는

여, 각 퍼스에 거 42%내 것 수 다.

라 , 술 같 에 에 검 과정에 간 연결 조 첨 9 참조 여 펴보 , 본 에 검 시스 들여

에 그 내 경 여 각각 내 수 다. 문 조 참조 는 조 여 조 제 (첨 2 참조)가

다. 그 고 문 절과 단 치 여 스(Prefix)검 수게 다.

2 9 참조 여 에 검 과정 수 는 주 에 여 펴보 , 가 게 는 에 여 실 가능 내 드 게 다.

본 에 는 본적 에 가 가 다.

가 근접(Proximity ) 검 과 정 검 , 근접 검 문 에 존 는 단 간 거 고 것 , 각각 단 가 문 내에 나 져 존 는가 시 수 다.

러 시 가능 시에 치정보 가 므 가능 다. 본 시스 러 근접검 에 많 과 수 다. 문 에 는 든 절에 검 가능 다. 띄 쓰 에

복 가 문 에 는 경 에 처 가능 다. 정보 검 과 정보 검 에 에 정보 검 또 정보 검 근접 1 검 가능 다.

정 검 경 는 비정 적 문 가 니라 정 문 내 검 는 다.

각각 종 그 종 에 연 에 보 .

첫째, OR 연 수 는 , 본 시스 에 는 연 여 연 | 는, 적 개념에 연 고 다. 또 , AND 연 , ANDNOT 연 - 연 다.

째는 근접 검 , 근접 연 연 본 시스 경 A, B, N 시 , 그 내 A B는 각각 고, N 근접 나타내는 , N 거 에 문 내에 A B가 존

는 경 에 그 문 가 검 다. 또 , 문 내 접근 연 [A, B, sent] 시 , A B는 각각 , 문 내에 경 당 문 가 검 다. 또 , 문단내 접근 연 [A, B,

para] 시 , A B는 각각 , 문 문단내에 경 당 문 가 검다.

정 검 , 정 검 N1,N2,A 태 다. , N1 ID,N2는 드 ID 각각에 는 정 문 에 다. 그 고 A는 문 열 가 찾고 는 것다. 연 순 는 연 에 래에 가 낮 다. 또 , 는

여 연 순 제 수 다.

, 는 Lexical Analysis, Syntax Analysis, Code Generation 등 과정 거쳐 실 드 고 여 검 수 다. 러 과정 첨 10에 시

다. 과 술 고 에 여 고 싶 는 검 여, 다 과 같 만들 수 다.

(과 | 술) ....... 실 1

또는,

([ , 과 , sent]|[ , 술, sent]) ........ 실 2

실 1에 는 첫 째 보다는 실 2에 는 째 가 체 것 다. 게 근접검 과 같 여 가 원 는 문 에 접근 가능

다.

술 내 에 문 검 과정 펴보 , 에 나타나는 들 문 조에 검 여 그 에 문 집 에 정보 가 고 는 것 말 다. 러 문 검 키워드 정보 검 시스 에 는 문 내에 그 키워드가 가 는 가 치 에 나타나는 나 연 에 정규 규칙에 검 는 문 에 순 다. 러 순

는 시스 에 미 고 결과라고 수 다. 전문 정보 검 시스 에 는 문 에 키워드에 가 치에 여 고 는다. 그 는 든 문 에 여 처

므 키워드 식에 -문 가 는다는 것 그 다.

라 , 는 문 에 절 단 고 검 시 단 는 태 단 가 주 므 가 단 매칭 여 Prefix 검 다. 물 복 경 나 조 , 접미등 에 는 단 에 검 는 Infix 검 여 다. Infix 검 문 는 당 저 공간 고 많 탐 시간 다. 그러므 는 Prefix 검 에 만 고 다. 가 (과 │ 술) 라고 다 , 는 저

라는 가 문 집 내 느 문 에 생 는가 검 여 다.

검 여 가 정보 과 포스팅 에 제 여 다. 제는 과정과 비슷 단 과정 순 가 뀌 쉽게 수 다.

19-9

공개특 특1999-025846

Page 10: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

에 는 정보에 찾 여 트라 라 검 게 다. 스 검 에 여 가정 , , , ..., 정보 라는등 절들

검 다.

, 가 찾고 는 것 , , 등과 같 단 조 가 절 다. 만 과 경 에 는 경 는 같다고 볼 수 다. 과 주 , 과 전, 과 술등과 같 절에 미적 가 원 는 것 수 다.

는 에 펴본 것 그 고 문 순 고 퍼 집 (Extended Fuzzy Set) 문 순 결정[참조문 : , 시 러스 는 검 시스쳄 문 순 결정 , 과 술원, 논문, 1993] 여 문 순 다. 검 문 에

절과 스트 차 단 간 미적 차 보 그 절 같는 적 값 다. 그 고 러 검 문 내 절 수 빈 수 계 다 ,

퍼 집 에 여 And, Or, AndNot 연 계 게 다.

술 같 과정에 본 에 컴퓨 시스 에 전문 정보 검 시스 적, 문 고 는 과정에 전문 여 정보 실 , 러

조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제공 수 다.

(57) 청

청 1

문 에 포 든 단 에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시스 에 에 ,

특정 문 당 문 에 존 는 절 는 절 과;

절 에 절들에 여 각 절들 문 내에 존 는 치 정보 는 치정보 과;

치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 ;

조 에 역 조 여 문 조 생 시키는 포 는 것 특징 는 전문 정보 검 시스 .

청 2

제 1 에 , 절 당 문 내에 존 는 정 특정 문 절 여 식 는 것 특징 는 전문 정보 검 시스 .

청 3

제 2 에 , 절 에 절 는 특정 문 는 스페 스 단 , . ) ? ' ! ` 탭문 , 문 는 것 특징 는 전

문 정보 검 시스 .

청 4

제 1 에 , 치정보 절 에 각각 절에 여 문 집 에 나 문 여 여 는 문 ID , 당 문 내에 째 문단에

그 절 포 는 가 나타내 문단 , 문단내에 그 절 는 문 치 나타내는 문 , 문 내에 째에 그 절 는 가 나타내는 절 여 는 것

특징 는 전문 정보 검 시스 .

청 5

제 1 또는 제 4 에 , 문단 식 각 문 에는 문단 치 는 종 특정 시문 가 각 문단 에 존 는 것 특징 는

전문 정보 검 시스 .

청 6

제 5 에 , 특정 시문 는 태그(tag) 는 것 특징 는 전문 정보 검 시스 .

청 7

제 6 에 , 태그(tag)는 ;P 태 갖는 것 특징 는 전문 정보 검 시스 .

청 8

19-10

공개특 특1999-025846

Page 11: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

제 4 에 , 치정보 문 여 여 문단내 존 는 문 는 . ? ! 스페 스 탭, 문 조 에 것 특징

는 전문 정보 검 시스 .

청 9

제 1 에 , 조 정보 정보 가 는 , 정보 갖는 동등 물 계층 갖는 제 크(Sibling Link)들과, 각

크들 물 계층에 비 여 단계낮 물 계층에 존 는 식 크(Child Link)들 다 존 엮여 는 트라 (Trie) 조 갖는 것 특징 는 전문 정보 검

시스 .

청 10

제 9 에 , 조 정보에 정보 가 는 각각 제 크(Sibling Link)들 전단에 치 는 에 스 드 스 저 는 포스팅 파

각 치정보만 그 정보 는 것 특징 는 전문 정보 검 시스 .

청 11

제 9 에 , 조에 는 각 들에 드 식 7비트 헤드 가는 , 저 2비트는 키 노드에 나타나는 문 에 헤드 , 다 2비트는 노드 시고, 다 3비트는 포스팅 파 에 당 노드 치정보 가 는 스 주 갖는 것 특징

는 전문 정보 검 시스 .

청 12

제 11 에 , 키는 2비트 문 숫 , 특수문 , 든 드 여 고 12비트 정 수 , 키 헤드 2비트에 는 가 는 키가 '00' 5비트

고, 키가 '01' 7비트 , 키가 '10' 9비트 고, 키가 '11' 12비트 는 것 특징 는 전문 정보 검 시스 .

청 13

제 11 에 , 2 비트 고 8비트 가 나타내는 , 헤드 2비트에 는 가 는 키가 '00' 0비트 고, 키가 '01' 2비트 , 키가 '10'

4비트 고, 키가 '11' 8비트 는 것 특징 는 전문 정보 검 시스 .

청 14

제 13 에 , 신 가 '00' 경 는 노드 차 가 1 경 나타내는 것 특징 는 전문 정보 검 시스 .

청 15

제 11 에 , 3비트 는 스는 고 24비트 나타내는 , 스 드는 노드 스 차 가 '0' 거나 보다 큰 숫 가 므 런랭스 가 에

, 스가 '000' 는 0비트 고, 스가 '001' 는 6비트 , 스가 '010' 는 8비트 고, 스가 '011' 는 10비트 , 스가 '100' 는 12비트 고, 스가 '101' 는 16비트 , 스가 '110'

는 24비트 것 특징 는 전문 정보 검 시스 .

청 16

특정 문 당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존 는 치 정보 는 치정보 과,

치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 , 조 에 역 조

여 문 조 생 시키는 포 는 여 문 에 포 든 단에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시스 에 전문 정보 검 검 에 :

가 게 는 실 가능 내 드 는 과;

에 드에 여 문 조 검 는 문 조 검 과;

문 조 검 에 검 조 저 는 스 여 조 제 는 조 신 ;

조 신 에 제 문 들 에 드에 는 문 는 문 포 는 것 특징 는 전문 정보 검

검 시스 .

19-11

공개특 특1999-025846

Page 12: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

청 17

제 16 에 , 식과 근접(Proximity ) 검 과 정 검에 식 여 는 것 특징 는 전문 정보 검 검 시

스 .

청 18

제 17 에 , 식에는 OR 연 과, AND 연 ANDNOT 연 수 는 것 특징 는 전문 정보 검 검 시스 .

청 19

제 18 에 , 식에 OR 연 수 는 연 는 | 는 것 특징 는 전문 정보 검 검 시스 .

청 20

제 18 에 , 식에 AND 연 수 는 연 는 는 것 특징 는 전문 정보 검 검 시스 .

청 21

제 18 에 , 식에 ANDNOT 연 수 는 연 는 - 는 것 특징 는 전문 정보 검 검 시스 .

청 22

제 16 에 , 근접 검 식에는 근접 연 과, 문 내 접근 연 문단내 접근 연 수는 것 특징 는 전문 정보 검 검 시스 .

청 23

제 22 에 , 근접 검 식에 근접 연 수 는 연 는 A, B, N 시 , A B는 각각 고, N 근접 나타내는 , N 거 에 문 내에

A B가 존 는 경 에 그 문 가 검 는 것 특징 는 전문 정보 검 검 시스 .

청 24

제 22 에 , 근접 검 식에 문 내 접근 연 수 연 는 [A, B, sent] 시 , A B는 각각 , 문 내에 경 당 문 가 검 는 것 특징 는 전문 정보 검 검 시스 .

청 25

제 22 에 , 근접 검 식에 문단내 접근 연 수 연 는 [A, B, para] 시 , A B는 각각 , 문 문단내에 경 당 문 가 검 는

것 특징 는 전문 정보 검 검 시스 .

청 26

제 16 에 , 정 검 수 연 는 N1,N2,A 태 는 , N1 ID 고 N2는 드 ID A는 문 열 가 찾고 는 , 연 순 는 연 에 래에 가 낮 는 것 특징 는 전문 정보 검 검 시스 .

청 27

제 1 내 제 26 에 나타나 는 든 적 특징에 여 문 검 시 고 문 전문 여 고 검 는 것 특징 는 컴퓨 시스 에 전문 정보 검 시스 .

19-12

공개특 특1999-025846

Page 13: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

1

2

3

19-13

공개특 특1999-025846

Page 14: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

4a

4b

19-14

공개특 특1999-025846

Page 15: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

4c

19-15

공개특 특1999-025846

Page 16: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

4d

5

19-16

공개특 특1999-025846

Page 17: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

6

7

19-17

공개특 특1999-025846

Page 18: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

8a

8b

9

19-18

공개특 특1999-025846

Page 19: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

10

19-19

공개특 특1999-025846