제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 ·...

26
제1장 컴퓨터와 정보 처리 | 1 제1장 컴퓨터와 정보 처리 정보 사회를 이야기할 때 빼놓을 수 없는 것 가운데 하나는 과학 기술 의 발전과 컴퓨터의 발명이다 . 언어의 사용 , 문자와 활자의 발명으로 정 보 사회로의 변화를 위한 토대가 마련되었다고 하더라도 컴퓨터가 발명 되지 않았더라면 정보 사회로의 발전은 기대하기 어려웠을 것이다 . 먼저 정보 사회의 필수품인 컴퓨터가 갖는 특징을 살펴보고 , 언어를 연구하는 과정에서 컴퓨터가 어떤 의의를 갖는지 살펴보기로 한다. 1. 컴퓨터의 활용 컴퓨터로 언어 자료를 분석하는 이유는 작업의 효용성을 높이려는 것 이다. 언어 분석 작업을 수작업으로 한다는 것은 이론적으로는 가능하 . 가령 선정된 텍스트를 끝까지 읽어서 그 안에 나타나는 모든 단어를 나열하고 , 그 형태가 변이형인지 아닌지를 가리기 위해서 여러 어휘를 비교하여 그 변이유형을 정리 요약한 후에 규칙을 찾아내고 , 검토한 텍 스트에 일관된 규칙이 적용될 수 있는지 살펴볼 수 있다 . 방대한 작품을

Upload: others

Post on 23-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 1

제1장 컴퓨터와 정보 처리

정보 사회를 이야기할 때 빼놓을 수 없는 것 가운데 하나는 과학 기술의 발전과 컴퓨터의 발명이다. 언어의 사용, 문자와 활자의 발명으로 정보 사회로의 변화를 위한 토대가 마련되었다고 하더라도 컴퓨터가 발명되지 않았더라면 정보 사회로의 발전은 기대하기 어려웠을 것이다. 먼저 정보 사회의 필수품인 컴퓨터가 갖는 특징을 살펴보고, 언어를 연구하는 과정에서 컴퓨터가 어떤 의의를 갖는지 살펴보기로 한다.

1. 컴퓨터의 활용

컴퓨터로 언어 자료를 분석하는 이유는 작업의 효용성을 높이려는 것이다. 언어 분석 작업을 수작업으로 한다는 것은 이론적으로는 가능하다. 가령 선정된 텍스트를 끝까지 읽어서 그 안에 나타나는 모든 단어를 나열하고, 그 형태가 변이형인지 아닌지를 가리기 위해서 여러 어휘를 비교하여 그 변이유형을 정리 요약한 후에 규칙을 찾아내고, 검토한 텍스트에 일관된 규칙이 적용될 수 있는지 살펴볼 수 있다. 방대한 작품을

Page 2: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

2 | 프랑스어와 컴퓨터

이런 방식으로 분석하면 엄청난 시간이 소요될 것이다. 전체 작업을 수작업으로 한다는 것은 불가능했을 것이기 때문에, 아예 그 가능성은 고려할 필요가 없다. 컴퓨터를 이용하는 경우, 작업의 속도와 정확성은 연구의 가장 중요한 필수조건 중의 하나가 될 것이다.

그렇다고 컴퓨터를 이용한 언어 분석 작업과 수잡업으로 진행하는 언어 분석 작업이 같다고 말할 수는 없다. 사실, 컴퓨터를 이용하는 작업 방식에 상당한 변동과 제약이 있고, 또 문제가 많이 발생하는데, 이런 문제를 해결하려고 하는 과정에서 컴퓨터를 활용한 언어분석의 장단점이 드러난다.

1.1. 자료처리 속도와 일관성

컴퓨터로 자료를 처리하는 과정에서 고려해야 하는 또 다른 측면이 있다. 일반적으로 컴퓨터를 이용하게 되면 수작업 때와는 달리 분석에서 일관성을 유지할 수 있다. 그렇다고 해서 이것이 무조건 좋은 것만은 아니다. 왜냐하면, 프로그램상의 실수까지도 완전히 일괄적으로 실행되는 반면에, 수작업 분석을 하는 경우에는 분석 중간마다 방법상의 실수를 발견할 수 있어서 너무 많은 시간과 노력이 낭비되기 전에 교정할 수 있기 때문이다.

완벽한 프로그램을 개발하기 위해서는 믿을만한 분석결과를 얻기 전에 반복적으로 철저한 실험, 평가 그리고 여러 번에 걸친 수정 작업이 선행되어야 한다. 하지만 모든 절차를 완수하였다고 해도, 전체 결과를 자세히 점검해보면 다시 문제가 발견되기도 한다. 물론 수작업에서도 실수는 발생한다. 그러나 그 경우에는 대개 작업자의 오해나 부주의, 피

Page 3: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 3

로, 지루함 등에서 야기된 것이라서 충분히 수정할 수 있는 문제인 경우가 많다.

최종 결과에 미치는 전반적인 영향은 훨씬 적지만 컴퓨터를 활용한 자료 분석에서도 문제를 완전히 제거하기는 어렵다. 문제를 최소화하기 위해서는 방법상의 실수를 발견하면 제거하면서, 전체 분석과정을 반복하면서 컴퓨터를 활용하는 것이다.

1.2. 형식 결정

자료를 컴퓨터에 입력하고 나면, 자료를 필요에 따라서 어떤 형식으로든 출력할 수 있다. 컴퓨터 화면으로 또는 프린터로 출력해 볼 수 있으며,

특정 형식으로 변환시켜 특정 프로그램에서 사용할 수 있게 저장할 수도 있다. 어떤 단계에서든 입력된 자료를 선별하여 원하는 형태와 형식으로 결과를 출력시킬 수 있다.

이런 작업을 수작업으로 하였다면 얻어진 결과를 다른 순서 혹은 형식으로 보기 위해 자료를 재배열할 때마다 아주 힘든 작업을 해야 할 것이다. 특히 색인카드를 다른 순서로 정렬하는 일은 어렵고 시간이 오래 걸리는 작업이다. 반면에 컴퓨터에 자료가 입력되면, 아주 빨리 그리고 손쉽게 여러 자료를 다양한 순서로 정렬시킬 수 있다. 컴퓨터에 자료를 입력하기 전에, 수작업과 컴퓨터 작업의 필요성 그리고 이들의 장단점을 [표 1]과 같이 비교해 볼 수 있다.

Page 4: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

4 | 프랑스어와 컴퓨터

장 점∙처리속도, 정확성 그리고 일관성∙결과 추가처리∙자료처리, 선별, 분류 및 원하는 형식으로 출력할 수 있는 능력∙인간의 편견 배제

단 점∙전자 텍스트 자료의 제한성 및 적절한 처리를 하는 데 필요한

추가 작업∙컴퓨터를 이용한 분석처리에 따르는 수정 작업∙프로그램 개발과 시험에 관여되는 부수적인 작업∙정상인의 배경 지식이 컴퓨터에는 빠져 있다는 점

[표 1] 컴퓨터 작업의 장점과 단점

컴퓨터를 활용한 정보처리 과정이 모든 연구를 수행하는 데 절대적으로 필요한 것은 아니다. 컴퓨터를 이용하는 것이 최상의 선택인지를 결정하기 전에 연구 수행 과정에서 디지털 정보가 얼마나 적절하고, 또 그로 인하여 어떤 결과가 야기될 것인지 충분히 검토해야 한다. 어떤 경우에는 작업 규모가 방대해, 어쩔 수 없이 컴퓨터를 이용하는 것이 유일한 방법일 수도 있다. 어떤 결정을 내려야 할지 애매할 경우에는 좀 더 구체적으로 자료를 분석해 봐야 한다.

1.3. 연구 계획의 구체적인 분석

연구 대상에 대한 구체적 자료 분석 과정에서 무엇을 주로 분석할 것인지 고려하기에 앞서, 컴퓨터를 이용하여 적합한 언어 분석 작업과 적합하지 않은 언어 분석 작업으로 작업을 분류할 필요가 있다. 많은 양의 자료가 이미 컴퓨터로 처리할 수 있는 형태로 되어 있어 그것을 비교적 간단하게 분석할 수 있는 상황이면, 가장 이상적으로 컴퓨터를 활용할 수 있는 연구에 해당한다. 기존 소프트웨어를 사용하면 자료 대부분을

Page 5: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 5

분석에 활용할 수 있다. 이렇게 기존 소프트웨어를 사용함으로써 프로그램 개발 노력을 최소화할 수 있다. 반대로 적은 양의 자료에 대한 복잡한 분석을 필요로 하면서도, 광범위한 자료준비와 프로그램 개발을 필요로 하는 연구에서는 컴퓨터를 효과적으로 활용하기 어렵다. 그러나 이런 경우라고 해도 컴퓨터를 이용할 경우에 얻을 수 있는 장점이 있다면 충분히 고려할만한 가치가 있다.

[그림 1] 웹에서 구할 수 있는 CD/DVD-ROM의 예

컴퓨터를 이용할 때 대두하는 첫 번째 문제는 분석 자료가 이용하려는 컴퓨터 하드웨어 및 소프트웨어에 적합하게 입력되어 있어야 한다는 것이다. 이 문제는 무엇보다도 연구대상 언어자료가 일반적이고 대표적인 것이 아니라 특수한 것인 경우와 밀접하게 연관되어 있다. 예를 들어서 17세기 프랑스 소설가의 문체를 연구한다고 가정하자. 그의 작품은

Page 6: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

6 | 프랑스어와 컴퓨터

비슷한 시기에 더 인기 있었던 다른 작가의 작품과 비교했을 때에 일반 텍스트 자료 보관소에 보관되어 있을 가능성이 적다. 반면에 필요한 자료가 대표적인 20세기 소설이라면, 기존 디지털 자료를 통해서 상당히 많은 양의 텍스트를 쉽게 구할 수 있다. 유명 작가의 작품은 [그림 1]과 같이 CD/DVD-ROM 또는 기타 자료 보관소에서 흔하게 찾아볼 수 있다.

이런 경향 때문에 구하기 쉬운 자료 쪽으로 연구범위가 좁아지는 결과가 나올 수 있다. 이로 말미암아 연구의 질이 손상되는 일이 발생하지 않도록 주의해야 한다. 결정을 내릴 때에는 작업에 영향을 미칠 어떤 요인이든지 세세하게 검토해야 한다. 만일 CD/DVD-ROM에 수록된 자료를 사기로 했다면 그 구매비용도 고려해야 한다.

다양한 방법으로 디지털 자료를 살 수 있다고 해도, 그 자료는 연구에 곧바로 사용할 수 있는 형태로 되어 있지 않을 수도 있다. 텍스트 자료 보관소에서 찾아낸 텍스트를 특정 연구 목적에 이용하려면, 자료의 형식을 변환시켜야 한다. 자료형식을 변환하려 할 때, 원본 자료 및 작업에서 사용하고자 하는 장비와 호환되는 하드웨어와 소프트웨어가 필요하긴 하지만 이런 작업은 비교적 쉽다.

비록 자료는 입수하였지만, 그 자료 처리에 문제를 일으킬 수 있는 요소가 많이 포함된 경우, 활용하기 전에 복잡한 과정을 거쳐야 한다.

한 예로서, 연구에 필요하지 않으면서도 분석결과를 왜곡시킬 수 있는 특수기호가 자료에 많이 포함되어 있을 수 있다. 만일 이 특수기호를 일괄적으로 쉽게 찾아낼 수 있다면, 별로 큰 문제가 되지 않는다. 더욱 문제가 될 수 있는 것은 아주 불규칙하게 나타날 수 있는 텍스트상의 실수를 수정해야 하는 경우이다. 극단적인 경우에는 수작업으로 일일이 수정해야 한다. 디지털 자료 구축 과정에서 모든 준비 작업에 걸리는

Page 7: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 7

시간이나 경비, 또는 이 두 가지 모두에 대한 전체 비용을 계산해야 한다.

필요한 자료를 입수하지 못한다면, 아날로그 자료를 디지털 형식으로 변환시켜야 한다. 자료를 분석하기 위해서, 어떤 방법이 좋은 방법인지 선택하기 전에, 먼저 어떤 유형의 자료를 다루게 될 것인지를 주의 깊게 살펴보아야 한다. 일단, 입력방법이 결정되면 자료 준비 작업에서 했던 것과 같은 방법으로 소요 시간과 비용을 계산하여 최종 결정을 내리게 된다.

전체 작업을 수작업과 컴퓨터를 이용한 작업으로 배정하는 것은 때로는 어려운 일일 수 있다. 컴퓨터를 이용하는 이유는 그렇게 함으로써 시간이나 돈, 또는 이 두 가지 모두를 절약해주거나, 연구의 질을 향상시켜 주거나, 다른 장점이 있다는 것을 확신하기 때문이다. 많은 경우에 컴퓨터를 이용함으로써 비용절감이나 질적 향상을 기할 수 있지만, 이것은 컴퓨터를 가장 효과적으로 이용할 때에만 가능하다. 자세한 내용은 제2부에서 알아보기로 한다.

2. 컴퓨터의 특징

현대인은 컴퓨터 앞에서 보내는 시간이 점점 늘어나고 있다. 텔레비전을 보기 위해 텔레비전 앞으로 가지 않아도, 글을 읽기 위해 도서관으로 가지 않아도, 물건을 사기 위해 시장에 가지 않아도 모든 일을 컴퓨터 앞에서 처리할 수 있기 때문이다. 이제 컴퓨터는 우리의 삶에서 떼어내려야 떼어낼 수 없는 존재가 되었다.

컴퓨터는 지능을 가지고 있지 않다는 점에서 본질적으로 무능하다.

Page 8: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

8 | 프랑스어와 컴퓨터

컴퓨터는 인간과 달리 학습할 수 있는 능력도 없으며, 외부의 사태를 올바르게 인식하여 대처하는 능력도 없으며, 새로운 사태가 발생했을 때, 기존의 지식을 바탕으로 추론하여 문제를 해결할 수도 없다. 인간이 수십 개의 자음과 모음만으로 모든 사고와 감정을 표현할 수 있다는 것은 분명 놀라운 일이다.

그러나 더욱 놀라운 일은 컴퓨터가 단 두 개의 장치, 곧 0(꺼짐)과 1(켜짐)만으로 문자는 물론, 크기, 길이, 높이, 색깔, 소리, 모양에 이르기까지 우리가 표현할 수 있는 거의 모든 것을 표현한다는 점이다. 표현이라는 측면에서만 보면 컴퓨터가 사용하는 장치가 인간이 사용하는 장치보다 훨씬 더 효율적인 셈이다.

사람이 할 수 있는 일에 비하면 컴퓨터가 할 수 있는 일은 그리 많지 않다. 아무리 성능이 뛰어난 컴퓨터라고 하더라도 아직 인간처럼 사고하는 능력과 지능을 갖지는 못했다. 그러나 컴퓨터는 인간보다 일을 훨씬 더 빠르고, 정확하게 처리할 수 있다.

똑같은 일을 여러 사람에게 동시에 시켜 보고, 동시에 그 일을 여러 대의 컴퓨터에서도 처리해 보자. 사람의 경우에는 개인에 따라 그 결과가 다를 수 있겠지만, 컴퓨터의 경우에는 그 결과가 다르지 않을 것이다.

똑같은 일을 계속 반복해서 시켜도 마찬가지일 것이다. 컴퓨터는 똑같은 일을 계속시킨다고 짜증내는 일없이 매번 같은 결과를 출력할 것이다.

정보를 생산하고 축적하고 전달하는 가장 보편적인 수단은 언어다.

그리고 지금 우리가 살아가고 있는 사회, 곧 정보 사회는 우리가 감당할 수 없을 정도로 많은 정보를 쏟아낸다. 정보를 효율적으로 처리하기 위해 컴퓨터를 이용할 수밖에 없는 것은 바로 이런 이유에서이다.

컴퓨터를 이용하여 정보를 처리하기 위해서는 언어를 이해하는 것이

Page 9: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 9

필수적이다. 우리는 누구나 ‘지수만 과자를 먹었어’라는 문장이 어떤 뜻을 가지며 어떤 상황에서 쓰일 수 있는지 알지만, 한국어 형태소 분석 시스템을 갖추지 않는 컴퓨터는 그 뜻을 분석하지 못할 것이다. 한국 사람은 누구나 의식적으로든 무의식적으로든 ‘지수만’을 ‘지수’와 ‘만’으로 쪼갤 수 있지만, 컴퓨터는 그렇게 하지는 못한다.

최근 형태소 분석기가 개발되어 자연 언어를 곧잘 분석해내고 있다.

한국어나 프랑스어 형태소 분석기를 잘만 활용하면, 필요한 언어 정보를 얻을 수 있다. TreeTagger와 같은 형태소 분석기에 프랑스어 문장을 입력하면, [그림 2]와 같이 비교적 정확한 문법 관련 정보를 얻을 수 있다.1)

[그림 2] TreeTagger를 활용한 프랑스어 문장 분석

굳이 정보 처리를 위해서가 아니더라도, 단순히 언어 자체를 연구할 목적이 있을 때라도 컴퓨터를 이용하는 일은 여전히 유용하다. 언어 연구에서 컴퓨터를 이용함으로써 우리는 쉽고 빠르게 원하는 정보를 얻을

1) http://web4u.setsunan.ac.jp/Website/TreeOnline.htm과 http://beta.visl. sdu.dk/visl/ fr/parsing/automatic/parse.php 참고

Page 10: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

10 | 프랑스어와 컴퓨터

수 있다.

그러나 언어 연구에서 컴퓨터를 이용하는 일이 언제나 쉽고 간단한 일은 아니다. 일상생활에서 아무런 불편 없이 잘 사용하기 때문에, 인식하지 못할 뿐이지 언어는 우리가 생각하는 것보다 훨씬 더 복잡하며,

언어를 이해하는 일은 단순히 눈으로 보고 귀로 들어서 할 수 있는 일이 아니다. 컴퓨터로 언어를 분석하기 위해서는, 반드시 언어 정보 처리 과정을 거쳐야 한다.

3. 정보 처리

정보 처리라는 말이 낯설게 들릴지도 모른다. 어디서 들어본 것 같기도 한데 무슨 의미로 쓰이는 말인지 잘 모르겠는 사람도 있을 수 있다.

이런 말 자체를 생전 처음 들어보는 사람도 있을 수 있다. 그러나 우리가 의식하지 못할 뿐이지 정보 처리라는 말은 이미 우리의 삶과 많은 부분이 관련되어 있다. 먼저 정보 처리의 개념에 대해 살펴보고, 정보 처리 기술이 우리 주변의 어떤 분야에서 어떻게 응용되고 있는지에 대해 살펴보기로 한다.

3.1. 정보 처리의 개념

우리는 끊임없이 눈, 귀, 코, 입, 피부 등 우리의 신체 기관을 이용하여 우리의 삶에 필요한 온갖 정보를 주변으로부터 얻고 기억한다. 그리고 그 정보를 토대로 새로운 정보를 생산하기도 하고, 새롭게 생산한 정보

Page 11: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 11

를 다른 사람에게 전달하기도 한다. 이렇게 정보를 얻고, 기억하고, 생산하고, 전달하는 모든 과정을 ‘정보 처리’라고 한다.

인간만큼 훌륭한 정보 처리 장치는 없다. 그러나 21세기 정보사회의 도래와 더불어 정보가 폭발적으로 증가하면서 이제 인간은 삶에 필요한 온갖 정보를 스스로 처리하기에는 벅찬 상황에 이르렀다. 인간을 대신할 수 있는 정보 처리 장치가 필요하다.

컴퓨터는 인간을 대신하여 정보를 처리할 수 있는 훌륭한 장치다. 정보 처리라는 말은 이제 자연스럽게 ‘컴퓨터를 이용한’이라는 뜻을 내포하는 말로 굳어져서 쓰이게 되었다. 정보 처리라고 하면 언어 처리를 전제로 하는 것이 보통이다. 앞서 살펴보았듯이 정보를 생산하고 전달하는 가장 대표적인 수단은 언어이기 때문이다.

컴퓨터와 관련된 기술이 급속하게 발전해 인간은 자신을 대신할 훌륭한 정보 처리 도구를 갖게 되었지만, 아직 가야 할 길은 멀고 험하다.

컴퓨터가 인간보다 훨씬 빠르게 정보를 처리할 수 있는 능력이 있는 것만은 틀림없다. 그러나 어떤 컴퓨터도 아직은 인간만큼 정확하게 정보를 처리할 수 있는 능력을 갖추지는 못했다.

정보 처리 도구로서 컴퓨터가 인간을 대신하기 위해서는 무엇보다도 컴퓨터가 인간의 언어를 이해할 수 있어야 한다. 21세기 정보 사회에서 언어에 대한 연구가 필요하며, 자연언어 처리 기술의 발전 없이는 정보 처리의 미래도 기대할 수 없다.

Page 12: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

12 | 프랑스어와 컴퓨터

3.2. 정보 처리 기술의 응용

아직 만족할 만한 수준에 이른 것은 아니지만, 정보처리 기술은 다양한 분야에서 활용되고 있다. 이 가운데에서 정보 검색, 정보 차용, 정보 활용 등에서 정보 처리기술이 어떻게 응용되고 있는지 간략하게 살펴보기로 한다.

인터넷상의 각종 웹 사이트에서 우리는 검색 엔진을 이용하여 다양한 정보를 얻는다. 몇 글자의 검색어를 입력하여 원하는 정보를 얻을 수 있는 것은 우리가 필요로 하는 온갖 정보가 데이터베이스(database)의 형태로 저장되어 있기 때문에 가능한 일이다. 예를 들어 학교도서관 홈페이지에서 ‘자료명’, ‘저자’, ‘출판사’, ‘주제’ 가운데 어느 하나에 관련된 검색어를 입력하여 원하는 책을 찾을 수 있는 것은 도서관에서 소장하고 있는 모든 책에 대한 ‘자료명’, ‘저자’, ‘출판사’, ‘주제’ 등의 정보가 데이터베이스로 구축되어 있기 때문이다.

정보 검색 시스템은 우리가 필요로 하는 정보를 수집하여 데이터베이스의 형태로 저장해 두었다가 정보에 대한 요구가 발생했을 때 데이터베이스로부터 적합한 정보를 검색하여 제공하는 시스템이다. 정보 검색 시스템은 검색 대상이 되는 정보의 형태 및 검색 방법에 따라 데이터 검색 시스템, 참조 정보 검색 시스템, 본문 검색 시스템, 질의응답 시스템 등으로 나뉜다.

색인(indexing)은 데이터베이스로 구축한 각 자료로부터 주제어, 관련 인명, 관련 일자, 관련 기관 등 그것에 관련된 각종 정보를 색인어의 형식으로 추출하는 것을 말한다. 폭발적으로 증가하는 자료와 정보를 효율적으로 관리하기 위해서는 컴퓨터를 이용한 자동 색인이 바람직하지만,

Page 13: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 13

우리가 이용할 수 있는 대부분의 정보 검색 시스템은 대체로 인간이 만든 수동 색인을 활용한다. 자동 색인을 위해서는 자연언어에 대한 이해가 필수적인데 아직 인간만큼 정확하게 자연언어를 이해할 수 있는 컴퓨터는 없다.

정보 검색 시스템을 이용한 정보 검색은 대체로 [표 2]와 같은 과정으로 이루어진다. 먼저 사용자가 질의어(검색어)를 입력하면 정보 검색 시스템은 이를 분석한다. 다음으로 정보 검색 시스템은 데이터베이스로부터 사용자의 요구(질의어)에 적합한 정보를 검색, 출력하여 사용자에게 제공한다.

사용자 질의어(검색어) 입력

정보 검색 시스템

질의어 분석↓

정보 검색(데이터베이스)↓

정보 출력↓

사용자 정보 획득

[표 2] 정보 검색 과정

그런데 검색 과정에서 한국어와 프랑스어를 동시에 입력하려 할 때,

특수 문자 입출력에 어려움이 있을 수 있다. 대부분 검색 사이트에서 외국어 특수문자를 입력하지 않아도 해당 언어 자료 검색을 허용한다.

더 정확한 자료를 검색하기 위해서는 [그림 3]과 같이 한국어 시스템에 프랑스어 자판을 추가로 설정하여야 한다.

Page 14: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

14 | 프랑스어와 컴퓨터

[그림 3] 한글 윈도우즈 시스템에서 프랑스어 캐나다 키보드 설정

왼쪽 Alt + Shift 키로 한국어 → 프랑스어 → 영어 키보드로 변경할 수 있어 검색 사이트에서 더 정확한 검색을 할 수 있고, 이메일이나 워드프로세서에서 프랑스어를 입력할 수 있다.

[그림 4] 프랑스어 키보드를 설정하고 Google에 자료를 검색한 예

Page 15: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 15

[그림 3]에서처럼 프랑스어 키보드를 설정하면, 정확한 검색어를 입력할 수 있어, [그림 4]에서처럼 필요한 정보를 찾을 확률을 높일 수 있다.

이뿐만 아니라 한글 윈도우즈에서 프랑스어와 한국어의 입력방법을 익힐 수 있다는 장점도 있다.

인터넷 검색결과를 나중에 참조할 필요가 있을 때 항상 북마크에 등록해 두고, 이를 체계적으로 정리해 두는 것이 좋다. 이렇게 정리된 자료는 이후에 뛰어난 정보원으로 활용될 수 있기 때문이다. 하지만 북마크에 등록된 자료는 영원하지 않다. 인터넷의 내용이 언제 바뀔지, 언제 없어질지 알 수 없기 때문이다. 따라서 검색된 결과를 자신의 것으로 만들어 두는 것이 중요하다. [표 4]와 같이 자료를 자정할 필요가 있다.

먼저, 웹 페이지를 즉시 인쇄하는 방법이다. 화면에 보이는 내용을 모두 프린터로 인쇄하는 방법이다.

∙인터넷 익스플로러 등의 파일(File) 메뉴에서 인쇄(Print)라는 항목을 선택하거나 툴바에서 인쇄 아이콘을 눌러 주면 된다.∙웹 페이지의 내용을 인쇄하면 상단에 웹 페이지의 제목과 주소(URL)가 표시되기

때문에 어느 곳의 정보인지 쉽게 파악할 수 있다.∙웹 페이지를 인쇄하는 방법은 시각적으로 확인할 수 있다는 장점이 있지만,

분량이 많은 경우 인쇄하는 시간과 종이 낭비를 초래할 수 있다.

[표 3] 웹 페이지 화면 인쇄 방법

다음으로, 웹 브라우저의 파일저장 기능을 이용하는 방법이 있다. 익스플로러 5.0 이상을 사용하고 있다면, 불편함 없이 간단하게 페이지를 통째로 저장할 수 있다. 그러나 이렇게 웹사이트를 통째로 저장 방법은 저작권을 침해할 우려가 있어 신중해야 한다. 검색해서 필요한 내용만 따오는 것이 바람직하다.

Page 16: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

16 | 프랑스어와 컴퓨터

∙우선 익스플로러를 통해 저장하고 싶은 홈페이지로 이동한다.∙그리고 “파일 → 다른 이름으로 저장” 메뉴에서 파일 형식을 “*.mht”로 저장하면

파일 하나에 그림과 HTML을 모두 저장하게 된다.∙MHT라는 파일 포맷은 익스플로러 5.0 이상에 추가된 기능으로 웹 페이지 보관

전용 파일이다. 즉, 온라인상으로는 사용할 수 없는 포맷이지만 자신의 PC에 페이지를 저장해 둘 때는 아주 유용하다.

[표 4] 웹 사이트 저장 방법

앞에 제시한 방법은 웹 페이지 전체를 따오는 방법이었다. 필요한 부분을 따오려면, 응용 프로그램을 활용할 수 있다. 텍스트, 그림, 음성,

동영상 등, 따오는 내용에 따라, 프로그램도 다양하다.

[그림 5]와 같이 텍스트를 블록으로 설정하여, 웹페이지 형식으로 저장하거나, 워드프로세서에 저장할 수 있다. 이때, 프랑스어가 깨지는 경우 웹페이지의 인코딩을 유니코드(UTF-8)로 설정하면 된다. 따온 웹페이지를 수정하려면, 나모(NAMO)와 같은 에디터를 활용할 수 있다.

[그림 5] 웹에서 텍스트를 따온 예

Page 17: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 17

텍스트를 따올 때, 블록이 설정되지 않는 경우가 있는데, 이것은 저작권을 보호하기 위해 차용을 금지하는 것이다. 텍스트 자료가 꼭 필요하다면, 소스를 복사하거나 그림으로 따온 후, 필요한 내용을 키보드로 입력해야 한다.2)

워드프로세서에 따올 때도 특수문자가 깨지는 경우가 있는데, 이럴 경우, 메모장에 복사한 후 유니코드로 저장한 내용을 다시 따오면, 특수문자가 깨지지 않는다. 프랑스어와 한국어의 활용 방법에 대해서는 제2

부에서 자세히 알아보기로 한다.

그림을 따오는 프로그램으로는 캡순이, 스내깃(SnagIt) 등이 있다. 따온 그림을 *.gif, *.jpg, *.bmp 등 여러 형식으로 변환할 수 있어 유용하다.

주로 신문 기사나 뉴스에 나오는 그림을 따올 때 사용하지만, 필요할 경우 [그림 6]과 같이 컴퓨터 화면이나 스캔한 그림도 따올 수 있다.3)

[그림 6] SnagIt으로 그림을 따온 예

2) http://myungwan.chonbuk.ac.kr/rfih2010t/boardlist.php 참고3) http://www.techsmith.com/snagit.html 참고

Page 18: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

18 | 프랑스어와 컴퓨터

SnaIt을 사용하는 경우 차용 방법을 잘 설정해야 입력키가 충돌하지 않는다. 보통 Shift+Ctrl+P를 사용하지만 필요할 경우 PrtScr를 사용할 수 있다.

음성을 따오는 프로그램으로 토탈 리코더(Total Recoder)를 활용할 수 있다. 이 프로그램을 활용할 때, Sound Board → Use the Mixer를 설정해 주어야 웹상에서 음성을 따올 수 있다. Sound Image에서 음성을 들으면서 필요한 부분을 편집할 수 있고, 저장 방식도 *.wav, *.wma, *.mp3

등 다양하게 설정할 수 있다.4)

[그림 7] Total Recoder로 음성을 따온 예

[그림 7]에서처럼, 토탈 리코더를 활용하면, 라디오 뉴스나 음성 자료를 불러들여, 필요한 부분을 선택적으로 따올 수 있다. 주의할 점은 Selection 부분에서 시작과 끝을 잘 맞추어 저장해야 음성이 잘리지 않는

4) http://www.totalrecorder.com/ 참고

Page 19: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 19

다는 것이다.

동영상을 따오는 프로그램으로 캠타시아(Camtasia)를 활용할 수 있다.

동영상 편집이 쉽고 저장 방식도 *.avi, *.swf, *.wmv, *.mp4, *.mov 등 다양하다. 음성을 따올 때와 마찬가지로 오디오 장치에 Mixer를 설정해야 화면과 소리를 동시에 따올 수 있다. 따온 동영상 자료는 캠타시아 Studio에서 필요한 부분을 편집할 수 있다.5)

[그림 8] Camtasia로 동영상을 따온 예

[그림 8]과 같이 캠타시아로 동영상을 따올 때는, 먼저 딸 영역을 잘 설정해야 하고, 붉은색 녹화 버튼을 눌러 녹화를 시작하고, 녹화가 끝나면, F10을 눌러 종료해야 한다. 녹화가 끝나면, *.CAMPROJ 파일로 저장되기 때문에 이것을 Camtasia Studio에 다시 불러들여 녹화방법을 설정

5) http://www.techsmith.com/camtasia.html 참고

Page 20: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

20 | 프랑스어와 컴퓨터

하고 저장해야 한다. 그냥 녹화를 끝내면, 따온 동영상 파일을 찾을 수가 없다. 동영상을 잘 따기 위해서는 반복적으로 연습하여 프로그램에 익숙해져야 한다.

따온 텍스트, 그림, 음성, 동영상 자료를 원하는 목적으로 잘 활용하려면, 적절한 응용프로그램을 선택해야 한다. 프로그램을 잘만 활용하면,

원하는 결과를 얻을 수 있다.

*.html 형식으로 저장하여 웹페이지로 활용하거나 *.doc, *.txt, *.hwp,

*.rtf, *.pdf 등과 같은 형식으로 저장하여, 오프라인 프로그램에서 활용할 수 있다. 온라인과 오프라인 프로그램에서 한국어와 프랑스어의 입출력 방법이 다르고, 오프라인 프로그램에서도 *.hwp와 다른 프로그램의 특수문자 입력 방식이 다르므로, 프로그램에 따라 프랑스어 입력에 주의해야 한다.

특수문자 html 코드 특수문자 html 코드 à À â Â é É è È ê Ê ë Ë î Î

àÀâ  éÉèÈê Ê ëËî Î

ï Ï ô Ô ö Ö ù Ù û Û ü Ü Ç ç

ï Ï ô Ô ö Ö ù Ù û Û ü Ü Ç ç

[표 5] Html 특수문자 코드

Page 21: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 21

[그림 9] 나모에 프랑스어를 입력한 예

[표 5]나 [그림 9]에서처럼, 나모와 같은 프로그램에서 프랑스어 키를 설정하고 입력하거나, html 코드를 직접 입력할 수도 있다. 번거로움을 피하고자 ‘아래아 한글’에서 자료를 수정한 후 나모에서 *.hwp 파일을 불러들여 웹페이지로 만들 수 있다. ‘아래아 한글’에서는 한글 윈도우즈 시스템에서 설정하는 프랑스어 자판을 따르지 않고 자체적으로 외국어 자판을 설정하여 다양한 비 표준화 방법을 지향하고 있다. 도구 → 글자판 → 글자판 바꾸기에서 필요한 외국어 자판을 설정할 수 있다.

[그림 10] 프랑스 자판을 설정한 예

Page 22: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

22 | 프랑스어와 컴퓨터

[그림 11] 캐나다 자판을 설정한 예

영어 자판에 익숙한 한국인은 프랑스어 캐나다 자판이 편리하다. 간혹 프랑스어 특수문자의 합성이 필요할 때는 프랑스어 프랑스 자판으로 바꿔 입력하면 편리하다. 따온 그림 파일을 워드프로세서에 불러들여 편집할 수 있고, < img src=그림 파일 width= height= >와 같이 html 태그를 사용해 저장할 수도 있다. 나모를 활용하면 html 태그를 직접 사용하지 않고 그림 파일을 텍스트처럼 편리하게 입력할 수 있다.

따온 음성 자료를 스피치 아날리즈(Speech Analyse)나 프라트(Praat)

에 불러들여 발음 교육이나 음성 분석에 활용할 수 있다.6)

[그림 12] Speech Analyse에 음성 자료를 입력한 예

6) http://www-01.sil.org/computing/speechtools/SATdownloads2.htm 참고

Page 23: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 23

[그림 13] Praat에 음성 자료를 입력한 예7)

토탈 리코더로 따온 음성 자료를 스피치 아날리즈에 불러들여, 원어민과 자신의 음성을 비교・분석하면서, 발음 학습에 활용할 수 있다. 프라트에 음성 자료를 불러들여, 다양한 음성 분석을 할 수 있으므로, 언어 치료나 언어 교정 목적에 활용할 수 있다.

[그림 14] Transcriber에 텍스트와 음성 자료를 불러들인 예

7) http://www.personal.rdg.ac.uk/~llsroach/phon2/freespeech.htm 참고

Page 24: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

24 | 프랑스어와 컴퓨터

이뿐만 아니라, 트랜스크리버(Transcriber)에 따온 텍스트 자료와 음성 자료를 함께 불러들여 외국어 교육에 활용할 수 있다.8)

트랜스크리버에 프랑스어와 한국어를 동시에 입력할 때, 한국어가 깨지지 않게 하기 위해서는 ISO 8859-1로 설정된 default 옵션을 UTF-8로 바꿔줘야 한다. 프랑스어와 한국어 설정 문제에 대해서는 제2부에서 자세히 알아보기로 한다.

동영상 자료는 크기가 크고 형식이 다양해 활용하는 데 어려움이 많다. 애란(ELAN) 프로그램에 따온 동영상 자료를 불러들여 외국어 교육에 활용할 수 있다. 특히 ELAN에 Transcriber나 *.xml 형식도 불러들일 수 있어, 텍스트, 음성, 동영상 등을 다양하게 활용할 수 있다.9)

[그림 15] ELAN에 *.trs와 동영상 자료를 불러들인 예

에란을 잘 활용하면, 텍스트, 음성, 동영상을 동시에 편집할 수 있어

8) http://trans.sourceforge.net/en/presentation.php 참고9) http://tla.mpi.nl/tools/tla-tools/elan/ 참고

Page 25: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

제1장 컴퓨터와 정보 처리 | 25

유용한 교육 자료를 만들 수 있다. 주의할 점은 저장할 때 자료의 형식을 잘 맞추지 않으면, 호환성이 떨어진다는 것이다.

정보화 사회에서 다양한 정보를 쉽게 얻을 수도 있지만, 정보를 얻는 데 여러 가지 제악도 있다. 컴퓨터를 사용할 줄 알아야 하며, 컴퓨터에 쉽게 접근할 수 있어야 하고, 인터넷에 접속할 수 있는 서비스에 가입해야만 각종 웹 사이트로부터 다양한 정보를 얻을 수 있다. 그리고 무엇보다도 중요한 것은 다양한 언어를 능숙하게 사용하지 못할 때에는 그만큼 정보를 얻는 데 제약이 따를 수밖에 없다.

기계 번역 장치가 정보화 사회에서 언어 장벽을 없애 줄 것이라는 기대가 크다. 외국어를 배워야 하는 고통으로부터 우리를 해방시켜 줄 것이라는 기대에 부응해 시작된 것이 자동화 정보처리 연구다. 기계 번역은 한마디로 컴퓨터를 이용하여 번역 대상이 되는 언어(대상어 source

language)를 번역 목표가 되는 언어(목표어 target language)로 바꾸는 일을 말하며, 기계 번역을 위해 설계된 시스템을 기계 번역 시스템이라고 한다.

[그림 16] Google 번역기로 번역한 예

Page 26: 제1장 컴퓨터와 정보 처리myungwan.chonbuk.ac.kr/frcom/frcom_01.pdf · 2017-02-26 · 제1장 컴퓨터와 정보 처리 | 5 분석에 활용할 수 있다. 이렇게 기존

26 | 프랑스어와 컴퓨터

오늘 저녁 영국에서 모든 것이 빠르게 변화되고 있다. 데이비드 카메룬이 새로운 영국 총리가 되었다. 그는 사임한 골든 브라운 총리의 뒤를 이었다. 그는 영국 여왕에서 자신이 새 내각을 구성하겠다고 알렸다. 이로써 13년간의 노동당 집권이 끝나게 되었다.

[표 6] 사람이 번역한 예

기계 번역은 자연언어를 분석하고 자연언어를 생성하는 등 자연언어 처리 기술이 집약되어야만 가능하다. 예를 들어 한국어를 프랑스어로 번역하려면 프로그램이 한국어를 분석(형태소 분석, 구문 분석, 의미 분석)할 수 있어야 하며, 프랑스어를 문법에 맞게 생성할 수 있어야 한다.

이런 점에서 기계 번역 시스템을 설계하고 구현하는 일은 여러 가지 정보 처리 기술 가운데에서 가장 어려운 일이다. 어떻든 기계 번역 시스템은 많은 양의 텍스트를 빨리 번역할 수 있다는 장점이 있다. 그러나 번역 시스템의 번역 성능은 아직 초보적인 수준에서 벗어나지 못하고 있다.