언어 자료 분석을 위한 통계학 2,3장

언어 자료 분석을 위한 통계학2,3,4장

통계학의 분류

1. 기술통계학(Descriptive Statistics)

측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석

등을 통해 자료의 특성을 규명하는 통계적 방법

2. 추론통계학(Inferential Statistics)

기술 통계로 어떤 모집단에서 구한 표본정보를 가지고 그 모집

단의 특성 및 가능성 등을 추론해내는 통계적 방법

모집단과 표본

1. 모집단(population)

모집단이란 분석의 대상이 되는 모든 관측치의 집합

2. 표본(sample)

통계 분석할 목적으로 모집단에서 추출하는 일부의 개체

언어의 모집단

1. 언어는 모집단이 분명하지 않다.

한국어 연구를 한다면, 제주말을 한국어로 볼 것인가?

2. 대상이 분명하지 않다.

이론에 따라 동일한 대상에 대한 단위가 바뀔 수 있다.

speak와 spoken을 같게 볼지, 다르게 볼지..

언어의 표본 (코퍼스)

촘스키의 비판

1. 코퍼스는 언어수행의 결과, 언어능력을 규명 못함.

2. 언어는 무한, 코퍼스는 유한

3. 코퍼스는 왜곡될 수 있다

4. 언어에 대한 직관으로 충분한 연구가 가능하다

언어의 표본 (코퍼스)

반론

1. 직관도 자료에 의존하는 경우가 많다.

2. 직관은 개인차가 있다.

3. 표본화가 잘된 코퍼스는 현실을 반영한다. 즉, 왜곡된 것

은 왜곡된 현실을 잘 반영하고 있는 것이다.

즉, 코퍼스를 잘 구축해야 한다.

모수와 통계량

1. 모수(parameter)

모집단의 특성을 나타내는 수, 모평균, 모분산, 모표준편차, 모

비율

2. 통계량(statistics)

모집단에서 추출한 표본의 특성을 나타내는 수치

통계량으로 모수를 추정하게 되며, 표본이 클수록 차이가 작아

짐.

표본 추출 방법

1. 확률 추출

- 단순 임의 추출

- 층화 추출

- 계통 추출

2. 비확률 추출

- 편의 추출

- 판단 추출

표본 추출의 주의사항

대부분의 표본의 크기를 중요하게 생각하는데

표본 추출에 대한 대부분의 이론은,

표본의 크기보다는 대상 모집단을 정의하고,

표본을 추출하는 방식을 선정하는 것이 중요하다고 본다.

모집단의 전체적인 다양성을 포함할 수 있어야 대표성을 가

지는 표본이라고 할 수 있다.

확률 추출

1. 단순 임의 추출

모든 구성원이 추출될 확률을 같게 하고 추출하는 것.

2. 층화추출

모집단을 성격에 따라 여러 층으로 나누고 각층에서 임의 추출

3. 계통 추출

모집단을 일정한 수로 나누고 간격에 따라 추출

비확률 추출

1. 편의 추출

모집단을 잘 알고 있는 경우 편의대로 추출

2. 판단 추출

모집단을 잘 알고 있는 경우 잘 대표하리라고 판단되는 표본을

추출

언어 표본(코퍼스)의 대표성과 균형성

모집단에 대한 대표성을 잘 갖춘 코퍼스가 되려면 균형성을

잘 갖춰야 한다.

균형성은 주로 텍스트의 종류에 대한 문제.

균형성을 위해서는,

외적기준과 내적기준을 고려.

외적기준은 텍스트를 보지않고 구분할 수 있는 기준.

언어 자료 모집단의 정의

언어 표본을 통한 연구를 위해서는 먼저, 대상 모집단에 대

한 정의를 잘 해야 한다.

코퍼스의 대표성은 모집단의 언어적 분포를 충분히 포괄하고 있

는가에 의존한다.

언어 자료의 대상 모집단을 정의할 때는,

모집단의 경계(어떤 텍스트를 넣고 뺄지)와 모집단의 계층

적 구조(모집단에 어떤 종류의 텍스트가 있는지)를 잘 정의하

고 구분해야 한다.

언어 자료 표본 추출 방법

먼저 표본 추출 틀(sampling frame)을 정한다. 듀이의 10

진 분류법 등을이용할 수도 있겠다.

틀에 따라 층화 추출을 하는 것이 좋다. 층 간의 변이가 층

내의 변이보다 훨씬 크기 때문에 모든 층이 담기도록 하는것이

더 높은 대표성을 가진다.

코퍼스 구축과 관련된 참고자료

Biber, D. 1993. Representativeness in corpus

design. Literary and Linguistic Computing 8/4:

243-57.

Atkins, S. Clear, J. and Ostler, N. 1992. Corpus

design criteria. Literary and Linguistic

Computing 7/1: 1-16.

원소와 변인

1. 원소(element)

자료 수집의 대상. 개체(unit)라고도 함.

2. 변인(변수, variable)

자료에서 관심을 갖는 대상이 되는 모집단 또는 표본의 특성

예를 들어, 자음중, ㅂ, ㅃ, ㅍ 등이 원소라면 그들의 음성

자질인 공명성, 자음성, 성절성 등은 변수가 됨.

자료의 종류

1. 질적 자료(qualitative data)

측정 척도가 본래부터 범주적인 자료

명목 자료, 서열 자료

예> 성별, 직종, 종교, 계급

2. 양적 자료(quantitative data)

값이나 양을 수치로 나타내는 자료. 양적자료에서는 가감승제가 의미를 갖는다.

구간 자료, 비율 자료

자료를 셀 수 있느냐에 따라

이산적 자료(discrete data)

예> 학생수, 과목수, 학점수 등과 같이 하나하나 셀 수 있는 정수값(integer)을 취하는 자료

예> 음운론의 음소

연속적 자료(continuous data)

키, 무게, 온도 등과 같이 측정이 가능하여 소수점 이하의 값을 취할 수 있는 자료.

예>음성학의 음파

측정 척도(measurement scale)

1. 명목척도

2. 서열척도

3. 구간척도

4. 비율척도

명목 척도(norminal scale)

범주나 종류에 따라 측정 대상을 분류할 수 있도록 그 측정

대상에 부호 또는 수치를 부여하는 방법

예> 종교, 인종, 출신국, 전공, 정당

명목 자료는 등호(=)만 가지고 비교할 수 있다.

서열 척도(ordinal scale)

명목 척도와 같이 측정 대상을 범주로 분류하지만 각 범주에

숫자 크기에 따른 서열 순서를 매겨 주는 것

예> 학년, 순위 등

서열 자료는 등호(=)와 부등호(>,<)의 관계도 비교 가능

구간 척도(interval scale)

측정 대상을 범주에 따라 분류하고 여기에 서열 순서를 매겨 준다는 점에서 서열 척도와 같지만 서열을 나타내는 숫자간의 간격이 산술적 의미를 갖는다는 점에서 서열 척도와 다르다.

예> 기온

어제의 기온 20도, 오늘의 기온 40도

20도 덥다고 말할수는 있지만 두배 덥다고 할 수는 없다.

40도와 20도의 차이, 35도와 15도의 차이는 똑같이 20도

비율 척도(ratio scale)

명목척도, 서열 척도, 구간 척도가 갖는 특성을 포함하는데 절대적 원점(absolute zero point)을 갖기 때문에 이 척도의 비율은 크기의 비율을 반영한다.

예>시간, 길이, 질량, 무게, 봉급

100kg 을 들면 50kg을 들었을 때보다 두배 무겁게 들었다.

비율 척도는 서열 척도나 구간 척도와 같은 결과를 도출할 뿐만 아니라 비율을 통한 측정의 크기를 비교할 수 있도록 해준다. 비율 자료에는 모든 산술적인 연산이 가능하다.

도수분포표(frequency distribution table)

수집된 자료를 몇 개의 계급으로 나누고 각 계급에 해당되는 관측치의 도수를 기록하는 표

- 그래프와 함께 기술 통계학의 핵심

도수분포표(frequency distribution table)

계급(class) : 인접한 몇개의 자료들을 하나의 구간 범주로 묶는 것

계급 한계(class limit): 각 계급에 있어 시작하는 값과 끝나는 값.

- 계급 경계값(class boundaries)라고도 함.

- 시작하는 값 : 계급하한(lower class limit)

- 끝나는 값 : 계급 상한(upper class limit)

계급 폭(class width) : 계급의 간격. 계급 구간(class interval)이라고도 함

중간점(midpoint): 각 계급의 중간값(class mark). 각 계급의 계급 하한과 계급 상한의 평균으로 구한다.

도수(frequency): 각 계급에 해당되는 관찰치의 수. 빈도수.

절대도수와 상대도수

절대도수(absolute frequency)(절대빈도)

100개중 10개면 : 10

상대도수(relative frequency)(상대빈도)

100개중 10개면 : 0.1

누적도수와 상대누적도수

누적도수(cumulative frequency)

어느 특정 계급의 이하 또는 이상에 해당되는 도수를 모두 합하여 구한다.

상대누적도수(relative cumulative frequency)

어느 특정 계급의 이하 또는 이상에 해당되는 누적 도수를 총도수로 나누어 구한다.

질적 자료의 경우에는 누적도수와 상대누적도수를 구할 수 없다. 질적 자료에서는 사용하는 각 범주의 크기가 없기 때문에 얼마 이하 또는 얼마 이상이라는 개념을 사용할 수 없다.

언어 자료 분석을 위한 통계학 2,3장

Education