test of oral proficiency (top)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9....

42
Test of Oral Proficiency 1. Bachman & Palmer Usefulness) - (Validity) , (Reliability) , Authenticity) , (I nteractiveness) , (Practicality) , TOP : Test of Oral * (ISSN 0254-4474) 34 1 (1998. 3) , 245-286 245

Upload: others

Post on 17-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Oral Proficiency (TOP)의 개발 연구*

최 인 철

1. 서 론

Bachman & Palmer (1 996)의 시험 유용도 (Test Usefulness) 개념을 구성하

는 6가지 요소 - 타당도 (Validity) , 신뢰도 (Reliability), 진정성 (내용 타당도,

Authenticity) , 상호작용 (Interactiveness), 실용성 (Practicality), 교육에 미 치 는

영향 (Impact)을 모두 고려하여서 의사소통능력을 잘 측정하는 이상적인 평가

도구플 개발한다는 것은 결코 쉬운 일이 아닐 것이다. 예컨대, 타당도를 제고하

기 위해서는 측정대상인 의사소통능력의 구성 요소를 정확히 분석한 모델이 있

어야 하며, 상호작용을 극대화하기 위해서는 수험자의 능력과 시험방식간의 상

호작용이 실제의 의사소통 상황을 잘 재현하는 시험방식 양상을 고려해야 하

며, 진정성 (내용타당도)을 높이기 위해서는 시험에서 주어진 내용 (input)과 기

대되는 수험자의 응답이 모두 실제 의사소통 상황을 잘 반영하도록 고려해야하

며, 신뢰도와 실용성을 높이기 위해서는 유능한 평가 인원과 평가에 걸리는 시

간 및 장소 등의 현실적인 제약조건을 고려해야 한다. 이런 여러 가지 조건올

모두 완벽하게 만족하는 시험방식을 개발하는 것은 현실적으로 거의 불가능할

것이다. 특히, 다차원적인 말하기 능력을 측정하기 위한 좋은 시혐의 개발은 더

욱더 어렵다 그럼에도 불구하고, 박남식외(1997)의 필요분석에 의하변 현실적

으로 말하기 능력의 평가에 대한 필요가 매우 크므로 타당한 평가 도구의 개

발은 절실히 요구되고 있다. 우리 나라에서는 아직까지 회화능력의 평가를 위

한 체계적인 연구가 없는 바, 우리 나라 수험자들의 수험목적과 다르게 외국에

서 개발된 시험을 무조건 사용한다는 것은 타당하지도 않을 뿐 아니라, 국가경

제 측면에서도 바람직하지 않다고 본다.

따라서, 본 논문은 우리 나라의 현실적인 수험 실정에 가장 타당한 회화능력

의 평 가 도구 (가칭 TOP : Test of Oral Profíciency)를 개 발하기 위 하여 서 울

대학교 어학연구소에서 진행해 온 연구의 중간보고서로서, 의사소통능력 요소

및 시험 방식 양상에 관한 언어평가 이론에 근거하고, 회귀분석, 요인분석 및

일반화가능도 이론 등의 다양한 평가기법을 활용하여 100여명의 수험생을 대

상으로 실험평가를 한 결과를 제시하였다. 본 연구의 결과를 근거로 하여, 시험

방식과 내용을 다소 수정하여 좀더 바람직한 시험 개발을 위한 후속 연구를 진

* 본 연구는 1997년도 서울대학교 어학연구소 연구비에 의해 이루어졌다.

칩f學 fff究 (ISSN 0254-4474) 第 34 卷 第 1 號 (1998. 3), 245-286 245

Page 2: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

246 최 인 철

행할 것이다

2. 이론적 배경

2.1. 의사소통능력 요소

Oller (983)와 Canale (983)의 언어능력 요소에 관한 모댈 등을 보완한

Bachman (1990)의 모델에선 의사소통능력 (CLA Communicative Language

Ability)은 언어적 능력, 언어사용의 상황에서 언어적 능력을 활용하기 위한 능

력으로 구성되어 있다고 보고 있다. 의사소통을 위한 언어 능력 (CLA)을 묘사

하는 Bachman의 모댈은 1) 언어 적 Oing띠stic) , 2) 상황 판단적/전략적 (strategic),

3) 섬리-생리적 (psycho-physiological)인 3대 기본적 능력과 각 능력에 관련된

세분화된 요소로 아래와 같이 분석하고 있다.

언어적 능력은 크게 언어조직 ( organizational) 능력 (문법능력, 단락구성능력)

과 화용 (pragmatic) 능력 (언표내적(jllocutionéUγ) 능력; 사회언어능력)으로 대

분된다. 조직능력의 하부 능력으로서, 문법/어법 (grammaticaO 능력은 1) 어휘,

2) 형태소, 3) 구문, 4) 음운능력으로 구성되며, 문단구성 (textuaI) 능력은 1) 응

집력 (논리성), 2) 수사적 조직능력으로 구성된다. 화용능력의 하부능력으로서,

언어기능적 능력 Ollocutionary /functional competence)은 1) 정보교환

(ideational)능력, 2) 상황통제 (ma띠pulative)능력, 3) 인지/교육 (heuristic)능력,

4) 창조/예술적 Omaginative)능력으로 구성되며, 사회언어 (sociolinguistic)능력

은 1) 사회/지역방언 (dialect & variety) 사용능력, 2) 전문용어구사력, 3) 문화

및 수사법 (cultural references & figures of speech) 활용능력, 4) 자연스러운

표현능력 (naturalness)으로 구성된다.

상황 판단적 능력은 1) 의사소통상황에 대한 평가 (assessment) , 2) 주어진

상황하에서 의사소통 목적 달성을 위한 계획 (planning), 3) 목적하는 의사소통

의 수행 (execution)으로 구성된다. 또한, 심리-생리적 능력은 1) 음성과 문자의

표현력 (productive; oral & visuaO과 2) 음성과 문자의 인지능력 (receptive;

aural & visu머)으로 구성 된다.

2.2. 이론적 평가 요소

이런 언어능력 요소에 관한 다차원적인 모텔에 근거하여, 모든 요소를 독립

적으로 평가하는 것은 불가능하므로, 주요 언어능력 요소를 평가하는 것이 타

당할 것이다. 또한, 제2의 의사소통능력 요소이면서 바언어적 능력인 상황판단

적(전략적) 능력은 주어진 시험 방식 양상에 밀접한 관계가 있는 능력으로서,

주어진 수험 상황에 얼마나 잘 대처할 수 있는지를 결정하는 능력이다. 상황판

Page 3: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Ora1 Proficiency (TOP)의 개발 연구 247

단적 능력은 시간 제약이 불가피한 시험에서 유창하게 자기의 능력을 십분 발

휘하는 능력으로 나타난다. 따라서, 유창성을 중요한 요소로서 고려하는 것이

바람직하다. 제3의 의사소통능력인 심리-생리적 능력은 심리 및 근육 (psycho­

motor skiH)에 관련된 능력으로서 흑히 소리를 통해 의사를 전달하는 말하기

능력에서는 매우 중요하다. 수백 가지 근육이 동시에 잘 조화롭게 작동할 때

목적하는 발성을 낼 수 있다는 사실과, 근육은 꾸준히 훈련을 하지 않으면 쉽

게 풀어져서 제기능을 다하지 못한다는 사실을 고려해 볼 때에, 발성기관을 잘

통제하여 표출하는 발음은 말하기 능력에서 독립적인 요소로 고려하는 것이 필

요하다.

이렇게 언어능력 요소플 독립적으로 측정하는 분석적 (analyticaD 채점 방식

이 시험의 객관성과 신뢰성을 극대화하는 것은 사실이지만, 반면에 총체적인

언어의 중요성을 간과할 우려가 있다. 총체적인 능력이 개별 능력의 합보다 크

다 (Oller 1979: The whole is greater than the sum of its components.)는 지

적을 통해 시너지 (synergy) 효과를 강조한 타당한 지적을 고려해 볼 때, 개별

적 요소와 함께 전반적인 의사소통 가능정도를 측정하는 것이 바람직할 것이

다. 따라서, 분석적 채점 방식과 함께 통합적 (holistic) 채점방식의 개념도 도입

함으로써 절충적인 평가 방식을 활용하는 것이 바람직할 것이다. 따라서, 통합

적인 채점방식의 평가요소인 전반적 의사소통 가능도 (overall comprehensi­

bility)를 고려하는 것이 바람직하다.

이런 이론적인 측면을 근거로 하여 언어조직능력의 하부개념인 1) 문법/어법

능력 (grammaticaO, 2) 문단구성능력 (textual)과 화용능력의 하부개념인 3) 의

사소통 기능적 (functionaVillocutionary )능력과 4) 사회언어적 (sociolingwstic)능

력과, 상황판단적 능력을 대표하는 5) 유창성 (f]uency)과 심리-생리적 능력을

대표하는 6) 발음 (pronunciation), 7) 전반적 의사소통 가능도 (overall compre­

hensibility )의 7가지 독립적 요소를 측정하는 것이 이상적일 것이다.

2.3. 말하기 능력 평가 방식

많은 연구 (Clifford 1981; Bachman & Palmer 1981; Shohamy 1983b, 1984a)

가 보여 주듯이, 언어능력 다음으로 언어 테스탱의 결과에 큰 영향을 미치는

것은 수험자의 언어 행위를 유도하는 시험 방식의 양상 (Bachman, 1990; T l\1F:

Test Method Facet)이다. Bachman et 머. (1995)에서 알 수 있듯이, 모의면접시

험 (Simulated Oral Proficíency lnterview)의 대 표적 인 예 인 TSE (Test of

Spoken English: Clark & Swinton 1980)처럼 audio lab같은 곳에서 이미 녹음

테이프에 녹음되어 있는 문제와 질문 등(인사 및 warm-up, 낭독, 문장 완성,

상황 묘사 (1. 상황 묘사 2. 주어진 사물 및 개념 설명), 공지사항 공식적 발표) 에 마이크로 대답하는 형식으로 측정되는 의사소통능력은 UCLES (University

of Cambridge Local Examination Syndicate)에서 활용하는 실제 면접시험 방

Page 4: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

강8 최 연 철

식으로 면접관에게 직접 대화하는 형식으로 측정되는 의사소통능력과는 다르게

나타나고 있다.

회화시험은 크게, UCLES나 ACTFL (American Council of Teachers of

Foreign Languages) 등에서 사용하는 직접 면접방식과 ETS (Educational

Testing Service)에서 개발한 간접적인 면접방식인 모의면접방식이 있을 수 있

는데, 두 가지 모두 장단점을 지니고 있다. 직접 면접방식에서는 평가자가 수험

자의 수행능력을 직접 보면서 평가하므로 타당한 방식으로 인정되지만, 평가자

와 수험자간의 상호작용으로 인한 신뢰도 únter-rater reliability) 및 객관성에

적지 않은 문제가 제기되고 있다. 또한, 현실적으로 대규모의 수험생을 평가해

야 하는 시험상황에서는 1대 1 혹은 1 대 2의 연접방식으로는 실용성에 심각한

문제가 있으므로, 고급 의사소통능력을 매우 정밀하게 측정하기 위한 제한적인

수협상황에서 사용되고 있다. 반면에, 모의 면접방식에서는 평가자와 수험자간

의 상호작용으로 인한 평가자 신뢰도의 문제가 없고, 대규모 수험집단을 대상

으로 평가하는데 편리하다는 장점이 있지만, 수험자의 수행을 얼굴을 마주보며

직접 평가하지 못하기 때문에 타당성이 부족한 문제점이 지적되고 있다.

이런 장단점을 고려해 볼 때, 우리 나라와 같이 대규모 수험집단이 시험을

치뤄야 하는 상황에서는 아무리 직접 면접방식의 수행평가 (perfonnance testing) 방식이 타당하다고 해도 실현되기가 거의 불가능하기 때문에 모의 면접방식을

채택할 수밖에 없다. 결국, 이런 현실적인 제약점을 고려해 볼 때, 모의 면접방

식을 여하히 잘 개발할 것인가 하는 것이 연구의 관건이 된다. 따라서, 본 논문

에서는 체계적인 분석을 통하여 좀더 타당하며 우리 나라의 수험상황에 적절한

모의 면접 방식에 대해 연구하고자 한다.

3. 연구 방법

3.1. 현실적 평가 요소

모의 면접시험 방식을 통해서는 평가자와 수험자의 설질적인 상호작용이 불

가능하므로, 주어진 task를 통하여 수험자는 일방적으로 말을 하게 되기 때문

에 기초 의사소통 기술 (Cummins 1983; BICS: Basic Interpersona1 Communi­

cative Skills)보다는 인지학문적 언어능력 (CALF: Cognitive Acadernic Language

Proficiency)을 측정하기 더 타당하다. 즉, 시험 문제지를 보면서 녹음된 문제

내용을 듣고 수험자가 한 말을 테이프에 녹음하여 평가받는 방식에서는 일방적

으로 수험자의 견해를 피력하게 함으로써 견해/정보교환 Odeationa1) 기능을 바

탕으로 한 인지학문적 언어 능력의 기본을 측정하는 것은 어느 정도 가능하다.

그러나 자연스럽게 말을 주고 받는 상대방과의 상호작용이 이루어지는 상황을

재현하여서 상황통제 (manipulative) 기능 등을 근간으로 한 기초 의사소통능력

Page 5: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of or외 Proficiency (TOP)의 개발 연구 249

을 측정하는 것은 거의 불가능하다. 따라서 의사소통 기능적 능력 (functional

competence)을 직접 평가하기보다는, 의사소통 기능 및 상황별 필수적인 관용

표현들을 시험의 내용에 포함시킴으로써 평가의 내용타당성을 높임으로써 평가

의 타당성을 보완하는 것이 바람직할 것이다.

또한, 영어를 외국어로 배우는 대상 수험자 집단의 의사소통능력 수준과 변

접시험의 시간적 제약을 고려해 볼 때, 응집력과 논리성 등의 능력이 핵심인

문단 구성 능력융 평가한다는 것은 거의 의미가 없게 된다. 즉, 외국어로 영어

를 배우는 대부분 수험 집단의 수준이 매우 낮기 때문에 문장 단위의 말을 정

확히 표현하는 데도 어려운 것이 현실인 점을 비추어 볼 때, 측정에 별 의미가

없다. 그리고, 일상 회화는 시간적인 제약을 많이 받는 음성 언어를 수단으로

하여 진행되므로, 발음, 어휘, 문법, 의미, 상황 등을 동시에 풍제하며 문단을

논리 정연하고 조리있게 말한다는 것은 원어민에게도 쉬운 일이 아니다. 따라

서, 문자 언어로 표현하는 쓰기 능력이라면 몰라도 생각할 시간이 거의 주어지

지 않는 수험상황하에서는 그런 능력을 말하기 기능을 통해서 측정하는 것은

EFL의 대부분 수험자들에게는 별 의미가 없을 것이다. 오히려 평가 요소를 복

잡하게 하여서 채점과정을 혼란시켜 신뢰도를 떨어뜨렬 우려가 있고, 평가의

타당성에 큰 의미가 없다고 판단되어 본 연구에서는 평가 대상에서 제외하였다.

따라서, 본 시험에서 고려할 측정 대상 요소는 1) 문법/어볍 능력/정확성

(grammaticaVaccuracy), 2) 사회 언어 적 (sociolinguistic/appropriateness)능력 과,

3) 발음 (pronunciation), 4) 유창성 (f1uency), 5) 전반적 의사소통 가능도 (overa11

comprehensibility )의 5가지 요소를 측정 하는 것 이 바람직 할 것이 다. 물론, 문장

단위의 낮은 차원의 기초 능력을 측정하는 시험 문제에서는 사회언어적

(appropriateness) 능력은 측정이 불가능하므로 평가대상에서 배제하며, 문장

단위 이상의 높은 차원의 고급 말하기 능력을 측정할 때에는 포함하여 평가하

도록 하는 것이 바람직할 것이다.

3.2. 평가 요소 및 평가 척도멸 의사소통능력

구술 표현 능력을 평가하는 주관식 채점 방식이므로, 채점방식에서 서열 척

도 (or,며nal sca1e)를 활용하는 것이 타당하다. 면접시험방식을 활용하는 두 가

지 대 표적 인 시 험 으로는 The American Council on the Teaching of Foreign

Languages (ACTFL)와 Interagency Language Roundtable Oral Proficiency

Interview (ILR OPI; Foreign Service Institute OPI라고 전에 불렸음)가 있다.

ACTFL은 총 9단계 (Su야rior, Advanced Plus, Advanced, Intermediate-High,

Intermediate-Middle, Intermediate-Low, Novice-Middle, Novice-Low, 0)로 구

성되어있으며, ILROPI는 총 8단계의 (5, 4+/4, 3+/3, 2+, 2, 1+, 1, 0+)로 구성되

어 있다. ACTFL의 Superior급은 ILROPI의 5, 4+/4, 3+/3급에 상응하는 수준으

로서, ILROPI는 영어를 외국어로 습득한 수험자들의 현실적으로 낮은 실력수

Page 6: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

250 최 인 철

준을 고려해 볼 때 상위집단의 능력이 불필요하게 세분화된 것으로 판단된다

(Alderson, Kr삶빼<e, Stansfield 1987).

본 연구를 위해 개발된 평가도구인 가칭 TOP에서는 각 task별로 1-5점까지

의 서열척도를 채택한다. 외국인으로서 자신의 의사를 거의 표현하지 못하는

수준을 가장 낮은 단계로 보고 원어민에 버금가는 최고의 수준을 가장 높은

단계로 보면, 중간 단계를 상, 중, 하 3단계로 나누면, 평가자들이 크게 무리 없

이 수험자의 실력을 잘 구별하여 평가할 수 있다고 본다. 본 연구에서는 1점 -5

점의 5단계로 평가하는 척도가 타당한 지에 관해서 평가 기법을 통해 분석해

보고자 한다. 이에 근거하여, 크게 5단계, 작게는 10단계 (1 +/1, 2+/2, 3+/3,

4+/4, 5+/5)로 구분하여 의사소통능력을 평가하고자 한다 10단계 이상의 지나

치게 상세한 평가기준은 오히려 평가자의 기준을 애매모호하게 하여 평가의 신

뢰도가 떨어질 우려가 있다.

본 연구에서 채택한 평가 요소별 및 점수대별 의사소통능력에 대한 기준 영

어 설명은 다음과 같다.

평가 척도 범위 :l(최저) - 2 - 3(중간) - 4 - 5(최고); 0 : 무응답, 질문과 무관

한응답.

회화능력을 평가하는 과정에서 말하기 능력만응 독립적으로 평가하는 것은

상호작용성을 무시한 타당하지 못한 방법이므로, 자연스러운 의사소통상황을

재연하기 위해서 듣기 능력을 필연적으로 전제한 말하기 능력을 평가하는 과정

이 되어야 한다. 시험에서 제시하는 상황을 잘 이해했는지 파악하기 위해서 듣

기 능력을 측정하는 것이 바람직하다. 따라서, 시험에서 요구하는 바를 잘 이해

하지 못하면서, 동문서답하는 식으로 말하기를 하는 경우에는 전반적 의사소통

가능도 (overall comprehensibility) 접수는 영 점 으로 처 리 한다.

P : Pronunciation

Frequent phonemic errors and foreign stress and intonation pattems

that cause the speaker to be unintelligible.

2 Frequent phonemic errors and foreign stress and intonation pattems

that cause the speaker to be occasionally unintelligible. 3 Some consistent phonemic errors and foreign stress and intonation

pattems, but speaker is intelligible.

4 Occasional nonnative pronunciation errors, but speaker is always

intelligible.

5 Few nonnative pronunciation errors with little nonnative accent

G: Grammar

Virtually no grammatical or syntactical control except in simple stock

Page 7: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of or외 Proficiency (TOP)의 개발 연구 251

phrases.

2 Some control of basic grammaticaI construction but with major and/or

repeated errors that interfere with inteIligibility.

3 GeneraIly good control in alI construction with grammatical errors that

do not interfere with overalJ inteIIigibility.

4 : Sporadic rninor grammaticaI errors that could be made inadvertently

by native speakers.

5 : Few grammatical eπors that could be made inadvertently by native

speakers.

F : Fluency

1 : Speech is so halting and fragmentary or has such a nonnative fIow

that inteIIigibility is virtualIy impossible.

2 Numerous nonnative pauses and/or a nonnative fIow that interferes

with intelJigibility. 3 : Some nonnative pauses that do not interfere with inteIligibility.

4 : Speech is smooth esp. in formulaic expressíons with a Iíttle nonnative

pauses. 5 : Speech is effortless cIosely approximating that of a native spe와er.

A : Appropriateness

1 : Most of the utterances are inappropriate because of inappropriate

expressions and/or formaIity of speech.

2 : Many rnistakes occurs frequently in the choice of words anψor

formaIity of speech.

3 Some difficulty with choosing appropriate expressions anψ'or formaIity

of speech. 4 A few rninor rnistakes in choosing appropriate expressions anφor

formaIity of speech.

5 : Verγ little inappropriate expressions anψ'or formality of speech.

C : ComprehensibiIiψ

1 : OveraIl comprehensibility too low in even the simplest type of speech.

Inappropriate responses to questions due to misunderstanding or

inadequate comprehension skíIIs.

2 GeneraIly not comprehensible because of frequent pauses anφor

rephrasing, pronunciation errors, limited grasp of vocabulary, or lack

of grammaticaI controI.

Page 8: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

252 최 인 철

3 : Comprehensible with errors in pronunciation, grammar, choice of

vocabulary ítems or infrequent pauses or rephrasing.

4 : Easily comprehensible in normal speech with occasional grammatica1

or pronunciation errors.

5 : Completely comprehensible with few grammatica1 or pronunciation

errors.

3.3. 평가 도구

타당한 평가 도구를 개발하기 위해서 기존의 시험방식과 의사소통 이론에 근

거해 볼 때 타당하다고 판단되는 방식을 합쳐서 본 연구의 실험 평가에 사용하

였으며, 실험평가 분석 결과에 의해서 바람직한 방식을 채택할 것이다. 시험 본

연구의 분석 대상이 되는 시험 방식과 내용은 다음과 같다. 107R의 section으로

구성되며 총 수험 시간은 30분이 소요된다.

1) Sectìon 1 Warm-up단계로서, 인사/소개의 의사소통기능 (BICS) 표현중 정보교환을 위

한 Wh-질문의 대답을 하는 능력을 주로 평가한다.7가지의 개인 신상에 대한

Wh-질문을 하며, 대답할 시간을 5-10초 제한한다. 다음과 같은 첫 세가지 질

문은 순수하게 warm-up을 위한 목적 으로 채점을 하지 않고, 나머지 4질문에

대한 응답만을 대상으로 하여, 발음, 문/어볍, 유창성, 종합적 의사소통 가능도

를 평가한다.

- How are you?

- May 1 have your name, please?

- Where do you live?

2) Sectíon 2 소리내어 읽는 활동으로서, 구어체 대화문과 문어체 글을 독립적으로 평가한

다. 기존의 TSE^] 험 유형에서는 문어체인 글만을 읽게 하였지만, 문어체에 비

해서 대화문에서는 자연스러운 발음의 억양을 평가할 수 있기 때문에, 구어체

대화문을 따로 평가하는 것은 충분히 가치가 있다고 판단된다 (Clark &

Swinton 1979). 100단어 정도의 길이인 대화문을 우선 눈으로만 30초 동안 읽

게 한 후 1분내에 소리내어 읽도록 한다. 발음을 주로 측정하기 좋은 방식이지

만, 끊어읽기 등을 통해서 문/어법 판단능력을 측정할 수도 있다. 또한, 읽는

속도를 고려한 유창성, 전반적으로 낭독을 통해서 종합적 의사소통 가능도까지

평가한다.

Page 9: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Ora1 Proficiency (TOP)의 개발 연구 253

3) Section 3 앞의 구어체 대화문을 읽는 평가 요소 및 방식과 기본적으로 갈다 100단어

정도의 걸이인 글을 우선 눈으로만 30초동안 읽게 한 후 1분내에 소리내어 읽

도록 한다.

4) Section 4 구어체 대화문(1 exchange)의 적절한 응답을 말하도록 하는 활동이다. TSE

에서 문장 완성 방식을 사용하고 있는데 이에 대해서 문맥의 결여가 중요한

문제로 대두되고 있다. 문맥이 결여된 채로 제시된 한 복운에서 생략된 주절이

나 종속절을 완성하는 방식은 의사소통 상황을 무시한 바람직하지 못한 방식으

로 지적된다. 문어체인 문장뿐만 아니라 구어체 대화문을 제시하는 것이 보다

바람직할 것이다. 의미 있는 문맥을 제공하면서 동시에 채점의 신뢰도플 제고

하기 위해서 응답의 내용을 우리말로 제시했으며 말할 때에 활용하도록 영어필

수 표현을 제공하여서 대화 상황을 통제하였다. 수험자뜰은 그 표현들을 활용

하여 영어로 답하는 활동이다.

살아있는 어법 능력을 내재화했는지 평가하는 방식으로서, 107M의 대화문을

제시했으며, 응답할 시간을 응답의 길이에 따라서 5-10초 정도 주었다. 다양한

의사소통 상황을 고려하여 중요한 문법요소가 되는 표현을 집중적으로 다룸으

로써, 어/문법을 주로 평가하며, 발음, 유창성, 종합적 의사소통 가능도까지 평

가한다.

예 ) A : 1 don't know what to do about this.

B : (걱 정 마.) => Don'C쁘미I.YL.it (5-second-long pause)

After you read the sentence, you're supposed to say “Don't worry about

it." After you hear the number and sentence, be sure to say the complete sentence.

5) Section 5 앞의 구어체 대화푼 적절한 응답 방식과 기본 개념과 맥을 같이 하는 문어체

문장 완성 방식이다. 단, 기존의 TSE방식처럼 하나의 복문을 제시하는 것이

아니라, 하나의 실마리 (c!ue) 문장을 제시하여 문맥을 제공하고, 그 제약하에서

주어진 표현들을 활용하여 우리말을 영어로 번역하는 방식이다. 따라서, 지나치

게 주관적인 대답이 나올 가능성이 줄기 때문에 채점자 신뢰도가 좋아질 것이

다.

살아있는 문법 능력을 내재화했는지 평가하는 방식으로서, 10개의 문장군을

제시했으며, 응답할 시간을 응답의 길이에 따라서 10초 내외를 주었다 문어적

인 격식을 갖춘 다양한 의사소통 상황을 고려하여 중요한 문법요소가 되는 표

현을 집중적으로 다룸으로써, 문법을 주로 평가하며, 발음, 유창성, 종합적 의사

Page 10: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

254 최 연 철

소통 가능도까지 평가한다.

예) Exarnple X : It' s impossible to change our policy now.

(어떤 상황에서도, 이 정책은 변경되지 않을 것이다.)

=> Under no circumstances, this / 0이icv / will / chamre, After you read the sentences, you're supposed to say, “Under no circumstances,

will this p이icy be changed."

6) Section 6 앞에서도 설명한 대로 기존 TSE에서 보던 방식으로서, 복문으로 구성된 10

개의 문장을 제시하여, 생략된 절을 삽입하여 문장을 완성하는 방식이다. 본 연

구에서는 이 방식이 어떤 결과를 보이는지 알아보기 위해서 평가 방식으로 사

용하였다. 주로 문법을 평가하며, 발음, 유창성 및 종합적 의사소통 가능도를

채접한다.

예) When the library opens, .

There are a number of possible completions for this sentence. Y ou could say, for exarnple:

When the library opens, 1 will return the book. (Different V oice

Actor) or, When the librafy opens, the students wiIl go there to study. (Different Voice Actor) or, When the library opens, Mary wilI

look for a new novel.

7) Section 7 기존 시험에서 많이 사용하는 방식으로서 연결하면 이야기가 되는 6개의 그

림을 보고 이야기를 영어로 묘사하도록 하는 활동이다. 실제 의사소통 상황을

잘 반영하는 타당한 방식으로 간주된다. 30초 동안 그림을 살펴 보며 준비한

후에, 60초 동안 이야기를 하도록 하였다.

이 활동부터 한 문장단위 이상의 응답을 평가하는 방식이므로, 앞에서의 활

동에서 평가하는 발음, 문법, 유창성, 종합적 의사소통 가능도 외에 표현의 적

절성 (appropriateness)을 추가로 평 가한다.

8) Section 8 하나의 통 그림을 30초간 살펴본 후, 그림에 관련된 4개의 질문을 듣고 응답

을 하도록 하는 방식이다. 주로, 사고가 일어난 상황을 제시함으로써 시제와 가

정법 등의 표현능력을 봄으로써 문법적인 능력을 평가하는 방식이다.7번 활동

처럼 한 문장단위 이상의 웅답을 하는 활동이므로, 발음, 문법, 유창성, 종합적

의사소통 가능도 및 표현의 적절성을 평가한다.

Page 11: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of oral 싼oficiency (TOP)의 개발 연구 255

9) Section 9 일상적인 주제에 대해 질문을 들은 후 15초 동안 생각을 정리하게 한 후, 45

초 동안 자신의 생각을 말하도록 하는 방식이다. 전문적인 배경지식이 없이도

대답을 할 수 있도록 평소에 많이 생각했을 주제에 관한 질문을 사용한다. 발

음, 문법, 유창성, 종합적 의사소통 가능도 및 표현의 적절성을 평가한다.

10) Section 10 기존의 TSE에서 활용했던 방식으로서 일상적으로 익숙한 개념이나 사물을

설명하는 활동인데, 이에 대해서는 상호작용 (interactiveness)변에서 문제점이

지적될 수 있다. 시험 지시문에서 평가자는 실제 개념이 아니라 생각을 표현하

는 방식에 관심이 있다고 설명하고 있다. 이는 의사소통상황에서 우리 머리 속

에서 일어나는 인지과정을 고려하지 않은 문제점이 있다고 본다. 즉, 정상적인

상황에서 우리는 Gricean Maxim의 하나인 진실을 말한다는 Quality 규칙을 지

키 면서 말을 한다는 점 을 고려 하지 않는 채 점 방식 이 다 (Grice 1975; Searle 1969). 우리가 말을 할 때에는 발음을 무의식중에 통제하면서, 자신이 말하는 내용의 사실 진위에 대해 항상 점검 (monitor)하연서 말을 하기 때문에 뇌의 용

량을 많이 사용하므로, 보통 모국어일지라도 유창하게 말하는 것이 결코 쉽지

않다.

또한, 설명이 거의 불필요한 사물(예: 자전거, 라디오 등)에 대해서 묘사하라

는 방식으로서, 실제 의사소통 상황에서는 거의 존재하지 않는 활동이다.

Describe a bicycle in as much detail as you can. 라는 지 시 에 대 한 응답은 실

제 회화상황이라면 아마도 Isn ’t that obvious? Do 1 have to speIl it out for you?라는 응답이 나올 것이다. 이런 점들을 고려해 볼 때에, 본 방식은 타당하

지 못한 방식으로 판단된다. 발음, 문법, 유창성, 종합적 의사소통 가능도 및 표

현의 적 절성을 평가한다.

3 .4. 연구 방법

본 연구를 위해서 80명의 수험자가 참여했으나, 녹음 시설 미비 및 녹음 상

태 불량으로 인해 74명의 수험자 응답만을 연구 자료로 사용하였다. 평가를 위

해서는 서울대 어학연구소의 강사인 4명의 원어민과 연구원인 2중 언어 구사자

급 실력을 지닌 4명의 한국인 평가자로서 참여했다.74명의 수험자를 4개 집단

으로 나눈 후 한 집단씩을 원어민 평가자 한 명과 한국인 평가자 한 명씩 두명

이 한 조를 이루어 평가를 맡았으며, 두 평가자가 한 수험자의 응답이 녹음된

테이프 내용을 한 번씩 평가하였다.

본 연구에서는 1) 원어민 평가자와 한국인 평가자간의 채점자 신뢰도간의 차

이, 2) 평가 방식의 타당성, 3) 평가 요소의 타당성, 4) 채점 척도의 타당성등에

대해서 알아보기 위해서 신뢰도분석, 회귀분석, 요인기법, 일반화가능도 분석

Page 12: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

256 최 인 철

등의 다양한 통계기법을 활용하였다. 신뢰도분석, 회귀분석과 요인기법을 위해

서는 SPSS-PC프로그램과 일반화 가능도 분석을 위해서는 GENOVA (Crick & Brennan, 1983) 프로그램을 활용하였다.

4. 연구 결과

4.1. 일반화 가능도 (Generalized Analysis of Variance System: GENOVA)

본 연구를 위한 말하기 능력 평가의 Section에 관련한 내용편향과 채점상황

에서 발생하는 어려움으로 점수의 신뢰성을 여러 각도에서 점검하려고 한다.

녹음을 통하여 질문을 듣고 말하기 능력 평가하는 채점 상황하에서 채점자내

일관성, 채점자간 합치도, 채점에 소요되는 시간과 비용 등의 문제점을 안고 단

순한 채점자간 신뢰도로 결과의 신뢰도는 측정과정에서 발생할 수 있는 변동요

인에 대한 설명이 충분하지 않을 수 있다. 일반화가능도 이론은 측정과정에서

각 오차의 영향을 동시에 분석하고 관찰된 표집행동을 허용가능한 일반화전집

으로 추정할 수 있는 틀을 제시하였다(Brennan 1992; 이종성 1988). 따라서,

본 연구에서 개발한 평가 도구를 통한 검사결과 채정상황에서 분석가능한 변동

요인을 설명하고, 각 요인의 상대적 크기에 따라 적정수준의 일반화 가능도 계

수를 산출하기 위한 조건을 제시하고자 한다.

1 ) 분석 방법

일반화 가능도 연구를 통하여 두 가지를 조사해 보고자 한다. 첫째로, 가칭

TOP 평가도구의 채점 과정에서, 피험자 점수에 영향 주는 채점자 효과,

Section 효과, 평가요소 효과, 그려고 각 효과들의 상호작용의 분산성분은 어떻

게 비교될 수 있는지를 알아 본다. 둘째로, 분산성분의 상대적 크기에 따라 각

국면의 수(차원)를 조절함으로 일반화가능도 계수는 어떻게 개선될 수 있는지

알아 보려고 한다.

본 자료에 대한 측정상황올 분석하기 위한 G 연구는 측정대상이 피험자(p)이

고, 측정의 오차요인으로 채점자(r) , 검사Section(s). 그리고 평가요소(f)로 구성

된 pxrxsxf 설계이다. 즉, 8명의 채점자 (각 두명의 채점자), 5개 session,

4개 평가요소를 근거로 67명 피험자를 대상으로 측정 접수의 일반화정도를 연

구한 결과 다음과 같은 결과를 나타내고 있다. 각 채점자(r)는 모든 session(s)

을 모든 평가요소(f)를 사용하여 채점하고 있으므로 일반화설계 3 국면 p x r x s x f 설계이다.

원어민과 한국인 한 명씩으로 구성된 채점자 4개조가 채접한 측정 내용을 분

석하기 위하여, 같은 평가요소를 사용하고 있는 section별로 묶어서 분석하였

다. 즉, 4개의 평가요소 (발음, 문법, 유창도, 종합적 의사소통 가능도)를 근거한

Page 13: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Oral Proficiency (TOP)의 개발 연구 257

section 1-5에 대한 점수와, 5개의 평가요소 (발음, 문법, 유창도, 종합적 의사소

통 가능도, 적절성)에 근거한 section 6-10에 대한 점수를 기준으로 G연구와 D 연구를 수행하였다. 각 표에는 section 1-5와 section 6-10까지의 결과가 따로

제시되고 있다(아래의 결과 해석 내용에서 제시되는 수치는 section 1-5와

section 6-10을 순차적으로 제시한 것이다.)

〈표 1) G STUDY 결과 RANDOM MODEL p x r x s x f 설계

(** = INFINITE) P H S F SAMPLE SIZE 19 ‘ι2 3 4 UNIVERSE SIZE **** **** **** ****

DEGREES SUMS OF SUMS OF USING EMS OF SQUARES FOH SQUARES FOH MEAl'‘ V ARIANCE %/100

EFFECT FREEDOM MEAN SCORES SCOHE EFFECTS SQUAHES COMPONENT

P 18 3735.36475 257.00842 14.27825 .2371잃5 25 R 잃fJ1.껑S29 8.86細 8.86앉% .0012106 0.0 S 4 않ì01.76322 123.4<X였9 30.8않5172 .1791407 .19 F 3 잃84.43037 6.07때4 2.02468 (0.0) 0.0

PR 18 3814.없650 70.61279 3.92293 .1768앉% 19 PS 72 3942.쟁375 83.66211 1.16197 .1013988 .11 PF 54 3750.61900 9.18021 .17α% .0038799 .01 RS 4 3620.26092 9.62874 2.40718 .0껑2323 .03 RF 3 3501.56537 8.2앉ì04 2.7닮35 .02않621 .03 SF 12 3616.18395 8.34ffi8 .6앉또6 .01α)994 .01

PRS 72 4055.34750 23.80326 .33<XìO .α웠4826 .07 PRF 54 3844.36200 5.99521 .11102 .010871여 .01 PSF 216 3982 없5α) 16.60032 07685 .0100914 .01 RSF 12 3646.4뼈84 3.49916 .29160 .01잃없5 .02

PRSF 216 4125 또αx) 12.24084 .α5fJ37 0566706 .06

MEAN 3478.35633

TOTAL 759 647.1 9367 .917잃08

NOTE FOR GENERALIZABILITY ANALYSES, F-STATISTICS SHOULD BE IGNORED

Page 14: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

258 최 인 철

G STUDY 결과 RANDOM MODEL p x r x s x f R

2

p mm

繼뿔 표

R S P]

꽤 빠 職

ιν S U

S F 5 4

**** **** DEGREES SUMS OF SUMS OF USING EMS

OF SQUARES FOR SQUARES FOR MEAN V ARIANCE %/100

EFFECT FREEDOM MEAN SCORES SCORE EFFECTS SQUARES CON!PONENT

P R S F

PR PS PF RS RF SF

PRS PRF PSF RSF

18 뼈 職鋼짧 -願m

願뼈 劉職-뼈 聊鋼m

떠 때 찌@

%

-짧 짧 쩌 찌찌 때 쨌 -뾰 劉퍼 @쩌

426.62476 23.70138 잃닮412

.81938 .81938 (0.0) 151.58120 37.89끊o .1913450 1 1.많320 2.89찮1O .0019368

106.51082 72.44440 8.61240 4.12920 10.01잃8 1.79:않)4

35.90760 6.84192

17.76476 2.91196

5.91727 1.1여)617

.11962 1.03230 2.50322

.11210

.49872

.09503

.06168

.18200

PRSF 잃8 3576.51000 17.83124 .06191

MEAN 2701.14064

4 4

-뼈 mι η 4

4

mω -η η 짧

E

2154175 .αi07456

ω잉590

.00갱526

.0240854 (0.0)

.0'ö1떼5

.α)66225

(0.0) .뼈3202

.0619140

.35 0.0 .19

0.0

.22

.05 0.0 0.0 .24

0.0

.09 0.0 0.0 0.0

.62

TOTAL 949 875.36936 9976003

NOTE ‘ FOR GENERALIZABILITY ANALYSES, F-STATISTICS SHOULD BE IGNORED

2) G연구 분석결과

일반화 가능도 연구에서는 관찰점수 분산을 각 요인과 요인 간의 상호작용

분산으로 분해할 수 있으며 그 상대적 크기에 따라 오차 분산에 미치는 영향을

파악할 수 있다. 표 1, 표 2, 표 3, 표 4의 G 연구 결과에서 피험자 분산성분이

상대적으로 크게 나온 것 (각각 25%-35%, 41%-72%, 31%-38%, 31%-

28%)은 측정대상의 변동, 즉 전집점수 분사의 크기를 지적하므로 일반화 가능

도에 긍정적인 면을 보여주고 있다. 각 오차분산성분의 상대적 크기를 비교하

면, 모든 결과에서 채점자 간 변동은 거의 없는 것으로 나타났다 (각각 0%-

0%, .05%-0%, 0%- .10%, 0%-0%). 이는 원어민 채점자와 한국인 채점자에

따라 수험 결과의 변동이 거의 없었다는 점을 보여 준다 즉, 원어민 채점자나

한국인 채점자에게 사전 평가교육을 잘 시키면 어떤 채점자가 채점을 하던 간

에 큰 문제는 없다는 점을 의미한다. 우리 나라에서와 같이 유능한 원어민 평

가자를 구하기 어려운 상황에서는 이중언어구사자 수준의 한국인 채점자를 활

Page 15: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

259

용해도 큰 문제가 되지 않음을 의미한다.

그러나, 표 2 (,01%-0%)를 제외하고 피험자--채점자간의 상호작용이 상대적

으로 크게 나타난 것은 피험자에 따라 채점자점수가 다르게 부여됨을 알 수 있

었다 (각각 19%-22%, 21%- .08%, 19%-32%). 이는 수험자에 따라 원어민 채

점자와 한국인 채점자가 평가하는 기준이 다소 다를 수 있음을 의미한다. 검사

section 변동은 표 1을 제외하고는 크게 의미 있게 보여지지 않았다(각각 1

9%-19%, .02%-.10%, .02%- .11%, .02%-.06%). 즉, 검사 section에 따라 수

험자의 반응이 특이하게 다른 차이플 보이지 않았다는 점을 의미한다. 또한, 평

가 기준의 변동은 0%-0%, .01%-.02%, 0%-0%, 0%-0%로서 거의 나타나

지 않고 있음을 알 수 있다.

Test of OraI Proficiency (TOP)의 개발 연구

D STUDY 결과 〈표 5)

VARIANCES

EXPECTED LOWER UPPER $P R S F UNIVERSE OBSERVED CASE CASE

INF.INF.INF.INF. SCORE SCORE DEL TA DEL TA

SAMPLE SIZES

GEN. COEF. PHI

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

m

鍵쩨 M

때 織織뼈 짧 磁細獅

MEAl'‘

.35636

.51αì6

.67싫4

.67495

.68662

.69:갱8

.6잃82

.79420

.80380

.81080

.81648

28743 .08424 05486 .떠405

04563 .04133 여058

.04116 03588 .0앓19

0잃:97

細獅磁聊熾댔 없 願廠때 職

繼꼈 M M

職뼈 熾願服熾職

.앉ì542

.얘436

.35211 35133 .영많6

34껑3

.34177

.29858

.29501

.29246

.29043

.앓713

앙713

.23713

.23713

.23713

.23713

.앓713

23713 .23713 .23713 않713

1i

4-A

“--3

-3

4·IJ

4‘

디니 「l

야l

1 4 6 6 8 m m 8 m m E

---l

nι ?ι nι ?ι n/ι AgT

4‘ A• 4-

GEN COEF. PHI 패

-짧

짧 職劉劉職獅m

總職總

s-t

U}織없 폈 熾總때 磁織빼 職細

M-빠 때 m-職願職織職때 職廠때 願願

A-R

A-

-괴 E

Y二3 l ~]

、‘1l } 4 3 l r l

뻐-째

때 뻐-磁

뼈 m m

뼈 없 싸 孤때 때 孤

v-

때 뼈 R-짧 熾職짧 鋼떼 뼈 爛磁職熾

짧 뼈 앉-願

뼈 鋼째 織째 總職鋼獅쩨

M

m-織鋼織織織織離鋼織織織

F Mm

-

S M

-

R M

-

$

M

-

SAMPLE SIZES

1 4 4 5 -s 4 5 4 5 7 7

1 4 6 6 8 m m 8 m η πω

1 1 2 2 2 2 2 4 44

4 4

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

* 표 1과 표 5 외의 기타 표는 부록쓸 참조할 것.

Page 16: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

260 최 인 철

3) D 연구 분석결과 Sectíon 관련 오차요인이 전체 오차분산성분에 미치는 영향과 펴험자--채점

자 상호작용 분산성분이 상대적으로 큰 점을 고려하여, D 연구에서 적정 수준

의 일반화가능도 계수를 산출하기 위한 각 국면의 수를 조정하였다. 즉, G 연

구 결과 채 점 자간 오차분산과 Sectíon간 오차분산성분은 상대 적 으로 작고, 피

험자--채점자 간, 피험자--Sectíon 간 분산성분이 상대적으로 크게 나타나고

있었다. 따라서, D 연구에서 평가 기준차원의 증가보다 검사 sectíon 수와 채점

자 수를 빠르게 증가시킴으로 전체 G 계수 향상을 효과적으로 유도하고 있다.

사실, 평가 기준 차원은 합리적인 수를 의사소통 요소의 이론과 타당한 평가기

법에 의해 제약을 받으므로, 기계적으로 늘리거나 줄이는 것은 바람지 하지 못

하다. 그러나, sectíon수나 채점자 수의 증감은 시험 시간과 경제적 여건에 관

한 문제이므로, 증감이 어느 정도 가능하므로, D 연구 결과에 근거하여 변화를

시도해 볼 만한 변수이다.

D 연구 결과 (표 5, 표 6, 표 7, 표 8) 단일조건에서 상대적 오차분산에 근거

한 각 일반화 가능도 계수는 .35636-.44잃6, .60677 - .81078, .39096 - .48714,

.40055- .30773으로 추정됨으로 일반화 가능도 계수가 다소 높게 나온 표 6의

결과를 제외하고 유사한 범위의 수치 결과를 보여주고 있다.

7의 일반화 가능도 계수를 산출하기 위한 측정 상황조건으로는 평가요소를

4-6개 정도로 고정시켰을 때, 채점자 2명, 6-8개의 Section을 제안할 수 있다.

또한 .8의 일반화 가능도 계수를 산출하기 위한 측정 상황조건으로는 평가요소

를 4-6개 정도로 고정시켰을 때 채점자 4명, 8개 정도의 section을 제안할 수

있다. 경제성과 실용성을 고려할 때 채점자의 수를 증가하는 것보다 검사 내

sectíon의 수를 늘림으로 결과에 대한 일반화 가능성을 향상시킬 수 있을 것이

다. 그러나, 본 연구에서 개발한 평가방식인 4-5개의 평가요소, 2명 채점자,

8-107M의 sectíon으로도 .7이상의 일반화 가능도 계수를 얻을 수 있기 때문에,

본 평가방식이 상당한 수준의 타당성을 지닌 것으로 판단할 수 있다.

4.2. 다중 회귀 분석 및 신뢰도 분석

각 sectíon이 전체 의사소통능력 평가결과에 대한 설명력을 알아보고 평가요

소가 각 section별로 의사소통능력 총점에 미치는 영향을 알아보기 위해서 다

중 회귀분석기법을 활용하였으며 각 section별로 평가가 얼마나 안정한지를 알

아보기 위해서 신뢰도를 분석하였다. 원어민 평가자와 한국인 평가자간의 평가

결과를 비교하기 위해서 두 집단별로 분리하여 분석한 결과를 다음의 표 9와

표 10에서와 같이 제시한다.

Page 17: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of OraI Proficíency (TOP)의 개발 연구 261

<약 어>

P Pronunciation

G Grarnmar

F : Fluency

C : Overall Comprehensibility

A Appropriateness

R-Sqr: R-Square (결정 계수)

Reliab: Reliability index

SEC : Section

〈표 9) 베타계수 (Beta) , 결정계수, 신뢰도 지수 〈원어민 평가자〉

P G F C A {t-Sqr Heliab Beta Beta Beta Beta Beta

SEC1 o.당)5 -0.166 0.375 0.070 0.680 0.985

(0.007) <0.549) (0.187) (0.827)

SEC2 0.171 -0.014 0.347 0.273 0.567 0.785

(0.326) (0.868) (0.059) (0.180)

SEC3 o.잃5 0.176 0.410 0.148 0.685 0‘614

(0.057) <0.012) (0.016) (0.420)

SEC4 0.318 o.잃O O잃3 -0.어1 0.813 0.974

(0.α)8) (0.142) (0.241) (0.997)

SEC5 0‘.428 0.302 0.067 0.280 0.826 0.980 (0.001) (0.130) (0.775) (0.265)

SEC6 0.294 0.221 -0.012 0.846 -0.404 0.851 0.983

(0.007) (0.264) (0.957) (0.001) (0.072)

SEC7 0.464 0.005 0.296 0.176 0.0앓 0.824 0.956

<0.α)()) <0.966) (0.010) (0.196) (0.766)

SEC8 o.당)6 0.075 0.294 -0.279 0.316 0.869 0‘983

(0.000) (0.딩8) (0.166) (0.274) (0.194)

SEC9 0.145 0.166 0.388 0.171 0.108 0.913 0.987

(0.161) (0.221) (0.005) (0잃3) (0.587)

SEClO -0.047 0.432 0.144 0.009 0.392 O없6

0.993 (ω0.810) <0.072) <0.653) <0.984) (0.186)

Relia 0.966 0.896 0.962 0.959 0.938 0.960 0.988

* ( )내의 숫자 : 각 component별 Probability

Page 18: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

262

SECl

SEC2

SEC3

SEC4

SEC5

SEC6

SEC7

SEC8

SEC9

SEClO

최 인 철

〈표 10) 베타계수 (Beta) , 결정계수, 신뢰도 지수 〈한국인 평가자〉

P G F C A R-Sqr Reliab Beta Beta Beta Beta Beta

0.423 0.163 0.353 -0.058 0.765 0.990 (0.130) (0.580) (0 껑이 (0.795)

0.056 0 αJO 0.498 0.229 (0.673) (0.768) (0α)9) (0.293)

0.300 0.167 0.351 0.æ2 (0.0엉 (0.298) (0.0잃 (0.464)

0.161 0.1 13 0.691 -0.026 (0.178) (0.472) (0.004) (O.891l

0.561 0.085 0.416 -0.116 (0.000) (0.않4) (0 여5) (0.475)

O.앉J6 0.964

0.749 0.959

0.856 0.980

0.876 0.985

때 때 爛댔

떼 뼈 없 m

뼈m mm

뼈뼈 뼈뼈

때때 뼈뼈 뼈뼈 때m

짧뼈

MM

뼈뼈 많떼

n”v“U

nU

“U

nUιμU nUιU

때때 m뼈 뼈뼈 뼈뼈

얹뼈 爛뼈 때m 뼈뼈

0.296 0.101 0.394 -0.117 0.278 0.872 (0.062) (0.687) (0.127) (0.572) (0.æ3)

0.988

Relia 0.97l O.앉꿇 0.970 0.962 0.941 0.971 0.998

* 회귀분석의 자세한 결과는 부록 2 표 11, 표 12를 참조하기 바람

1) 신뢰도 분석

위의 표 9와 표 10의 107B 의 section별 가로줄과 5개의 평가 요소별 세로줄

을 살펴보면 알 수 있는 바와 같이, 107R의 section과 5개의 평가 요소 (P, G,

F, C, A)에 전반에 걸쳐 신뢰도가 .9이상으로 매우 높게 나타났다. 단 section

2, section 3에서 원어민 평가자들의 신뢰도가 .785, .614로 다소 낮게 나왔는데,

이는 소리내어 읽는 활동에 대한 측정 기준을 잘 숙지하지 못했기 때문으로 풀

이된다. 또한, 5가지 평가요소 전반에 걸쳐 원어민 평가자의 신뢰도 (0.966,

0.896, 0.962, 0.959, 0.938, 0.960)보다 한국인 평가자가 신뢰도 (0.971 , 0.966,

0.970, 0.962, 0.941 , 0.971)보다 높게 나타난 점은 한국인 평가자가 원어민 평가

자보다 다소 좀더 신뢰성 있게 평가했다는 것을 시사한다. 이는 외국인 평가자

들이 section 2와 section 3에서 한 평가가 다소 신뢰성이 떨어졌기 때문으로

풀이된다. 이런 점에서, 우리 나라에서처럼 유능한 원어민들을 구하기 어려운

상황에서는 유능한 이중언어구사자 수준의 능력을 지닌 한국인 평가자가 영어

의사소통능력을 얼마든지 신뢰성 있게 평가할 수 있다는 것을 알 수 있다.

Page 19: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of 0raJ 싼oficiency (TOP)의 개발 연구 263

2) 다중 회귀 분석

위의 표 9와 표 10의 우측에서 두 번째 칼럼인 결정계수 (R一Square)에서 볼

수 있는 바와 같이, 각 section별로 총점에 대한 설명력을 나타내는 결정계수는

.66이상으로 대부분 .8-.9의 범위의 상당히 높은 수준으로서 (인문 사회과학 분

야에서는 .3-.4이상이연 의미있는 해석이 가능하다고 톰J, 원어민 평가자나 한

국인 평가자들의 평가 결과플 근거로 볼 때에 거의 모든 section이 다 의미있

는 활동으로 판단된다. 단, 원어민 평가자을이 section 2에 대해 평가한 결과에

서 결정계수가 .567로 다른 section에 비해서 다소 낮게 나왔는데, 이는 소리내

어 읽기 활동에 대한 5가지 평가 요소에 따른 평가 기준을 잘 이해하지 못한

데서 비롯된 것으로 사료된다.

발음에 대한 평가를 좀더 자세히 분석해 보면, 원어민 평가자와 한국인 평가

자간의 차이플 발견할 수 있다. 거의 기계적인 차원의 소리내어 읽기와 관용적

인 대화 능력을 측정하는 section 1부터 section 4까지는 발음에 대해 원어민

평가자가 한국인 평가자보다 더 민감하게 반응하며 좀더 인지적인 수준이 높

거나 창의적으로 말하는 능력을 측정하는 section 5부터 section 10까지는 한국

인 평가자가 원어민 평가자보다 더 민감하게 발음을 평가하는 것을 알 수 있

다. 즉, 한국인 평가자들은 문장이상의 다소 긴 말을 들을 때에 발음에 대해 원

어민 보다 좀더 민감하게 평가함을 알 수 있다.

문법에 대한 평가를 좀더 자세히 분석해 보면, section 4, section 5, section

10을 제외하고는 한국인 펑가자가 원어민 평가자보다 어/문법에 대해 좀더 민

감하게 평가함을 알 수 있다. 또한 유창성에 대한 평가에서는 문장단위 수준의

말과 글을 표현하는 능력을 측정하는 sectíon 4, section 5, section 6에서 원어

민 평가자 <'343, -.067, -.012)보다 한국인 평가자 <'691 , .416, .356)가 훨씬 더

민감하게 평가하는 것으로 나타났다. 반면에, 한 문장이상의 좀 더 긴 말을 표

현하는 능력을 측정하는 section 7, section 8, section 9에서는 한국인 평가자

(.104, .l69, .l54) 보다 원어민 평가자 ( 잃6, .294, .잃8)가 더 민감하게 평가하는

것으로 나타났다.

전반적 의사소통 가능도는 다른 평가 요소인 발음, 문볍, 유창도만큼 설명 력

이 크게 나타나지는 않고 있다. 원어민 평가자는 section 4, section 8에서, 한국

인 평가자는 section 4-5, section 9-10에서 음수이거나 거의 0에 가까운 beta

수치를 보이는데, 이는 아마도 전반적 의사소통 가능도에 대한 개념이 일치하

지 않았기 때문으로 풀이되며, 후속 평가를 실시하기 위해서는 좀더 구체적인

평가자 사전 교육이 있어야 함을 시사한다. 마지막으로, 적절성에 대한 평가에

서 특기할만한 사실은 한국인 평가자는 section 6에서 음의 beta 수치 ( -.404)를

보이고 있는데, 이는 문맥이 결여된 상태에서 복문을 완성하는 task이므로, 한

문장 이내의 말을 근거로 사회언어학적 적절성을 평가한다는 것은 무리이었기

때문으로 풀이된다. 따라서 본 연구에서처럼 적절성에 대한 평가는 한 문장이상

의 문단 (texνdiscourse)을 근거로 평가할 때에 적용되는 것이 바람직할 것이다.

Page 20: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

264 최 인 철

4.3. 요인 분석

본 연구를 위해 개발한 의사소통능력의 평가도구의 요인구조를 알아보기 위

해 section 1-5까지는 4개 평가 요소 (P, G, F, C)와 section 6-10까지는 5개 평 가 요소 (P, G, F, C, A)의 모든 변수에 대해 요인 분석을 하였으며, 결과는 다

음과 같다. 변수와 요인들간의 상관관계 계수가 .3이하인 것들은 통계적으로 의

미가 없으므로 요인 구조를 쉽게 알아보기 위해 .3이상의 요인행렬계수만 제시

하였다

표 16에서 보는 바처럼 Factor 1과 Factor 2간의 높은 상관관계를 고려하여 사각회전 (Oblimin Rotation)기법을 활용하였다.

1) 주 요인

표 13에서 보는 바와 같이 PI-AlO까지의 45개 모든 변수와 Factor 1사이에

는 몇 개의 관계를 제외하고는 .7이상의 높은 상관관계가 존재함을 쉽게 알 수

있다. 이는 본 연구의 평가도구인 가칭 TOP에서 측정하는 능력이 어떤 하나의

큰 요인에 초점이 맞추어지고 있으며, 그것은 당연히 구술 의사소통능력이라고

볼 수 있다. 따라서, 의사소통능력을 측정하고자 하는 가칭 TOP는 매우 높은

구인 타당도 (Construct V떠i이ty)를 보임을 알 수 있다.

2) 기타 요인

Factor 2는 P2, G2, F2, C2와 다소 높은 상관 관계를 보이고 있는데, 이는

문자를 처음 보면서 말하기를 시작하는 활동인 section 2에 관련된 어떤 특별 한 요인임을 나타낸다. 이런 결과는, 처음 보는 task에 적응하지 못하여 다소

당황한 수험자들이 적지 않은데서 비롯된 것으로 풀이가 된다 또한, Factor 3 은 Section 7과 높지는 않지만 다소간 양의 상관관계를 나타내며, Section 1과

는 다소간 음의 상관관계를 나타내고 있다. Wann-up으로서 간단한 인사 및

신상소개의 대화로 구성된 section 1과 6개의 그림을 보고 이야기를 말하는 활

동인 Section 7간의 역비례의 관계를 보이는 사실은 인사 및 소개등의 수준 낮 은 BICS의 관용적 표현 (fonn띠aic expressíon) 사용 능력과 상황을 묘사하는

이야기 (story-telling) 활동은 상이한 능력이라는 점을 시사한다. 따라서, Factor 3은 다소 긴 말로 상황을 설명할 수 있는 능력의 요인이라고 볼 수 있다 또한,

Factor 4는 G2와 G3간에 상당히 높은 관계를 보이고 있다. 이는 대화문과 문

어 체 글을 소리 내 어 읽 기 하는 활동의 sectíon 2와 section 3에 서 구문의 이 해 정도를 나타내는 억양 및 끊어 읽기를 어/문법능력의 척도로 평가했기 때문에,

Factor 4는 글을 읽으면서 구문을 파악하는 데 활용되는 어/문법 능력 요인이 라고 해석할 수 있다. 그 외의 변수와 요인간의 상관관계에 대한 의미있는 해

석을 위해서는 후속 연구가 필요하다.

Page 21: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

265 Test of oral Proficiency (TOP)의 개발 연구

요인 〈표 13)

FACTOR 4

-.36572 -.39778 -.37577

.4æ33

FACTOR 3 :FACTOR 2 FACTOR 1

織織劉뼈 椰織磁때 찌 뼈 織폈 뼈 織뼈 總獅職%

織M

獅總孤總織總떼 職떼 總織聊織繼願뻐 總職鋼服뼈 織總總

mn

m mn

디 %

않 mκ α

mm

〔ωmn

mm

”냉

R

α

mm

혀 다N 혀 % % …m m κ잉 여n m F m M

∞m 않

mm

@m

m염 없

mn

얹 왜 때 때 때 m

m때

54137 48026 .68fij7 ’.45밍016

않412

-.31278 .61268

.3αì66

.?fJ857

.30:잉1

32799 .33788

.53783

Page 22: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

266 최 인 철

4.4. TOP의 평가요소간 상관관계 및 TOP-SET 상관관계

본 연구에 참여한 수험자들은 서울대 어학연구소에서 재발한 SET (Seoul

National Univ. Er땅]ish Test)를 동시에 치르도록 했으며, 본 연구에서는 SET

의 수험 결과를 TOP 수험 결과와 상관관계 분석을 함으로써 지필고사방식을

통하여 의사소통능력을 간접적으로 측정하는 SET의 타당성을 살펴보았다.

LC RC GR VC TOT PRON GRAl\II FLUN COMP APPR

〈표 17) TOP-SET 상관관계 계수

LC RC GR VC TOT PRON GRM1 FLUN COMP APPR

1‘()(뼈 5025** .6307** .4239* .8932** .6013** ‘7001** 갔찌** .7여8** .6623** .5025** 1αJOO .5111** .5189** .8100** .2438 ‘4짧l** ~ .3757* .3938* 없어** .5111** 1 αJOO .6뼈** .7623** .4152* .5댔'"* 퍼함* .5271** .5142** .4239* .5189** .6805** 1 아뼈 .6516** .2400 .3764* 월'14* 굉48* .3닮7*

없32** .8HX)** .7623** .6516** 1.αJOO .5159**.67뻐'" .6않>** 닮46** .6359** .6013** 껑38 .4152* .2400 .5159** 1 αJOO .8'η'0** .앉웠)00* .9264** .없8** .7001** 갱40** .5앙8** .3764* .6780** .8770** 1.αm 앉ifl** .9676** .9349** .7247** .3796* .5576** .3914* .6755**.9뼈** 짧7** 1αm .9735**.앉짧**

7여8** .3757* .5271 ** 짧48* 많46** .9264** .96760* .9'1:fi** 1.αJOO .9578** .6623** .3938* .5142** .'3fJY7* .없59** .9038** 잃뺑*앉짧* .9578** 1.αm

N of cases : 56 2-tailed Signif : * -.01 ** - .001 ’ is pnnted if a coefficient cannot be computed

LC : SET Listening Comprehension RC : SET Reading Comprehension GR : SET Grammar VC : SET Vocab비강y TOT : SET Tota1 Score PRON : TOP Pronunciaiton GRAM: TOP Grammar FLUN : TOP Fluency COMP : TOP Comprehensibility APPR : TOP Appropriateness

1) TOP의 평가요소간 상관관계

표 17의 TOP의 평가 요소별 상관관계를 보면, 발음과 문법간의 상관관계 계

수 (.8770)만을 제외하고는 모두 .9이상으로 5가지 요소간의 상관관계가 매우 높

음을 알 수 있다. 이는, 여러 평가 요소간의 중복성 (M버디collinearity)이 매우

높음을 보여주는 결과로서, TSE에 관한 기존의 연구 (CI따k & Swinton 1980)

결과와 유사한 형태를 보여 준다. 이렇게 높은 중복성 때문에 평가 요소별로

평가이론에 근거한 통계적 의미는 별로 없으며 반면에 의,,+소통 언어능력의

이론적 의미가 크다. 즉, 몇가지 평가 요소를 선택하여 측정할 것인지 결정하기

위해서는, 통계적인 해석보다도, 측정하고자 하는 언어능력요소를 결정한 후 수

험자 집단의 의사소통능력과 평가여건을 고려하는 것이 바람직하다.

Page 23: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of or허 안oficiency <TOP)의 개발 연구 267

2) TOP-SET 상관관계 또한, 표 17에서 볼 수 있듯이, 주로 이해기능을 측정하는 영어검정시험인

SET의 청해, 독해, 문법, 어휘, 총점이 표현기능의 의사소통능력을 측정하고자

하는 TOP의 결과와 거의 높은 상관관계플 보여주고 있다. 특히, SET의 청해

시험은 TOP의 발음, 문법, 유창성, 전반적인 의사소통 가능도, 적절성과 모두

.6이상의 높은 상관관계를 보이고 있는 점으로 보아, SET의 청해시험은 이해

기능의 시험이지만, 의사소통능력을 간접적으로 잘 평가하고 있다는 사실을 알

수 있다. 또한, SET의 문법도 TOP의 발음을 제외한 나머지 네가지 영역과 .5 이상의 상관관계를 보임으로서 SET의 문법 내용 및 방식이 발음을 제외한 전

반적인 의사소통 능력을 간접적으로 잘 평가함을 알 수 있다. 이런 결과는,

Choi 0993, 1994)7} 주장한 바대로, 속도화 시험의 속성을 극대화하는 방식과 구어체 대화문을 통하여 어법을 측정하며 문어체의 글을 통하여 문법을 측정하

는 방식, 그리고 문맥을 중시하는 시험방식등의 여러 시험방식 양상의 요소들

이 잘 어우러져서 장재적인 의사소통능력을 타당하게 측정함을 보여주는 것이

다. 단, SET의 독해와 어휘와 TOP의 전반적인 의사소통 능력 요소간에 상관

관계는 그리 높지는 않았는데, 이는 예상된 바대로이다. 즉, TOP의 시험은 주

로 구어체 중심의 음성언어로 구성되어 있으므로 문어체인 글로 구성된 독해시

험이 측정하는 언어 능력과는 다소 차이가 있기 때문으로 사료된다. 또한, 어휘

와 TOP의 전반적인 요소간의 상관관계도 다소 낮게 나왔는데, 이는 아마도 문

자언어로 제시된 어휘시험이 속도화 속성이 다소 결여되어 내재화된 잠재적 의

사소통능력의 원천을 측정하는데 미흡했기 때문으로 풀이된다. 결론적으로,

SET의 총점과 TOP의 평가 영역간의 상관관계가 발음 <.5159)을 제외하고는 모

두 .63이상으로서 매우 높은 점을 볼 때에, 이해기능 (듣기, 읽기) 능력을 정확

히 측정함과 동시에 진정한 영어 의사소통능력을 간접적으로 측정하고자 하는

목적으로 개발된 SET의 시험 타당성이 입증되었다고 할 수 있다.

5. 결 론

5.1. 시험방식의 타당성

본 연구를 위한 다양한 분석 기볍 -- 일반화 가능도 분석, 다중 회귀 분석 및

신뢰도 분석, 요인 분석, 그리고 상관관계 분석 등을 통해 조사해 본 결과, 본

연구를 위해 개발된 가칭 TOP시험은 구술 의사소통능력을 측정하기에 타당한

평가 도구로 나타났다. 일반화 가능도 분석 결과, 전반적으로 매우 안정적인 바

람직한 수험 결과를 나타냈으며 원어민 채점자와 한국인 채점자간에 큰 차이

가 없었음을 알 수 있었다. 단, 일반화 가능성을 좀더 높이기 위해서 후속 연구

에서는 채점자 수와 평가요소 수는 변화를 주지 않으면서 section을 다소 조정

Page 24: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

268 최 인 철

해 볼 필요가 있다는 결론을 얻었다.

또한, section 전반에 걸쳐 9이상의 매우 높은 신뢰도를 보였으며, 특히, 원

어민 평가자보다 한국인 평가자의 채점이 다소 더 높은 신뢰도를 보였다. 이런

결과는 유능한 이중언어구사자 수준의 능력을 지년 한국인 평가자가 영어 의사

소통능력을 신뢰성 있게 평가할 수 있다는 사실을 시사한다. 또한, 다중 회귀

분석 결과, 각 section별로 총점에 대한 설명력을 나타내는 결정계수는 66이상

으로 대부분 .8-.9의 범위의 상당히 높은 수준으로서 거의 모든 section이 다

의미있는 활동으로 나타났다.

요인 분석에 의하면, 측정하고자 하는 능력이 어떤 한 요인에 초점이 맞추어

지고 있기 때문에, 의사소통능력을 측정하고자 하는 가칭 TOP는 매우 높은 구

인 타당도 (Construct V alidity)를 보임을 알 수 있다. 마지 막으로, SET의 총점 과 TOP의 평가 영역간의 상관관계가 상당히 높은 점을 볼 때에, 진정한 영어

의사소통능력을 측정하고자 하는 목적으로 개발된 SET의 시험 타당성도 입증

되었다고 할 수 있다.

5.2. 후속 연구를 위한 새로운 평가 방법

이런 연구 결과를 바탕으로 section내용을 다소 개정한 후 후속 타당도 검증

연구를 함으로써 가칭 TOP의 시험 방식과 내용을 최종 결정하는 것이 바람직

할 것이다.

본 연구에서는 총 수험시간이 30분 정도 걸렸으나, 대규모 수험 시행을 하기

위해서는 다소 줄여야할 필요가 있으므로, 107~의 section을 타당한 시험 방식

인 section 8개로 줄여서 후속 연구를 할 필요가 있다. 따라서, 문어체 글을 소 리내어 읽을 때에는 자연스러운 말의 억양이 재현될 수 없으므로 회화능력을

측정하는 시험에서는 section 3은 타당성이 높지 않다고 판단되어 제외하고,

section 4와 section 5는 합하여 구어체와 문어체 언어를 골고루 제시하여 필수 구문 능력을 평가한다. 또한, section 6은 문맥이 결여된 상태에서 문장 완성하 는 방식이므로 자연스러운 의사소통 상황을 재현하는데 부족하므로 제외하며,

문법능력을 집중적으로 측정하는 시험 방식인 section 8은 전반적인 의사소통 능력을 측정하기에 불충분한 방식이므로 제외한다. 앞에서 지적된 바대로

section 10은 자연스러운 의사소통 상황을 제시하기에 타당하지 않으므로, 4가

지 방식은 차후 연구에 배제한다.

5개의 section을 줄이는 대신에, 3가지의 새로운 방식을 삽입하여 총 8개의

section을 후속연구에 활용하여 최종 시험 방식을 결정한다. 일상적인 소재의

이야기를 말하는 능력을 측정하기에 타당한 방식과 함께, 그래프 및 차트 동의

실용 목적이 높은 그립 정보를 영어로 설명하는 방식을 사용한다. 또 다른 새

로운 방식으로서, 의미단락을 듣고 재생하는 방식을 활용하되, 의미단락의 길이

를 점차적으로 길게 하여 제시하고 수험자로 하여금 재생함으로써 변별력을 극

Page 25: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Oral Proficiency (TOPl의 개발 연구 269

대화하는 시험방식을 사용한다. 마지막으로 현대 생활에서 필수적인 의사소통

도구인 전화를 통해 자동응답장치에 6하원칙의 정보를 메시지로 남기는 task를

도입한다. 이는 모의면접방식이 실제 의사소통상황과 완전히 일치하므로 타당

도가 매우 높은 방식이다. 이런 세 가지 방식을 후속 연구에서 삽입하여 기존

의 57~ section과 합하여 8개 의 section으로 구성 된 시 험 을 통하여 다시 한번

타당성 검증을 한 후, 최종적으로 활용할 section을 선택한다.

평가 요소로는, 본 연구의 결과뜰 종합해 볼 때 생리-심리운동 기술을 대표

하는 1) 발음 (pronunciationl과 상황판단 (전략적) 능력을 대표하는 2) 유창성

(f1uency)과 의사소통능력의 통합적 채점방식을 도입한 3) 전반적인 이해 가능

도 (overalI comprehensibility)를 포함하여, 의사소통능력 요소인 정확성으로 대

변되는 4) 문법/어법 능력 (grammatical competence; accuracy) , 적절성으로 대

변되는 5) 사회언어학적 능력 (sociolinguistic competence/appropriateness)등 5 가지 평가 요소를 측정하는 것이 바람직하다고 판단한다. 단, 응집력의 의미로

대변되는 6) 담화적 능력 (discourse competence/cohesion, coherence)은 차후

연구의 목적상 당화적 능력을 평가 요소에 포함하여 평가 요소로서의 가치를

검증한다. 물론, 문장단위의 말을 평가하는 방식에서는 담화적인 능력인 응집력

과 사회언어학적 능력인 적절성을 제외한 4가지 평가 요소를 측정하고, 문장단

위 이상의 긴 담화 (discourse)를 말하도록 하는 방식에서는 응집력 (담화능력)

및 적절성 (사회언어 능력)을 포함한 6가지 평가 요소로 측정한다.

참고문헌

Alderson, ]. Charles, Karl ]. Krahnke, and Charles W. Stansfield, (1987)

Reviews of English Langt따:ge Proficiency Tests, Washington D. C.:

Teachers of English to Speakers of Other Languages

Bachman, Lyle F. (1990) Fun따mental Considerations in Lα@따!ge Testing, Oxford: Oxford University Press.

and Palmer Adrian. (1981) ‘The Construct Validation of

the FSI Oral Interview,’ Lan밍따!ge Leaming, 31. 1, 67-86.

Davidson, R. Katherine, I-C, Choi. (1995) Studies in Lα1밍따'ge Testing 1: An Investigation into the Comparability 01 Two Tests 01 English as a Foreign Language, (Collaborated with Lyle F.

Bachman, Fred Davidson, and Katherine Ryan), United Kingdom:

Cambridge University Press.

and Adrian Palmer. (1996) Langt따ge Testing in Practice, Oxford: Oxford University Press.

Page 26: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

270 최 인 철

Brennan Robert L. (1992) Elements 01 Ge,ηeralízability Theory, Iowa City:

The American Coll1ege Testing Program.

Bymes, Heidi and Michael Canale. (1986) nξfining and Developing Prq{l따ency:

Guidelínes, Implementations, αld Co.η'cepts, Littlewood, IL: National

Textbook Company.

Canale, Michael. (1983) ‘Language Proficiency and Academic Achievement,’

In John W. Oller, ]r. (EdJ , Issues η Language Testing Research,

Rowley, MA: Newbury House, 108-26.

Choi, Inn-Chull. (1994) ‘Content and Construct Validation of a Criterion­Referenced English Proficiency Test,’ English Teachi.η!g 48 (311-348),

The College English Teachers Association of Korea.

Clark, John L. D. and Spencer S. Swinton (1979) ‘An Exploration of Spe외선ng Proficiency Measures in the TOEFL Context,’ Research Reports: Report 4, Princeton: Educational Testing Service.

and Spencer S. Swinton (1980) ‘The Test of Sp이엉n

English as a Measure of Communicative Ability in English-Medium

Instructional Settings,’ Research Reports: Report 7, Princeton:

Educational Testing ServÍCe. Clifford, R. T. (1981) ‘Convergent and Discriminant Validation of Integrated

and Unitary 매nguage Skills: the Need for a Research Model,’ In Palmer

et 외1. (EdsJ The Construct Validation 01 Tests 01 Communi,∞tive

Competence, Washington, DC TESOL.

Crick, Joe E. and Robert L. Brennan. (1983) A Generalized Analysis of Variance System, Iowa City: The American Colllege Testing Program.

Cummins, ]. P. (1983) ‘Language Proficiency and Academic Achievement,’ In

John W. Oller, jr. (Ed.), Issues in Lan밍따!ge Testing Research,

Rowley, MA: Newbury House.

Grice, H. P. (1975) Lo낄c and Conversation, in R. W. Cole & ]. L. Morgan

(Eds.) Harvard University Press.

Oller, john W. ]r. (1979) μ"111g7따!ges Tests at School: a Pragmatic AppnαlCh,

London: Longman Inc.

(1983) ‘Language Proficiency and Academic Achievement,’

In ]ohn W. OlIer, ]r. (EdJ, Issues in Lα1밍띠!ge Testi,η'g Research,

Rowley, MA: Newbury House. 108-26. Searle, ]. R. (1969) Speech Act: An Essαy in the Philosophy 여 Lα197따'ge,

London: Cambridge University Press.

Shohamy, E. (1983) ‘The Stability of Oral Proficiency Assessment on the

Oral Interview Testing Procedure,’ Lα@따ge Learning 33: 527-40.

Page 27: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of or혀 Proficiency (TOP)의 개발 연구 271

(1984) ‘Does the Testing Method Make a Difference? The Case

of Reading Comprehension,' Langl.따'ge Testíng 1.2: 147-170.

Underhill, Nic. (1987) Testíng Spoken Lα1망따Ige: A Hα7dbook of Oral Testíng Technique, Cambridge: Cambridge University Press.

박남식, 조준학, 김충배, 김임득, 최인철 (1997) ‘실용 영어 의사소통능력 인증제

도 연구,’ 교육부.

이종성 (1988) ‘일반화가능도 이론,’ 연세대학교 출판부.

최언철 (1993) ‘외국어능력 검정시험 개발 모델,’ 어학연구, 29권 3호, (383-426)

서울대학교 어학연구소.

Page 28: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

철 인 최 272

G-STUDY 결과 부록 1.

G STUDY 걸고~ RANDOM MODEL p x r x s x f 설계

(** = INFINITE) SAMPLE SIZE UNIVERSE SIZE

F 4

5 x

[S

* 2

R

P 18

****

〈표 2)

SUMS OF USING EMS SQUARES FOR MEAN V ARIANCE %/100

SCORES SCORE EFFECTS SQUARES COMPONENT

DEGREES SUMS OF OF SQUARES FOR

EFFECT FREEDOM MEAN

.41

.05

.02

.01

.6684001 ‘0없8992 .0360192 ‘014αì06

29.52932 48.뼈422

14.05047 16.56196

願磁獨織

띠따

@%

양냉 째

4489.4&뼈

40잃.95222

때43.68986

4037.17장웠

η 1 4 3

P R S F

m

m m m m

O껑1563

.2당l6488

.0013188

.0영아XJ4

.0977535 (0.0)

.68084 2.24186

27391 6.71앉101

13.92737 3.93971

11.57428 152.44664 13.96961 27τ7.072때03

41.78211 47.27647

4549.52500 4698.13앉m

4당53.14200

4119.22611 4127.420껑

4140.65222

η 없 이ι 4 3

m씨 %

mπ @써 댄 앉 m

m mω

n

.0168725

.0183090

.여52515

.2755182

.14617

.17022

.16918 5.0않씨31

9.93947 8.68139

34.513æ 60.4앉뼈

4795.18500 4663.64400 얘43.많lOOO

4318.42667

%

이야 짧 ηι

PRS PRF PSF RSF

05 .0786785 07868 16.떠042 5067.앉뼈m 204 PRSF

3987쟁800 ME따‘

NOTE FOR GENERALIZABILITY ANALYSES, F-STATISTICS SHOULD BE IGNORED

1.않8α366 1080.11200 719 TOTAL

G STUDY

(** = INFINITE) SAMPLE SIZE UNIVERSE SIZE

RANDOM MODEL p x r x s x f

F 4

****

S 5

R 2

****

P 18

****

SUMS OF USING EMS SQUARES FOR MEAN V ARIANCE

SCORES SCORE EFFECTS SQUARES COMPONENT

%/100 DEGREES SUMS OF

OF SQUARES FOR

EFFECT FREEDOM MEAN j

m m m

1.0295788 .0040800 .1때8035

.0224097

53.10541 2.17071

26.77663 4.39207

902.79196 2.17071

107.1αì51

17.당3829

4632.74400 3732.12276 잃37.05856

3747.52033

n 1 4 4

P R S F

Page 29: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

273 Test of Oral Proficiency nOP)의 개발 연구

0.0 .09

0.0 O.。

0.0 0.0

00잃669

.1정3127

αl66461 (0.0)

0010859 .0004껑3

23292 1.41673 .2껑32

.03952 20263 13752

@m

mm

WM

mM

따밍 m잉 ”n

꼬 8 m

3 %

mω 2

4638.87440 얘36.18800

4앉36.99400

3839.38733 3750밍156

3856.82722

η % % 4 4 m

mM

% mu

mm

R

앞 0.0

0.0 .03

0.0

00&η03

.0113220

.0369801 (0.0)

.08964

.10490 12225 .0떼50

6.09정3

7.13309 33.25162

.487없

엉48.57200

4681.06800 4905.없뼈

3860‘ 45444

없ω mm

fm

PRS PRF PSF RSF

.ÜL뼈쟁85 04829 13.1잃47 4939.84αm 272 PRSF

3729.952여 MEAN

1.4386778 1209.88796 얹)9 TOTAL

NOTE FOR GENERALIZABILlTY ANALYSES, F-STATISTICS SHOULD BE IGNORED

〈표 3> G STUDY 결과 RANDOM MODEL p x r x s x f 설계

F 4

**** *

S 5

R 2

**** *

P E *

(** = INFINITE) SAMPLE SIZE UNlVERSE SIZE

DEGREES SUMS OF SUMS OF USING EMS OF SQUARES FOR SQUARES FOR MEAN V ARIANCE %/100

EFFECT FREEDOM MEAN SCORES SCORE EFFECTS SQUARES COMPONENT

3439.02625 2여.얘0정 14.60573 .2579707 .31 3244.껑883 9.70282 9.70앓2 (0.0) 0.0 3252앉5408 18.4ρ807 4.60202 .0179181 .02 3258.많j5()() 24.00898 8.00꼈9 .0016493 0.0

54.51443 3.앉였89 .1738456 .21 43.14193 .77039 .0479915 .06 5.94177 .14147 .00α1O81 0.0 2.29227 .57307 (0.0) 0.0

20.50338 6.잃μ6 .0791024 .09 21.39993 1.7잃33 .0304020 .04

21.64173 .38646 .0711464 .08 5.56037 .13239α)61032 0.0

16.21807 .09654 (0.0) 0.0 10.4또20 .87127 .0512929 .06

M 1 4 3

P R S F

3503.24않j()

3500.57625 3468.97700 3264.94917 3잃8.76120

3298.36300

M

∞ω 따 4

3 m

m씨 %

mm

R

짧 뼈 때 織

쨌 m생 @&

$

”%

wm m

PRS PRF PSF RSF

.12 1018738 .10187 17.11480 3709.93αm 168 PRSF

3껑4.54α)2 MEAN

NOTE FOR GENERALIZABILITY ANAL YSES, F -STATISTICS SHOULD BE IGNORED

.8402여0 475.38398 599 TOTAL

Page 30: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

274 최 인 철

(** '" INFlNITE) P R S F SAMPLE SIZE 15 2 5 4 UNNERSE SIZE **** **** **** ****

DEGREES SUMS OF SUMS OF USING EMS OF SQUARES FOR SQUARES FOR MEAN V ARIANCE %/100

EFFECT FREEDOM MEAN SCORES SCORE EFFECTS SQUARES COMPONENT

P 17 3008.1껑40 350.72290 20.6:예76 .3424321 38 R 2700.21771 42.81521 42.81521 O잃3244 .10 S 4 2737.αï628 79.앉>378 19.91앓4 .1014405 11 F 4 2663.09994 5.69744 1.42436 %잃잃3 0.0

PR 17 3095.28760 44.잃699 2.6α365 .074~23 .08 PS 68 3187.62100 99.84182 1.46826 .0749않E 08 PF 68 3029.33500 15.51216 .22812 01앉x)29 .01 RS 4 2781.00500 1.13351 .잃잃8 (0.0) 0.0 RF 4 2708.06없4 2.15029 .53757 004밍% 0.0 SF 16 2746.70861 3.9딩89 24718 0036434 0.0

PRS 68 3324.72600 48.8아)29 .71778 .1315224 PRF 68 3123.88200 5.2잃51 07698 .0033613 0.0 PSF 272 3229.45500 16.66951 .06128 αm딪ï66 0.0 RSF 16 2794.없611 1.잃없9 .11491 .0030408 0.0

PRSF 272 3392.15αm 16.36671 ‘α3017 0601717 .07

MEAN 2657‘40250

TOTAL 얹꼈 734.74750 .9072628

NOTE FOR GENERALIZABILITY ANALYSES, F-STATISTICS SHOULD BE IGNORED

〈표 4> G STUDY 결과 RANDOM MODEL p x r x s x f 설계 (** = INFINITE) P R S F SAMPLE SIZE 15 2 5 4 UNIVERSE SIZE **** **** **** ****

DEGREES SUMS OF SUMS OF USING EMS OF SQUARES FOR SQUARES FOR ME따J V ARIANCE %/100

EFFECT FREEDOM MEAN SCORES SCORE EFFECTS SQUARES COMPONENT

P 14 3327.92425 195.64623 13.97473 .2522893 31 R 1 3138.45937 6.18135 6.18135 (0.0) 0.0 S 4 3149.26575 16.98π3 4.24693 .01겁016 .02 F 3 3156.경620 24.15818 8.05273 .0071071 0.0

PR 14 잃82.86350 48.75790 3.4앓71 .1532734 19 PS 56 3잃8.60625 43.69427 780엉 여8~ 06 PF 42 잃57.66300 5잃057 .1앓87 .αx)8767 0.0 RS 4 3158.15417 2.70707 .67677 (0.0) 0.0 RF 3 3180.76493 18.14738 6.04913 .0680440 .08 SF 12 3195.57500 22.15107 1.없592 0009589 .04

Page 31: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

275 Test of or외 싼oficiencv (TOP)의 개발 연구

.09 0‘O 0.0 .. 07

.073잃37

.α)57337 (0.0)

.0547813

.?f!f!E7

.1 2410

.09112

.91716

21.75앉13

5.21앙7

15.308잃

11.00587

3때8.01250

잉35.96200 0 영5닮5.80떼

3잃3.61667

aω ”%

mm

PRS PRF PSF RSF

.12 .뼈갱53 .애않4 16.03313 3않5.61αm 168 PRSF

3132.27802 MEAN

g뼈456

NOTE FOR GENERALIZARILlTY ANALYSES, F-STATISTICS SHOULD BE IGNORED

453.33198 TOTAL599

F 4

S 5

****

R 2

**** *

p …h

*

(** = INFINITE) SAMPLE SIZE UNIVERSE SIZE

%/100 USING EMS

MEAN V ARIANCE SUMS OF

SQUARES FOR DEGREES SUMS OF

OF SQUARES FOR

SCORE EFFECTS SQUARES COMPONENT

P R S F

28 0.0 .06

0.0

3없8497

(0.0) .α30앉>49

(0.0)

33.370껑

07605 17.82209

44788

SCORES

뼈 獅爛때

MEAN

8899.9~갱80

8299.34175 8370.또405

잃01.05721

EFFECT FREEDOM mm

1 4 4

.32

.11 0.0 0.0

.4460195 1않앓87

(0.0) (0.0)

0131663 -α)67859

12.0앓52

2.10518 48783 .59571

1.84739 4앓32

216.6따£

151.57284 35.12않ì8

2.38284 7.38앉였

7.81312

9116.60920 9122.79100 8936.없500

8373.01295 잃08.52284

잃80.1않68

mm

잉 η 4

4

PR PS PF RS RF SF 0.0

PRS PRF PSF RSF

‘ 05 .05

0.0 0.0

.0762쟁4

.0744153

.0029681 0049;없6

職뼈 熾짧

36.78876 36.13602 39.m앉꿨

3.59232

9378.64200 9197αïOOO

9206.61500 8393.59947

mι mι

@a

”m

10 .1잃8128 .12981 37.38608 9546.97000 288 PRSF

8299.26569 MEAN

1잃89242 1247.1'여31 949 TOTAL

Page 32: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

철 인 최 276

〈표 6) SUMMARY OF D STUDY RESUL TS

R E A

mu

다 mω

VARIANCES

LOWER CASE

DELTA

EXPECTED $P R S F UNIVERSE OBSERVED INF.INF.INF.INF. SCORE SCORE

SAMPLE SIZES

GEN. COEF. PHI ME따↓

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

.40810

.72앙50

83224 잃800

.85366

.8않03

.8잃33

.89267 90015 :91679 .9정46

.fiJò77

.'BI3797 7

.91713

.91868

.9:잃43

.94126

.94251

.94234

.95227

.95926

.짧36

59755 .19264 .11485 .1 1여8

.10671

.10834

.1여45

.078잃

.07473

.07α19

.00989

總짧 獅댔 뼈 뼈 職職職細職

1.10173 갱324

.77018 .10169

.72889 .00여0

.727f13 .05917

.71616 .04767

.71021 .04172

.71α)26 .040π

7α굉,9 .04아%

.70199 .떠350

.6'앉ì88 .02839

.69장8 .02399

.66849

.66849

.앉였49

.66849

.66849

‘66849 .66849 .66849 66849 66849 .66849

1

4

4

5 5 4

5 4 5 7 7

l

4

6

6

8

m m 8

m m πω

1i

1l

끼ι nι ηι 。ι?“

4·4

4‘

A•

UPPER CASE

DELTA

VARIANCES

LOWER CASE

DELTA

EXPECTED $P R S F UNIVERSE OBSERVED

INF.INF.INF.INF. SCORE SCORE

SAMPLE SIZES

GEN. COEF. PHI MEAN

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

71564 .91808 .944깎76

.없674

.95710 96156

’%잃3

.95813

.96610

’97222 .97645

뼈 댔 때 때 η mκ

%%

mω ”a m

뼈 됐 M찌 없 왜 m$

m$

m$

잃 m$

m$

.23936

.10498

.아ro7

.쨌'BI3

.08266

.아1014

.07894

.08쟁5

.(Jη76

.07395

.07147

40910 .00187 .야ì020

.05792

.여615

.04116

.00900

.여500

,α경613

.0:잃42

.0:깅83

1.02958 1.26987 껑029

1.02958 1.07626 .여668

1.02958 1.05851 .02893 1.02958 1.05739 .02781 1.02앉)8 1.05148 .02190 1.02앉)8 1.04886 .01928 1.02앉)8 1.04794 .01836 1.0꼈8 1.05027 .02009 1.02앉줬 1.04600 .01648 1.02958 1.04300 .01342 1.02잃8 1.04076 .01118

1 4

4 5

5 4 5 4

5

7 7

1

4

6

6

8

m m 8

m m 퍼

----。

ι

nι nι ?“

nι A4

A4·A4·A4

Page 33: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

277 Test of Ora1 Proficiency (TOP)의 개 발 연구

〈표 7> SUMMARY OF D STUDY RESUL TS

VARIANCES

EXPECTED $P R S F UNIVERSE OBSERVED

INF.INF.INF.INF. SCORE SCORE 職댔 M

LOWER CASE

DELTA

SANIPLE SIZR.S

GEN COEF. PHI ME따‘

[b

[D

「D

[D

-D

[D

{D

FD

FD

-D

-3

1 1

1 1 1

1

1

1

1 1 1

鋼職總願總뼈 熾職뼈 細總

總孤때 總떠 짧 짧 總總織짧

짜%

mm

%

재 떼 꽤

%&

m$

쟁 떼 m갱

쩌4 mw

mω mω 떠 m씨 mω

m m mι mι

짧 짧 熾뼈 m M

職職服熾뼈

뼈 때 職職願願爛願뼈 願觸

.65984 46972 .36193 36131 .3574때 0

‘355또51

.35500

.31100

.30901

.30756

.30641

.25797

.25797

’25797 .25797 .25797

’ 25797 .25797 .25797 .25797 .25797 .25797

I 4

4 5

5 4 5

4 5 7 7

1

4

6

6 8

m m 8

m m

πω

1

1

2

2 2

2

2

4

4 4 4

VARIANCES

鋼鋼鋼E O M

M F N

S M

R

P M

UPPER CASE

DELTA

LOWER CASE

DELTA

SAMPLE SIZES

GEN. COEF. PHI MEAN

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

.48714 .3π43

.71729 .5πm

.83763 .7'2ß26 83987 .72845 85깡36 .74491 .앉였40 .75300 .860않 .75515 .00328 .82400 .91209 .83797 .91002 .84795 .92356 .앉'i544

짧 때 願뼈 願뼈 爛服뼈 願職

56483 .251m .12007

‘ 12765 .11727 .11233 .lllm .07'2ß9

’α3621

.00140

.05787

36051 .13496

-αJ638

‘α3529

.05917

.α퍼49

.05떼

.03667

.æ300

.03017

.02834

m밍 때 이m η mw

잃 잃 mω 4 ”m

π

m

찌 뼈 찌 찌

wm

m삐 왜 까써 짧 때

.34243 34껑3

.34껑3

.34243

.34껑3

.34243 34껑3

34243 34껑3

34243 .34잉3

1

4 4

5 5 4 5 4

5

7 7

1 4

6

6 8

m m 8

m m E

1i

1i

?“

?“

?“

ηι“ ?“

4‘

4‘‘

A•‘

A•

Page 34: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

철 인 최 278

SUMMARY OF D STUDY RESUL TS 〈표 8)

職댔 페

VARIANCES

LOWER CASE

DELTA

EXPECTED $P R S F UNlVERSE OBSERVED

INF.INF.INF.INF. SCORE SCORE

SAMPLE SIZES

GEN. COEF. PHI ME따J

[D

ζJ 「D

ζ니 F3

-D

{D

F。

FS

{D

{D

1

1

1

1

1

1

1

1

1

1

1

.31339

.잃512

.6앉외5

.7여55

71462 .71513 .72080 .81501 .82604 .잃540

.839t씨

獅짧 짧 椰熾總總뼈 總總織

21718 .05730 떠817

.없559

.0:잉24

.떠581

.03344 02924 .0:잉æ

.0:껑96

.02453

짧 쩨 職뼈 m m

椰磁職뼈 願

37756 .19145 09잃3

.09324

.08928

.08733

-α3690

04805 .여599

.여뼈4

.여336

@@

웹 없 짧 디띠

@M

Mm

뼈 얘@ 웠 없&

이ι “*

잃 잃 잃 잃 mJ

mω m깅 mj

mj

짧 꼈 짧 짧 짧 짧 짧 짧 꼈 짧 댔

l

4

4 5 5 4 5 4 5 7

7

1l

4-

”o pO

。。nU

nU

n。nU

nι {3

1

1

1

1

1

---i

ηι ?“

。ι

nι qι A4‘

A4ι A4i

A4·

願따 聊

VARIANCES

LOWER CASE

DELTA

EXPECTED $P R S F UNlVERSE OBSERVED

INF.INF.INF.INF. SCORE SCORE

SAlVIPLE SIZES

GEN. COEF. PHI MEAN

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

mm

.잃428

.41529

.58210

.않454

.5!앉i31

.5!앉J60

.60196

.72379

.7.잃63

.74281 74903

.::1)773

.42616

.59572 59791 .60595 .60882 .61089 .73894 74701 .75316 .75757

總때 願職願빼 뼈 總織願熾

99407 .당5593

.쟁347

.잃064

.26842

’26367 .26109 .15068 .14263 .13671 .13:잃O

3없85 1.28312 .88827 .39쟁5 .9았354 .53169 .39엉5 .66281 .26796 39485 .660:39 .26닮4

3없85 .65162 .25677 .39485 .64855 .‘25370 .3!없85 .64635 .25150 .39.때5 않경5 .13950 .39485 .52857 .13372 3없85 .52426 .12941 .3!없85 .52121 .12636

1

4

4 5 5 4 5 4 {D

7

7

l 4

6

6

8

m m 8

m m πω

1i

1i

nι ?ι ?ι ?“

?ι 4-A

] i

AgT

A1

Page 35: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of or머 Proficiency (TOP)의 개발 연구 279

부록 2. 회귀분석 결과

〈표 1 1> 다중 회귀 분석 (원어민 평가자)

<Section 1>

MuJtiple H 82445 R Square 67971

Variable B SE B Beta T Sig T

C1 2.367정4 10.809882 070152 .219 8273 Pl 19.401782 6.앉퍼잃8 .앉)5'2fQ 2.789 .α168

G1 -5.221620 8.676483 .166458 -.602 5493 F1 12.298326 9.219273 .374765 1.334 .1앉ì6

(Constant) 42.619213 5.57:없82 7.640 .α)()(}

<Section 2>

MuJtiple H 75323 R Square 56735

Variable B SE B Beta T Sig T

C2 10.380806 7.654923 273299 1.356 .1795 G2 -.344664 2.06l7l7 -.01때51 -.167 .8677 p2 7.188852 7.267602 170999 989 .3260 F2 13.780476 7.165891 .347174 1.923 .0586 (Constant) 17.729788 9.앉)5915 1 잃4 .0709

<Section 3>

Multiple H .82783 R Square .없않O

Variable B SE B Beta T Sig T

c3 6.674321 8.221867 148016 .812 4197 G3 4.292CX:ì2 1.665뻐 .175921 2.576 .0121 p3 12앉56561 6.547잃4 .2앉퍼56 1.933 .0573 F3 17.415784 7.057197 .4α)938 2.468 0161 (Constant) -10.652954 9.832696 1.083 .2앓4

<Section 4>

Multiple H 90143 H Square 81257

Variable B SE B Beta T Sig T

c4 -.04η07 13.4경495 -.001178 -.004 .9972 P4 13 앉30719 4.94잃44 .318430 2.748 .00η

G4 9잃4365 6.없3563 .279:업7 1.486 .1420 F4 14.082278 11.909004 .34었m 1.182 .2411 (Constant) 6.442788 5.917367 1.089 .갱m

Page 36: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

280 최 인 철

<Section 5>

Multiple R 90900 R Square ‘82628

Variable B SE B Beta T Sig T C5 11.787211 10.478742 .279:많i'3 1.125 2645 P5 18뼈5283 5.432294 .427756 3.399 .0011 G5 12.411236 8 아)4078 .301729 1.잃3 1298 F5 -2.886911 10.057763 -.067239 -잃7 .7749 (Constant) 6.906212 5π2607 1.196 잃56

<Section 6>

Multiple R 92246 R Square 잃094

Variable B SE B Beta T Sig T A6 -15.836133 8.앉i퍼57끼12 -.404202 -1.830 0717 p6 13.α갯~281 4.701여5 .29앞% 2.786 .αl69

G6 8.06당% 7.156195 .220992 1.127 2637 C6 33.45얹562 9.074369 ,잃6119 3.687 .αx)5

F6 -.512605 9.469113 -.01껑89 -떠4 9570 (Constantl 14.282068 5.400287 2.없5 .0101

<Section 7>

Multìple R .90749 R Square .82354

V않iable B SE B Beta T Sìg T A7 1.305427 4.않J3484 .032딩4 .299 .7657 p7 20.177531 4.02잃8074 .46μ44 5.α)9 .α)()()

F7 11.148995 4.2껑329 296252 2.639 .0103 G7 .2αì026 4.831726 .α)5()()1 .띠3 .9661 C7 6.797307 5.201762 .171없60 1.307 .1957 (Constantl 8.022742 5.882여3 1.364 .1ηl

<Sectìon 8>

Multiple R 93211 R Square .86잃3

Variable B SE B Beta T Sig T A8 11.201122 8.536짧 316079 1.312 .1939 p8 21.없4698 3.991없O .당퍼320 5.423 .α)()()

G8 2.627575 4.347370 .074749 .604 .5476 F8 1 1.0:없674 7.879398 .294203 1.400 1659

c8 -10.ι0.150191 9.200371 -.279297 -1.103 2738 (Constant) 17.690155 4.’않~2긴14 4.039 αx)1

Page 37: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Oral Proficiency (TOP)의 개발 연구 281

<Section 9>

Multiple R 95549 R Square 91297

V하iable B SE B Beta T Sig T A9 3.577901 6.551799 .1O?앉% .딩6 5868 p9 5.369324 3.786606 .145119 1.418 .1608 F9 13.452았ì6 4.592235 3잃400 2.929 0046 G9 6.301827 5.1æ021 .166'정4 1 껑5 2211 C9 5.981692 6.817725 .1 70580 877 3834 (Constant) 26.371975 3.773070 6.990 .0000

<Section 10>

Multiple R .91~써 R Square 없621

Variable B SE B Beta T Sig T AIO 12.002924 8.992여3 .391916 1 잃5 .1864 GIO 13.522762 7.401712 .431963 1.827 .0721 PIO -1 .477057 6.131562 따6873 -.241 8104 FIO 4.447129 9.845961 .143973 452 .6529 CIO .294576 14.513158 .α꺼459 .020 .9839 (Constant) 60껑9239 3.390946 17.762 .α)()()

〈표 12> 다중 회귀 분석 (한국인 평가자)

<Sectíon 1>

Multiple R .87452 R Square .76479

V따iable R SE B Beta T Sig T Cl -1.9:없373 7.611686 -.0끊114 -.261 .7951 Gl 5.669943 10.19잃86 .1없423 .556 .5800 Pl 14 잊ß았)5 9.778580 .42껑82 1.532 .1300

Fl 12.여8862 10.17경47 .3끊382 1.184 .껑04

(Constant) 41.735747 5.153595 8.098 .α)()()

<Section 2>

Multiple R 81624 R Square .당3625

V따iable B SE B Beta T Sig T C2 10.14:잃36 9.566194 .228654 1.061 2926 p2 2.649632 6.2471닮4 .0560닮 .424 .6728 F2 22.692414 8.371이37 .498196 2.711 .α)85

G2 2.781658 9.369707 .059932 .297 .7675 (Constant) 5.1얘373 10.167645 -.506 .6142

Page 38: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

282 최 인 철

<Section 3>

Multiple R 86569 R Square .74942

Variable B SE B Beta T Sig T C3 4.520잃2 6.131798 .092011 737 뼈35

P3 12.994790 5.많4208 .299911 2.298 0246 G3 7.8I.'ß727 7.449614 167127 1.여8 2983 F3 16.146922 7.410619 .3510잃 2.179 0328 (Constant) -8.684129 9.232861 -.941 않302

<Section 4>

Multiple R .92496 R Square .8또55

Variable B SE B Beta T Sig T c4 -1.086465 7.894612 .026057 .138 .8!않J9

P4 6.425208 4.724093 .161389 1.360 .1782 G4 4.334앓7 5.987403 112759 724 4716 F4 28.951432 9.628127 .691350 3.007 αl37

(Constant) 6.771488 5.852720 1.157 2513

<Section 5>

Multiple R .93618 R Square ‘87'없3

Variable B SE B Beta T Sig T C5 -4.920287 6‘없5374 -.115793 -.719 4747 p5 23.22갱80 5.67얘62 .561421 4.092 αXl1

G5 3.271144 5.944302 .085222 닮O 5839 F5 17.677437 8.669615 .415759 2.039 .여53

(Constant) 10.424또8 5“365900 1.943 .0561

<Section 6>

Multiple R .9,않87 R Square .90986

Variable B SE B Beta T Sig T A6 -17.365정4 7.457661 -.445849 -2.329 .0229 p6 22.649493 4.394013 .닮3242 5.155 .0000 G6 10.218241 8.1잃472 257171 1.252 2150 C6 9.2α짧9 7.368092 .232491 1.249 .2158 F6 14.017716 8.567059 .356067 1.않6 1064 (Constant) 11.853129 4.146274 2.859 αJ56

Page 39: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

Test of Oral Proficiency (TOP)의 개발 연구 잃3

<Section 7>

Multiple R B앉J50 R Square .80371

Variable B SE B Beta T Sig T A7 5.αl8578 3.613128 ‘127251 1.386 .1702 p7 20.경6042 4.571176 486281 4.451 α뻐〕

C7 3껑8145 5.314792 απ934 ff.J7 딩56

G7 7.때9477 4.잃3057 .170057 1.517 1잃8

Fï 4.474662 5.303877 1여493 .없4 4018 (Constant) 4.964194 6.69이83 .742 .4606

<Section 8>

Multiple R .92369 R Square .85321

Variable B SE B Beta T Sig T A8 ‘30앉옮 8.422257 .αl8334 .037 .9709 F정 22.479321 6.383908 .5π131 3.521 .αlO8

G8 5.598902 7 잃8623 .140껑2 .714 .4775

F8 6쟁4463 8.779700 169068 735 뼈48

c8 1.647796 8.7없415 043475 .189 .8509 (Constant) 20.150293 5.078781 3.968 αX)2

<Section 9>

Multiple R .95959 R Square 92081

Variable B SE B Beta T Sig T A9 14.100736 5.1집닮3 381458 2.753 .αη6

C9 -1 1.않1569 4.912649 -.296906 -2.357 .0213 p9 13.864419 5αl5434 359759 2.726 .α)81

G9 14.672744 6.047721 .않였409 2.426 0179

F9 5.앉J0375 6.0640잃 .1잃819 .988 3267 (Constantl 24잃3276 3.71α'1372 6.005 α뻐〕

<Section 10>

Multiple R 93365 R Square .87169

Variable B SE B Beta T Sig T AlO 9‘경5없5 5.426681 .278441 1.704 .0930 PI0 9.41없57 4.966403 295817 1.896 0622

CI0 -4.0않1O51 7.1α)323 -.116775 닮8 5717

GlO 3.297881 8.159851 .101479 .404 .6874

F lO 13.302768 8.618947 393678 1.않3 .1274

(Constant) 56.977711 3.256621 17.496 .αX)Q

Page 40: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

철 인 최 284

요인분석 걸과 부록 3.

〈표 14) Final Statistics

Cum Pct

72.7 77.7 81.2 84.4

Pct of Var

껴」 1」덕ι ?ι

2 5 3 3

껴l

Eigenvalue

32.70416 2.27802 1.닮360

1.43993

Factor

1i

nι ”J

A에

Communality * *

.91162 * 88303 * .90686 * .89':η3 * .78165 * .91845 * .83730 * .87316 * .74604 * 82276 * .79299 * .78899 * .8않58*

.85452 *

.앉)942 * 86422 * .85764 * .80914 * .82896 * .79361 * 87308 * .84665 * .86855 * .없896 * .81422 * .82639 * 74663 * .76916 * .77157 * .71766 * .앉ì035 * .80677 * .앉ì552 * .8앓48*

82017 * .8π'47 * .89677 * .9C뻐84* .앉많3 * .90209 * 잃453 * 87766 * .87433 * .앉ì663 * 85323 *

Var

mn m mn

mg

없 mμ 다

mm

mm

m%

없 댐 @

mω πω 야“ 대 % $ % @ mm

mu

m F m M mm

%m

Rm

%∞

%m

m앤 없

mm

대 왜 뻐 때 때 때 때

Page 41: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

285 Test of or머 Proficiency (TOP)의 개발 연구

〈표 15) Pattern Matrix

FACTOR 4 FACTOR 3

-.45930 얘811

-.47236 -밍100

FACTOR 2

.37467

FACTOR 1

뼈 總쩨 磁

.31947

91793 8끊47

織織總 .88177 .31449

.66026 70032

.43875

.4많81

40130 .μ571

.4없69

32027

熾獅爛願獅織織鍵微織願織總짧 鍵뼈 m

總織織織獅織없 뼈 劉짧 없 願願없 織劉

mu

m H m mκ 앙 %

뎌 mω 〔ωmω 않 m다 않 R

α @ω rω 다u πω

%

rω mω

@ % mn

m mu

U

”이 ∞ω 않

mm

%m

mm

mm

어 때 때 때 mω

m

m삐

Page 42: Test of Oral Proficiency (TOP)의 개발 연구*s-space.snu.ac.kr/bitstream/10371/86105/1/9. 2241094.pdf · 2019-04-29 · Test of Ora1 Proficiency (TOP)의 개발 연구 247 단적

286 최 인 철

〈표 16) Factor Correlation Matrix

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4

FACTOR 1 1.αXlOO

FACTOR 2 72182 1.00000 FACTOR 3 -.l1502 -.l1315 1.00000 FACTOR 4 .26얘5 쟁471 -.04731 1.00000

ABSTRACT

Development of Test of Oral Proficency (TOP)

In-Chul Choi

Six imφrtant factors to be considered in exploring a test’ s usefulness

inc1ude the content validity, reliability, authenticity, test--test taker interacti­

veness, practicality, and educational impact (or washback effect) (Bachman & Palmer 1996). It is viπually impossible to develop a perfect measurement

tool which fulfills 머1 of the six criteria, especially in measuring sophisticated

communicative language ability such as oral proficiency. The needs analyses, however, strongly suggest that a 야rformance test be developed to measure the general oral proficiency of Korean test-takers (Park et al. 1997). Thus, the present research is intended to develop a simulated oral proficiency

interview test (tentatively entitled Test of Oral Proficiency. English [TOP.

English]) designed to measure overall oral communicative skills on the basis

of a sound theoretical framework. In order to investigate the extent to which

the test method facets and the scoring schemes of the TOP are valid, the

present study employs not only qualitative approaches but quantitative

research methods including Multiple Regression, Factor Analysis, and GENOV A based on Generalizability Theory. The overall results reveal that

the present test methods and the scoring schemes of TOP meet the

requirements for valid measurement. Follow-up research is recommended to

validate the slightly revised test methods of the TOP.

서울시 성북구 동선동 3가 249-1

성신여자대학교 영어영문학과

136-742