국가영어능력평가시험(neat)의 선별 원리 및 검사지 구성의...

313

영어교육 65권 4호 2010년 겨울

국가영어능력평가시험(NEAT)의 문항 유형의 개발과 선별 원리 및 검사지 구성의 원칙

김용명

(한국교육과정평가원(KICE))

Kim, Yong-Myeong. (2010). A plan for designing and developing the listening and

the reading test of National English Ability Test (NEAT). English Teaching, 65(4),

313-342.

The purpose of this study is to present underlying principles and criteria for designing

and developing National English Ability Test (NEAT). To this end, this study presents

5 principles (i.e., Connection, Authenticity, Interactiveness, IBT Compatibility,

Washback Effectiveness) which play guiding and controlling roles in developing and

selecting item types appropriate for the listening and the reading test of NEAT derived

from test usefulness (Bachman & Palmer, 1996). Also, it proposes 4 criteria (i.e.,

Complementarity, Integration, Pivotality, and Hierarchicality) which function levering

roles in designing and developing the two tests of NEAT on the basis of the empirical

data of the item analyses of Foreign (English) domain of College Scholastic Ability

Tests (2005~2010 school year). Finally, it discusses some implications and

applications of the principles and the criteria to a theoretical blueprint for establishing

an item developing system and a test implementation system, setting up the criteria of

validating item types, designing a modular type of test specifications, and specifying a

complementary type of test specifications for the two ability-level listening and reading

tests (the 2nd and the 3rd rank) of NEAT.

I. 서론

2010년대 한국은 영어 평가의 전환기에 놓여있다. 2007 개정 영어과 교육과

정의 연차적 적용에 따라 수능 외국어(영어) 영역의 듣기 문항 확대 방안이 확

정된다. 또한 2009 개정 교육과정에 따라 2010년 하반기에 2014 대학수학능력

시험(이하 수능) 체제 개편(안)이 확정된다. 마지막으로 2012년에 국가영어능력

평가시험(National English Ability Test, 이하 NEAT)이 수능 외국어(영어) 영역 시

험을 대체 할지 그 여부가 결정될 것이다.

개정 영어과 교육과정(교육인적자원부 제 2007-79호)은 4기능을 통합적으로

314 김용명

균형 있게 계발할 것을 강조하고 있으며 동시에 실용 영어 교육을 강화하고

있지만, 현행 수능 외국어(영어) 영역 체제에서는 듣기와 읽기 영역 간의 문항

수(數) 비율이 34%:66%로 불균형 상태에 있다. 듣기 문항 확대 방안은 개정 영

어과 교육과정을 외국어(영어) 영역 시험에 반영하고, 현행 듣기와 읽기 영역

간의 불균형을 해소하기 위해 듣기의 문항 수를 현행 17(34%)문항에서 25

(50%) 문항으로 확대하는 것을 주요 내용으로 한다. 듣기의 문항이 25문항으로

확대되면 그에 따라 읽기 문항도 현행 33문항에서 25문항으로 축소가 불가피

하다(대통령 업무 보고, 09. 12. 23; 김용명, 고현숙, 김진석, 이완기, 2010).

2014 수능 체제 개편(안)은 수준별 수능과 복수 시행을 주요 골자로 한다(중

장기 대입선진화연구회, 2010. 8.19). 2014 수능 체제에서는 현행 수리 영역(수학)

과 같이, 영어도 두 수준, 즉, A형과 B형의 시험을 제공한다. A형은 현행 수능

보다 낮은 수준으로 출제 범위는 줄이고, 보다 쉽게 출제하여 수험생의 부담을

최소화하며, B형은 현행 수능과 동일한 수준으로 출제 범위와 난이도는 그대로

유지한다. 이에 따라 수험생은 자신의 수준과 진로에 따라 A형 또는 B형을 선

택하여 시험을 볼 수 있고, 또한 복수 시행 체제에 따라 연 2회 응시할 수 있

다. 2014 수능 체제 개편(안)이 2010년 하반기에 확정되면, 듣기 문항 확대 방안

과 맞물려 수준별(A·B형) 출제 범위, 시험 및 시행 체제, 평가 내용, 평가 요소,

문항 유형 등을 재설정할 필요가 있다.

NEAT의 수능 외국어(영어) 영역 시험의 대체는 2010년대 한국 영어 교육의

가장 큰 변화가 될 것이다. 교육부 발표(2006, 2007, 2008)에 따르면, NEAT는 듣

기, 읽기, 말하기, 쓰기 4개의 평가 영역으로 구성되며, 각 영역은 수준별, 1급,

2급, 3급으로 구성된다. 1급은 성인용으로 대학 2-3학년 수준으로 대학 졸업이나

취업 시에 토익, 토플 등을 대체하는 용도로, 2·3급은 학생용으로 대입 전형 자

료로 활용될 것이다. 또한 NEAT는 IBT(Internet-Based Tests, 이하 IBT) 방식의

복수 시행 체제로 운영될 것이다. 최근 교육과학기술부 발표(2010.1.7)에 따르

면, NEAT의 수능 외국어(영어) 시험 대체 여부는 여론 수렴 과정을 거쳐 2012

년에 최종 결정하여, 2016학년도부터 본격 시행하기로 하였으며, 수능 외국어

(영어) 시험 대체 여부와 별도로 2013학년도부터 대학 입학에서 NEAT의 성적

을 수시 전형 자료로 활용할 것이라고 하였다. 이에 따라 NEAT의 수준별(2·3

급), 기능별(듣기·읽기·말하기·쓰기) 출제 및 시행 체제, 평가 내용, 평가 요소

및 문항 유형 등을 확정할 필요성이 있다.

이상에서 논의에서 살펴본 바와 같이, 2010년대 한국 영어 평가 변화의 최종

귀착점은 NEAT의 수능 대체 여부가 될 것이다. 이에 본 연구는 NEAT를 연구

범위로 하되, 2014 수능 체제의 수준별 영어(A·B형)와의 연계성을 고려하여

NEAT의 듣기 시험과 읽기 시험으로 그 범위를 한정한다. 또한 NEAT가 수능의

국가영어능력평가시험(NEAT)의 문항 유형의 개발과 선별 원리 및… 315

단점을 극복하고1 NEAT의 장점을 살려2

진정한 의미에서 수능의 창조적 계승

자가 될 것인지 아니면 수능의 단순한 대체자에 머무를 것인지는 NEAT가 얼

마나 좋은 문항으로 어떻게 검사지를 구성할 것인가에 달려있다. 그러나 현재

까지의 선행 연구를 살펴보면, 교실 평가는 물론 수능, NEAT 등과 같은 고부담

시험과 관련된 문항 유형 개발 원리 및 검사지 구성의 원칙에 관한 연구는 찾

아 볼 수 없었다. 본 연구는 이 같은 연구 공백을 메우고, 동시에 NEAT 설계

의 밑그림을 제공하기 위하여, NEAT의 평가 목표, 평가 내용, 평가 기준 등에

타당한 문항 유형 개발 및 선별의 원리를 제안하고, 이를 토대로 NEAT의 검사

지 구성의 기준과 원칙을 제시하고자 한다. 이 같은 연구 목적을 구체화하기

위해, 본 연구에서는 다음과 같은 연구 질문을 설정한다.

(1) 어떤 원리에 따라 NEAT(듣기·읽기)에 적합한 문항 유형을 개발하고 선

별할 것인가?

(2) 어떤 원칙에 따라 어떤 문항 유형을 어떻게 조합하여 NEAT(듣기·읽기)

에 타당한 검사지를 구성할 것인가?

이 같은 연구 질문에 대한 가능한 답을 탐색하기 위해, 2장에서는 현재 개발

중에 있는 NEAT의 개요를 설명하고, 또한 문항 유형 개발과 선별 원리의 이론

적 토대로 Bachman과 Palmer(1996)의 시험 유용성(test usefulness) 모델에 관해

논의할 것이다. 3장에서는 2장의 논의를 토대로 문항 유형 개발과 선별의 다섯

원리(연계성, 실제성, 상호작용성, IBT 양립성, 환류 효과성)를 제안할 것이며, 4

장에서는 3장에서 논의한 문항 유형 결정 원리와 수능 외국어(영어) 시험의 문

항 분석(2005-2010학년도) 자료를 토대로 NEAT(듣기·읽기)의 검사지 구성의 네

원칙(상보성, 통합성, 주축성, 위계성)을 제안할 것이다. 마지막 5장에서는

NEAT의 밑그림으로 제안한 문항 유형 결정 원리와 검사지 구성의 원칙이

1 김용명 외 3인(2010)은 수능 외국어(영어) 영역의 세 가지 개선 방향을 제한했다. 첫째, 지난 20년간 수능이 시행해오는 동안 지나치게 정형화되어 있는 문항 유형을 개선하여 시험 요령이 통하지 않는 신 유형의 문항을 개발하거나 기존 유형을 재구성해야 할 것이다. 둘째, 교실 수업에서 4기능에 골고루 초점을 두고 실용영어 수업을 활성화할 수 있도록 듣기·말하기 평가 문항 수를 전체 시험 문항의 50%에 이르도록 상향 조정해야 할 것이다. 셋째, 현재 간접 평가 방식의 말하기와 쓰기 문항을 보다 직접적인 평가에 부합할 수 있도록 평가 방법을 개선해야 할 것이다.

2 이의갑, 김진석, 이병천(2009), 한국교육과정평가원(2010a)은 NEAT가 수능 외국어 영역 시험에 대해 갖는 장점으로 다음 세 가지를 언급했다. 첫째, NEAT는 현행 수능 외국어 시험과 달리 말하기·쓰기를 직접 평가함으로써 학습자들은 말하기·쓰기 학습에 강한 동기를 갖게 될 것이며, 교사는 교실 수업에서 의사소통 활동 중심 수업을 활성화할 수 있을 것이다. 둘째, 복수의 응시기회를 제공함으로써 학습자들은 수시로 시험에 응시하여 향상의 정도를 점검할 수 있으므로 자기 주도적 학습을 촉진시킬 수 있을 것이다. 셋째, NEAT가 IBT로 시행됨에 따라 IT 기술과 접목된 실제성과 상호작용성이 높은 신유형의 문항의 개발을 촉진할 뿐만 아니라 교실 수업에서도 IT 기술과 융합된 창의적인 학습 과업 및 학습 자료의 개발이 촉진될 수 있을 것이다.

316 김용명

NEAT의 실행 설계도의 주요 요소, 즉, 출제 및 시행 체제, 문항 유형 타당성

평가 기준과 절차, 검사지 구성, 평가 목표 이원분류표 구성 등에 어떤 시사점

을 줄 수 있는지에 관해 논의할 것이다.

II. 이론적 배경

1. 국가영어능력평가시험(NEAT)의 개요

2010년대 한국 영어 교육의 가장 큰 관심사는 2012년에 결정될 NEAT의 수

능 외국어(영어)영역 대체 여부일 것이다. 이에 본 절에서는 NEAT의 취지와

목적, 성격, 평가 체제, 시험 및 시행 체제 등에 관해 간략히 살펴보고자 한다.

교육과학기술부의 NEAT 추진 경과에 따르면(2007, 2008, 2010), NEAT의 목적

과 취지는 국가 주도의 영어 평가 시험을 개발하여 국내용 목적의 해외 시험

(예, TOEIC 등)을 대체함으로써 해외 영어 시험에 대한 의존도를 낮추는데 있

으며, 또한 학생들의 수준과 장래 진로에 따른 수준별(2·3급) 영어능력 평가 시

험을 개발함으로써 학교 영어 교육의 방향에 대한 바람직한 기준을 제시하는

데 있다. 또한 NEAT(2·3급)는 개정 영어과 교육과정에 따른 듣기, 읽기, 말하기,

쓰기의 세부 성취기준 달성 정도를 측정함과 동시에 학생의 일반 영어 능력을

평가한다. 이런 점에서 NEAT는 성취도 시험의 성격과 숙달도 시험의 성격을

모두 갖는다(한국교육과정평가원, 2010a, p. 7).

표 1

NEAT 2 · 3 급 듣기 및 듣기 시험의 평가 체제

듣기 2 급 듣기 3 급 읽기 2 급 읽기 3 급

듣기 대화문

단어 수 비공개 비공개 - -

Turn-taking 수 비공개 비공개 - -

듣기 담화문

1지문 1문항 단어수 비공개 비공개 - -

1지문 2문항 단어수 비공개 비공개 - -

읽기 지문

단문 독해 단어수 - - 비공개 비공개

장문 독해 단어수 - - 비공개 비공개

선택지 (공통) 4 지선다형 (일부 3 지)

4 지선다형 (일부 3 지)

4 지 선다형

4 지 선다형

속도 (공통) 비공개 비공개 - -

총 문항 수 35 35 35 35

시험 시간 35 분 35 분 60 분 60 분

국가영어능력평가시험(2·3급) 개발 및 운영 방안을 주제로 한 공청회 자료(한


국교육과정평가원, 2010a)에 따르면, NEAT 2급과 3급의 듣기 및 읽기의 평가 체

제는 표 1과 같다. 듣기 2급과 3급의 총 문항 수는 35개로 구성되어 있으며,

시험 시간도 35분씩 동일하다. 5지 선다형으로 구성된 수능과 달리 NEAT는 4

지 선다형으로 구성되어있다(관용적 응답 유형의 경우, 3지 선다형). 한편 읽기

2급과 3급의 선택지는 듣기와 마찬가지로 4지 선다형으로 구성되며, 총 문항

수는 35개이며, 시험 시간도 60분씩 동일하다.

마지막으로 NEAT의 출제 체제 및 시행 체제는, 이미 언급한 바와 같이, 수

준별(2·3급) 평가 체제로 복수 시행 체제를 따를 것이며, IBT방식으로 시행될

것이다. 수준별 평가 체제에 따라 학생들은 자신의 영어 능력 수준과 진로에

따라 2급과 3급을 선택할 수 있으므로, 학습 부담을 경감시킬 수 있을 것이다.

또한 복수 시행 체제에 따라 학생들은 연간 수회(2-3회)에 걸쳐 NEAT에 응시

할 수 있음으로써 시험 당일의 „실수‟에 대한 심적 부담을 줄일 수 있을 뿐만

아니라 수시로 응시하여 자신의 성적을 점검할 수 있어 자기 주도적 학습을

할 수 있을 것이다. 또한 NEAT의 IBT 방식 시행 체제는, Chapelle과

Douglas(2006), Roever(2001) 등이 언급한 바와 같이, 시간과 장소의 자율성 및

편리성이 있을 뿐만 아니라 IT 기술과 접목된 실제성과 상호작용성이 높은 새

로운 유형의 문항의 개발을 촉진시킬 것이다.

그러나 수준별(2·3급) 평가 체제와 IBT 방식의 복수 시행 체제에 따라 NEAT

의 시행 과정을 시뮬레이션 해보면, 해결해야 할 문제점이 적지 않음이 드러난

다. NEAT의 응시생 수를 60만(2010학년도 수능 기준)으로 상정하고, 수험생 당

최소 년 2회 응시 기회를 준다고 전제하면, 수험생 수는 연간 120만 명에 육박

할 것으로 예측된다. 전국적으로 5만개의 IBT 시험장을 상정하면, 연간 24회

이상의 NEAT가 시행될 것으로 추산된다. 이 같은 시뮬레이션을 통해 나타난

문제점과 이에 대한 가능한 대안을 간략히 살펴보자. NEAT가 수준별(2·3급) 평

가 체제에 따를 경우, 수준별, 기능별 (듣기·읽기·말하기·쓰기) 시험에 따라 시험

의 성격 및 범위를 수준별, 차별적으로 설정해야 할 것이다. 또한 각 수준별,

각 기능별 시험의 평가 내용, 평가 요소 및 문항 유형을 따로 설정해야 할 것

이며, 이에 따라 검사지 구성 또한 각 수준별, 각 기능별 시험에 부합하게 구

성해야 할 것이다. 이에 대한 가능한 대안으로 본 연구에서는 „문항 유형 결정

원리‟와 „검사지 구성 원칙‟을 제안할 것이다(자세한 논의는 다음 3장 및 4장

참조). 또한 NEAT가 연간 24회나 시행되는 IBT 방식의 복수 시행 체제를 따를

경우, 매 시험 간 시험의 항상성과 동등성을 유지하여 시험의 공정성과 민주성

을 확보할 수 있는 구체적 실행 방안이 필요할 것이다. 이에 대한 가능한 방안

으로 검사지 구성의 구체적 절차와 방법에 관한 „문항 유형 확정 모형‟을 제안

할 수 있을 것이다(구체적 논의는 김용명(2010, 출판중) 참조). 또한 이 같은 복

수 시행 체제에 부합할 수 있는 출제 체제는 현행 수능에서 시행하고 있는 것

과 같은 장기 폐쇄형 합숙 출제 방식보다는 문제 은행 출제 방식이 더 적합할

것으로 생각된다. 문제 은행 출제 체제를 따를 경우, 매 시행되는 시험 마다

318 김용명

적시에 적소의 문항을 축출할 수 있고, 상시적으로 적시에 부족 문항 개발하여

보충할 수 있는 포괄적이면서도 정교한 „문항 유형 은행 시스템‟을 구축해야

할 것이다(자세한 논의는 김용명(2010, 출판중) 참조).

2. 시험 유용성 모델(Model of Test Usefulness)

Bachman과 Palmer(1996)는 시험이 평가의 목적, 용도 및 시험 상황에 얼마나

유용한가라는 질문에 대한 가능한 답으로서 시험 유용성(test usefulness) 모델을

제안했다. 이 모델에 따르면, 시험 유용성은 시험 개발과 활용의 전 과정을 평

가하고, 시험 자질(test qualities)을 통제하는 일종의 규준이라고 할 수 있다. 시

험 자질을 기술하는 전통적 접근법은 시험의 각 자질을 독립적이고 분리된 것

으로 간주하여, 특정 한 자질을 지나치게 강조함으로써 다른 자질을 경시하는

경향이 있었다. 예를 들면, 신뢰도와 타당도는 본질적으로 갈등 관계에 있으며,

따라서 신뢰할 수 있고 동시에 타당한 시험을 개발한다는 것은 가능하지 않다

고 보았다. 그러나 Bachman과 Palmer는 시험 자질들이 상호 긴장 관계에 있다

기보다는 각 자질들이 상호 보완적 관계에 있다고 주장하며, 신뢰도(reliability),

구인 타당도(construct validity), 실제성(authenticity), 상호작용성(interactiveness), 영

향(impact), 실용성(practicality)등으로 구성된 시험 유용성 함수(Usefulness

Function)를 제안하였다. Bachman과 Palmer는 이 함수에서 6개의 시험 자질은

상호 독립적이지만 상호 관련되어 있어, 각 자질 간의 상호 보완성을 충족시킬

수 있으므로 주어진 시험의 총체적 유용성을 극대화할 수 있다고 했다. 결론적

으로 말해, 시험 유용성 함수는 시험 또는 시험 과업이 특정 목적, 특정 수험

자 집단, 측정하고자 하는 구체적 언어 능력, 구체적 목표 언어 사용(Target

Language Use, 이하 TLU) 영역 등에 얼마나 유용하고 타당하게 개발되고 사용

되는지를 통제하는 역할을 한다.

시험 유용성 함수의 각 자질의 타당성의 정도는 시험 과업(test tasks), 수험자

(학습자), 시험 수행(test performances), 언어 능력(language abilities), TLU 영역, 일

반화(generalization) 영역 등과 같은 시험 변수들 간의 상호 작용에 의해 결정되

므로 유용성 함수의 여섯 개의 시험 자질과 시험 변수와의 관계를 도식으로

나타내면 다음 그림 1과 같다.

그림 1에서 보는 바와 같이, 신뢰도는 시험 과업과 시험 점수(시험 수행) 간

의 관계에 의해 결정된다. 실제성은 시험 과업과 TLU 과업 간의 일치의 정도

에 의해 결정되며, 상호작용성은 수험자(학습자)의 언어능력이 시험 과업 수행

에 관계되는 정도에 의해 결정된다. 또한 구인 타당도는 시험 점수의 해석(추

론과 일반화)과 관계되는 자질로 수험자(학습자)의 언어 능력, 시험 과업, TLU

과업 간의 상호 작용에 의해 결정된다. 이를 구체적으로 설명하면, 그림 1에서

보는 바와 같이, 시험 과업으로부터 얻은 수행 결과(점수)의 해석엔 두 측면,

즉, 시험 수행 결과를 수험자의 언어 능력의 지표로 해석하는 추론과, 시험 수


행 결과를 시험 상황을 넘어 특정 TLU 영역에서 수행 능력의 지표로 해석하

는 일반화가 있다. 언어 능력의 지표로 해석하는 경우, 시험 과업의 수행 결과

를 비춰볼 준거, 즉, 언어 능력에 대한 구성적 정의가 타당해야 한다. 왜냐하면

이 구성적 정의에 따라 시험 과업의 조작적 정의가 이루어지며, 이를 토대로

시험 과업을 구성하며, 이 시험 과업의 수행 결과가 곧 점수로 구현되며, 역으

로 이 점수를 토대로 개별 수험자의 언어 능력을 추론할 수 있기 때문이다. 한

편 수행 능력의 지표로 해석하는 경우, 시험 상황에서 시험 과업의 특성과

TLU 영역에서의 TLU 과업의 특성이 상호 일치해야 한다. 왜냐하면 TLU 영역

의 실제성을 토대로 TLU 과업이 설정되며, 이를 토대로 시험 과업을 구성하며,

이 시험 과업의 수행 결과가 곧 점수로 실현되며, 역으로 이 점수를 토대로 시

험 상황을 넘어 비시험 상황으로 수행력의 정도를 일반화할 수 있기 때문이다.

따라서 구인 타당도, 즉 시험 과업의 수행 결과(점수)의 해석의 타당도는 언어

능력에 대한 구성적 정의의 타당성, 실제성, 상호작용성의 정도에 따라 결정된

다고 할 수 있다. 영향은 시험 시행 결과와 교육 체계(교육과정, 교수·학습, 평

가), 사회와의 상호 작용에 의해 결정되며, 실용성은 시행과 시험 자원(인적, 물

적 자원 및 시간) 간의 관계에 의해 결정된다.

그림 1

시험 자질과 시험 변인과의 관계

서론에서 언급한 바와 같이, NEAT가 수능 외국어(영어)영역의 창조적 계승자

가 되느냐 아니면 단순한 대체자에 머무느냐는 어떤 원칙에 따라 어떤 문항

320 김용명

유형으로 어떻게 NEAT의 검사지를 구성하느냐에 달려있다. 그러나 현재까지의

선행 연구를 살펴보면, 수능과 같은 전국적으로 시행 되는 대단위 고부담 시험

은 말할 것도 없고 교실 평가 조차 문항 유형 결정 원리와 검사지 구성의 원

칙에 관한 연구는 찾아 볼 수 없었다.3 이 같은 연구 공백을 메우고, 동시에

NEAT(듣기·읽기)의 검사지에 포함될 문항 유형의 개발과 선별에 시사점을 제

공하기 위하여, 본 연구는 Bachman과 Palmer의 시험 유용성 모델의 논리에 따

라 문항 유형 개발과 선별의 다섯 결정 원리, 즉, 연계성(connection), 실제성

(authenticity), 상호작용성(interactiveness), 환류 효과성(washback effectiveness), IBT

양립성 (compatibility)을 제안할 것이다. 연계성은 유용성 함수의 구인 타당도와

영어과 교육과정과 관련된 원리로 NEAT의 출제 범위, 문항 유형의 타당성, 시

험 수행(점수) 해석의 타당성과 관계한다. 실제성은 문항 유형과 TLU 영역 간

의 일치 여부를 결정하는 원리로서 NEAT의 내용 영역과 행동 영역의 구성의

적합성과 관계한다. 상호작용성은 수험자(학습자)의 언어 능력이 시험 과업의

수행에 관계하는 정도를 결정하는 원리로서 NEAT의 문항 유형의 질을 통제하

는 역할을 한다. 한편 IBT 양립성은 Bachman과 Palmer(1996)가 제안한 실용성의

개념과 Weir(2005)가 제안한 환경 타당도 (context validity) 개념을 통합한 원리

로서 IBT 시험 환경(하드웨어와 소프트웨어 구성소), IBT 문항, 수험자(학습자)

간의 양립성의 정도를 결정하며, 문항 유형의 기술적 측면을 통제한다. 마지막

으로 환류 효과성은 시험 시행 결과와 교육과정, 교수·학습, 평가 간의 상호작

용 과정을 통제한다. 이상의 논의에서 나타난 바와 같이, 문항 유형 결정 원리

는 각 개별 문항의 개발과 선별에 작동하는 원리라고 할 수 있다(다음 3장 참

조).

또한 본 연구는 위에서 논의한 문항 유형 결정 원리와 지난 6년 간의 수능

외국어(영어) 영역 시험의 문항 분석(한국교육과정평가원, 2005~2010학년도) 에

관한 실증적 자료를 토대로 NEAT의 검사지 구성의 네 원칙, 즉, 상보성

(complementarity), 통합성(integration), 주축성 (pivotality), 위계성(hierarchicality)을

제안할 것이다. 상보성은 시험 유용성 함수의 균형과 상호 보완성 논리를 토대

로 설정된 원칙으로 평가 내용과 평가 요소 및 그 하위 구성소는 서로 상보적

관계(complementary relationship)에 있어야 한다는 것을 말한다. 따라서 검사지

구성의 질과 양을 총체적으로 통제하는 총괄적 기능을 수행한다. 통합성은 연

계성 원리에서 도출한 원칙으로 기능 독립형 문항과 기능 통합형 문항의 적정

균형을 유지하는 기능을 한다. 주축성은 실제성과 상호작용 원리를 토대로 설

정된 원칙으로 시험의 항상성과 다양성을 통제한다. 위계성은 문항 유형에 따

른 수험자의 문항 반응 곡선에 근거한 원리로 검사지에 포함될 문항의 총체적

3 수능 외국어(영어)영역의 읽기의 난이도 분석(성윤미, 2003; 장경숙, 2004), 읽기의 지문 분석(송희심, 1998, 신명신, 1999), 지문 친숙도 분석(이경숙, 1999) 등과 같은 연구는 찾을 수 있었다.


난이도 및 변별도를 조정하는 역할을 한다. 이상의 논의에서 드러난 바와 같이,

검사지 구성 원칙은 문항 유형 결정 원리에 따라 개발 또는 선별된 문항 유형

들 간의 상호 관계에 작동하는 원칙이라고 할 수 있다(다음 4장 참조).

III. 국가영어능력시험(NEAT)의 문항 유형 개발과 선별의 원리

1. 연계성(Connection) 원리

일반적으로 시험이 구성적 정의의 토대를 어디에 두느냐에 따라 숙달도 시

험(proficiency tests)과 성취도 시험(achievement tests)로 구분할 수 있다. TEPS,

NEAT(1급), TOEIC 등과 같은 숙달도 시험은 언어 능력에 대한 이론적 모델, 예

를 들면, Bachman과 Palmer(1996)가 제안한 언어 능력(language abilities)의4 구인

(constructs)을 토대로 시험 과업 또는 시험을 구성한다. 반면, 교실 평가와 국가

수준학업성취도평가와 같은 성취도 시험은 교육과정 상의 특정 시기의 교과나

단원 또는 총체적 교육과정에 따라 시험 과업 또는 시험을 구성한다. 그러나

수능 외국어(영어)영역과 NEAT(2·3급)은 숙달도 시험의 성격과 성취도 시험의

성격을 동시에 갖고 있다. 현재까지의 발표된 NEAT관련 자료 (교육인적자원부,

2007; 교육과학기술부, 2008, 2010; 한국교육과정평가원, 2010a)에 따르면, NEAT

의 성격을 “NEAT(2·3급)는 개정 영어과 교육과정과 연계하여 듣기, 읽기, 말하

기, 쓰기의 세부 성취기준 달성 정도를 측정함과 동시에 학생의 일반 영어 능

력을 평가한다.”라고 규정할 수 있다. 이 규정에서 “개정 영어과 교육과정과 연

계하여 듣기, 읽기, 말하기, 쓰기의 세부 성취기준의 달성 정도를 측정한다.”는

점에서 NEAT(2·3급)은 성취도 평가의 성격을 가지며, “학생의 일반 영어 능력

을 평가한다.”는 점에서 숙달도 시험의 성격을 갖는다고 할 수 있다.

NEAT(2·3급)은 숙달도 시험의 성격과 성취도 시험의 성격을 동시에 가지므

로 언어능력에 대한 이론적 모델에 따라 시험 과업과 시험을 구성하되, 출제

범위와 평가 내용은 영어과 교육과정의 범위 안에 있어야 한다. 따라서 연계성

(connection) 원칙은 NEAT의 평가 목표, 평가 내용, 평가 기준 및 문항 유형 등

은 2007 개정 영어과 교육과정(교육인적자원부 제 2007-79호)의 목표, 내용, 교

수·학습 방법, 평가 등과 연계되어야 한다는 것을 말한다. 특히 교육과정의 학

년별 목표인 성취 기준과 NEAT의 평가 기준 설정 및 이에 근거한 문항 유형

은 상호 부합되어야 한다. 따라서 연계성 원리는 NEAT의 수준별(2·3급) 기능별

(듣기·읽기·쓰기·말하기) 각 시험의 출제 범위, 평가 내용, 평가 요소 및 문항 유

4 Bachman과 Palmer(1996)는 언어 능력(language competence), 전략적 능력(strategic

competence), 배경 지식(topical knowledge), 개인적 특성(personal characteristics) 및 정의적 스키마(affective schemata) 등으로 구성된 언어 능력(language abilities)에 관한 이론적 모델을 제안했다.

322 김용명

형 등을 설정하는데 이론적 기준을 제공할 수 있을 것이다.

2007개정 교육과정에서는 영어의 성격을 국제어로 규정하였으며, 목표를 의

사소통 능력의 신장과 다문화 이해에 두고 있으므로 NEAT의 목표도 이에 부

합하게 설정하여야 할 것이다. 또한 개정 교육과정의 교육 내용은 6차 교육과

정에서 이해 기능과 표현 기능으로 서술하던 방식을 버리고, 언어의 4기능 체

제로 환원하여, 듣기, 말하기, 읽기, 쓰기로 구분하여 성취 기준을 기술하고 있

지만, 동시에 4기능 통합 지도를 통한 다양한 학습 활동을 유도하고 있다. 이

에 따라 NEAT도 듣기, 말하기, 읽기, 쓰기로 구분하여 평가하되, 기능 통합형

또는 연계형 문항도 개발해야 함을 시사한다. 7차 교육과정의 가장 큰 특징은

수준별 교육과정이다. 수준별 교육과정은 학습자가 심화 선택 과목 중, 자신의

능력과 수준 맞는 교과목을 선택할 수 있도록 운영하여, 학습자 중심 수업이

되도록 하고 있다. 따라서 다양한 수준의 학습자의 언어 능력을 측정할 수 있

도록 NEAT도 각 문항의 난이도 및 변별도에 따라 위계적으로 검사지를 구성

해야 한다는 것을 시사한다. 이와 같이 교육과정과 NEAT를 연계하는 연계성

원칙은 교육과정, 교수·학습, 평가 간의 괴리를 줄이고, 상호 상승효과를 유도

할 수 있다.

2. 실제성(Authenticity) 원리

Bachman과 Palmer(1996, p. 23)에 따르면, „실제성(authenticity)은 시험 상황에서

의 시험 과업의 특성이 TLU 영역에서의 TLU 과업의 자질과 일치하는 정도‟로

정의할 수 있다. 실제성은 시험 상황에서 시험 과업의 수행 결과(점수)를 비시

험 상황으로 일반화하는 것과 관련된 개념이다. 다시 말해, 시험 상황에서 시

험 과업의 특징이 TLU 영역에서의 TLU 과업의 자질과 일치할수록, 시험 상황

에서 시험 결과(수행력)와 비시험 상황의 특정 TLU 영역에서의 실제 언어사용

능력과 일치할 가능성은 높아질 것이다. 이런 점에서 실제성은 구인 타당도와

관계되며, 전통적 용어를 빌리면, 내용 타당도(content validity)의 또 다른 표현이

라 할 수 있다. 또한 실제성은 시험 과업에 대한 학습자(수험자)의 지각과 인식

에 관계한다는 점에서 안면 타당도(face validity)의 성격을 갖는다고 할 수 있다.

이런 점에서 실제성의 원리는 문항 유형 개발과 선별의 범위와 한계를 설정하

는 역할을 한다. 따라서 실제성 원칙은 NEAT의 평가 목표 이원분류표 상의 내

용 영역과 행동 영역의 주요 구성소를 설정하고, 이의 타당성을 검증하는 이론

적 토대가 된다.

듣기 시험은 대화나 담화의 소재, 의사소통 상황(대화자, 대화 장소 등), 의사

소통 기능과 이에 따른 대화 구조 등이 TLU 영역에서의 실제 하는 것과 일치

하게 시험 과업을 구성해야 할 것이다. 의사소통 상황(situations)과 주제(topics)

는 일상생활 관련 상황과 주제(예, 의식주, 가정생활 등), 학교생활 관련 상황과

주제(예, 수업, 시험, 방과 후 활동 등), 사회생활 관련 상황과 주제(관공서, 상


점, 교통, 통신 등), 직장생활 관련 상황과 주제(예, 취업, 승진, 업무 활동 등),

문화생활 관련 상황과 주제(취미, 오락, 스포츠, 미디어, 강연, 강좌 등) 등으로

대별할 수 있다. 또한 의사소통 기능은 교육과정과의 연계성을 고려하여 개정

교육과정의 의사소통 기능의 7대 범주에 따라 친교 활동(인사, 소개, 감사 등),

사실적 정보 교환(사실적 정보, 사실 묘사 등), 지적 태도 표현(동의, 제안, 확

신, 가능성 등), 감정 표현(희로애락, 불평 등), 도덕적 표현(사과, 변명, 후회

등), 설득과 권고(설득, 충고 등), 문제 해결(원인·결과, 이해 점검, 전화하기 및

받기 등) 등으로 분류할 수 있다.

대화나 담화의 상황, 주제, 의사소통 기능 중, 어디에 초점을 두느냐에 따라

듣기 문항 유형이 결정된다. 예를 들어, 대화의 상황에 초점을 둘 경우, „대화

장소‟, „대화자 관계 추론‟ 등의 문항을 구성할 수 있으며, 대화 내용에 초점을

둘 경우, „한·할 일 추론‟, „사실 정보 찾기‟ 등의 유형 구성할 수 있으며, 의사소

통 기능 및 대화의 구조에 초점을 둘 경우, „마지막 말에 대한 응답‟, „담화에

적절한 말 찾기‟ 등의 유형을 구성할 수 있다.

읽기 시험은 TLU 영역에서의 학습자들이 실제 접하게 되는 글의 장르, 글의

종류, 학문 영역 등에 따라 시험 과업을 구성해야 할 것이다. 글의 장르에 따

르면, 시, 소설, 수필, 희곡 등으로 분류할 수 있고, 글의 종류에 따르면, 문학,

설명문, 논설문, 실용문 등으로 분류할 수 있다. 학문 영역에 따라 분류하면,

문학, 인문과학, 사회과학, 자연과학 등으로 구분할 수 있다. 또한 읽기 이론에

따르면, 글의 종류나 장르에 따라 읽는 목적이 상이하며, 읽는 목적에 따라 문

항 유형도 상이하게 구성해야 할 것이다. 예를 들면, 설명문의 경우, „내용 일치

와 관련된 문항‟ 유형을, 논설문의 경우, „주장‟과 관련된 문항을, 문학의 경우,

„심경‟, „분위기‟ 등과 관련된 문항 유형을 구성하게 될 것이다.

마지막으로 TLU 영역에서 학습자들의 읽기 방식이나 양상도 시험 과업 구

성에 반영되어야 할 것이다. 스키마 이론(schema theory)에 따르면, 읽기나 듣기

의 이해 방식에 따라 하향식(top-down), 상향식(bottom-up), 상호작용식

(interactive)으로 구분할 수 있다(김용명, 1991). 따라서 이 같은 듣기나 읽기의

이해 방식에 따라 문항 유형을 개발·선별할 필요가 있다. 상향식 읽기 이해에

입각한 문항 유형엔 „내용 일치 불일치‟, „세부 사항 찾기‟ 등의 유형이 있으며,

하향식 읽기 이해에 따른 문항 유형엔 „주제 추론‟, „요지 추론‟, „제목 추론‟ 등

의 유형이 있으며, 이 두 이해 방식이 상호 작용하는 유형엔 „빈칸 추론‟, „일관

성‟, „통일성‟ 등과 관련된 문항이 있다. 또한 Nuttall(1996)에 따르면, 읽기 이해

의 직접성(directness)의 정도에 따라 사실적 이해, 추론적 이해, 맥락적 이해로

구분하고 있다. 따라서 이 같은 듣기나 읽기의 이해 양상도 문항 유형의 개발

및 선별에 반영되어야 할 것이다.

324 김용명

3. 상호작용성(Interactiveness)의 원리

Bachman과 Palmer(1996, p. 25)에 따르면, „상호작용성(interactiveness)은 학습자

(수험자)가 자신의 언어 능력(language knowledge), 전략적 능력(strategic competence)5,

주제 지식(topical knowledge), 정의적 스키마(affective schemata) 등을 주어진 시험

과업과 관련시켜가는 정도‟로 정의할 수 있다. 가령, 교실 평가에서 짝을 이룬

두 명의 학습자에게 „물건 사기‟ 시험 과업을 제시하고, 이를 실제로 수행하게

한다면, 학습자는 이를 수행하기 위해 „물건 사기‟의 경험에서 얻은 다양한 배

경 지식을 활용하여 물건 사기에 어떤 언어 기능이 필요할 것인가, 또 이 기능

을 어떤 언어 형식을 빌려 표현할 것인가, 또한 어떤 전략을 구사하여 물건 값

을 협상할 것인가 등을 실시간 상으로 결정해야 할 것이다. 이 경우, 주어진

과업은 상호작용성이 높다고 할 것이다. 그러나 물건 사기의 전형적인 대화 구

조에서 특정 부분을 삭제한 대화문을 글로 제시하고, 생략된 부분을 채우게 하

는 과업은 상호작용성의 정도가 낮다고 할 수 있다. 이런 점에서 상호작용성이

높을수록, 시험 과업의 수행 결과(점수), 즉, 수행력 (proficiency)은 그 수험자

(학습자)가 갖고 있는 실제적 언어 능력과 일치할 가능성은 높을 것이다. 따라

서 상호작용성은 구인 타당도의 핵심적 요소라고 할 수 있으며, 시험 과업의

수행력을 수험자(학습자)의 언어 능력의 실제적 지표로 해석할 수 있는 이론적

근거가 된다.

일반적으로 시험 과업에 따라 상호작용성을 요하는 정도는 상이하다. 일본입

시센터 문항(이양락 외, 2009)과 외국어(영어) 영역의 문항을 예로 들어보자.

그림 2에서 보는 바와 같이, 일본입시센터 문항은 읽고서 대화의 응답을 찾는

반면, 수능 문항은 듣고서 대화의 응답을 찾는 문제이다. 상호작용성의 정도는

일본입시센터 문항보다 수능의 문항이 상대적으로 더 높다고 볼 수 있다. 수능

외국어(영어) 시험의 유형별 정답률 분석에 따르면6, 빈칸 추론 문항의 평균 정

답률이 주제나 요지 추론 문항 보다 상대적으로 더 낮은 것으로 나타났다. 두

유형의 정답률의 차이는 두 유형 간의 상호작용성의 정도의 차이에서 기인된

것으로 판단된다. 일반적으로 상호작용성 정도가 높을수록, 즉, 다양한 언어 능

력과 주제적 지식 및 전략적 능력과 상호작용을 요하는 문항일수록 그렇지 않

은 문항보다 난이도가 높은 경향을 보이며, 시험 요령보다 언어능력의 지배를

받는 경향이 강하는 것을 알 수 있다. 따라서, 상호작용성 원리는 수험자(학습

5 전략적 능력은 실시간 상에서 언어능력이 실현되는 원리로서 언어 사용자와의 언어능력, 배경 지식, 개인적 특성 및 정의적 스키마와 실제 언어사용 상황 간의 일종의 접점(interface)의 역할을 한다. 환언하면, 전략적 능력은 언어 사용자 (학습자)가 의사소통 목적을 달성하기 위해, 어떤 언어 기능을 어떤 언어 형식을 빌려 사용하는 것이 주어진 언어사용 상황에 가장 적격한가를 실시간 상으로 선택하고, 계획하고, 평가하는 것과 관계한다.

6 수능 외국어(영어) 영역의 각 유형별 정답률과 변별도의 통계는 현재 보안 상항으로 묶여 있어 구체적 수치를 제시할 수 없다.


자)의 언어능력과 시험 과업이 상호작용하는 정도와 관련되는 개념이므로 난

이도 및 변별도 등과 같은 문항의 질을 통제하는 역할을 한다고 할 수 있다.

그림 2

시험 과업과 상호작용성

4. IBT 양립성(Compatibility) 원리

Bachman과 Palmer(1996, p. 36)에 따르면, „실용성(practicality)은 시험의 설계,

개발 및 사용에 필요한 자원과 현재 이용 가능한 자원과의 관계‟로 정의할 수

있다. 자원은 인적 자원, 물적 자원, 시간으로 대별할 수 있다. 인적 자원에는

문항 개발자, 채점자, 시험 시행 행정원 등이 있다. 물적 자원에는 시험장, 장

비(컴퓨터, 모니터, 헤드 셋 등), 소요 물품(종이, 사진, 출제용 참고 자료 등)

등이 있으며, 소요 시간에는 문항 개발 시간, 시험 시행 시간, 채점 시간 등이

있다. 그러나 Bachman과 Palmer가 제안한 실용성 자질은, 이상의 논의에서 드

러난 바와 같이, 전통적인 PBT(Paper-Based Test, 이하 PBT)의 시행과 관련된 하

드웨어 측면에 초점을 두고 있으므로 시험 시행의 소프트웨어 측면이 보다 중

요한 IBT 시험 상황에 부합하지 않을 뿐만 아니라 IBT에 적합한 문항 유형 개

발과 IBT 시행 방식을 설명하는데도 한계가 있다.

이 같은 한계점에 대한 가능한 대안으로 본 연구는 Bachman과 Palmer가 제

326 김용명

안한 실용성의 개념과 Weir(2005)가 제안한 환경 타당도(context validity)7의 개념

을 통합하고, 시험 변인의 두 핵심 요소(즉, 수험자, 시험 과업)를 추가한 IBT

양립성(compatibility) 원리를 제안한다. IBT 양립성 원리는, 그림 3에서 보는 바

와 같이, IBT 환경, 수험자, IBT 문항으로 구성된다.

그림 3

IBT 양립성 원리

IBT 환경은 시험 시행의 하드웨어 구성 요소와 소프트웨어 구성 요소로 구

성된다. 하드웨어의 하위 구성소는 Bachman과 Palmer의 자원 유형(인적, 물적,

시간)에 IBT 상황을 고려하여 컴퓨터 기술(프로그램, 가상현실, 3D 등)을 추가

한다. 소프트웨어, 즉, 환경 타당도의 하위 구성소는 IBT 방식의 문항 구현성,

과업 제시 순서, 입력과 응답 방식(오디오, 비디오, 텍스트 등), 입력과 응답의

시간 제한, 문항 간 이동 여부, 시험 시행 조건 등으로 구성된다. 따라서 IBT

양립성은 IBT 환경(하드웨어 및 소프트웨어 구성소), 수험자, IBT 문항이 서로

양립해야 한다는 원리를 말한다. 부연 설명하면, IBT 환경과 수험자 간에는 친

화성이 있어야 하며, IBT 환경과 IBT 문항 간에는 IT 기술의 구현성이 있어야

하며, 수험자와 IBT 문항 간에는 언어능력과 상호작용성이 있어야 한다. 따라

서 세 하위 구성소 간에 양립성의 정도가 높을수록 그 시험은 시행 타당성은

높을 것이며, 그 정도가 낮을수록 시행 타당성은 낮다고 할 수 있다.

IBT 환경, 수험자, IBT 문항 간의 양립성의 정도를 분석하기 위해서는 환경

타당도의 구성 요소에 대한 동질성 연구가 필요하다. 즉, PBT로서의 수능과

IBT로서 NEAT의 예비 시험의 수험생을 대상으로 PBT와 IBT의 문항 유형 및

입력과 응답 방식, 입력과 응답의 조건 등에 대한 시험 수행 결과(점수) 분석과

수험자 반응(인식, 지각) 분석(설문 및 면담 조사)을 통한 환경 타당성을 검증

할 수 있을 것이다. 예를 들어, 입력과 응답 방식의 경우, PBT로 시행되는 수능

의 문항 유형에 따른 시험 수행 결과(점수)와 IBT로 시행되는 NEAT의 문항 유

형에 따른 시험 수행 결과(점수)를 상호 비교 분석해봄으로써 어떤 문항 유형

이 IBT 환경에서 보다 더 양립성이 높은지 검증할 수 있을 것이다. 문항의 제

7 Weir(2005)는 환경 타당도의 구성 요소로 시험 주제, 과업 정황, 과업 순서, 시간 제한, 지식, 입력과 출력, 과업 요구 사항, 시험 시행 조건 등을 포함하였다.


시 순서의 경우, 수능과 같은 PBT에서는 문항 간 이동이 허용되어 수험자의

자율성이 인정되지만, iBT TOEFL과 같은 IBT에서는 문항 간 이동도 허용하지

않아 수험자의 자율성이 인정되지 않는다. 따라서 문항 제시 순서에 대한 PBT

와 IBT 간의 수행 결과를 비교 분석하여 환경 타당성을 분석할 수 있을 것이

다. 응답 시간의 경우, 수능과 같은 PBT에서는 개별 문항에 대한 응답 시간에

제한을 두고 있지 않아 문항의 난이도에 따라 수험생들이 적절히 시간을 안배

할 수 있지만, IBT에서는 개별 문항의 응답 시간에 제한을 둘 것인지 수험자

자율에 맡길 것인지에 대한 실험 연구를 통하여 어느 것이 더 타당한지 결정

해야 할 것이다. 또한 제시 속도 및 응답 속도에 대한 환경 타당성 검증도 있

어야 할 것이다. 예를 들면, 듣기 및 읽기 속도를 분당 얼마의 속도(예, 150, 180,

200 wpm)로 하는 것이 타당한지를 결정해야 하며, 이 경우, 지역·계층 간 격차

를 고려해야 한다. 이와 같은 동질성 연구 결과를 바탕으로 수험생의 IBT 적응

력과 친숙도를 높일 수 있는 방안과 수험자 친화적인 최적의 IBT 환경을 제공

할 수 있는 시행 방법을 모색해야 할 것이다(예, NEAT tutorial 제작과 보급). 또

한 동질성 분석을 통해 IBT 시행의 문제점 및 오류의 가능성을 사전에 탐지하

여 실제 시행에서 생겨날 수 있는 문제점과 오류를 최소화하는 방안도 함께

마련해야 할 것이다.

IBT 환경과 수험자와의 관계에서는 IBT 환경을 수험자 친화적으로 구성하여

수험자가 IBT에 대한 편의성을 갖도록 해야 할 것이다. 이를 위해, 적절한 범

용 사양의 컴퓨터, 적정 크기(15인치 이상)의 모니터, 소음을 충분히 제거할 수

있고 음량을 조절할 수 있는 헤드 셋(스피커와 마이크), 인체 공학적 구성의 자

판 등을 구비되어야 할 것이다. 또한 IBT는 일반적으로 1화면 1문항을 제시하

므로 화면의 디자인과 텍스트를 일관성 있게 구성하여 수험자의 시험 불안감

을 줄여주어야 할 것이다. 화면의 편리성과 관련된 배경, 색깔(보색 관계), 피해

야 할 색, 텍스트 이독성과 관련된 텍스트 배치(통상 중앙), 텍스트 양, 폰트,

글자 간격, 행 간격, 대소문자 사용 등에 대한 Fulcher(2003)의 기준을 참고할

필요가 있다.

IBT 환경과 IBT 문항과의 관계에서는 문항 유형의 특성과 IT 기술이 조화롭

게 융합되어 문항이 IBT에 맞게 최적으로 구현되도록 해야 한다. 컴퓨터 소프

트웨어 기술(동영상, 플래시, 아바타, 가상현실, 3D 등)을 활용하여 개발된 신

유형의 문항이나 PBT로 제시되는 문항을 IBT로 변형한 문항, 듣기와 말하기,

듣기와 읽기, 읽기와 쓰기 등 기능 통합형 문항, 시각 자료(그림, 차트, 그래프

등)로 제시되는 문항 등은 환경 타당도의 분석을 토대로 구현성이 상대적으로

높고, 조작과 작동이 편리한 문항 유형을 선별하여 검사지를 구성해야 할 것이

다. 이 경우, 지역 간 계층 간 수행 결과(점수)의 차이가 있는지 분석하여 가능

한 한 차이가 적은 문항으로 검사지를 구성함으로써 시험의 공정성과 형평성

을 확보할 수 있을 것이다.

수험자와 IBT 문항과의 관계에서는 수험자의 언어능력과 IBT 문항과의 상호

328 김용명

작용성의 정도를 기준으로 검사지를 구성해야 할 것이다. 환경 타당도 구성요

소, 예를 들면, 문항 제시 순서, 입력과 응답의 시간 제한 여부, 문항 제시 방

법(오디오, 비디오, 텍스트 등), 문항 간 이동 여부, 답안 수정 여부 등에 대한

PBT와 IBT의 시험 양상의 비교 분석을 토대로 수험자의 언어 능력과 상호작

용성이 보다 높은 문항 유형으로 검사지를 구성해야 할 것이다. 마지막으로 컴

퓨터의 통제 기술을 활용하여 언어능력의 본질에 보다 근접한 문항 유형을 제

시하거나 시험 요령의 지배를 최소화할 수 있는 시행 방안을 마련할 수 있을

것이다. 예를 들면, 문법과 어휘 문항의 경우, 응답 시간을 통제함으로써 모니

터 작동을 최소화할 수 있을 것이다. 또한 문항 당 일정한 응답 시간이 지나면,

자동으로 다음 문항으로 넘어가게 하거나, 문항의 예상 난이도에 따라 응답 시

간에 차등을 둠으로써 PBT에서처럼 저난도 문제를 단 시간에 풀고, 남은 시간

을 고난도 문항에 쏟는 시험 요령을 최소화할 수 있을 것이며, 그 결과 보다

타당도 높은 수행 결과를 얻을 수 있을 것이다.

마지막으로 NEAT은 전국적으로 시행되는 고부담 시험이며, 더구나 IBT로

시행된다는 점에서 시험의 형평성과 민주성의 확보가 그 어느 시험보다 중요

하다. 따라서 컴퓨터 및 인터넷 친숙도에 따라 지역·계층 간 시험 수행(점수)의

차이가 생기지 않도록 PBT와 IBT 간의 동질성 연구 결과를 반영하여 검사지

를 구성하여 시험의 공정성을 확보해야 할 것이다. 예를 들어, 동질성 분석 결

과, 지역·계층 간 시험 수행 (점수)의 차이가 상대적으로 적은 문항 유형은 검

사지에 그대로 포함될 수 있지만, 시험 수행의 차이가 상대적으로 큰 문항은

그 요인을 면밀하게 분석하여 검사지에 포함할 것인지를 결정해야 할 것이다.

가령, 두 시험 간의 수행의 차이가 컴퓨터 친숙도 차이에서 기인된 것인지 아

니면 PBT에서 IBT로 구현되면서 문항의 실제성과 상호작용성의 차이에서 기

인된 것인지 식별해야 할 것이다. 전자의 경우, 수험생의 언어 능력 이외의 요

소가 시험 수행 결과에 반영된 것이므로 검사지에서 배제되어야 한다. 그러나

후자의 경우, 구현성 및 작동의 편의성을 재고하거나 튜토리얼을 제공함으로써

수행의 차이를 완화할 수 있다면 검사지에 포함될 수 있을 것이다. 특히 듣기

나 읽기 입력의 속도는 지역·계층 간 시험 수행(점수)의 차이에 민감하므로 신

중하게 입력의 속도를 결정해야 할 것이다8.

8 수능 실험 평가에서 듣기 횟수에 따라 지역별 편차가 생기면 시험의 공정성의 문제가 생기기 때문에 이를 검증하기 위해 4차 실험 평가에서 듣기 대화문을 한번 들려 줄 때와 두 번 둘려 줄 때의 듣기 이해의 차이를 비교하는 실험을 했다. 이 실험 결과에 따르면, 서울/대도시 학생들은 한 번 들려줄 때보다 두 번 들려줄 때 약 8-10점 정도 상승했지만, 중/소도시나 읍/면 지역 학생들은 0.3-3점 정도 상승하는데 그쳤으며, 이를 토대로 수능에선 듣기는 한번 들려주는 것으로 결정되었다(한국교육과정평가원, 2005, p. 195).


5. 환류 효과성(Washback Effectiveness) 원리

Bachman과 Palmer(1996, p. 29)가 제안한 영향(Impact)의 개념에 따르면, 환류

효과성(washback effectiveness)은 „시험 시행의 결과가 보다 직접적으로 교수·학

습의 내용과 방법, 수업 활동과 절차, 교실 평가, 교육 과정의 구체적 목표(성

취 기준) 등에 미치는 영향‟으로 정의할 수 있다. 수능 시행 초기에 이와 같은

환류 효과를 경험한 적이 있다. 수능 실험 평가 시기에 의사소통능력을 측정하

는 듣기 문항은 이후 교실 수업에서 구어 중심의 회화 수업을 강화하는 효과

를 낳았으며, 사고력 중심의 언어사용능력을 측정하는 읽기 문항 유형은 그 당

시 교실 수업을 지배해왔던 소위 상향식 정독 위주의 읽기 수업에서 하향식

이해 위주의 읽기 전략과 기술을 가르치는 방향으로 전환시켰다. 이와 같이 환

류 효과성 원리는 교육과정, 교수·학습 활동, 교육 평가 간의 간극을 줄이는데

기여할 것이다. 앞서 논의한 연계성, 실제성, 상호작용성, 양립성 원리의 환류

효과를 예상해보자 한다.

연계성 원리는 문항 개발과 선별 과정과 교육과정을 연계함으로써 교육과정,

교수·학습, 교실 평가 간의 간극을 줄여 상호 상승효과를 유도할 것이다. 실제

성의 원리는 TLU 영역에서 실제 언어 사용 상황을 반영한 다양한 문항 유형

의 개발을 촉진시킨다는 점에서 문항 유형의 양적 통제 기능을 한다고 할 수

있다. 실제성의 원리에 따라 NEAT에서 다양한 신 유형의 문항을 개발하여 시

행한다면, 교실 수업에서도 실제성 원리에 따라 다양한 학습 과업이 개발되고

활용될 것이다. 이에 따라 교수 학습 내용과 방법이 보다 실제성을 띠게 될 것

이며, 수업 활동도 보다 생동감 있게 진행될 것이다. 상호작용성의 원리는 시

험 과업과 수험자의 언어능력이 보다 심도 있게 상호작용하는 문항을 개발하

게 한다는 점에서 문항 유형의 질적 통제 기능을 한다고 할 수 있다. 따라서

NEAT에서 보다 상호작용성이 높은 문항을 개발하여 시행한다면, 교실 상황에

서도 상호작용성 원리가 학습 과업의 설계, 개발, 교수·학습 내용과 방법, 수업

절차와 방법 등에 작동하여, 언어 능력과 전략적 능력이 실제 수업 활동에 녹

아 들어간 보다 역동성 있는 수업이 진행되게 할 것이다. IBT 양립성 원리는

수험자가 IT 기술로 구현되는 시험 과업과 심도 있는 상호작용을 유도한다는

점에서 문항 유형의 기술적 통제 역할을 한다고 할 수 있다. 따라서 NEAT에서

IT 기술과 접목된 다양한 시험 과업을 개발, 시행된다면, 교실 상황에서도 IT

기술과 융합된 다양하고 창의적인 학습 과업과 학습 자료의 개발이 촉진될 것

이며, 교수·학습 내용의 제시 방법, 수업 절차와 활동 등에도 상당한 변화가 있

을 것으로 생각된다. 예를 들면, 수준별 시험 과업과 수준별 학습 과업을 소프

트웨어와 접목시켜 단계적으로 제시하고, 각 단계에 따른 학습 결과에 대한 적

절한 피드백을 제공한다면, 자기 주도적 학습이 활성화될 수 있을 것이다. 또

한 학습 내용을 3D 가상현실로 구현하거나 동영상으로 실현한다면, 학습자의

학습에 대한 관심과 흥미를 유발하는 수업 활동이 가능할 것이다.

330 김용명

IV. 국가영어능력평가시험(NEAT)의 검사지 구성의 원칙

3장에서 논의한 문항 유형 결정 원리는 각 개별 문항, 가령, x, y, z의 개발과

선별에 관계하는 원리인 반면, 본 장에서 논의할 검사지 구성 원칙은 문항 유

형 결정 원리에 따라 개발 또는 선별된 문항 유형, x, y, z 간의 상호 관계에 작

용하는 원칙이다. 따라서 문항 유형 결정 원리와 검사지 구성의 원칙은 상호

배타적 독립적 관계에 있다기 보다는 상호 보완적 유기적 순환 관계에 있다.

문항 유형 결정 원리와 검사지 구성의 원칙이 „상호 유기적 순환 관계‟에 있다

는 의미는 NEAT 구성에 있어서 원리 또는 원칙의 적용 순서의 측면에서 본

것이다. 이를 부연 설명하면, 문항 유형 결정 원리에 따라 먼저 문항 유형 타

당성 평가의 기준을 설정하고, 이 기준에 따라 NEAT에 부합할 수 있는 문항을

개발하거나 선별한다. 다음 검사지 구성의 각 원칙의 특성에 따라 개발 및 선

별된 각 개별 문항을 분류하여 문항 유형 은행(item-types bank)에 저장하고, 이

를 토대로 일종의 범용 평가 목표 이원분류표인 „모듈형(modular)‟ 평가 목표

이원분류표를 구성한다. 가령, 다음에 논의하겠지만, 상보성 원칙에 따라 동일

한 능력을 측정하는 유사한 유형은 묶어 소위‘메타 문항’으로 분류하고, 또 위

계성 원칙에 따라 고난도 문항 유형, 중난도 문항 유형, 저난도 문항 유형으로

분류한다. 다음 NEAT의 수준별, 기능별 평가 체제에 부합할 수 있도록 검사지

구성의 각 원칙에 따라 각 문항 유형의 적정 구성 비율을 설정한 후, 이에 따

라 각 수준별(2·3급), 기능별(듣기·읽기·말하기·쓰기) 시험에 부합할 수 있는 „상

보형(complementary)‟ 평가 목표 이원분류표를 구성한다. 이를 토대로 실제 검사

지를 구성하여 시행한 후, 시험 결과를 토대로 시행된 문항 유형을 다시 문항

유형 타당성 평가 기준에 따라 평가하여 해당 문항을 수정·보완하거나, 폐기할

수도 있을 것이며, 이 타당성 평가 결과를 토대로 검사지를 재구성할 수 있을

것이다. 이런 점에서 문항 유형 결정 원리와 검사지 구성의 원칙 상호 유기적

순환 관계에 있다고 할 수 있다(자세한 논의는 5장의 시사점 및 김용명(2010)

참조). 또한 문항 유형 결정 원리와 검사지 구성 원칙이 „상호 보완적 관계‟에

있다는 의미는 NEAT의 평가 체제, 시험 체제를 설정하고, 문항 유형 은행 및

평가 목표 이원분류표 등을 구성하는 관점에서 본 것이다. 이를 부연 설명하면,

문항 유형 결정 원리와 검사지 구성 원칙의 상호작용을 통해 문항 유형 은행

및 모듈형 평가 목표 이원분류표를 구성할 수 있을 것이다. 또한 문항 유형 결

정 원리, 가령, 연계성과 실제성 원리에 따라 NEAT의 시험 범위와 평가 내용

이 결정할 수 있을 것이며, 검사지 구성 원칙, 가령, 상보성과 위계성 원칙에

따라 NEAT의 각 기능별 시험의 필요 최소한의 문항 유형의 수와 총체적 난이

도를 설정할 수 있을 것이며, 이를 토대로 각 수준별(2·3급), 각 기능별(듣기·읽

기·말하기·쓰기) 시험에 부합할 수 있는 상보형 평가 목표 이원분류표를 구성할

수 있을 것이다. 이런 점에서 문항 유형 결정 원리와 검사지 구성의 원칙은 상

호 보완적 관계에 있다고 할 수 있다(다음 5장 및 김용명(2010) 참조).


1. 상보성(Complementarity) 원칙

상보성(complementarity)은 평가와 관련된 모든 요소, 모든 영역, 모든 내용은

서로 상보적 분포(complementary distribution)9를 이루어야 하며, 동시에 각 요소

의 하위 구성 요소들 간에도 서로 상보적 관계(complementary relationships)에 있

어야 한다는 원칙이다. 이를 부연 설명하면, 검사지 A가 문항 유형 a에서 z로

구성 되어 있을 때, 평가하고자 하는 언어능력의 구성소, 재고자 하는 내용 영

역의 구성소, 측정하고자 하는 행동 영역의 구성소 각각에 대하여 상보적 분포

를 이루고 있을 때, 상보성 원칙을 만족시킨다고 할 수 있다. 예를 들면, 내용

일치, 빈칸 추론, 목적 찾기 문항은 사실적 이해력, 추론적 이해력, 종합적 이

해력을 각각 측정하고, 또한 각각 상향식, 상호작용식, 하향식 읽기 이해 능력

을 평가한다는 점에서 상보적 분포를 이루고 있으므로 상보성 원칙을 만족시

킨다고 할 수 있다. 반면, 주제, 제목, 요지 추론 문항은 모두 추론적 이해력을

측정하고 동시에 모두 하향식 읽기 능력을 평가한다는 점에서 동일한 능력을

측정하고 있으므로 상보성 원칙에 위배된다. 이런 점에서 상보성은 „필수 불가

결한 문항을 필요 최소한‟으로 검사지를 구성해야 한다는 원칙으로 이해할 수

있으며, 따라서 상보성 원칙은 검사지를 몇 문항으로 구성해야 하는가에 대한

논리적 타당성을 제공해 줄 수 있다. 또한 상보성은 동일 능력을 측정하는 유

사한 유형은 묶어 소위 „메타 문항‟으로 분류하는 기능을 하므로(동일 능력을

측정하는 동형 문항에 대해서는 상호 배타적이므로) 시험의 동등화와 관련하여

동형 검사형(alternative tests)을 구성하는 실행적 장치로서 기능을 한다.

2. 통합성(Integration) 원칙

제 2장에서 논의한 바와 같이, NEAT는 언어능력은 구분가능(divisible)하다는

전제에 따라 듣기, 읽기, 말하기, 쓰기 시험을 분리하여 시행될 예정이다. 따라

서 각 기능별 시험은 각 기능에 해당하는 언어능력만을 측정하는 순수 독립형

문항으로 검사지를 구성하는 것이 타당할 것이다. 왜냐하면 각 기능별 시험이

순수 독립형 문항으로 구성되어야 구인 타당성의 논리에 부합할 수 있고, 또

각 기능별 시험의 수행의 결과(점수)의 해석에 타당성이 있으며, 이를 토대로

적절한 진단과 피드백을 제공해줄 수 있기 때문이다. 그러나 최근 언어 교수·

학습 이론(Bachman, 1990; Bachman과 Palmer, 1996; Brown, 2004, 2007; Ellis, 2003)

에 따르면, 부분의 합이 전체가 될 수 없듯이, 언어의 4기능의 단순한 산술적

합이 언어능력의 전체가 될 수 없으므로 4기능의 분리하기 보다는 통합하여

9 상보적 분포란 어떠한 요소 X와 Y가 있을 때, 그 중 하나가 다른 것이 나타나는 환경에서는 결코 나타나지 않는다면, X와 Y는 상보적 분포를 이룬다고 한다(이흥수, 2009, p. 73).

332 김용명

교수해야 한다는 쪽에 무게 중심이 실려 있고, 또한 개정 영어과 교육과정에서

도 4기능 통합 지도를 통한 수업 활동을 강조하고 있다(교육과학기술부, 2007,

2008). 따라서 통합성(integration) 원칙은 이 같은 4기능 통합 이론을 NEAT에

반영하여, 듣고 말하거나, 읽고 쓰는 기능 통합형 문항이나, 듣기와 말하기 또

는 읽기와 쓰기를 연계하는 연계형 문항도 NEAT의 각 기능별 시험의 검사지

에 필요 최소한으로 포함되어야 한다는 것을 말한다. 이에 대한 논리적 근거는

실제 언어 사용 상황에서도 순수 듣기만 또는 읽기만 수행하는 경우보다는 듣

고 말하고, 읽고 쓰는 기능 통합형 언어활동이 더 보편적이다. 또한 각 기능의

고유한 언어능력을 실시간 상으로 상호 통합 또는 연계하여 주어진 시험 과업

을 수행해야 하므로 통합형 또는 연계형 문항이 독립형 문항보다 상호작용성

이 더 높으며, 이 과정에서 어떤 언어능력을 어디에 어떻게 활용할 것인가를

실시간 상으로 계획하고, 평가하고, 실행하는 전략적 능력의 계발에도 효과가

높기 때문이다.

통합형 문항에는 두 유형, 즉, 순수 통합형과 연계형이 있다. 순수 통합형 문

항에는 iBT TOEFL 등에서 활용하고 있는 바와 같이, 듣고 말하는 2기능 통합

형, 듣고, 읽고, 말하는 3기능 통합형 등이 있을 수 있다. 연계형은 수능 듣기

영역에서 „마지막 말에 대한 응답‟ 문항처럼, 실제 말하기 능력과 관련되지만,

듣기와 연계되어 있는 문항과, 읽기 영역에서 „글 의 이어질 순서‟ 문항처럼,

실제 쓰기 능력과 관련되지만, 읽기와 연계되어 있는 문항을 예로 들 수 있다.

NEAT의 말하기와 쓰기(표현력) 시험은 통합형 문항을 포함하는 것이 타당할

것으로 생각되며, 듣기와 읽기(이해력) 시험은 연계형 문항을 가미하는 것이

바람직할 것으로 생각된다.

3. 주축성(Pivotality) 원칙

하나의 바퀴가 주축과 살로 구성되어 수레를 굴리듯이, 하나의 검사지도 주

축 문항(pivot items)과 주변 문항(peripheral items)으로 구성되어 시험으로서 기능

을 한다. 주축 문항은 바퀴의 주축처럼 검사지 구성의 핵심 문항으로서 시험의

안정성과 항상성 유지에 중추적 역할을 하는 반면, 주변 문항은 바퀴의 살처럼

시험의 다양성에 기여를 한다. 따라서 주축성(pivotality) 원칙이란 주축 문항이

시험의 항상성과 동등성(equality)을 유지할 만큼 필요 최대한으로, 시험의 다양

성을 해치지 않을 만큼 필요 최소한으로 검사지에 포함되어야 한다는 것을 말

한다.

수능 외국어(영어) 영역의 각 문항 유형에 따른 정답률 분석을 토대로 주축

문항과 주변 문항의 특성을 살펴보자. 그림 4에서 보는 바와 같이, 일반적으로

주축 문항은 평균 정답률을 기준으로 정답률의 편차(variation)가 상대적으로 좁

으며, 문항의 복잡도(어휘적, 언어적, 인지적 복잡도)가 높아지면, 이에 따라 난

이도도 올라가는 경향을 보인다(문항의 복잡도와 난이도는 정비례 관계). 따라


서 정답률의 편차가 상대적으로 작고, 학습자의 언어 능력(예, 문법적, 담화적

능력 등)에 민감성을 보인다는 사실에서 주축 문항은 시험의 항상성 유지와 동

등화에 기여할 수 있다는 것을 추론할 수 있다.

그림 4

주축 문항과 주변 문항의 특성

반면, 주변 문항은, 그림 4에서 보는 바와 같이, 일반적으로 평균 정답률을

기준으로 정답률의 편차가 상대적으로 넓으며, 문항의 복잡도가 높아지면, 일

정 수준까지 난이도가 올라가지만, 그 수준 이상에서 더 이상 난이도의 변화가

없는 시험 고원(testing plateau) 현상이 생겨나는 경향을 보인다. 따라서 정답률

의 편차가 크고, 언어 능력에 민감하지 하지 않다는 사실에서 주변 문항은 언

어능력보다는 시험 요령, 학습자의 정의적 특성, 배경 지식 등의 지배를 받는

다는 것을 추론할 수 있으며, 시험의 안정성과 항상성보다는 다양성에 영향을

미칠 것이라는 것을 예측할 수 있다. 결론적으로 말해, 주축과 살이 적절한 균

형과 조화를 통해 수레바퀴가 제 역할을 할 수 있듯이 주축 문항과 주변 문항

의 적절한 균형을 통해 NEAT 시험의 항상성과 동등성뿐만 아니라 다양성도

확보할 수 있을 것이다.

4. 위계성(Hierarchicality) 원칙

위계성(hierarchicality)은 Kim(2006, 2007)의 시험가능성(testability)10에 근거한

개념으로 문항의 난이도 또는 복잡도와 수험자의 언어 수행력과 일치하는 정

도로 정의할 수 있다. 예를 들어, „물건 사기‟ 시험 과업이 충분한 실제성과 상

호작용성을 갖추고 있다 할지라도 수험자가 현재 이 과업을 수행할 만한 충분

한 언어 수행력을 갖추지 못했을 경우, 즉, 수행가능성이 낮을 경우, 학습자들

10 The Testability hypothesis was extrapolated from what Pienemann calls the Teachability principle

(1998). Given the Teachability principle, then, any test task will be‘performable’to the test taker if it relates to structures or rules of the next or subsequent stage of the IL[interlanguage] learners’current stage (Kim, 2007, p. 51).

334 김용명

은 이 과업을 수행할 수 없을 것이며, 설사 수행한다 할지라도 단순한 단어의

나열 또는 비언어적 수단에 의존해 이를 수행할 것이다. 더구나 이와 같은 수

행 결과를 토대로 학습자(수험자)의 언어능력에 대한 타당성 있는 해석(추론

및 일반화)을 하기는 상당히 어려울 것이다. 이런 점에서 위계성은 시험 과업

의 난이도 또는 복잡도(difficulty or complexity)와 수험자의 언어 수행력(language

proficiency)과의 관계로 파악할 수 있다. 따라서 위계성(hierarchicality) 원칙은

검사지를 구성하고 있는 각 문항의 복잡도 또는 난이도는 각 수험자(또는 각 집

단)의 수행가능 단계와 일치할 수 있도록 위계화하여야 한다는 것을 의미한다.

이제 어떻게 문항의 복잡도 또는 난이도를 위계화(hierarchy of test tasks

difficulties)할 수 있는지를 구체적으로 살펴보자. 수능 외국어(영어) 영역의 문

항 분석(한국교육과정평가원, 2005~2010학년도) 결과에 따르면, 문항에 대한 수

험자 (학습자)의 반응에 따라 다양한 문항 반응 곡선들이 나타날 수 있지만, 그

림 5에서 보는 바와 같이, 문항 유형의 특성에 따라 이 다양한 곡선들을 (다소

추상화 하여) 세 유형, 즉, L형, M형, H형으로 정형화할 수 있다11.

그림 5

L형, M형, H형 문항 반응 곡선

L형 문항 반응 곡선은 하위 등급(예, 9, 8, 7등급)에서는 등급이 올라감에 따라

정답률이 올라가지만, 일정 등급(예, 7등급) 이상을 넘어서면 정답률(예, 80%

대)이 고정되어 시험 고원을 형성하는 문항 유형을 말한다. L형 반응 곡선의

특성을 보이는 문항 유형에는 a, b, c 등의 유형이 있으며12, 이 유형들은 하위

11 문항 반응 곡선 L형, M형, H형은 각각 low, mean, high의 첫 글자를 딴 것으로 하위 학습자, 중위 학습자, 상위 학습자를 보다 잘 변별한다는 의미를 담고 있다

12 수능 외국어(영어) 영역 시험(2005-2010)의 결과를 분석해보면, 문항 유형의 특성에 따라 3유형의 문항 반응 곡선, 즉, L형, M형, H형을 식별해낼 수 있었지만, 수능 자료


등급 간의 난이도 및 변별도 조정에 결정적 역할을 한다. M형의 문항 반응 곡

선은 하위 등급(예, 7등급 이하)에서 정답률이 정체(예, 20% 대)되어 시험 고원

을 형성하지만, 일정 등급(예, 7등급)에 도달하면 등급이 올라감에 따라 정답률

이 올라간 후, 다시 일정 등급(예, 3등급)을 넘어서면 정답률이 정체(예, 80% 대)

되어 또 하나의 시험 고원을 형성하는 유형을 말한다. M형 곡선의 특성을 보이

는 문항 유형에는 o, p, q, r 등의 유형이 있으며, 이런 문항 유형들은 중위 등급

간의 난이도 및 변별도 조정에 결정적 역할을 한다. 마지막으로 H형의 문항

반응 곡선은 일정 등급(예, 3등급)까지는 정답률이 정체(예, 30%대)되어 시험 고

원을 형성하지만, 일정 등급(예, 3등급)을 넘어서면 등급이 올라감에 따라 정답

률이 민감하게 반응하는 유형을 말한다. H형의 문항 반응 곡선의 특성을 보이

는 문항 유형에는 x, y, z 등의 유형이 있으며, 이들 문항 유형은 상위 등급 간

의 난이도 및 변별도 조정에 결정적 역할을 한다.

그림 6

문항 유형 난이도의 위계화 좌표(지도)

(Coordinates for the Hierarchy of Item Patterns Difficulties)

이상에서 논의한 문항 유형의 특성에 따른 문항 반응 곡선을 토대로, 그림 6

과 같이, „문항 유형 난이도 위계화 좌표(Coordinate of the Hierarchies of Item

Patterns Difficulties)‟를 구성할 수 있다. 이 좌표에서 x 축은 일종의 내포 척도

(implicational scaling)13로 구성된 언어 수행력 등급(proficiency scale)을 나타내며,

y 축은 문항 유형에 대한 학습자(수험자)의 언어 수행력에 따른 정답률(난이도)

을 나타내며, 이 역시 정답률에 따른 내포 척도로 구성되어 있다고 전제한다

이제 그림 6의 문항 유형 난이도 위계화 좌표 상의 문항 난이도 위계화 곡

가 보안인 관계로 본 연구에서 각 문항 반응 곡선에 속하는 문항 유형을 구체적으로 명시하지 않고, a, b, c, x, y, z 등으로 표시하였다.

13 내포 척도(implicational scaling)란 상위단계의 구성요소는 하위단계를 포함할 수 있지만, 그 역은 성립할 수 없는 척도를 말한다(Kim, 2006; Kim & Kwon, 2007).

336 김용명

선을 이용하여 한 검사지를 구성하고 있는 각 문항 유형의 난이도를 위계화할

수 있다. 먼저 검사지에 포함될 각 개별 문항의 문항 반응 곡선 유형을 위계화

좌표 상에 좌표로 나타낸다. 다음 이를 문항 난이도 위계화 곡선을 따라 위계

화한다. 이를 통해 각 문항 유형이 각 수험자(학습자)의 언어 수행력 단계(등

급)와 일치하는지를 예측할 수 있을 뿐만 아니라 검사지의 총체적 난이도 및

변별도를 조정할 수 있다. 예를 들어, L형에 속하는 문항 유형(a, b, c)의 비율을

늘리면, 검사지 전체의 난도는 내려갈 것이며, 그 결과 하위 학습자(수험자)에

대한 변별력이 높아지는 경향을 보일 것이다. 역으로 H형에 속하는 문항 유형

(x, y, z)의 비율을 늘리면, 검사지 전체의 난도는 올라갈 것이며, 그 결과 상위

학습자(수험자)에 대한 변별력이 높아지는 경향을 보일 것이다. 따라서 한 검

사지에서 L형, M형, H형의 구성 비율을 조정함으로써 검사지 전체의 적정 난이

도와 변별도를 통제할 수 있고, 더 나아가 시험의 안정성과 항상성을 유지할

수 있을 뿐만 아니라 시험의 동등화에도 기여할 수 있다.

V. 결론 및 시사점

본 연구는 NEAT 설계에 관한 밑그림을 제시하기 위해, “어떤 원리에 따라

NEAT에 적합한 문항 유형을 개발하고, 또 어떤 원칙에 따라 어떤 문항 유형으

로 NEAT에 타당한 검사지를 구성할 것인가?”라는 연구 질문을 제기하고, 이에

대한 가능한 답으로서 „문항 유형 결정 원리‟와 „검사지 구성 원칙‟을 제안하였다.

문항 유형 결정 원리는 Bachman과 Palmer(1996)의 시험 유용성 모델을 토대

로 설정한 것으로 연계성, 실제성, 상호작용성, IBT 양립성, 환류 효과성 등으로

구성된다. 연계성 원리는 NEAT의 평가 목표, 수준, 평가 내용 및 평가 요소는

개정 영어과 교육과정의 교육 목표, 수준, 교육 내용 및 성취 기준과 연계되어

야 한다는 것을 말한다. 실제성은 문항 유형은 실제 언어 사용 상황과 일치해

야 한다는 것으로, 문항 유형 개발과 선별의 범위와 한계를 설정하는 역할을

한다. 따라서 실제성 원리는 NEAT의 평가 목표 이원분류표 상의 내용 영역과

행동 영역의 주요 구성소를 설정하고, 이의 타당성을 검증하는 이론적 토대가

된다. 상호작용성은 학습자의 언어능력과 시험 과업이 상호작용하는 정도를 말

하는데, 상호작용성이 높은 문항일수록 언어능력과 관계하는 정도가 높으므로

상호작용성 원리는 문항의 질적 통제 역할을 한다. IBT 양립성은 IBT 환경과

수험자 간에는 친화성이 있어야 하며, IBT 환경과 IBT 문항 간에는 IT 기술의

구현성이 있어야 하며, 수험자와 IBT 문항 간에는 언어능력과 상호작용성이 있

어야 한다는 원칙으로 IBT 문항의 기술적 통제 역할을 한다. 환류 효과성은 시

험 과업은 교육과정, 교수·학습 활동, 평가에 긍정적 영향을 주어야 한다는 원

칙으로 교육과정, 교수·학습, 교육 평가의 괴리를 줄이고, 일체화에 기여한다.

또한 검사지 구성 원칙은 문항 유형 결정 원리와 수능 외국어(영어) 영역의 문


항 분석 자료(한국교육과정평가원, 2005~2010학년도)의 심층 분석을 토대로 설

정한 것으로 상보성, 통합성, 주축성, 위계성 등으로 구성된다. 상보성은 평가

의 모든 요소, 모든 영역, 모든 내용과 그 하위 요소들은 서로 상보적 관계에

있어야 한다는 원칙으로 검사지 구성의 총괄적 기능을 수행한다. 통합성은 문

항 유형의 실제성과 상호작용성을 높이기 위해서는 두 기능 이상의 통합형 문

항도 검사지에 필요 최소한으로 포함되어야 한다는 원칙을 말한다. 주축성은

시험의 안정성과 동등성을 확보할 수 있을 만큼 필요 최대한으로, 다양성을 해

치지 않을 만큼 필요 최소한으로 주축성 문항을 검사지에 포함해야 한다는 원

칙을 말한다. 위계성은 검사지를 구성하는 각 문항의 난이도는 수험자 별(집단

별) 수행가능 단계와 일치할 수 있도록 위계화해야 한다는 원칙을 말한다. 본

연구에서 제안한 문항 유형 결정 원리와 검사지 구성의 원칙은 상호 배타적

독립적 관계에 있다기 보다는 상호 보완적 유기적 순환 관계에 있다고 할 수

있다. 결론적으로 말해, 문항 유형 결정 원리와 검사지 구성 원칙은 상호 보완

적 유기적 순환 관계를 통해 시험 체제의 구성, 문항 유형의 개발과 선별, 문

항 타당성 평가, 검사지 구성, 이원 목적 분류표 구성, 시행에 이르기까지 시험

개발의 전 과정을 총괄하는 일종의 평가 규준 역할 한다고 할 수 있다.

본 연구에서 NEAT의 밑그림으로 제안한 문항 유형 결정 원리와 검사지 구

성의 원칙이 어떻게 서로 상호 보완적 유기적 관계를 통해 NEAT의 설계도의

주요 구성소, 즉, 출제 및 시행 체제, 문항 유형 타당성 평가, 문항 유형 은행,

모듈형과 상보형 평가목표 이원분류표 구성 등에 어떤 시사점을 줄 수 있는지

논의하고자 한다.

먼저 연계성, 실제성, 상보성, IBT 양립성 등은 NEAT의 출제 및 시행 체제에

논리적 타당성과 시사점을 줄 수 있을 것이다. 연계성 원리에 따라 NEAT 2급

과 3급의 듣기 및 읽기 시험의 출제 범위 및 출제 과목이 결정될 수 있을 것

이며, 이에 따라 수준별 기능별 각 시험에서 사용될 수 있는 총 어휘 수, 지문

및 대화문 당 적정 단어 수가 결정될 수 있을 것이다. 또한 연계성, 실제성 원

리에 따라 NEAT의 평가 내용이 정해질 것이며, 상보성 원칙에 따라 필요 최소

한의 문항 수가 결정될 수 있을 것이며, 이를 토대로 수준별 기능별 각 시험의

적정 시험 시간도 추산될 수 있을 것이다. 마지막으로 IBT 양립성 원칙에 따라

문항 유형 구성 요소, 즉, 문항 제시 순서와 방법, 입력과 응답의 시간, 문항

간 이동 여부 등이 결정될 수 있을 것이다.

문항 유형 결정 원리는 문항 유형 타당성 평가의 평가 기준 역할을 할 수

있을 것이다. 즉, 문항 유형 결정의 다섯 원리는 문항 유형의 질적 타당도 평

가의 다섯 평가 기준, 즉, 연계성, 실제성, 상호작용성, IBT 양립성, 환류 효과성

등의 기준(영역)을 구성하게 될 것이다. 또 각 기준(영역)의 평가 내용으로부터

하위 평가 기준을 설정하게 될 것이며, 또 이 하위 기준으로부터 평가 요소를

설정하게 될 것이다. 예를 들면, 문항 유형 결정 원리 중, IBT 양립성 원리는

문항 유형 타당성 평가의 IBT 양립성 기준(영역)이 되며, 이 기준의 평가 내용

338 김용명

으로부터 „양립성‟, „친화성‟, „상호작용성‟ 등 세 하위 기준이 설정되며, 이 각

하위 영역으로부터 각 평가 요소를 구성한다. 즉, „양립성‟ 하위 기준으로부터

“주어진 문항 유형이 IBT로 구현이 용이한가?”, „친화성‟으로부터 “IBT 문항이

수험자 친화적으로 운영될 수 있는가?”, „상호작용성‟으로부터 “IBT 문항이 수

험자의 언어능력과의 상호작용을 촉진시키는가?” 등의 평가 요소를 구성한다.

이와 같이 구성된 „문항 유형 타당성 평가 기준 및 평가 요소‟에 따라 문항 평

가자는 NEAT에 포함될 문항 유형을 정해진 점수화 절차와 방법(예, Likert 5점

척도)에 따라 문항 타당성을 평가할 것이며, 이 평가 결과(점수)를 토대로 해당

문항 유형이 NEAT의 모듈형 평가 목표 이원 분류표 및 문항 유형 은행에 저

장 여부가 결정될 것이다(김용명(2010) 참조).

한편 검사지 구성의 원칙은 문항 유형 특성 평가의 세 평가 기준, 즉, 통합

성 기준, 주축성 기준, 위계성 기준을 구성하게 되며, 각 기준의 평가 내용으로

부터 평가 요소를 구성하게 될 것이다. 예를 들어, 위계성 기준으로부터 “주어

진 문항 유형은 3유형(L형, M형, H형)의 문항 반응 곡선 중, 어느 유형을 속할

것인가?”라는 평가 요소를 설정한다. 이와 같이 구성된 „문항 유형 특성 평가

기준 및 평가 요소‟에 따라 문항 평가자는 NEAT에 포함될 각 문항 유형의 특

성을 평가하여, 문항 유형을 그 특성에 따라, 예를 들어, 통합형 문항과 독립형

문항, 주축 문항과 주변 문항, L형, M형, H형 문항 등으로 분류할 수 있을 것이

다. 이상에서 논의한 문항 유형 타당성 평가 기준 및 문항 유형 특성 평가 기

준은 문항 유형 개발, 검사지 구성, 시행의 전 단계에 걸쳐 일종의 기준 역할

을 할 것이다. 다시 말해, 문항 유형 개발 단계에서는 문항 개발의 지침 역할

을 할 것이며, 문항 타당성 평가 단계에서는 평가 기준 역할을 할 것이며, 검

시지 구성 단계에서는 검사지의 구성의 통제자 역할을 할 것이며, 시행 후에는

문항 타당도 검증의 기준으로 활용할 수 있을 것이다.

문항 유형 결정 원리와 검사지 구성의 원칙은 모듈형과 상보형 평가 목표

이원분류표의 구성에 결정적 역할을 할 것이다. 모듈형 이원분류표는 실제성

원리에 따라 이원분류표의 각 영역과 그 하위 영역의 구성소를 가능한 한 세

분하여 구성하지만, 상보성 원칙에 따라 각 영역과 그 하위 영역 간에 상보적

분포를 이루도록 구성한 것을 말한다. 모듈형 평가목표 이원분류표는 내용 영

역 체계, 행동 영역 체계, 문항 유형 특성 체계로 구성된다. 듣기의 내용 영역

체계는 과업 중심 교수·학습(task-based language teaching) 이론에 따라 구성될 수

있을 것이며, 읽기의 내용 영역 체계는 내용 중심 교수·학습 (content-based

language teaching) 이론에 따라 구성될 수 있을 것이다. 행동 영역 체계는 어휘

적, 문법적 판단력, 사실적, 추론적, 종합적 이해력, 적용력 등으로 구성된다.

문항 유형 특성 체계는 검사지 구성의 네 원칙, 즉, 상보성, 통합성, 주축성, 위

계성으로 구성된다. 이와 같이 구성된 문항 유형 특성 체계는 상보형 평가 목

표 이원분류표의 구성과 관계한다. 다시 말해, 문항 유형 특성 체계는 모듈형

평가목표 이원분류표로부터 상보성 원칙에 따라 각 수준별(2·3급), 각 기능별


(듣기·읽기), 각 시행 시기별(1회, 2회 등) 시험 간, 내용 영역과 행동 영역 및

그 하위 영역의 평가 요소가 서로 상보적 분포를 이루도록(서로 겹치지 않도

록) 구성하는데 결정적 역할을 한다. 이상에서 논의한 모듈형과 상보형 평가목

표 분류표는 수준별, 기능별, 시기별로 시행되는 매 시험 간 상보성 파악이 용

이하므로 NEAT의 평가 체제와 복수 시행 체제에 부합할 수 있을 뿐만 아니라

시험 간 „등거리성‟을 확보할 수 있음으로써 평가 요소(문항) 간의 상호 간섭

효과를 최소화할 수 있다. 더구나 장기적 관점에서 문제 은행식 또는 문항 공

모식 출제 체제 하에서 문항 유형 은행 체제 및 문항 유형 개발의 매트릭스

역할을 할 수 있다(김용명(2010, 출판중) 참조).

또한 검사지 구성 원칙에 따라 구성한 문항 유형 특성 체계는 검사지의 질

적 특성과 관계한다. 따라서 어떤 특성을 지닌 문항 유형을 어떻게 배분하여

검사지를 구성하느냐에 따라 검사지의 질적 특성이 달라진다. 문항 유형 특성

체계의 구성소, 가령, 통합성, 주축성, 위계성에 따른 각 문항 유형의 적정 구

성 비율을 조정함으로써 문항 특성 체계는 시험의 항상성, 다양성, 동등성, 형

평성을 확보할 수 있을 뿐만 아니라 NEAT의 수준별(2·3급), 2014 수능 체제의

수준별(A형/B형) 시험 간의 일정한 난이도 및 변별도 격차를 유지할 수 있는

지렛대 역할을 할 수 있다. 일반적으로 연계형 문항, 주축 문항, H형 문항의 비

율을 높이면, 시험의 항상성과 동등성을 유지하기가 용이할 것이며, 상위 변별

력 확보할 수 있으므로 NEAT의 2급과 수준별 영어 B형의 검사지 구성에 상대

적으로 더 부합할 것이다. 반면 기능 독립형 문항, 주변 문항, L형 문항의 비율

을 높이면, 시험의 다양성을 확보하기가 용이하고, 하위 학습자들의 정답률에

민감하므로 NEAT의 3급과 수준별 영어 A형의 검사지 구성에 상대적으로 더

적합할 수 있다. 예를 들어, 위계성 원칙에 따라 L형, M형과 H형의 최적 구성

비율 조정함으로써 NEAT와 수능 수준별 영어의 총체적 난이도와 변별도를 확

보할 수 있을 것이다. 가령, L형, M형과 H형의 적정 구성 비율은 „3:4:3‟ 또는

„2:6:2‟로 설정한다고 가정해보자. 전자의 경우, 총체적 시험의 난이도는 높을

것으로 예측되며, 상위 학습자(수험자) 간에 변별력이 있을 것이므로 NEAT의

2급과 수준별 영어 B형에 더 부합할 것이지만, 후자의 경우, 총체적 난이도는

낮을 것으로 예측되며, 중하위 학습자(수험자) 간에 변별력이 있을 것이므로 3

급과 A형에 적합할 것으로 생각된다. 이상에서 논의한 문항 유형 특성 체계는

교실 평가(중간·기말 시험)에서도 그대로 적용될 수 있다. 다시 말해, 문항 유형

특성 체계의 각 구성소의 구성 비율을 학습자의 수준, 교수 내용, 수업 환경

등에 따라 적절히 조정함으로써 적정의 난이도와 변별도를 확보함과 동시에

보다 타당하고 유용한 검사지를 구성할 수 있을 것이다. 결론적으로 말해, 모

듈형 평가목표 이원분류표는 상보형 평가 목표 이원분류표 구성에 있어서 일

종의 „평가 형판(testing template)‟ 역할을 하며, 동시에 검사지 구성의 „매트릭스

(matrix)‟ 역할을 할 수 있다.

NEAT의 밑그림으로 제시한 문항 유형 결정 원리와 검사지 구성 원칙이

340 김용명

NEAT의 실행 설계도의 구성에 어떤 시사점과 적용가능성이 있는지 살펴보았

다. 이제 본 연구에서 제안한 NEAT의 밑그림을 토대로 NEAT의 실행 설계도(a

viable blueprint)를 그려야 할 때이다.

참고문헌

교육인적자원부. (2007). 외국어과 교육과정(I). 서울: 교육인적자원부.

교육과학기술부. (2008). 외국어과 교육과정(I). 서울: 교육과학기술부.

교육인적자원부(2006.11.3). 인터넷 기반 국가영어능력인증시험 시행 계획 발표.

보도자료.

교육인적자원부(2007.7.30). 국가 영어능력평가시험 도입 기본 계획 수립 발표.

보도자료.

교육과학기술부(2008.12.18). 국가영어능력평가시험 개발 계획 발표. 보도자료.

교육과학기술부(2010.1.7). 국가영어능력평가시험 대입 수시에 반영 발표. 보도

자료.

김용명. (1991). 상호작용 읽기 모델의 관점에서 Good/Poor Reader의 읽기 책략

비교 연구. 미출간 석사학위 논문, 서울대학교, 서울.

김용명. (2010, 출판중). 국가영어능력평가시험(NEAT)의 검사지 구성의 원칙과

절차: 문항 유형 확정 모델. 영어어문교육.

김용명, 이완기, 김진석, 고현숙. (2010). 수능 외국어(영어) 영역 개선 연구(CAT

2010-11). 서울: 한국교육과정평가원.

김진석. (2009). 영어과교육과정 및 평가. 서울: 한국문화사.

중장기 대입선진화 연구회. (2010). 중장기 대입선진화 연구회-연구 발표 세미나

자료집.

성윤미. (2003). 대학수학능력시험 외국어(영어)영역의 점수 요인분석과 그 시사

점. 미출간 박사학위논문, 인하대학교, 인천.

송희심. (1998). 대학수학능력고사에 따른 영어읽기 방식과 영어읽기에 대한 타

인지의 변화. 영어교육, 53(4), 265-290.

신명신. (1999). 대학수학능력시험 영어 읽기 지문 패턴 분석. 영어교육, 54(4),

309-326.

장경숙. (2004). 대학수학능력시험 외국어(영어)영역 읽기 난이도 예측 모형 개

발. 외국어교육, 11(1), 111-130.

이경숙. (1999). 문제 수, 지문 길이, 지문 친숙도가 영어 청해와 독해시험에 미

치는 영향. 영어교육, 54(4), 327-349.

이양락, 노은희, 남진영, 김용명, 박진동, 신일용. (2009). 일본 대학입시센터시험

문항 분석(ORM 2009-46). 서울: 한국교육과정평가원.

이의갑, 김진석, 이병천. (2009). 말하기·쓰기 능력 신장을 위한 국가영어능력평

가시험(ORM 2009-5-4). 서울: 한국교육과정평가원.


이흥수. (2009). 영어과 학습지도 편람. 서울: English 無無.

한국교육과정평가원. (2005). 수능 10년사 I.

한국교육과정평가원. (2005-2010). 대학수학능력시험 외국어(영어)영역 문항 분

석 (비공개 자료집).

한국교육과정평가원. (2010a). 국가영어능력평가시험(2▪3급) 개발 및 운영방안

(ORM 2010-15). 서울: 한국교육과정평가원.

한국교육과정평가원. (2010b). 대학수학능력시험 출제 매뉴얼: 외국어영역.

Bachman, L. F. (1990). Fundamental considerations in language testing. Oxford: Oxford

University Press.

Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and

developing useful language tests. Oxford: Oxford University Press.

Brown, H. D. (2004). Language assessment: Principles and classroom practices. New

York: Longman.

Brown, H. D. (2007). Teaching by principles: An interactive approach to language

pedagogy. New York: Longman.

Chapelle, C. A., & Douglas, D. (2006). Assessing language through computer technology.

Cambridge: Cambridge University Press.

Ellis, R. (2003). Task-based language learning and teaching. Oxford: OUP.

Estaire, S., & J. Zanon. (1994). Planing classwork: A task based approach. Oxford:

Heinemann.

Fulcher, G. (2003). Interface designing in computer-based language testing. Language

Testing, 20(4), 384-408.

Kim, Yong-Myeong. (2006). A common metric scale (CMS) on the parallel developmental

sequence model. English Teaching, 61(4), 77-107.

Kim, Yong-Myeong. (2007). Diagnosis and Remedy System (DRS) for teaching English

on the Common Metric Scale (CMS) model. English Teaching, 62(2), 47-77.

Kim, Yong-Myeong., & Kwon, Orang. (2007). A parallel developmental sequence in

second language acquisition. In F. Mansouri (Ed.), Second language acquisition

research: Theory-construction and testing (pp. 239-275). Newcastle: Cambridge

Scholars Press.

Nunan, D. (1991). Language teaching methodology: A textbook for teachers. New York:

Prentice Hall.

Nuttall, C. (1996). Teaching reading skills in foreign language (2nd. ed.). Oxford, UK:

Heinemann.

Roever, C. (2001). Web-based language testing. Language, Learning & Technology, 5(2),

88-94.

Weir, C. J. (2005). Language testing and validation: An evidence-based approach. New

York: Palgrave Macmillan.

342 김용명

교육단계(applicable level): 고등학교

주제어(key words): 국가영어능력평가시험(NEAT), 문항 유형(item-type),

상보성(complementarity), 문항 유형 은행(item-patterns bank)

평가목표 이원목적분류표(test specifications)

김용명

한국교육과정평가원 대학수학능력시험출제연구관리본부 출제연구실

100-784 서울특별시 중구 정동 15-5 정동빌딩 321호

Tel: (02) 3704-3533/H.P.: 018-267-8998

Fax: (02) 3704-3740

Email: [email protected].

Received in August, 2010

Reviewed in August, 2010

Revised version received in November, 2010

국가영어능력평가시험(neat)의 선별 원리 및 검사지 구성의...

Documents