진료수행시험에서 시험 시간 경과에 따른 표준화 환자 채점의...

7
한국의학교육 : 19 권 제 1 2007 - 39 - 진료수행시험에서 시험 시간 경과에 따른 표준화 환자 채점의 정확도 분석 서울대학교 의과대학 의학교육실, 서울대학교병원 교육연구부 1 , 서울대학교 의과대학 내과학교실 2 , 성형외과학교실 3 박완범김아름이성아김은아장선영 1 김연수 2 김석화 3 신좌섭이윤성 = Abstract = The Accuracy of Standardized Patients’ Rating according to the Order of Examinees in Clinical Performance Examination Wan Beom Park, MD, PhD, Ah Reum Kim, BA, Sung A Lee, RN, MS, Eun A Kim, BA, Sun- young Chang 1 , BA, Yon Su Kim 2 , MD, PhD, Suk Wha Kim 3 , MD, PhD, Jwa - Seop Shin, MD, EdD, Yoon Sung Lee, MD, PhD Office of Medical Education, Seoul National University College of Medicine, Department of Education and Research, Seoul National University Hospital 1 , Departments of Internal Medicine 2 and Plastic Surgery 3 , Seoul National University College of Medicine, Seoul, Republic of Korea Purpose: The purpose of this study is to evaluate the accuracy of standardized patients’ (SP) rating according to the order of examinees in clinical performance examination. Methods: In the clinical performance examination which was administered in 2005 at Seoul National University College of Medicine, each SP evaluated 16 students consecutively. For all 16 SPs (2 SPs per station), accuracy of rating was evaluated by comparing the individual records of each SP to the ‘recording keys’ made by two SPs from reviewing a video recording of per- formances by examinees. Results: The average number of items incorrectly rated by SP was 3.8 (range, 0~12), 2.8 in female SPs and 4.8 in male SPs (p<0.001). No statistical correlation was observed between the number of errors and the order of examinees (p=0.843). Even after stratification by gender or age of the SPs or domains of examination, the number of items incorrectly rated did not differ sig- nificantly according to the order of examinees. Conclusion: An increase in SP’s rating error with time after the start of examinations was not observed within the 16 consecutive encounters in clinical performance examination. The effect of SP’s fatigue on the accuracy of simulation as an examination progresses remains to be studied. Key Words: Clinical performance examination, Standardized patient, Reliability, Fatigue 교신저자: 신좌섭, 서울대학교 의과대학 의학교육실, 서울특별시 종로구 연건동 28번지 Tel: 02)740-8175, Fax: 02)740-8072, E-mail: [email protected] * 본 연구의 일부 내용은 200512월 임상수행능력평가를 위한 서울경기 컨소시엄 주관 제2CPX 심포지엄에서 발표 되었음.

Upload: others

Post on 22-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • 한국의학교육 : 제 19 권 제 1 호 2007 □ 원 저 □

    - 39 -

    진료수행시험에서 시험 시간 경과에 따른 표준화 환자 채점의

    정확도 분석

    서울대학교 의과대학 의학교육실, 서울대학교병원 교육연구부1, 서울대학교 의과대학 내과학교실

    2, 성형외과학교실

    3

    박완범․김아름․이성아․김은아․장선영1․김연수2․김석화3․신좌섭․이윤성

    = Abstract =

    The Accuracy of Standardized Patients’ Rating according

    to the Order of Examinees in Clinical Performance Examination

    Wan Beom Park, MD, PhD, Ah Reum Kim, BA, Sung A Lee, RN, MS,

    Eun A Kim, BA, Sun-young Chang1, BA, Yon Su Kim2, MD, PhD,

    Suk Wha Kim3, MD, PhD, Jwa-Seop Shin, MD, EdD, Yoon Sung Lee, MD, PhD

    Office of Medical Education, Seoul National University College of Medicine,

    Department of Education and Research, Seoul National University Hospital1,

    Departments of Internal Medicine2and Plastic Surgery3,

    Seoul National University College of Medicine, Seoul, Republic of Korea

    Purpose: The purpose of this study is to evaluate the accuracy of standardized patients’ (SP)

    rating according to the order of examinees in clinical performance examination.

    Methods: In the clinical performance examination which was administered in 2005 at Seoul

    National University College of Medicine, each SP evaluated 16 students consecutively. For all

    16 SPs (2 SPs per station), accuracy of rating was evaluated by comparing the individual records

    of each SP to the ‘recording keys’ made by two SPs from reviewing a video recording of per-

    formances by examinees.

    Results: The average number of items incorrectly rated by SP was 3.8 (range, 0~12), 2.8 in female SPs and 4.8 in male SPs (p

  • 시험 시간과 표준화 환자 채점 정확도

    - 40 -

    서 론

    진료수행시험 (clinical performance examination)

    은 표준화 환자를 이용하여 학생들의 진료 역량을

    평가하는 시험이다 (Vu et al., 1993). 이 시험에서는

    표준화 환자가 일정한 평가기준에 따라 학생을 평

    가한다. 표준화 환자가 직접 평가하는 것은 교수 동

    원의 어려움을 줄일 수 있을 뿐 아니라 환자로서의

    느낌을 평가에 반영할 수 있다는 점에서 큰 장점이

    있다 (Barrows, 1993). 하지만 진료수행시험에 학점

    을 부여하거나 자격시험으로 이용하기 위해서는 표

    준화 환자 채점의 일관성과 정확성을 유지하는 것

    은 매우 중요하다.

    표준화 환자가 채점한 결과는 교수 또는 다른 관

    찰자가 평가한 점수와 큰 차이가 없다는 것이 잘 알

    려져 있다 (Shin et al., 2005; Kwon et al., 2005;

    Kim et al, 2005; Elliot et al., 1987; Vu et al., 1992).

    하지만, 표준화 환자 채점의 정확도는 시험 시간이

    경과할수록 여러 이유에서 줄어들 수 있다. 첫째, 시

    험 시간이 경과함에 따라 표준화 환자의 피로도가

    증가하면서 채점에 대한 집중력이 감소할 수 있다.

    둘째, 앞에 시험을 본 학생의 잔상 효과가 늘어나면

    서 뒤에 시험 본 학생의 채점에 간섭을 일으킬 수

    있다. 하지만, 표준화 환자의 채점 정확도가 시험 시

    간에 따라 어떻게 변화하는지에 대해서는 국내․외

    에서 별로 연구된 바 없다 (Vu et al., 1992).

    표준화 환자의 피로도가 채점의 정확성에 미치는

    영향을 고려할 때는 한 명의 표준화 환자가 상대할

    학생의 수를 제한할 수밖에 없다. 한편 현실적으로

    는 표준화 환자 훈련과 시험 시행을 위한 비용을 낮

    추고 채점자 간의 일관성을 유지하기 위해서 한 명

    의 표준화 환자가 가능한 많은 학생을 평가해주기

    를 기대한다. 따라서, 한 명의 표준화 환자가 평가할

    수 있는 최대 또는 적정 학생수를 찾는 것은 매우

    중요하다.

    본 연구는 시험 시간의 경과에 따라 표준화 환자

    채점 정확도가 어떻게 변화하는지를 확인하고자 하

    였다.

    대상 및 방법

    가. 연구 대상

    2005년도 1월 서울대학교 의과대학 본과 4학년

    진입생 233명을 대상으로 8개 시험방에서 진료수행

    시험을 시행하였다. 총 8 문제를 ‘서울․경기 CPX

    컨소시엄’을 통하여 제공 받았으며, ‘서울․경기

    CPX컨소시엄’에서 훈련된 표준화 환자 총 40명을

    동원하였다. 한 명의 표준화 환자는 하루에 16명의

    학생을 평가하였고, 모든 평가는 DVD로 녹화되었

    다.

    시험방 (station)별 시간 배정은 상황소개 및 지침

    숙지 시간 1분, 환자 대면 진료 시간 12분, 사이 시

    험 시간을 5분으로 하였다. 표준화 환자는 학생 네

    명의 시험이 끝날 때마다 10분간의 휴식을 취하였

    으며 16명의 시험을 진행하는데 총 5시간 18분의

    시간이 소요되었다. 표준화 환자가 한 학생에게 평

    가해야 하는 문항 수는 평균 29개 (범위, 23~34)이었다. 그 중 병력 청취 문항이 평균 9.9개 (범위,

    3~14), 신체검진 문항이 평균 3.9개 (범위, 0~8), 정보공유 문항이 평균 3.4개 (범위, 0~8), 임상 의사 예절 문항이 평균 2.5개 (범위, 0~4)이었으며, 의사-환자 관계에 관한 7문항과 만족도와 인사하기 문항

    이 각각 한 문항씩 공통적으로 포함되었다.

    8개의 시험방에서 시험방 당 두 명의 표준화 환자

    를 무작위 추출하여 총 16명 표준화 환자가 각자 16

    명의 학생을 채점한 결과를 분석하였고 사이 시험

    점수는 본 분석에서 제외하였다.

    나. 분석 방법

    진료 내용이 녹화된 DVD를 시험에 참여한 표준

    화 환자 자신과 같은 시험방에 참여한 다른 표준화

    환자가 각자 보면서 즉각적으로 채점을 하고 둘 사

    이에 차이가 나는 문항에 대하여 같이 DVD를 재확

    인하여 각 진료마다 ‘정답평가표’ (‘recording key’)

    를 작성하였다 (Vu et al., 1992). 표준화 환자가 시

    험 당시에 실제 평가했던 평가표와 ‘정답평가표’ 사

    이에 일치하지 않는 문항을 표준화 환자가 잘못 채

    점한 문항으로 정의하였으며 그 수를 확인하였다. 6

  • 한국의학교육 : 제 19 권 제 1 호 2007

    - 41 -

    0

    1

    2

    3

    4

    5

    6

    7

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

    Order of examinees

    Num

    ber o

    f SP

    erro

    r

    Upper quartileAverageMedianLower quartile

    Fig. 1. The number of questions rated incorrectly by a standardized patient according to the

    order of examinees in clinical performance examination. SP: Standardized patient.

    점 척도 문항의 경우는 2점 이상 차이가 나는 경우

    에 일치하지 않는 문항으로 간주하였다. 각 군 간에

    차이는 student T-test또는 Mann-Whitney U test로 검정하였으며, 잘못 채점한 문항수와 시간과의 연관

    성은 Pearson 상관계수로 평가하였다. 통계 프로그

    램은 SPSS version 12.0을 이용하였다.

    결 과

    본 연구에 포함된 표준화 환자 16명의 평균나이

    는 37세 (범위, 26~65)이었고, 남녀의 비는 1:1이었다. ‘정답평가표’를 만드는 과정에서 표준화 환자

    의 불일치율은 평균 4.7%이었으며 그 경우 두 명의

    표준화 환자가 상의해서 ‘정답평가표’를 작성하였

    다. 표준화 환자가 한 학생 당 잘못 채점한 문항은

    평균 3.8개 (표준편차, 2.3 범위, 0~12)였으며, 표준화 환자의 나이별로 20대 (5명)의 경우 평균 4.4개

    (범위, 0~12), 30대 (6명)의 경우평균 3.3개 (범위, 0~11), 40대 (3명)의 경우 평균 3.4개 (범위, 0~9), 50대 이상 (2명)의 경우 평균 4.3개 (범위, 0~9)이었다. 30, 40대와 비교하여 20대 또는 50대 이상 표준

    화 환자에서 잘못 채점한 문항이 유의하게 많았다

    (p=0.001).

    남자 표준화 환자의 경우 잘못 채점한 문항은 평

    균 4.8개 (범위, 0~12), 여자의 경우 평균 2.8개 (범위, 0~9)로 통계적으로 유의한 차이가 있었다(p

  • 시험 시간과 표준화 환자 채점 정확도

    - 42 -

    0

    1

    2

    3

    4

    5

    6

    7

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

    Order of examinees

    Num

    ber o

    f SP

    erro

    r

    50 years old (n=8) 30~50 years old (n=8)

    Fig. 2. The number of questions rated incorrectly by standardized patients according to the age

    group of standardized patients and the order of examinees in clinical performance exami-

    nation. SP: Standardized Patient.

    자 채점 정확도의 변화는 관찰할 수 없었다. 또한,

    연령이나 성별로 그리고 시험영역별로 분석했을 때

    에도 표준화 환자 채점 정확도는 시험 시간 경과와

    무관하였다.

    표준화 환자 채점의 정확도를 확인하기 위해서

    표준화 환자 채점과 임상의사 또는 의사가 아닌 관

    찰자의 채점을 비교하는 연구가 많이 이루어져 왔

    으며, 80~100%의 일치도를 보고하였다 (Norman et al., 1985; Rethans & van Boven, 1987; Williams et

    al., 1987; Tamblyn, 1991). 이러한 연구들에서 관찰

    자의 채점 오류가 가능하기 때문에 본 연구는 Vu

    등 (1992)의 방법에 따라 두 명의 잘 훈련된 표준화

    환자가 녹화된 영상을 보고 각자 채점을 한 후 다르

    게 채점된 문항에 대해서 녹화된 영상을 같이 보며

    올바른 평가표를 작성하도록 하였다. 본 연구에서

    표준화 환자와 관찰자 간에 채점의 일치도는 약

    87%로 이전 연구와 흡사하였다 (Shin et al., 2005).

    Vu 등 (1992)은 표준화 환자 채점의 정확도에 영

    향을 주는 요인에 관한 연구에서 하루 중 시간이나

    시행한 날짜가 표준화 환자 채점 정확도에 큰 영향

    을 주지 않는다고 보고하였다. 본 연구도 시험 시간

    의 경과와 표준화 환자 채점 정확도는 유의한 관련

    이 없었다. Vu 등 (1992)의 연구와 달리 본 연구는

    표준화 환자의 성별 및 나이에 따라 층화분석을 하

    였다. 남녀 간에 채점의 정확도에서 유의한 차이가

    있음에도 불구하고, 남녀 모두 시험 시간에 따른 채

    점 정확도의 변화는 없었다. 20대, 50대의 경우 30,

    40대보다 채점 정확도가 떨어지는 경향이 있었지만,

    시간에 따른 채점 정확도의 변화는 역시 관찰되지

    않았다.

    16명의 학생을 평가하기 위해서 전체 5시간 이상

    동안 시험에 참여하면서도 채점의 정확도를 유지할

    수 있었던 것은 몇 가지이유로 설명될 수 있다.

    첫째, 표준화 환자가 이 시험이 학생 평가에 중요

    하다는 사실을 잘 인식하고 있었기 때문에 피로하

    지만 채점의 정확성을 유지하는데 최선을 다했을

    가능성이 있다. 둘째, 각 시험방에서 채점해야 할 문

    항의 수가 약 30개였는데 그 중 혼동될 수 있는 문

    항은 한정되어 있었다는 점이다. 셋째, 4명의 학생

    과 대면 후 10분의 휴식 시간이 있었는데 휴식 시간

    도 표준화 환자의 채점 집중력을 향상시키는 데 도

    움이 되었을 것이다.

  • 한국의학교육 : 제 19 권 제 1 호 2007

    - 43 -

    0

    1

    2

    3

    4

    5

    6

    7

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

    Order of examinees

    Num

    ber o

    f SP

    erro

    r

    Male Female

    Fig. 3. The number of questions rated incorrectly by standardized patients according to gender of

    standardized and the order of examinees in clinical performance examination. SP: Stan-

    dardized Patient.

    0

    0.5

    1

    1.5

    2

    2.5

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

    Order of examinees

    Num

    ber

    of S

    P er

    ror

    History taking

    Physical exam

    Information sharing

    Clinical courtesy

    Patient-physicianinteraction

    Fig. 4. The number of questions rated incorrectly by standardized patients in each domain of

    examination according to the order of examinees in clinical performance examination. SP:

    Standardized Patient.

    여성과 남성 사이에 채점 정확도에서 차이를 보

    인 것은 본 연구에 포함된 여성과 남성의 연령대가

    달랐다는 점도 작용하였을 수 있다.

    하지만 30, 40대 표준화 환자끼리 비교해 보아도

    여성의 채점 정확도가 유의하게 높았다는 점은 표

    준화 환자의 훈련 과정에서 남성 환자 훈련에 보다

    주의를 기울여야 함을 시사한다. 특히, 아주 일부 표

    준화 환자의 경우 매우 불일치율이 높았는데 이는

  • 시험 시간과 표준화 환자 채점 정확도

    - 44 -

    훈련 및 시험시행 전 단계에서 그러한 표준화 환자

    를 선별할 수 있는 장치가 마련되어야할 것이다. 단,

    본 연구에서 일반적으로 남성 표준화 환자의 학력

    수준이 낮았으며 여성 표준화 환자의 경우 현직 연

    극배우들이 많아서 연기 및 암기에 능숙하였다. 또

    한, 시나리오와 평가표의 난이도가 문제에 따라 다

    를 수 있기 때문에 이러한 차이들이 채점 정확도에

    서 남녀 간 차이에 영향을 줄 수 있었다고 생각한다.

    본 연구는 몇 가지 제한점을 갖는다.

    첫째, 시간 경과에 따라서 표준화 환자 채점의 정

    확도가 감소한다는 것을 증명하는 데 16명의 학생

    이 부족했을 수 있다. 즉, 16명이 넘어가면서 채점

    의 정확성이 현저히 떨어질 수도 있기 때문에 16명

    이 넘는 학생을 진료했을 때 채점 정확도의 변화에

    대해서는 본 연구로 예측하기 어렵다.

    둘째, 본 연구에서 대상으로 한 표준화 환자의 수

    가 충분치 못했을 수 있다. 특히, 노령의 경우 피로

    도에 보다 예민할 가능성이 있으나 본 연구에서는

    50세 이상의 표준화 환자를 2명밖에 분석하지 못하

    였다.

    셋째, 본 연구는 채점 이외에 연기의 정확도는 평

    가하지 못하였다. 피로도가 증가하면 채점의 정확도

    뿐 아니라 연기의 정확도도 감소할 수 있으며 이는

    점수처럼 밖으로 쉽게 들어나지 않기 때문에 표준

    화 환자 입장에서 소홀할 수 있다. 따라서 표준화

    환자 연기의 정확도는 채점 정확도보다 더 쉽게 피

    로도의 영향을 받을 수도 있을 것이다.

    넷째, 본 연구는 표준화 환자들의 주관적 피로도

    는 조사하지 못하였다. 설사 표준화 환자의 채점과

    연기가 정확하다고 하더라도 표준화 환자의 장기적

    인 활용과 질 향상을 위해서 표준화 환자의 주관적

    인 피로도 역시 중요하게 고려되어야 할 요소일 것

    이다.

    마지막으로, 시험 문항 채점에 익숙하지 못한 표

    준화 환자들은 시험 시간이 경과하면서 채점에 능

    숙해지기 때문에 시간에 따라 채점 정확성이 증가

    할 가능성도 있다. 본 연구는 이미 다른 학교에서

    여러 차례 시험을 치르면서 채점에 익숙해진 표준

    화 환자들을 대상으로 하였기 때문에 그러한 가능

    성은 배제되었다. 하지만, 표준화 환자가 시험에 처

    음 투입될 경우 본 연구와 다른 결과를 보일 수도

    있을 것이다.

    의사국가고시와 같이 대규모 학생을 대상으로 임

    상수행평가를 시행하기 위해서는 한 명의 표준화

    환자가 평가 가능한 학생의 수, 중간 휴식 시간과

    휴식 간격 등이 적절히 결정되어야 한다. 이를 위하

    여 다양한 표준화 환자들을 대상으로 주관적인 피

    로도와 그에 따른 채점과 연기의 정확도를 평가하

    는 대규모 연구가 선행되어야 할 것이다.

    참 고 문 헌

    Barrows, H.S.(1993). Anoverview of the uses of

    standardized patients for teaching and evaluating

    clinical skills. Acad Med, 68(6), 443-453.

    Elliot, D.L.(1987). Evaluation of physical examina-

    tion skills: reliability of faculty observers and pa-

    tient instructors. JAMA, 258, 3405-3408.

    Kim S. et al.(2005). The appropriateness of using

    standardized patients' (SPs) assessment scores in

    clinical performance examination (CPX). Korean

    Journal of Medical Education, 17(2), 163-172.

    Kwon I. et al.(2005). Comparison of the evaluation

    results of faculty with those of standardized pa-

    tients in a clinical performance examination exper-

    ience. Korean Journal of Medical Education,

    17(2), 173-183.

    Norman, G.R. et al.(1985). Measuring physician per-

    formance by using simulated patients. J Med Educ,

    60, 925-934.

    Rethans, J.J.E. & van Boven, C.P.A.(1987). Simulated

    patients in general practice: a different look at the

    consultation. BMJ, 294, 809-12.

    Shin J.S. et al.(2005). Standardized patients’ accu-

    racy in recording checklist items during clinical

    performance examinations. Korean Journal of

    Medical Education, 17(2), 197-203.

    Tamblyn, R.(1991). Sources of unreliability and bias

  • 한국의학교육 : 제 19 권 제 1 호 2007

    - 45 -

    in standardized patient rating. Teach Learn Med, 3,

    74-85.

    Vu, N.V. et al.(1992). Standardized (simulated) pa-

    tients’accuracy in recording clinical performance

    check-list items. Med Educ, 26, 99-104.

    Vu, N.V. et al.(1993). Clinical performance-based test

    sensitivity and specificity in predicting first-year

    residency performance. Acad Med, 68(2), S41-S45.

    Williams, R.G. et al.(1987). Direct, standardized as-

    sessment of clinical competence. Med Educ, 21,

    482-489.

    /ColorImageDict > /JPEG2000ColorACSImageDict > /JPEG2000ColorImageDict > /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 300 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 300 /GrayImageDepth -1 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /DCTEncode /AutoFilterGrayImages true /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict > /GrayImageDict > /JPEG2000GrayACSImageDict > /JPEG2000GrayImageDict > /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 1200 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /CCITTFaxEncode /MonoImageDict > /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile () /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False

    /Description > /Namespace [ (Adobe) (Common) (1.0) ] /OtherNamespaces [ > /FormElements false /GenerateStructure true /IncludeBookmarks false /IncludeHyperlinks false /IncludeInteractive false /IncludeLayers false /IncludeProfiles true /MultimediaHandling /UseObjectSettings /Namespace [ (Adobe) (CreativeSuite) (2.0) ] /PDFXOutputIntentProfileSelector /NA /PreserveEditing true /UntaggedCMYKHandling /LeaveUntagged /UntaggedRGBHandling /LeaveUntagged /UseDocumentBleed false >> ]>> setdistillerparams> setpagedevice