amee 2017 abstract book 28th1).pdf · amee 2017 abstract book ... comparison of four linking...

3

Click here to load reader

Upload: hoangtuong

Post on 04-Jul-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AMEE 2017 Abstract Book 28th1).pdf · AMEE 2017 Abstract Book ... Comparison of Four Linking Methods for the Medical Council of Canada’s Qualifying Examination (MCCQE) Part II

 AMEE 2017 Abstract Book 

Monday 28th August  

 

#4O  Short Communications: Standard Setting & Psychometrics Location:  Room 201 

 #4O1 (1932) Rubrics for summative evaluation: how to deal with standard setting? 

 Mieke Latijnhouwers, Radboud University Medical Center, Nijmegen, Netherlands Nicole Sampers, Radboud University Medical Center, Nijmegen, Netherlands Thom Oostendorp, Radboud University Medical Center, Nijmegen, Netherlands Giel Bosman, Radboud University Medical Center, Nijmegen, Netherlands Marc Vorstenbosch, Radboud University Medical Center, Nijmegen, Netherlands 

 Background:  In 2015 we introduced rubrics for evaluation of all written assignments in our new (bio)medical bachelor’s curricula. We launched these rubrics as an efficient tool to provide students with meaningful feedback, to promote learning. For summative use of the rubrics, we chose a new method to convert rubric‐scores into grades. Summary of work:  Our rubrics comprise a four‐point performance‐level scale, with qualitative labels ranging from insufficient to exemplary. Passing scores were calculated according to Cohen’s method1  and rubric‐scores converted into grades 1‐10 by linear transformation. We compared resulting passing scores and grades with the rubrics‐content and ‐performance levels to evaluate correspondence. Summary of results:  The minimum required performance level described in the rubrics matched students’ mean competence levels well for all rubrics. The total rubric scores resulting in grades 1 to 5 and 9 corresponded well with the performance‐level scale, but this relation was less than optimal for the grades 6 to 8. Discussion:  The labels of the four‐point scale in our rubrics inherently express qualifications. Therefore, we will adapt the performance descriptions in our rubrics to improve correspondence with students’ ability as reflected in the passing scores and in the calculated grades. Conclusion:  Our first year of using rubrics to evaluate written assignments provided a valuable experience. We find rubrics to be a useful tool in our educational setting: helpful for scoring in summative assessment and, moreover, a valuable feedback instrument. We advise Cohen’s method for standard setting when first using a rubric. Take‐home message:  Cohen’s method1 can be used for standard setting when using rubrics for summative evaluation, to align the rubric with students’ competence. 1Cohen‐Schotanus, J. and C. P. van der Vleuten (2010). A standard setting method with the best performing students as point of reference: practical and affordable. Medical Teacher 32(2): 154‐160.  

#4O2 (1256) Revisiting borderline performance: implications for assessment practices 

 Matt Homer, Leeds Institute of Medical Education, School of Medicine, University of Leeds, Leeds, UK Godfrey Pell Richard Fuller Jennifer Hallam 

 Background:  Central to high stakes assessment is robust decision‐making at the minimally competent level, and standard setting models often rely on the concept of the ‘borderline’ student.  How such students actually perform at case/item/station and whole test level isn’t well explored – nor are the assumptions made when using borderline methods. Summary of work:  Previous analysis revealed a high degree of case‐specificity (station specific variability) for ‘borderline’ students, and showed that the ‘borderline’ group does not exist as a single group across the assessment. The current work develops this research by considering its implications for assessment design and methods of standard‐setting. Summary of results:  The high degree of case‐specificity for weaker students means it is difficult to generalise about their performance from assessed areas to those non‐assessed. There is also a risk of excessive levels of compensation for such students. The lack of a consistent ‘borderline’ group challenges assumptions behind some standard setting methods. Discussion:  A sequential model of assessment samples more widely from the pool of tasks, thereby improving diagnostic accuracy for the minimally competent group. Compensation should be limited via additional hurdles such as minimum stations passed. Standard‐setting methods that focus solely on the borderline group are conceptually challenging for assessors. Conclusion:  This work shows that overly simplistic notions of ‘borderline’ performance are problematic – this is a complex and varying group across different tasks. Institutions must therefore take account of this when designing appropriate assessment systems/passing rubrics. Developing understanding of assessor decision‐making with regard to the ‘borderline’ requires more research. Take‐home message:  • There are high levels of case‐specificity for weaker students when comparing across task, and across the entire assessment.  • A sequential testing design is likely to provide greater ‘diagnostic accuracy’ since it samples more widely from the curriculum.  • Standard setting methods that make strong assumptions about the ‘borderline’ might be problematic.     

Page 2: AMEE 2017 Abstract Book 28th1).pdf · AMEE 2017 Abstract Book ... Comparison of Four Linking Methods for the Medical Council of Canada’s Qualifying Examination (MCCQE) Part II

 AMEE 2017 Abstract Book 

Monday 28th August  

 

#4O3 (2137) Standard Setting Practices for Exit Clinical Examinations of the Specialist Medical Colleges of Australia 

 Jennifer Williams, Bond University, Robina, Australia Janie Smith 

 Background:  The specialist medical colleges of Australia are educational institutions whose remit is to administer specialist training programs to trainee medical specialists and to certify successful completion of these training and education programs. Summary of work:  A review of the literature and publicly available information regarding standard setting for the exit clinical examinations of the specialist medical colleges of Australia was undertaken. This information was collated and referenced against information from the undergraduate sphere. Summary of results:  The specialist medical colleges of Australia use a variety of standard setting methodologies, with a recent trend towards criterion‐referenced approaches. Discussion:  There is a paucity in the literature regarding standard setting practices of the specialist medical colleges of Australia. Some further information can be garnered from college websites. There exist a wide variety of standard setting methods applicable to use for determination of cut scores in exit clinical examinations. Conclusion:  Robust standard setting processes are an asset in the quest to appropriately determine clinical competence for specialists, and also add to the defensibility of assessment processes where a candidate has failed. Take‐home message:  Robust standard setting processes are an essential component of good quality assessment. Further research is needed to determine the best methods of standard setting for the exit clinical examinations of the specialist medical colleges of Australia.  

#4O4 (1321) How absolutes vary: understanding the origins of variability in criterion‐based standard setting 

 Peter Yeates, Keele University, School of Medicine, Newcastle under Lyme, UK Natalie Cope Efun Coker Andrew Hassell Lisa Dikomitis 

 Background:  Standard setting is vital to assessment validity. Comparison of criterion‐method standards on shared items between UK medical schools shows up to 20% variation between schools. The origins of such variation are unclear. We aimed to understand how both individual and group level processes interact to influence the chosen standard. Summary of work:  Using a social constructivist paradigm we used field observations of standard setting for schools who set low, medium and high standards. “Think Aloud” interviews compared judges thoughts whilst standard setting common items; semi‐structured interviews probed conceptions of “just competent” candidates and group process. Data were analysed using grounded theory methods. Summary of results:  Perceptions of “just competent” candidates’ performance varied considerably, related to personal perceptions of item difficulty. Group process was influenced by judges’ speciality, seniority, group familiarity, and normative tendencies. Whilst defining just competent candidates, judges variously prioritized: safety on the ward; scope of knowledge; engagement and attendance; and exam technique. Discussion:  Groups debated evidence from teaching experience, curricular knowledge, and relevance to practice to construct anecdotes of just competent students’ thinking. Despite initial certainty, anecdotes often contradicted each other, revealing the vagueness of these conceptions. Well described group processes (polarization, social loafing, group‐think) played less of a role than anticipated. Conclusion:  Standard setting is cognitively and socially complex. Even experienced judges may find considerable uncertainty estimating “just competent” students’ performance on specific items. Variations in the set standard appear to arise due to the interaction of several individual and group level processes. Such variation has some potential to limit criterion‐standard’s validity. Take‐home message:  Future research is needed to understand the relative contributions of the described processes, and whether specific interventions can scaffold or support judgement processes at individual and group levels. Further enquiry might explore whether social and institutional benefits of group decisions make them preferable to normative or empirical standard setting methods.     

Page 3: AMEE 2017 Abstract Book 28th1).pdf · AMEE 2017 Abstract Book ... Comparison of Four Linking Methods for the Medical Council of Canada’s Qualifying Examination (MCCQE) Part II

 AMEE 2017 Abstract Book 

Monday 28th August  

 

#4O5 (2808) Comparison of Four Linking Methods for the Medical Council of Canada’s Qualifying Examination (MCCQE) Part II 

 Andrea Gotzmann, Medical Council of Canada, Ottawa, Canada Alix Clarke, University of Alberta, Edmonton, Canada Fang Tian, Medical Council of Canada, Ottawa, Canada André De Champlain, Medical Council of Canada, Ottawa, Canada Sirius Qin, Medical Council of Canada, Ottawa, Canada 

 Background:  Statistical linking is used to account for differences in test difficulty and ensures accuracy of decision‐making and score comparability over time. Different linking methods are available, with different theoretical assumptions. When assumptions are met, the results are similar, but when assumptions are not fully met, certain methods are better suited. Summary of work:  The MCCQE Part II has been using the Levine Observed method of linking, which should be evaluated periodically. In order to determine the effect of linking on operational outcomes, four different methods were compared on (1) pass rates, (2) percentage change in pass/fail rates, and (3) decision consistency and accuracy. Summary of results:  The three linear methods showed small differences in pass/fail rates, with the Tucker method yielding slightly lower pass rates than the other methods. Decision consistency and accuracy was essentially equivalent between the linear methods. The equipercentile method appeared to be unstable after multiple links due to score rounding effects. Discussion:  Due to rounding station scores when applying the equipercentile method, it is not recommended to use with OSCE linking. Any of the linear linking methods may be suitable for linking the MCCQE Part II, as operational outcomes produce only small changes, implying the underlying assumptions are largely met. Conclusion:  The Tucker method seems to meet the statistical assumptions more closely for the MCCQE Part II, as capacity constraints will limit the reference group candidates used for linking and there will be 10 vs. 12 OSCE stations in 2018. Take‐home message:  Linking methods should be periodically evaluated on how well the examination structure and outcomes meet the statistical assumptions of each linking method.  Research on evaluating linking methods may suggest a change in method, if warranted, and provides documentation and supporting evidence to substantiate such a change.  

#4O6 (2869) How students perceive the validity of assessment 

 Michelle Ricci, McGill University, Montreal, Canada Jing Xiao, McGill University, Montreal, Canada Christina St‐Onge, Universite de Sherbrooke, Sherbrooke, Canada Meredith Young, McGill University, Montreal, Canada  Background:  Stakeholder, i.e., student, perceptions of the value of an assessment can contribute to their uptake of assessment as a source of feedback. However, little focus has been placed on students as stakeholders in assessment, and even less regarding how students perceive validity as the receivers and interpreters of assessment scores. Summary of work:  Messick’s validity framework was adapted for a student‐relevant perspective, and resulted in a 28‐item 6‐point Likert based web tool. First and second year medical students at one institution were invited to complete the survey regarding a novel assessment. ANOVAs were conducted to see differences in perceived validity between evidences. Summary of results:  77 students participated. Students’ overall perception of the assessment was favorable, with significantly different ratings across evidences of validity: response process was highest (4.8/6), relationship to other variables lowest (4.0/6). Students in upper quartiles of performers rated the assessment more favorably (4.4/6) than those in the lowest quartile (4.0/6). Discussion:  Findings suggest that students’ perception of an assessment varies according to evidences of validity. While students had a positive perception of the assessment’s validity, they questioned its capacity to reflect later clinical performance. Of interest, more favorable perceptions of validity appear to be related to higher performance on the exam. Conclusion:  Although an assessment can be well received by examinees, its educational value may be limited if students perceive that assessment results do not reflect future performance in clinical environments. This may limit the benefits of assessments as feedback sources, and limit the integration of feedback to improve performance. Take‐home message:  For assessment to provide feedback that favors improvement, we must consider the all stakeholders’ perceived validity of the scores, including receivers of feedback, namely the students.