臨床推論の評価法-key feature問題

臨床推論の評価法Key Feature 問題について

大西弘高東京大学大学院医学系研究科医学教育国際研究センター

臨床推論能力の測定法医学生なら

一緒に症例問題を解いてみればよい？

研修医，医師なら一緒に何度かカンファレンスに出れば分か

る ?

評価の種類形成的評価総括的評価

特に High-stake test ：卒業試験，資格試験等

下にいくほど信頼性重視される点数の標準誤差が多ければ判定ミス増える信頼性係数は High-stake test なら 0.8 欲し

い

妥当性

内容試験のブループリント，領域に対する項目の代表性，達成領域に対するテスト内容の論理的／経験的な関連性

処理プロセス

学習者によるテストフォーマットへの慣れ，スコアや評価の正確性，部分点の分析

内的構造項目分析データ：項目の難易度と識別係数など，項目の信頼性，測定の標準誤差，一般化可能性分析

他の変数との関係

収束的相関，弁別的相関，エビデンスの一般化可能性

結果テスト結果が学習者や社会に与える影響，合否基準スコアの決定方法の妥当性，合否結果：決定の信頼性と分類の正確さなど

信頼性は妥当性の条件の一つ

症例特異性（ case specificity ）ある症例問題における臨床推論能力の

測定値と別の症例問題のそれとの間で相関係数が 0.1 ～ 0.3 （ Elstein ）

問題数が一定以上でなければ信頼性は低い

全臨床領域← 信頼性と妥当

性の比較

Spearman-Brown の公式

n は問題数， ρ は１問からなるテストの信頼性係数， ρn は n 問からなるテストの信頼性係数

ρ(X) = 0.1 のとき， ρn(X) = 0.7 になるnは 21 ， ρn(X) = 0.8 になる nは 36

ρ(X) = 0.2 のとき， ρn(X) = 0.7 になるnは 10 ， ρn(X) = 0.8 になる nは 16

Xn

XnXn

11

各種評価法筆記評価，パフォーマンス評価に大

別筆記：信頼性重視，主に臨床前評価パフォーマンス：妥当性・正統性重視，

主に臨床評価

MCQ 4 ～ 6 個の選択肢から最もよいものを選ぶ

（ one best answer ）が最善の形式症状や所見から鑑別診断を想起するのではな

く，与えられた選択肢間の比較しかできない選択肢が手掛かりになりやすい（ cueing

effect ）下記の事例に関し，最も近いと思われる診断をＡ～Ｅの中から挙げて下さい．

15 歳女性に生じた発熱，全身関節痛，口腔アフタ，蛋白尿，鼻背部を含む頬部紅斑　（　　　　）

Ａ．慢性関節リウマチ　Ｂ．全身性エリテマトーデス　Ｃ．皮膚筋炎　Ｄ．全身性硬化症　Ｅ．混合性結合組織病

Extended-matching Item (EMI) cueing effect が薄まる（ 0 ではないが…）選択肢再利用を可能に→MCQ よりは作成簡単 NBME の MCQ/EMI ブックレットには選択肢一覧

あり下記の事例に関し，最も近いと思われる診断をＡ～Ｏの中から挙げてください．

15 歳女性に生じた発熱，全身関節痛，口腔アフタ，蛋白尿，鼻背部を含む頬部紅斑　（　　　　）

Ａ．慢性関節リウマチ　Ｂ．全身性エリテマトーデス　Ｃ．皮膚筋炎　Ｄ．全身性硬化症　Ｅ．混合性結合組織病　Ｆ．ウェゲナー肉芽腫症　Ｇ． Churg-Straus 症候群　Ｈ．結節性動脈周囲炎　Ｉ．成人スティル病　Ｊ．痛風　Ｋ．強直性脊椎炎　Ｌ．乾癬性関節炎　Ｍ． Reiter 症候群　Ｎ．シェーグレン症候群　Ｏ．ベーチェット病

記述式問題（ Short Answer Q ） MCQ は自動採点可能だが，記述式は教員の

手を必要とする SLE が正答のとき， Systemic Loops

Erythematosis という回答の点数は？ cueing effect はなくなる言葉を知っているかどうかを問うことができ

る MCQ, EMIだけでは語学能力低下？

下記の事例に関し，最も近いと思われる診断を記入してください．

15 歳女性に生じた発熱，全身関節痛，口腔アフタ，蛋白尿，鼻背部を含む頬部紅斑　（　　　　　　　　　　　　　　　　　　　　　　　　　　）

Patient Management Problem (PMP) 症例シナリオの用紙に臨床情報が埋め込まれ

て印刷されており，それを特殊なペンで浮かび上がらせながら，収集すべき情報を網羅できる度合いが点数につながるタイプのテスト

表面妥当性が高いと言われていた

1 問の回答に 15 分→症例特異性の問題網羅的に情報収集する回答に高得点

網羅的な情報収集は正しい臨床推論につながらないことが知られているため，妥当性が低くなる

Key Feature Problem (KFP) Bordage らがカナダの医師国家試験用に開発

36 歳男性 X氏はバスを待っている際に歩道で意識不明になって救急搬送された．倒れる直前，見えない人に向かって口論し，興奮・混迷しているようだった．倒れた後，手足をしばらく強直させ，顔面蒼白となり， 1 分ほど全身をガクガクと震わせた．しばらく意識は戻らなかった．搬送中の 10 分で意識は戻らず，さらに 2回ほど同様の発作があり，到着直後 3回目の発作を目にした．体温 37.8 度，意識反応なし．家人，知人は同行せず．

Q1. この時点での診断仮説を 2 つまで挙げよQ2. 初期マネジメントに必要な処置を列挙せよ（いくつ

でも）Q3. 処置後 10 分経っても意識は戻らない．家人に電話す

る際したい質問を 6 つまで選べ

Q3 の選択肢1. 腹痛2. 飲酒3. 背部痛4. ベンゾジアゼピン服用

5. 悪性腫瘍6. コカイン使用7. 冠動脈バイパス術 8. 糖尿病既往9. 下痢10. ふらつき11. 薬物アレルギー12. 家族歴

…27. 性行動28. 喫煙29. 社会的困難30. 手術31. 旅行歴32. ウイルス感染33. 視力異常34. 嘔吐

35. この時点での電話は不適切

採点Q1. 「てんかん重積」が含まれていれば OK

Q2. まずは，いわゆる ABC　　　そして生食＋ Vit B＋ブドウ糖＋ジアゼパム等

Q3. 飲酒歴＋薬物使用歴（特にベンゾジアゼピン）　　　＋コカイン（ヘロイン）濫用＋糖尿病既往

KFP の観点，エビデンス KF ：臨床判断にとって最も重要な知識

てんかん重責状態であることを認識循環呼吸機能の維持と初期マネジメント痙攣の原因を同定するための病歴聴取

診断やマネジメントをピンポイントで質問

34 問で 3時間半（ 1 問 6.1 分） Reliability: 0.77

Script Concordance test (SCT)

診断仮説を挙げておき，さらに患者データ，症状，所見といった新たな情報が付け加わったときにその診断仮説の確からしさがどう変化するかをみるテスト

診断推論には illness script という「診断仮説→新たな情報→その仮説の可能性がどう変化するか」に関する script＝手続き的知識が必要

以下の診断仮説を考えたとき

この情報が加わると診断仮説に以下の影響＊が生じる（回答に○）

乳がん線維腺腫線維腺腫嚢包嚢包性病変

患者は 50 歳以上患者は 30 歳未満非常に可動性のある腫瘤重大な炎症反応両側性の腫瘤

Ａ　　Ｂ　　Ｃ　　Ｄ　　Ｅ　　Ｆ　　ＧＡ　　Ｂ　　Ｃ　　Ｄ　　Ｅ　　Ｆ　　ＧＡ　　Ｂ　　Ｃ　　Ｄ　　Ｅ　　Ｆ　　ＧＡ　　Ｂ　　Ｃ　　Ｄ　　Ｅ　　Ｆ　　ＧＡ　　Ｂ　　Ｃ　　Ｄ　　Ｅ　　Ｆ　　Ｇ

＊A=この診断仮説だけを考えるべき， D= 診断仮説に影響しない， G= 診断仮説は完全に否定される

Long case １症例に 30-45 分をかけて患者への面接，診察を実施し，受験者が評価者に所見を述べ，評価者が口頭試問を行う．英国系臨床教育で今でも根強い支持を受けている OSLER （ objective structured long exam. recor

d ）：診察の観察評価を入れたもの信頼性が最大の課題

DOCEE （ direct observation clin. encounter exam. ）：４に評価者各２名で標準化．ｽﾃｰｼｮﾝ G係数 =0.84

Mini-CEX (Clinical Eval. Exercise)

米国 ABIM: 1972年に認定医試験の口頭試問を廃止し， CEX を導入→ 1 例のみ．信頼性低い

Mini-CEX: 簡便化，標準化されたフォーマット． 12 ～ 14 例で信頼性係数 0.8

OSCE USMLE-CS （ 15 分 / ）の評価ｽﾃｰｼｮﾝ要素 Integrated Clinical Encounter (Information

Gathering/Documentation) Communication and Interpersonal Skills Spoken English Proficiency

これらの統合的能力は測定可能臨床推論のみを抜き出す形での評価は

難しい

症例プレゼンテーションによる臨床推論能力の評価

第１段階• 問題点：用語・情報の吟味，プレゼンの型の習得

第２段階• 問題点：症例全体像の把握と包括的鑑別診断

第３段階• 問題点： pertinent な陽性・陰性症状・所見の列

挙

第４段階　これらが全て OK

表．臨床推論能力に応じた症例プレゼン向上の段階モデル（大西．日内会誌 97(10) ， 2596‐2603, 2008 より改編）

プレゼンの状況プレゼンターの臨床レベル指導者からのフィードバック

第１段階

症例プレゼンに不可欠な情報が網羅されていない，情報や用語が不正確，順序が不適切などの理由で，聴衆に患者像が十分に伝わらない．

患者像が把握できていないか，上手く表現できていない．プレゼンの構成・用語理解が不十分．

プレゼンが長くなってもよいので，最低限必要な情報のうち何が足りなかったかを指摘．情報や用語が怪しい場合は確認．プレゼン技法の問題があれば練習させる．

第２段階

症例プレゼンに不可欠な情報は網羅され，患者像は明確になっているが，鑑別診断を自ら列挙できてはいない．

患者の情報の連絡役は果たせているが，自ら問題点の全体像を把握し，解釈することはできていない．

情報が揃っている点は褒める．徐々にプレゼンを短くするよう指示し，不足している鑑別診断についてフィードバックする

第３段階

鑑別診断はある程度できているが，その鑑別診断に必要な陽性・陰性の症状・所見が十分には盛り込まれていない

症状や所見の情報を得る際に，患者の全体像や鑑別診断との十分な関連づけができていない

鑑別診断は一定レベルと褒める．必要な症状や所見について，具体的に何が不足しているのかをフィードバックする

第４段階

鑑別診断と共に，必要な陽性・陰性の症状・所見が盛り込まれている

症状や所見の情報を得る際に，患者の全体像や鑑別診断との関連づけができている

できている点を具体的にフィードバックする

各種臨床推論評価の位置づけに関する私見

妥当性

信頼性

MCQ EMISAQ

PMP

KFPSCT

Long case DOCEE

Mini-CEX ，症例提示

筆記評価

パフォーマンス評価

OSCE

総括評価の方向性

まとめ評価法の良し悪しは妥当性（信頼性含む）で

判断総括的評価には中でも信頼性を重視 cueing effect ：客観テストには限界あり症例特異性：信頼性向上には課題を多くし１課題あたりの時間を短くする必要あり

key feature problem はこれらの性質を併せ持つ

筆記とパフォーマンスの組合せが重要か

臨床推論の評価法-key feature問題

Health & Medicine