臨床醫師閱讀隨機分派研究(randomized clinical trial)論文 · pdf file學 術 圖1...

7
學 術 文、圖/莊其穆 台北榮民總醫院婦產部 每位臨床醫師在職業生涯裡都會親自研讀或是 聽到別的醫師簡報關於隨機分派研究(randomized clinical trial, RCT)的論文,這些RCT的研究結果會潛 在性的影響臨床醫師對於此相關題目的概念,甚而影 響其臨床知識、處方開立選擇或是手術方式選擇,以 及對新進醫師相關題目的教育態度。因此臨床醫師在 正確闡釋RCT的研究結果是非常重要的,但是筆者在 多數會議場合裡,卻常看到多數臨床醫師只對論文的 p 值感到興趣,只要 p < 0.05 的論文,就會誤認為 是屬於具有臨床意義的論文,而對於 p > 0.05 的論 文則會認為其不具臨床意義 。而且由於期刊所刊出論 90%以上的論文都是屬於 p < 0.05 的論文,更加 重了臨床醫師誤認為只要是 p < 0.05的論文就是屬 於具有臨床價值,就是好論文。 p < 0.05 其實只代表該論文的研究結果具有統 計學上意義,但是並不一定具有臨床意義(或臨床價 值);統計學上的有意義並不代表臨床上的有意義, 這是一個很重要的觀念。一篇 p < 0.05 的結果僅代表 結果非屬隨機 non-randomness ),有可能具臨床 意義但也可能不具臨床意義;相反的一篇 p > 0.05 研究結果僅代表結果可能屬於隨機,並非不具臨床價 值, 有學者研究發現一些 p > 0.05 的論文有50%是因 power 不足 (多半是sample size 不足)造成under power 而使 p > 0.05 ,但是這概念卻絕少醫師會去認 知。由於RCT的結果常會深遠的影響醫師的臨床行醫 態度,因此正確的闡釋RCT結果是很重要的。 另外一種常見的誤判偏差常發生在藥廠的新藥 promotion 研討會,在此類研討會時藥廠常會引導許 多已經publish的相關論文給醫師,讓醫師相信研發的 新藥有多麼的好,新藥如何的延長 progression-free survival 以及overall survival ,介紹者會以一堆 p < 0.05 的表格來說服醫師,但是醫師卻忽略了如何評估 這個新藥的effect size是否真的具有臨床意義?也常忽 略了新藥的副作用評估、對生活品質的影響、新藥的 價格、以及國外開發的新藥是否真的能應用在我國人 身上,這些都是臨床醫師應該重視的議題。 本文目的在於教導臨床醫師如何以正確態度研讀 RCT 論文,進而正確的選擇醫療行為 ,減少醫療執 行偏差,將來也才有能力以客觀的態度來教育新進醫 師。在研讀RCT論文時,臨床醫師要有三個要釐清的 問題:(1 )這研究結果我可以信賴嗎?(2 )我如何 闡釋研究結果?(3)研究結果可以運用在哪些病患身 上? (1,2) 一、這研究結果我可以信賴嗎? 要正確的研究新藥物或是新手術方式是否有效的 最好的方式就是和傳統藥物手術或手術方式作比較, 然而為了讓比較具有效力和避免偏差兩個比較族群必 須要相同研究起始點、相同的照顧 (除了要比較的藥 物或手術方式不同)、和相同的分析方式。 只要是會錯誤影響比較結果的因素就稱為偏差因 素。從事RCT 研究時有幾個時機會造成產生bias 的機 會,而該如何避免bias 我將其整理在圖1,一篇論文研 究成果是否值得信賴總共可以分為幾個構面來探討。 1. 病患是否隨機分派而且分派結果是否有隱藏 一篇科學研究我們都知道實驗組和控制組應該 要有相同的起始點,即使是年輕的研究者也知道兩組 的年齡分布應該相同、性別比例要相同、癌症期別分 布比例要相同(如果牽涉到癌症研究)、或是教育社 會經濟等級分布比例相同(大部分的流行病學研究) ,但是問題是還有太多我們未知的因素會干擾研究結 果:例如有些基因多型性就會影響藥物的敏感性,癌 細胞內的multi-drug resistanceMDR)基因會影響化 療藥物的有效性,可是絕大部分的臨床試驗是較少會 再多做基因研究,再加上我們對於疾病的了解通常有 限,因此我們通常很難知道應該控制哪些變項,所以 我們必須利用隨機分派來去除系統性差別。 隨機分派的設計有很多種,這些分派類型並非 本文討論重點,讀者只需知道通常和亂數表有關。有 些分派是以出生日期、姓名筆劃或是英文開頭來作分 派,這類分派方式稱半隨機式,這種分派方式被認為 是不好的,因為它們具有可預測性。 如果醫師提前知道他的病患預計接受何種治療, 那麼隨機分派將失去意義,因為醫師有可能安排特定 病患給予此特定治療,或是對於治療不足者給予額外 治療,這些行為將導致performance bias ,因此雙盲可 以保證兩組之間有相同的照顧,相同的追蹤。Kunz 曾經研究過RCT 的論文如果沒有adequate allocation 臨床醫師閱讀隨機分派研究 (Randomized clinical trial)論文應有的正確觀念 514 18 2010, Vol.53, No.10

Upload: trinhque

Post on 26-Mar-2018

234 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

文、圖/莊其穆 台北榮民總醫院婦產部

前 言

每位臨床醫師在職業生涯裡都會親自研讀或是

聽到別的醫師簡報關於隨機分派研究(randomized clinical trial, RCT)的論文,這些RCT的研究結果會潛

在性的影響臨床醫師對於此相關題目的概念,甚而影

響其臨床知識、處方開立選擇或是手術方式選擇,以

及對新進醫師相關題目的教育態度。因此臨床醫師在

正確闡釋RCT的研究結果是非常重要的,但是筆者在

多數會議場合裡,卻常看到多數臨床醫師只對論文的

p 值感到興趣,只要p 值 < 0.05 的論文,就會誤認為

是屬於具有臨床意義的論文,而對於p 值 > 0.05 的論

文則會認為其不具臨床意義 。而且由於期刊所刊出論

文90%以上的論文都是屬於 p 值 < 0.05的論文,更加

重了臨床醫師誤認為只要是 p 值 < 0.05的論文就是屬

於具有臨床價值,就是好論文。

p 值 < 0.05 其實只代表該論文的研究結果具有統

計學上意義,但是並不一定具有臨床意義(或臨床價

值);統計學上的有意義並不代表臨床上的有意義,

這是一個很重要的觀念。一篇 p < 0.05的結果僅代表

結果非屬隨機 (non-randomness),有可能具臨床

意義但也可能不具臨床意義;相反的一篇 p > 0.05 的研究結果僅代表結果可能屬於隨機,並非不具臨床價

值, 有學者研究發現一些 p > 0.05 的論文有50%是因

為power不足 (多半是sample size 不足)造成under power而使 p > 0.05,但是這概念卻絕少醫師會去認

知。由於RCT的結果常會深遠的影響醫師的臨床行醫

態度,因此正確的闡釋RCT結果是很重要的。

另外一種常見的誤判偏差常發生在藥廠的新藥

promotion研討會,在此類研討會時藥廠常會引導許

多已經publish的相關論文給醫師,讓醫師相信研發的

新藥有多麼的好,新藥如何的延長 progression-free survival 以及overall survival,介紹者會以一堆 p < 0.05 的表格來說服醫師,但是醫師卻忽略了如何評估

這個新藥的effect size是否真的具有臨床意義?也常忽

略了新藥的副作用評估、對生活品質的影響、新藥的

價格、以及國外開發的新藥是否真的能應用在我國人

身上,這些都是臨床醫師應該重視的議題。

本文目的在於教導臨床醫師如何以正確態度研讀

RCT論文,進而正確的選擇醫療行為 ,減少醫療執

行偏差,將來也才有能力以客觀的態度來教育新進醫

師。在研讀RCT論文時,臨床醫師要有三個要釐清的

問題:(1)這研究結果我可以信賴嗎?(2)我如何

闡釋研究結果?(3)研究結果可以運用在哪些病患身

上? (1,2)

一、這研究結果我可以信賴嗎?

要正確的研究新藥物或是新手術方式是否有效的

最好的方式就是和傳統藥物手術或手術方式作比較,

然而為了讓比較具有效力和避免偏差兩個比較族群必

須要相同研究起始點、相同的照顧 (除了要比較的藥

物或手術方式不同)、和相同的分析方式。 只要是會錯誤影響比較結果的因素就稱為偏差因

素。從事RCT研究時有幾個時機會造成產生bias的機

會,而該如何避免bias 我將其整理在圖1,一篇論文研

究成果是否值得信賴總共可以分為幾個構面來探討。 1. 病患是否隨機分派而且分派結果是否有隱藏

一篇科學研究我們都知道實驗組和控制組應該

要有相同的起始點,即使是年輕的研究者也知道兩組

的年齡分布應該相同、性別比例要相同、癌症期別分

布比例要相同(如果牽涉到癌症研究)、或是教育社

會經濟等級分布比例相同(大部分的流行病學研究) ,但是問題是還有太多我們未知的因素會干擾研究結

果:例如有些基因多型性就會影響藥物的敏感性,癌

細胞內的multi-drug resistance(MDR)基因會影響化

療藥物的有效性,可是絕大部分的臨床試驗是較少會

再多做基因研究,再加上我們對於疾病的了解通常有

限,因此我們通常很難知道應該控制哪些變項,所以

我們必須利用隨機分派來去除系統性差別。

隨機分派的設計有很多種,這些分派類型並非

本文討論重點,讀者只需知道通常和亂數表有關。有

些分派是以出生日期、姓名筆劃或是英文開頭來作分

派,這類分派方式稱半隨機式,這種分派方式被認為

是不好的,因為它們具有可預測性。

如果醫師提前知道他的病患預計接受何種治療,

那麼隨機分派將失去意義,因為醫師有可能安排特定

病患給予此特定治療,或是對於治療不足者給予額外

治療,這些行為將導致performance bias,因此雙盲可

以保證兩組之間有相同的照顧,相同的追蹤。Kunz曾經研究過RCT的論文如果沒有adequate allocation

臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文應有的正確觀念

514 515

18 2010, Vol.53, No.10

Page 2: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

圖1 RCT研究的偏差來源及解決方式

concealment,則treatment effect會容易膨脹35-40% (3) 。有些研究是無法雙盲的,例如腹腔鏡手術和傳統

手術的比較,醫師和病患一定會知道他們接受了甚麼

種類的手術,在此種情況下outcome assessor 的入盲就

很重要,因為如果outcome assessor 知道病患接受何種

治療,她就有可能刻意輕估或高估藥效或是負作用 而造成結果分析偏差 (4) 。2. 病患有接受完整追蹤嗎?而且分析時有按照病患原

來安排的治療方式來分析嗎?

即使整個RCT都按照protocol來執行 雖然可能

避免了selection bias、performance bias以及detection bias,然而在data分析時還是會遇到有些lost to follow-up的病患或是病患因為藥物副作用而退出研究,此時

所產生的bias稱為病患損耗性偏差(attrition bias)。

在分析data時為了減少attrition bias所用的分析方法稱

為意圖治療分析法(intention-to-treat, ITT analysis)。

ITT分析方法是目前分析RCT 研究的黃金準則(gold standard)。而另一類分析方法稱為實際治療分析法( per-protocol, PP analysis),PP分析法一般是分析病患

有完整到接受RCT protocol 者才分析其資料 (5) 。

舉婦癌的RCT論文為例,有很多有名的論文例如

腹膜腔內化學治療都是以ITT方法分析 (6,7),但是當你

在細讀這些論文在materials & methods 的統計分析段

落常會看到以下的寫法:patients were excluded from the analysis if they never received any treatment,were randomized but ineligible for the study or were lost to follow-up, or the outcome were not assessed。當研究

者將這些沒有齊全資料的個案排除分析時,將會產生

non-response bias。要用ITT來分析RCT資料就會牽涉

到處理missing data的問題,我們在處理missing data時一定要盡量保守,也就是不能偏好實驗組這個組別。

ITT分析雖然是目前RCT資料分析方法的黃金準則,但

是當lost to follow-up 的病患比例太高,或是病患未接

受原先安排的治療方式時,所分析的資料結果其可信

度就會大打折扣。

舉一篇登在JAMA的文章,題目是"Spine Patient Outcome Research Trial(SPORT) trial" (8)分析接受

standard open discectomy 和接受保守治療的預後比

較,但是其實只有60%的病患真正接受了手術,而有

45%原本安排接受保守治療的病患卻接受了手術,這

種研究結果雖然是用ITT分析,但其結果的可信度絕對

是大打折扣。著名的統計專家Dr. Heritier就曾在一篇

論文上說明一篇理想以ITT分析的論文必須符合三大條

件:(1)病患完全接受原本的治療安排,(2)無反

應不明者(no missing responses),和(3)所有病患

都接受治療後追蹤,但是讀者們回想看看您所讀過的

臨床結果評估者盲導

(outcome assessor blind)

偏差種類 欲研究的族群(target population)

病患樣本(patient sample)

實驗組(experimental group) 控制組(control group)

實際接受實驗組研究的病患 實際接受控制組研究的病患

追縱(follow-up) 追縱(follow-up)

結果分析 結果分析

選擇性偏差

(selection bias)

執行性偏差

(performance bias)

病患損耗性偏差

(attrition bias)

檢出性偏差

(detection bias)

解決方式

隨機分派

(randomization)

雙盲

(double blind)

治療意向性分析

(Intention-to-treat analysis)

514 515

192010, Vol.53, No.10

Page 3: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

RCT論文有哪幾篇可以有資格符合以上3點 ?(5)

正因為R C T很難符合以上3點要求,因此有一

種較具彈性的ITT分析法稱為改良式意圖治療分析法 (modified ITT, 或稱 quasi ITT),在真正的雙盲研究

中,由於研究者和受試者完全不知病患所接受的真正

藥物種類,因此若遇到病患根本沒接受過治療者,對

於這些人是可以將其排除分析之外,例如一些子宮頸

癌疫苗的論文就是以modified ITT 的方法來分析病患

資料。(9) 我在圖2列出典型的RCT研究流程圖,讀者在

看論文時一定要看在randomization時的病患數,和最

終分析時的病患數目到底短缺多少,就可以大致判斷

是用哪種方法分析。

以下將目前一些常見的論文研究設計方法,包括

橫段式研究法(cross-sectional study),病例-對照研

究法(case-control study),世代追蹤研究法(cohort study),和隨機分派研究法(RCT)的優缺點作比較

(表1)。

3. 所選擇的outcome 是合適的嗎?

一個合適的outcome選擇對一篇RCT而言非常重

要,舉降血壓藥而言,分析一個新藥可以減少多少比

例的腦中風或是心肌梗塞絕對比分析其可以降多少的

血壓值會更具臨床價值;另舉荷爾蒙藥物而言,分析

一個新荷爾蒙可以減少多少的腰椎骨折也絕對比分析

提升多少的骨質密度要更具臨床意義 (10) 。

在現實研究中,有時研究者受限於研究資金無

法執行較長時期的研究,研究者會以替代outcome (surrogate outcome)來取代較具臨床價值的outcome,例如用骨質密度的增加量來替代骨折的減少量(因為要

看骨折有沒有效果需要追蹤較長時間),用膽固醇的降

低量來替代中風的減少量(要看對中風的減少量有無成

效必須追蹤較長時間,而抽血確是很容易做到)。這些

surrogate outcome 由於所需sample size較少,所花的研

究時間也較短,但是是否可以correlate到真正的clinical outcome,就要看讀者的判斷了。

圖2 典型的RCT研究的病患受試流程圖

評估可受試性(assessed for eligibility)

受試排除(excluded)

隨機分派(randomized)

分派到treatment A(allocated to treatment A) 分派到treatment B(allocated to treatment B)

未接受任何治療 未接受任何治療

實際接受treatment A的病患

(received treatment A)實際接受treatment B的病患

(received treatment B)

失去追縱者(lost to follow-up)

失去追縱者(lost to follow-up)

退出治療者(discontinued treatment A)

退出治療者(discontinued treatment B)

完整接受treatment A治療 完整接受treatment B治療

說明病患治療分析方式:

1.意圖治療分析法(intention-to-treat analysis) 2.改良式意圖治療分析法(modified intention-to-treat analysis) 3.實際接受治療分析法(per-protocol analysis)

516 517

20 2010, Vol.53, No.10

Page 4: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

4. 研究信度和可重複性

一個好的研究其研究結果一定要具有很好的信

度和可重複性。我舉利用孕婦的子宮頸長度來預估早

產的可能性這類的研究為例:由於不同的超音波技

術員所測量的子宮頸長度有時會不一樣,因此在設計

實驗時為了讓reliability增加,因此可以請兩名技術

原來測量同一個病患,測量值相同則當然可以用這

個data,若兩人測量值不同則應該再請第三位技術員

測量過,再考慮要用甚麼樣的data。通常兩個位測量

者的量測值可以用kappa值來表現其一致度,kappa > 0.5 算是 acceptable agreement,kappa > 0.6 算是good agreement,而 kappa > 0.8 算是very good agreement。5. Subgroup analysis 的問題

很多的RCT研究都會針對特定的病患族群再做

分析(例如針對研究中 > 70歲以上的老人再作額外分

析),這種分析稱為subgroup analysis。由於是對相

同的data作重複分析,因此很容易產生false-positive findings(記住: 分析次數越多就越容易跑出 p < 0.05的狀況)。由於 subgroup 分析的可信度會降低,因此

在作 subgroup analysis 要遵守以下幾點原則:(11)

(1)Subgroup 分析應該是預先已計畫好。

(2)如果 subgroup-treatment 真的有交互影響,樣本

數必須足夠,才能detect interaction effects。

(3)報告 subgroup-treatment interaction effects 會比

單純報告某subgroup 的治療效果,會更具報告價

值。

(4)Subgroup-treatment 是否真的有interaction,必須

要有其他的RCT的相同報告(如此其 validity才夠好)。

二、我如何闡釋研究結果?

大部分的臨床醫師看RCT文章都是急著先看 p 值,很多人都認為 p 值很重要,只要是 p 值 < 0.05的論文就是好論文,這其實是個大錯特錯的觀念。由於 p 值很容易誤導讀者,因此在很多的流行病學期刊,

早已不用 p 值。筆者在應邀審閱國內的研究論文時,

經常發現研究者幾乎是常規的將effect size,95% CI,和 p 值擺在同一張表格內;即使筆者應邀為外國SCI期刊review manuscript時,也常發現外國的臨床醫師也常

犯同樣錯誤。

在閱讀RCT文章時除了 p 值之外,還必須看effect size以及95% 信賴區間(95% CI):

1. Effect size的計算

對於二分法的outcome(dichotomous outcome,例如是否會患中風,是否會住院,是否產生血栓風

險 …),我們常用 odds ratio, relative risk,或risk difference [absolute risk reduction(ARR)]來表示

治療效果;而對於存活分析的研究,我們則用hazard ratio或是median survival time difference來表示;而

對於連續性的outcome(continuous data)我們則常用

mean 值差別來表示治療效果。以下舉兩個範例:

(1)For dichotomous outcome:假設有某新藥研究,

控制組有20%病患死亡而實驗組有15%病患死

亡,則實驗組的相對死亡風險為 RR = 0.15/0.20 = 0.75( = 75%)。RR = 75% 意味著新藥降

低25%的死亡風險。RR 有其意義,但是RR也

有其缺點;對於一個高風險的疾病而言(例如

癌症或是猛爆性肝炎),RR = 50%象徵了新

藥的有效性和臨床價值;但是對於一個發生率

很低的疾病(某些罕見疾病或是死亡率低的疾

病),RR = 50%並不代表其具有臨床價值。為

了解決RR的缺點,有些研究者會以absolute risk reduction (ARR) 來表示,以上例而言 ARR

表1 一些研究方法的優點和缺點(1:輕微影響; 2:中度影響, 3:明顯影響)

Cross-section study

Case-control study

Cohort study RCT

選擇性偏差(selection bias) 2 3 1 2

回憶性偏差(recall bias) 3 3 1 1

病患失去追蹤(lost to follow-up) - 1 3 2

變數干擾(confounding) 2 2 1 1

研究時間需求(time required) 2 2 3 3

花費(costs) 2 2 3 3

516 517

212010, Vol.53, No.10

Page 5: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

= 0.20 – 0.15 = 0.05 = 5 %,這種就是屬於絕對

值的呈現,也就是新藥可以比傳統藥物降低了

5%的死亡率。但是由於ARR有時很難讓人看

出它所代表的臨床意義,因此有學者提出NNT(number needed to treat)這個概念: NNT = 1/ARR,以上例而言 NNT = 1/0.05 = 20,也就是

用新藥每治療20人就可以挽回一個生命(與傳

統藥物比較而言),NNT = 10 當然比 NNT = 50 來的有臨床價值 (12) 。

(2)For con t inuous ou tcome:對於連續型數值

outcome,對於effect s ize的計算目前是採用

Hedges effect size 計算公式:舉例新藥的止

痛效果用visual analogue scale(0-100mm)

評估是 6±2.5 mm,而傳統藥物則是 5.3±2.1 m m,因此e f f e c t s i z e(E S)的計算:E S =(Meantreatment – Meancontrol)/SDpooled = (6 -5.3)/2.3 = 0.3。目前概念認為 ES = 0.2 屬於

small effect,0.5算是medium effect,而0.8稱為

large effect (13) 。

2. 信賴區間

我們從RCT的研究中所得到的effect size其實只是

一個點估計值(point estimate)。真正的治療效果在

現實上是無法估計到的。因此我們RCT研究中,會計

算所謂的信賴區間(一般是以95% confidence interval, 95% CI)。95% CI所代表的意義是研究中真正的effect size值有95%的機會將落在此區間內。

舉例而言,某一新藥研究實驗組和控制組各有

100人,實驗組有15人死亡而控制組有20人死亡,研

究者算出RR = 0.75,95% CI = 0.41-1.38。RR < 1 時代表實驗組效果較好,而RR > 1 時代表實驗組藥效

反而較差,所以從數據中可以知道新藥無法確認藥效

較好。然而如果我們將sample size提升到每組人數各

1000人,則RR = 0.75, 95% CI = 0.59-0.91,現在可以

看出整個信賴區間完全小於1,因此我們可以有足夠信

心認為新藥效果較好。所以95% CI是和sample size息息相關的。一個良好design的RCT研究,會先以pilot study的研究結果來找出合理的effect size,然後利用此

effect size和預先設定的α值(通常是0.05)和power值(power= 1-β,通常設定在80%)來計算所需的

sample size,等到研究招募到target 的sample size時,

當追蹤的時間足夠時,就可進行最終的data分析。

3. p 值在前文已經解釋過了,有太多的醫師誤解p值的

本義。p 值其實是代表在一特定的sample size下,實驗

組和治療組的差別是否具有統計學上意義而已。相同

的effect size但是如果sample size不同,所算出的 p值就也不相同。p值含意是當兩組是沒差別時,但我們認

為他們有差別的犯錯機會,一般設定如果 p < 0.05,則

我們認為兩組有差別。我常會問學生或住院醫師“p = 0.049 和 p = 0.051 有沒有差別? 很多人都會直接說前

者有差別而後者無差別,但是我只會微笑以對,因為

他們對無法區別統計學上的有意義和臨床上的有意義

兩者的含義是不同的。

4. 統計學上的有意義並不代表臨床上的有意義

期刊(不論 impact factor是高或低)中充斥著一

堆 p < 0.05 但卻毫無臨床意義的論文。再度重複一次

「統計學上的有意義並不代表臨床上有意義」。試

想:有某個降血壓新藥可以降低血壓 2mmHg,sample size = 1000, p < 0.05,雖然p值有意義,但你覺得這個

要具有臨床價值嗎? 同樣的一個p > 0.05 的研究,並不代表新藥沒有

臨床價值,而是有可能是因為sample size不足(這是

最常見的原因),而使得統計學無法呈現差別。有學

者研究發現竟然有接近50%的RCT其power不足 (14) 。我們在從事RCT研究時必須先計算所要的sample

size,然而會有幾項因素會導致研究者所計算的sample size不足: A. The clinical relevant minimal-treatment effect

assumed is too large(高估 effect size容易導致 sample size不足)

B. The event rate in the control group is overestimated(例如高估了控制組的死亡率較高)

C. The SD is underestimated for continuous outcomes(低估了標準差)

有研究者發現很多的RCT研究是先從經費去算出

可以招募的sample size,然後再去調控effect size和其

他因素來計算出經費可以勝任的sample size,這類的

研究有時受限於經費導致power不足,以致於無法跑出

統計上的差別,實在可惜。

5. 資料的獨立性

518 519

22 2010, Vol.53, No.10

Page 6: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

期刊上容易看到的統計方法諸如chi-square test,t-test,ANOVA,logistic regression等,這些統計方法

都是立基於每筆資料都是獨立的。然而有某些研究的

data是相依的,這些相依資料分析會運用到特定的統

計方法,例如 repeated measure ANOVA,linear mixed model,GEE model,或是multilevel analysis。試想同

一個醫院的婦癌醫師的開刀風格是否會比較相近,而

不同醫院之間的婦癌醫師的開刀會比較不同? 又如相

同班級的學測成績是否會比較有相關性(因為相同老

師教導的),而不同班級的學測成績會比較不同 (因

為老師不同);又在同一位病患身上如果新藥研究每

兩個月星期測量一次血壓,總共測了5次,這5次的數

值是否具有相依性。所以我們在分析資料時對於資料

到底是獨立還是有相依性的判定是很重要的。用錯了

統計方法就很容易犯type 1 error,讓你的結論錯誤的

過度樂觀。我在這裡建議臨床醫師如果有機會應該參

加一些相依資料分析的課程,以熟悉其觀念。

6. Efficacy 和 Effectiveness 的差別

我在閱讀論文時有時會看到一些RCT的論文把

efficacy 和 effectiveness這兩個字的意義弄混淆。我

舉剛發表在Arch Gerontol Geriatr 2010年的一篇發

表的論文為例(15),論文的題目為“ The effectiveness of a comprehensive geriatric assessment intervention program for frailty in community: randomized controlled t r i a l ",在這篇論文中你可以看到研究者用了

effectiveness這個字眼,讀者在閱讀時可能會想到到底

是應該用efficacy還是用effectiveness?到底efficacy和effectiveness的差別在哪裡?

在RCT研究裡我們會有所謂的病患收入條件,例

如年齡要介於20-70歲之間,必須沒有患有嚴重的內科

疾病,之前沒有接受過手術,沒有凝血功能異常的疾

病等,以上條件都是我們在閱讀RCT文章時常看到的

inclusion criteria。但是讀者們試想你在現實世界裡,

有可能你所遇到的病患都這麼完美嗎? 舉卵巢癌為

例,你一定有遇過活動正常毫無症狀的卵巢癌 stage IIIc的病患,但也一定遇過腹水極為嚴重且合併肺肋

膜腔積水,呼吸次數接近每分鐘30次,而且已經合併

有DIC和骨盆腔靜脈栓塞的病患,請問現實中的卵巢

癌clinical trial會將第二位病患列入inclusion criteria內嗎? 答案是當然不會,但是問題是你在現實醫療中一

定會遇到類似的病患。

Efficacy的定義是"the extent to which a drug has the ability to bring about its intended effect under ideal circumstances, such as in a randomized clinical trial",

因此你可以知道efficacy是指在"理想的"的情況來評

估一個新藥藥效或是手術方法所用的字眼。

而相對的,effectiveness的定義是 “the extent to which a drug achieves its intended effect in the usual clinical setting",因此你知道effectiveness是在"非理

想"的狀況下,也就是在我們一般臨床行醫會遇到的

狀況,遇到的病患很錯綜複雜,可能病患同時在吃很

多其他科別所開的藥,到底新藥和這些藥物有無交替

作用根本沒人知道,所以在此種情況下去評估一個新

藥或新手術方式的效果我們稱"effectiveness"。

由於RCT是屬於在理想狀況下去評估功效,所

以除了很特別的情況下,一般RCT的功效評估字眼使

用"efficacy"這個字眼會是一個比較合適的寫法(16) 。

三、研究結果可以運用在哪些病患身上?

在上一節「這個研究結果我可以信賴嗎?」是屬

於研究論文的內部性效力,當我們確認一篇RCT論文

的內部性效力後,再來我們就要問「此研究結果可以

運用在哪些病患身上?」。

有很多研究是設定在特定的病患身上,但是你

在臨床上常會遇到病患有更多的狀況或是患有嚴重的

內科疾病,論文的研究成果能不能適用在你的病患身

上,是需要你自己來判斷的。在研讀RCT論文時有幾

項要特別注意:(17)

A. 研究的背景:是在醫學中心還是社區醫院?

B. 病患選擇:有些研究僅招募小於70歲的病患,但

是萬一你的病患是80歲呢?舉例來說:不管是人

類或動物其免疫功能都會隨著年齡增長而逐漸降

低,如果現在有一個利用提升免疫功能來治療癌症

的新藥,雖然研究結果發現有效,但是你不能貿然

就認為80歲以上的病患也會有效,因為研究的受

試者的年齡是小於70歲的。

C. 病患特徵:在國外發表的研究由於其病患族群不

同,研究結果不一定適用於我國的病患。

D. Difference between tr ial protocol and routine practice:平常你所做的正規治療和此項研究的治

518 519

232010, Vol.53, No.10

Page 7: 臨床醫師閱讀隨機分派研究(Randomized clinical trial)論文 · PDF file學 術 圖1 RCT研究的偏差來源及解決方式 concealment,則treatment effect會容易膨脹35-40%

學 術

療是否有明顯差別?

E. Adverse effects of treatment:此篇研究的adverse effects是否也會發生在我的病患身上(人種有差別

時副作用會有差別嗎?)

結 語

臨床醫師終其一生會面臨到很多的閱讀RCT的

機會,很多人都是急著先看 p 值,才決定是否繼續研

讀下去。也很多人誤認只要 p 值 < 0.05就是屬於好的

研究,就是具有臨床價值的論文,這些都是錯誤的觀

念。然而這些錯誤的觀念卻會深深影響了我們的行醫

態度。筆者常在醫學研討會上聽到雙方爭執辯論,但

其實爭執的原因常常只因為對統計觀念不足所導致,

因此建立正確的統計知識和論文閱讀觀念是很重要

的。由於我們都有機會教導我們的住院醫師和實習醫

師,一旦傳遞給他們的醫學觀念是錯誤時,所影響的

將是數十年的影響。筆者期待實習醫師或住院醫師開

始研讀論文時,應該先建立正確的研讀RCT的觀念,

除了 p 值之外,更應該重視effect size以及信賴區間的

意義,將所閱讀到的RCT結果作正確的臨床價值性判

斷。惟有觀念正確才不會產生醫療行為偏差,將來才

能當一個公正客觀的臨床醫師。

參考文獻

1. EstellatC,TorgersonDJ,RavaudP,etal.:Howtoperform

acriticalanalysisofa randomizedcontrolled trial.Best

PractResClinRheumatol2009;23:291-303.

2. DuPrel JB,RöhrigB,BlettnerM:Critical appraisal of

scientificarticles.DtschArzteblInt2009;106:100-105.

3. KunzR,VistG,OxmanAD:Randomisation toprotect

against selectionbias in healthcare trials.Cochrane

DatabaseSystRev2007,Issue2.ArtNo.:MR000012.

4.WoodL,EggerM,GluudLL,etal.:Empiricalevidence

of bias in treatment ef fect est imates in controlled

trialswithdifferent interventionsandoutcomes:meta-

epidemiologicalstudy.BMJ2008;336:601-605.

5. HeiritierSR,GebskiVJ,KeechAC:Inclusionofpatients

inclinical trialsanalysis:the intention-to-treatprinciple.

MedJAust2003;179:438-440.

6.MarkmanM,BundyBN,AlbertsDS,etal.:PhaseIII trial

of standard-dose intravenouscisplatinpluspaclitaxel

versusmoderatelyhigh-dosecarboplatin followedby

intravenouspaclitaxel and intraperitoneal cisplatin in

small-volumestage IIIovariancarcinoma:an intergroup

studyoftheGynecologicOncologyGroup,Southwestern

OncologyGroup,andEasternCooperativeOncology

Group.JClinOncol2001;19:1001-1007.

7. ArmstrongDK,BundyB,WenxelL,etal.:Intraperitoneal

cisplatinandpaclitaxel inovariancancer.NEnglJMed

2006;354:34-43.

8.Weinstein JN, TostesonTD, Lurie JD, et al.: Surgical

vs.nonoperative treatment for lumbardischerniation:

theSpinePatientOutcomesResearchTrial (SPORT):a

randomizedtrial.JAMA2006:296:2441-2450.

9. TheFutureIIStudyGroup:Quadrivalentvaccineagainst

humanpapillomavirus toprevent high-gradecervical

lesions.NEngJMed2007;356:1915-1927.

10. Fleming TR, DeMetsDL: Surrogate end points in

clinical trials: arewebeingmisled?Ann InternMed

1996;125:605-613.

11. RothwellPM:Treating individuals2.Subgroupanalysis

inrandomisedcontrolledtrials:importance,indications,

andinterpretation.Lancet2005;365:176-186.

12. LaupacisA,SackettDL,RobertsRS:Anassessment

ofclinicallyusefulmeasuresof theconsequencesof

treatment.NEnglJMed1988;318:1728-1733.

13. Cohen J: The earth is round (p< .05). AmPsychol

1995;49:997-1003.

14. GuyattGH,MillsEJ,ElbourneD:Intheeraofsystematic

reviews,does thesizeofan individual trialstillmatter.

PLOSMed2008;5:e4.

15. LiCM,ChenCY, LiCY, et al.: The effectiveness of

a comprehensivegeriatric assessment intervention

programforfrailtyincommunity:randomizedcontrolled

trial.ArchGerontolGeriatr2010;50(suppl1):e39-42.

16. Marley J: Ef f icacy, ef fectiveness, ef f iciency. Aust

Prescriber2000;23:114-116.

17. RothwellPM:Externalvalidityof randomisedcontrolled

trials:‘Towhomdo the results of this trial apply?

Lancet2005;365:82-93.

520

24 2010, Vol.53, No.10