臨床試驗研究統計方法 - cych.org.t‡¨床... · 臨床試驗研究統計方法...

43
臨床試驗研究統計方法 醫學研究部 臨床醫學研究中心 楊昕禕 副研究員 [email protected] 院內分機: 5563 1

Upload: others

Post on 26-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • 臨床試驗研究統計方法

    醫學研究部 臨床醫學研究中心

    楊昕禕 副研究員

    [email protected]

    院內分機: 5563 1

  • Outline

    試驗設計

    樣本數計算

    統計方法

    課程中不會提及 ….

    – Statistical methodologies or procedures;

    – Mathematical equations;

    – Statistical applications

    So relax and enjoy 課程…..

    2

  • 臨床試驗統計人員所考量的………

    • 試驗目的 (direction or target of sailing)

    • 實驗設計 (population; efficacy measures; algorithm for achieving the objective;

    statistical methods and analyses)

    • 資料品質 (biases; missing; dropout)

    3

  • 臨床試驗之統計審查重點有以下八點考量

    一、試驗設計

    – 病人分派方法是否具有選擇性偏差

    – 臨床量測資料的收集方法是否易造成評估偏差 (evaluation bias)

    – 試驗設計內容是否導致型一誤差率 (type I error rate) 擴增

    二、樣本數計算

    – 參數值引用是否有依據且合理

    – 樣本檢定力 (power) 是否足夠

    三、不劣性試驗/相等性試驗之臨界值 (margin)選取是否合理

    四、缺失資料 (missing data) 處理方法之適當性

    五、療效/安全的統計分析方法之適當性

    4

  • 臨床試驗案中統計試驗設計之審查重點

    1. 病人分派方法的適當性

    2. 是否採用盲性作業 (blinded procedure)

    3. 是否為同步 (concurrent)對照試驗

    4. 使用交叉設計 (crossover design)的適當性。

    5

  • 隨機分派 (randomization)

    • 臨床試驗研究常見研究設計。

    • 可以移除潛在的偏差 (allocation bias)

    • 具備干擾因子的有效控制,降低研究分析時可能產生的干擾作用,避免研究結果失去價值。

    • 增加對照組的可比較性

    • 確保統計上顯著差異的效力

    • 研究指出臨床試驗如果沒有安排合適的隨機分派,有可能讓試驗結果膨脹40%。

    6

    1. 病人分派方法的適當性

  • 隨機分派的三個階段

    • 1. 產生隨機序號 (allocation sequence generation):指利用幾種分派方法產生隨機序號,每種序號都對應著某種治療。

    • 2. 分派保密 (allocation concealment):參與試驗的人員和受測者都不可得知所被分派到的治療方式

    • 3. 序號執行 (allocated sequence implementation):每位受測者都須按照所分派到的序號執行所對應的治療方式,不可隨意更換或閃避此次的分派

    7

  • 常用隨機分派的序號產生方式

    • 簡單隨機分派 (simple randomization)

    – 丟銅板、骰子,程式隨機數字產生器。

  • 分派序號的產生

    • 分層隨機分派 (Stratified randomization)

    – 可以讓試驗組和對照組的共變量達成均衡

    – 研究者必須先決定,會影響研究結果有哪些重要的共變數

    • 層內差異變小、層間差異變大

    • 研究者必須事先知道所有受試的病人隸屬何種區塊

    – 在一般的臨床試驗是很難事先知道的

    • 共變量應變式隨機分派 (covariate adaptive randomization)

    9

  • 盲化(blinding or masking)

    • 可降低執行性偏差(performance bias)

    • 盲化設計:即研究的部分人員不知道治療的方式是哪一種,依照這些部分人員分為:

    – 單盲(Single blinding):受試者不知。

    – 雙盲(Double blinding):受試者及調察員不知。

    – 三盲(Triple blinding):雙盲再加上資料監測者等不知。

    • 區別A、B藥有困難時,可採用雙盲雙模擬法

    – 即同時製備與A藥一致的安慰劑 (C),和與B藥一致的安慰劑(D) ,兩組病例隨機分組,分別服用2種藥,一組服A+D,另一組服B+C,兩組之間所服藥物的外觀與色香味均無區別

    • PS:不是每一個試驗都可以有盲化的設計

    – Ex: 手術 10

    2. 是否採用盲性作業(blinded procedure)

  • Study design

    • Parallel design 平行設計

    – 每位受試者一種治療

    – 傳統統計方法即可

    • Crossover design 交叉設計

    – 每位受試者可在不同的時段接受不同的治療

    – 治療順序須隨機分配

    – 受試者即為自己的對照者

    – 變異性降低,統計檢力較高

    – 統計考量較多

    11

    使用交叉設計(crossover design)的適當性

  • Crossover Designs 交叉設計

    • 讓受試者在不同的時段(period),分別暴露於不同的試驗藥物中

    12

    Hypothesis: 需有足夠長的wash-out period,使Period 1的藥效不會延續到Period 2。(若Period 1的藥效持續到Period 2 ,則稱作carryover effect或residual effect.)

    同一受試者其在不同period所表現出response之差異,則為藥效上的差異。 注意事項: 1. loss to follow-up的狀況必須降低,否則將失去”自己當自己的control”的這種設計優勢. 2. 為了讓受試者在進入每個新period前能恢復到“baseline”,本設計僅適用於慢性無法治癒 (ex: hypertension)、穩定,且觀察變項並非”致命性”的試驗中。

  • 臨床試驗設計種類

    試驗主要假說 (primary hypothesis) 乃是針對試驗目標而設定,可區分為

    1. Superiority trial (優越性試驗)

    2. Equivalence trial (等效性試驗)

    3. Non-inferiority trial (非劣性試驗)

    13

  • 試驗的三種概念

    • Superiority trial:在於證實新藥比舊藥(或安慰劑) 有效 ,以便於新藥用來取代舊藥。(單尾檢定)

    – H0:新藥與舊藥一樣,或比舊藥差

    – H1:新藥比舊藥好。

    • Equivalence trial:此種的試驗其目的是證明試驗治療與標準治療的療效沒有差別。(雙尾檢定)

    – H0:新藥跟舊藥的效果一樣好

    – H1:新藥與舊藥的效果有差異(更好或更壞)

    • Non-inferiority trial:目的在於檢定新藥療效至少不輸舊藥。(單尾檢定)

    – H0:新藥比舊藥差

    – H1:新藥不會比舊藥差

    14

  • 臨床試驗案中統計臨界值(margin)

    • 差多少才有差??

    – 臨界值的大小必須考量臨床意義,亦即新舊藥的差異在什麼範圍內,臨床上沒有實質意義的差別;

    – 新舊藥物藥效的差異臨界值,必須小於舊藥與安慰劑的差異才合理。

    – 一般可以疾病發生率或罹病風險比(hazard ratio, HR)來設定

    • EX: 比較idraparinux與維他命K拮抗劑的Amadeus試驗為例,就主要療效指標而言,研究者預設新藥的HR若在1.5倍以上,就視為比較差。

    15

  • 隨機試驗的樣本數計算

    16

  • How Sample Size Influences The Conclusion

    Effect Size

    Source: Johan Karlberg and Marjorie Speers. Reviewing Clinical Trials: A Guide for the Ethics Committee, 2010

    17

  • 樣本數 (Sample Size)

    18

  • Effect size (效應值)

    • 當比較兩組治療療效有無差異時,effect size就是指「平均的差異值」

    • 當評估某生化值與某疾病是否相關時,effect size就是指「該生化值與該病發生的相關性」

    • 算effect size的方法有很多種,像Cohen’s d 就是其中一種。更複雜的是:Cohen’s d 的計算方法視不同的統計方法、資料,而有不同的計算方法。

    19

  • Example

    • 如果你有兩組人 ,一組實驗組,一組控制組。作了實驗之後,想知道後測有沒有差別。使用t-test,計算每一組的平均值 (mean) 和標準差 (standard deviation)。

    • 在這種情況下,Cohen’s d 的算法為:

    • d = (M實驗組 – M控制組) / SD兩組

    • 而SD兩組的算法如下:

    • SD兩組= 根號 [ (SD實驗組2 + SD控制組

    2) /2 ]

    拿數字來當實例。

    • 如果M實驗組= 24, M控制組= 20,SD實驗組 =5, SD控制組=4,那SD兩組= 根號 [( 5

    2+42)/2] = 4.53

    • 那 d = (24-20) / 4.53 = 0.88

  • 21 https://www.campbellcollaboration.org/escalc/html/EffectSizeCalculator-ESTypes.php

    Effect Size Calculator - The Campbell Collaboration

  • 如何決定樣本數

    • Phase 1

    – Exploratory

    – 樣本數少,通常不超過20人

    • Phase 2 & 3

    – Confirmatory

    – 必須考慮統計檢力以計算適當的樣本數

    • 計算樣本數前,需考慮以下: – 定義null hypothesis和alternative hypothesis

    – 定義α和β值。

    – 透過前趨研究(pilot study)的結果計算出治療效果的變異數(σ2)

    – 預期的中途退出率 (drop out rate)

    22

  • Sample size calculation

    • 最常使用-Single outcome, dichotomous response

    • 需要四項資訊

    – P1 –對照組成功的比例

    – P2 –治療組成功的比例

    – α–type I error,通常設為0.05

    – 1-β–能正確地辨明兩組之間差異的統計檢力(power)

    • 各組需要的個案數可由下列公式計算

    23

  • 24

    f (a, b)

    b = 0.05 b = 0.1 b = 0. 2 b = 0.5

    a = 0.1 10.8 8.6 6.2 2.7

    a = 0.05 13.0 10.5 7.9 3.8

    a = 0.02 15.8 13.0 10.0 5.4

    a = 0.01 17.8 14.9 11.7 6.6

    舉例來說,如果假設p1=90%、p2=95%、α = 0.05、β = 0.1

  • Sample size calculation

    • quantitative measurements,如血壓值等

    • 需要四項資訊

    – μ1 –對照組的平均值、及σ(SD)

    – δ(μ2 -μ1) –預期治療組比上對照組的差異

    – α

    – 1-β

    • 各組需要的個案數可由下列公式計算

    25

  • Sample size calculation

    • example:

    – μ1= 9.0 and σ= 1.8 mg

    – Clinical relevance difference δ= 0.5 mg (9.5-9.0)

    – α = 0.05; 1-β= 0.95

    • Formula :

    • Sample size =

    26

  • Software for Sample Size

    Calculation

  • 免費軟體

    • –Gpower

    • –PS (power and sample size calculation)

    • –Quanto (遺傳研究)

    線上免費計算

    • http://www.stattools.net/SSizSurvival_Pgm.php

    • http://hedwig.mgh.harvard.edu/sample_size/size.html#ssize

    • http://www.epibiostat.ucsf.edu/biostat/sampsize.html?ifram

    e=true&width=100%&height=100%

    • –http://www.cct.cuhk.edu.hk/stat/Survival_Analysis.htm

    • –http://www.clinsearch.net/tools/SampleSizeSurvival

    付費軟體

    • –Power and Precision

    • –StudySize

  • Sample Size for Comparison of Means

    between 2 groups

    • Test for equality

    Example:治療高血壓新藥臨床試驗 (Phase III study)

    • Study design: two-arm, randomized, parallel,

    controlled study

    • The decrease of SBP from baseline after 6-month

    treatment

    • Treatment group: DRUGN; Control Group: Placebo

    • Allocation ratio: 2

    • 由Phase II study result 得知, 約為23, 10, 20, 25

    • Desirable significant level α=5%, Power 1-β=80%

    • Dropout rate: 20%

  • 30

  • 分析群體

    決定分析群體的基本原則

    minimise bias

    avoid the inflation of type I error rate

    常用的療效/安全分析群體

    意圖治療 (Intent-to-treat, ITT) 分析群體

    遵循計劃書 (Per Protocol, PP) 分析群體

    31

  • ITT 分析群體

    • 所有具試驗資格且經隨機分派的受試者均列入分析

    • 排除於 ITT 分析之外

    – 未服用任何一劑試驗用藥

    – 在隨機分派後未具任何記錄者

    32

  • ITT 分析群體

    • ITT 分析群體因將接受所有分派的受試者,包括

    – 中途因故退出

    – 接受錯誤的治療組別

    – 有其他違反計劃書事件等皆依原先的分派納入分析

    • ITT 分析群體避免健康受試者效應(healthy subject effect) 所造成的評估偏差,係屬於較保守的分析方式

    • 就優勢試驗而言,法規單位皆要求以 ITT 分析群體為主要分析群體,即考慮到其保守性

    • 若 ITT分析群體的分析有效,則藥物的實際有效性應為更高。

    33

  • PP 分析群體

    • PP 群體則為 ITT群體的子群體 (subset) 。

    • PP 群體之特色 (缺一不可)

    – 符合 ITT 的定義

    – 符合試驗用藥的順服性 (compliance) 必須超過最低標準(如75%)

    – 治療前後皆須具有主要試驗指標的測量

    – 沒有重大違反計劃書的情形。

    • 就不劣勢/相等性試驗而言,納入分析的受試者應正確地接受分派的治療組別,且接受各有效藥的劑量及時間應足以顯示該治療的療效

    • 採用 ITT 分析反而不夠保守,通常此類試驗皆分別以

    ITT及 PP 來分析。 34

  • 35

    ITT

    PP

  • 缺失資料 (missing data)

    • 資料分析時缺失資料的處理方式應預先於計劃書中詳盡地說明。

    • 缺失資料通常發生於 ITT 分析中,而填補缺失資料一般可採

    – 最後觀察值前推法(Last Observation Carrying Forward, LOCF)或其他數學轉嫁法(mathematical imputation) 等。

    • 但如缺失資料所佔的比例太高,除原先計劃書中描述的處理方式外,應嘗試用其他的處理方式來比較 (敏感性分析)

    – 當不同處理方式有不同的分析結果時,應於試驗結果報告中提出討論。

    36

  • 超出值 (outliers)

    • 分辨超出值通常須由臨床醫師及統計分析者一致的認定,且由臨床醫師決定 採取的措施。同樣地,不同措施如有不同的分析結果,研究者亦應提出討論。

    37

  • Statistical analysis

    38

  • 臨床指標-Type of data

    • 在一個試驗中,通常要收集以下三種資料

    – Treatment – drug A or Drug B?

    – Response – 有效還是沒效?

    – Prognostic factors – 其他可能影響藥品治療效果的因子

    • 基本上有三種response data

    – Qualitative response – yes/no, success/fail, …

    – Quantitative response – mmHg, HbA1c %, …

    – Time to relapse – time to death, time to recurrent MI,

    … 39

  • Fundamental statistical techniques

    • Descriptive statistics 敘述性統計

    – Patient numbers (n)

    – Mean response

    – Standard deviation (SD)

    – Median

    • Significance tests

    – Comparing 2 percentages – χ2 test

    – Comparing 2 means – two-sample t test

    – Comparing 2 distributions– two-sample Wilcoxon test

    (nonparametric)

    • Magnitude (效果強度) and confidence limits (confidence intervals; CIs)

    40

  • Further analysis

    • Dealing with prognostic factors

    – Comparability of the 2 treatment groups

    – Subgroup analysis 分層分析

    – Adjustment for prognostic factors

    • Multiple regressions

    • Multiple logistic model

    • Mantel-Haenszel test

    • Survival Analysis

    • Repeat Measurement 41

  • Outcome Measure

    Basic Test Model controlling for covariates

    Binary chi-square test

    Fisher’s exact test

    Logistic regression model

    Continuous Student t-test

    Wilcoxon sign rank test

    Multiple regression model

    Time to event Log rank test Cox proportional hazards models

    Statistical Tests and Models

    Two parallel groups design:

    Source: George Wells. Designing Clinical Trials: Protocol Writing, Design Features, and Gantsmanship, 2009

    42

  • 提問與討論 謝謝!

    43