醫學研究中常見的統計應用及誤用 · 著,所以說p

89
醫學研究中常見的統計應用及誤用 慈濟醫學中心/研究部 王仁宏/Paul Wang [email protected] 分機7651

Upload: others

Post on 18-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

  • 醫學研究中常見的統計應用及誤用

    慈濟醫學中心/研究部 王仁宏/Paul Wang

    [email protected]

    分機7651

  • 自我介紹

    姓名:王仁宏/Paul Wang

    辦公室分機:7651 簡碼:40460

    辦公室位置:協力樓6樓628室

    信箱:王仁宏/medicine/Tzuchi,

    [email protected]

    學歷:成大統計研究所碩士(88級)

    經歷:原職旺宏電子資料分析處副部經理

    (From 2001/09~2012/04)

    醫學統計諮詢師

  • 102年度生物統計課程規劃(1)

    • 目的

    – 增進同仁研究所需統計分析能力,進而促進研究品質提升

    – 本年度著重臨床試驗、臨床流行病學及健保資料相關課程

    • 開課對象

    – 花蓮&新店慈院中、西、牙醫師&九大職類人員

    • 開課時間

    – 預計於3月至9月舉辦一梯次課程/共10堂課(每堂1.5小時)

    • 上課方式

    – 採主題式教學並輔以案例解說及統計軟體操作

    臨床試驗

    臨床流病 健保資料

  • 102年度生物統計課程規劃(2) • 主課老師慈大公衛系教師&研究部醫學統計諮詢師

    – 謝宗成老師:專長--臨床試驗分析與設計 – 溫淑惠老師:專長--遺傳統計、生物統計 – 嚴嘉楓老師:專長--弱勢群體醫療、長期照護政策 – 謝佳容老師:專長--環境職業流行病學、應用生物統計 – 王仁宏老師:專長--統計應用、統計分析

    • 課程規劃(原則上週五之中午12:30~14:00)

    課程類型 上課月份 課程名稱 授課講師 統計方法 3/15 醫學研究中常見的統計應用及誤用 王仁宏老師 統計方法 3/29 問卷信效度分析與應用 嚴嘉楓老師 統計方法 4/26 生活品質量表應用 嚴嘉楓老師 臨床流病 5/10 臨床流病研究設計 謝佳容老師 健保資料 5/24 全民健保資料庫簡介 王仁宏老師 健保資料 6/21 健保資料庫的發展與應用-以內科為例 謝宗成老師 健保資料 7/12 健保資料庫的發展與應用-以外科為例 王仁宏老師 健保資料 7/19 健保資料庫的發展與應用-以婦科為例 謝佳容老師 健保資料 8/16 健保資料庫的發展與應用-以內科為例 溫淑惠老師 臨床試驗 9/13 臨床試驗研究設計與分析 謝宗成老師

  • 課程目標

    • 溫故回顧醫學研究常見的統計觀念

    –統計是什麼?

    –統計如何應用到醫學研究?

    –常見的統計方法及概念

    • 解讀&評論判斷醫學研究結果的合理性

    –避免統計方法誤用

    –避免統計分析結果解讀錯誤

  • Outline

    • 統計是什麼?

    • 統計跟醫學研究的關係?

    • 資料蒐集(母體vs樣本)

    • 醫學研究常用統計方法 –敘述統計、推論統計、差異比較

    –相關、迴歸分析、質性資料分析

    • 研究結果要如何解讀?

  • 節能減碳愛地球 -- 上課講義請至研究部網站下載

    http://www.tzuchi.com.tw/a_f/f_hl/WebR/index.asp

  • 注意事項

    淡定

  • 統計是什麼?

    資料

    資訊 知識

    •統計是從數據中找出訊息並且做成結論!! •統計是幫助我們透過客觀的資料分析來瞭解變異來源的一門科學!!

    產生數據

    整合數據

    解釋推論 + +

  • 為什麼要學習統計? -- 有趣的例子(1)

  • 為什麼要學習統計? -- 有趣的例子(2)

  • 為什麼要學習統計? -- 用科學的方法來促進專業的進步

    當新治療方法、藥物、設計或介

    入發展出來時,關鍵問題是

    “它有用嗎?”

    文獻回顧資料收集

    統計分析專業解釋結果

    Make Decision

  • 統計與醫學研究的關係

    實證醫學

    流行病學

    生物統計學

    •描述流行病學假說的研擬與篩選 •分析流行病學假說的辨明與修訂 •實驗性流行病學假說的實證與確立 •詳查審視思考醫學問題 •正確的研究設計確保資料收集品質

    •敘述性統計研究對象特性描述 •推論統計從樣本所獲得資訊說明母體 •科學化整理分析呈現證據 •合理的歸納與推論實證醫學發現

    應用領域:醫學或公共衛生等

  • 母體與樣本

    壞樣本的毛病 1.對調查母體沒有定義清楚 2.母體裡面的個體有些永遠不可能被抽中

    產生數據

  • 壞樣本的例子

    • 1.便利抽樣碰到誰就問誰的抽樣 – Ex:在新光三越的前廣場進行訪問

    • 壞處:母體對象沒有定義,而且有些個體不會被抽中

    • 2.自願樣本自動送上門來的樣本 – Ex:電話叩應、Yahoo奇摩新聞意見調查

    • 壞處:一個人可以重覆許多次,導致有灌水的問題

    • 3.立意抽樣依照本身的主觀判斷去挑樣本 – Ex:訪問對核能發電具有專業知識的人士

    • 壞處:專業人士的意見是否足以代表一般人的意見?

    • 4.配額選樣 – 把調查對象依照特徵分類後,依各類比例立意找人到額滿為止

    • 壞處:容易受到訪員主觀選擇受訪者的影響,對於推論的正確性傷害相當大

    產生數據

    非機率抽樣!!

  • 李昌鈺博士:有幾分證據說幾分話

    好樣本的特性 •母體有定義 •樣本是母體的縮影 •樣本具有代表性

    ∵資源有限

    產生數據

  • 觀察性 vs 實驗性資料

    資料性質 特徵 可推論的方法 Example

    觀察性 順其自然 相關分析 (Correlation)

    醫院欲紀錄患有高血壓症狀之住院病患之狀況,每天請護士測量並照實紀錄

    實驗性 操之在我 因果分析 (Causal)

    醫院欲測量降血壓的新藥之療效,得到病患同意後,每日給予病患治療,並記錄病患血壓

    產生數據

    Ex:病歷回顧

    Ex:臨床試驗

  • • Qualitative Data – Categorical

    • Sex

    • Diagnosis

    – Anything that’s not a #

    – Rank (1st, 2nd, etc)

    • Quantitative Data

    – Something you measure

    – Age

    – Weight

    – Systolic BP

    – Viral load

    Statisticians need DATA

    產生數據

  • 醫學研究常用統計方法 • 有人針對社會科學與教育類、醫學護理類、管理類,每大類搜尋20~30篇論文,然後將這些論文使用的統計方法整理如下: – 醫護類會用到大量的描述統計(22%)、ANOVA(18%)和T檢定(18%)

    – 其他統計方法(6~12%):皮爾森相關、線性迴歸、無母數、邏輯斯迴歸

    – 醫護類的論文很少使用到SEM和ANCOVA

    整合數據 & 解釋推論

  • 描述統計 -- 統計量 & 統計圖

    統計量集中區勢、離散趨勢 •Mean

    •Median

    •Mode

    •Max/Min

    •Quartile(Q1,Q3)

    •Range

    •Standard Deviation

    目的:讓分析者可以在短時間內瞭解資料的分佈狀況與訊息 Histogram

    Pie Chart

    Boxplot

    Part 1

  • 極端值的影響 •這個籃球隊教練在考:究竟應該公布”隊平均身高180cm”嚇對手,還是”隊員身高中位數173cm”讓對手失去戒心?

    ??

    平均數易受極端值的影響,尤其在數字個數少的時候影響更大!!

    Part 1

  • 存活率的迷思 • 健保局2007年5月公布各醫院器官移植存活率, 以心臟移植五年存活率來看:

    –三總85% 、振興73% 、林口長庚70% 、台大65% 、北榮55%看來三總是首選?

    若加上案例數,三總15/85% 、振興148/73% 、林口長庚11/70% 、台大195/65% 、北榮59/55%選擇是否改觀?

    振興優於台大?病患的病況及背景是否大致接近無法得知

    讀到一項統計數據時,應注意上下文,弄清楚該統計量真正的意義才能夠避免被誤導!!

    Part 1

  • 常態分布(Normal Distribution)

    Part 1

    許多自然現象、社會現象與日常生活之現象,都以常態分布的情形最為普遍 Ex:身高、體重、學測與基測成績等

    常態分布的位置與形狀會隨著平均數與標準差不同而變化!!

  • 假設檢定(Hypothesis Testing) • 假設(Hypothesis)H0(Null) vs H1(Alternative)

    – 統計假設的架構,與刑事訴訟法中的無罪推定原則(被告未經審判證明有罪確定前,推定其為無罪)類似!!

    – 對立假設是研究者期望發現的

    – 虛無假設是被保護的,除非證據夠強,否則不輕易推翻現況

    • 檢定檢定統計量、臨界值、P-value

    • 結論接受(Accept) or 拒絕(Reject)

    • Example(2010世足賽的章魚哥)

    – “章魚不可能預測比賽結果”(瞎矇)

    – H0:章魚哥猜對機率=1/2

    – H1:章魚哥猜對機率>1/2

    Part 2

  • 假設檢定的流程

    • Step 1.決定虛無假說與對立假說

    • Step 2.決定顯著水準(α)

    – Type I error發生機率 ex:0.05, 0.01

    • Step 3.選擇檢定統計量

    • Step 4.收集資料,計算檢定統計量及P值

    • Step 5.進行決策判定

    –實際上顯著與不顯著間並沒有一個真正的標準

    – P值越小,表示我們得到越強的證據能力

    Part 2

  • 統計推論所產生的風險

    決策 事實(永遠不知)

    H0:無罪 H1:有罪

    無法推翻H0 犯人無罪

    決策正確 Type II error (縱虎歸山)

    推翻H0 犯人有罪

    Type I error

    (錯殺忠良) 決策正確

    利用樣本證據來對假說進行決策時,難免會因為樣本的偏差而發生判斷錯誤的情況!!

    •Type I error亦稱做消費者風險(ex:沒有效的藥被批准上市) •Type II error亦稱做生產者風險(ex:有效的藥無法上市) [註] 應注意是否有measurement error, bias, confounding 等情況發生!!

    Part 2

  • 假設檢定(Hypothesis Testing) • P-value 與Sample 的關係: 當Sample size 大時,偵測力會較好

    – Example: A group : mean = 0 , std = 1

    B group : mean = 0.4 , std = 1

    Sample size = 5 , P-value = 0.5996 Sample size = 10 , P-value = 0.2295

    Sample size = 50 , P-value =0.044 Sample size = 200 , P-value = 0

    Part 2

  • P-value的迷思:顯著與非常顯著 問題:在很多統計方法裡都會看到p值, 通常在許多期刊表格的下方都會看到*p

  • P-value的探討 • 應有的認知

    – P-value 並不能表示”效應的大小”,決定顯著水準

    – P-value 並不是” H0為偽的機率”, 犯 type one error的機率

    – P-value 並不是”觀測值是極端值的機率”

    – P-value 並不是”重覆取得觀測值得到不同結果的機率”

    • 統計學家和公衛學家之建議

    – 臨床上的治療決定 (decision making)絕對不應該僅根基於hypothesis testing (也就是只看P值)!!

    – 必須要根據所有的證據,包括:相關性的強度,測量的精確度,對公衛系統的優點和缺點影響,以及對國家經濟的影響(是否會造成保險沉重負擔)

    – P值無法完整呈現治療效果,學者建議以效果值(effect size)和95%信賴區間來取代

    Part 2

  • 統計學意義 (statistical significance) 與臨床意義 (clinical significance)的差別

    • Mean = 1.4

    • SD = 0.1

    • P

  • 差異比較(1) • 統計學家發明了許多統計檢定方法

    –單一樣本檢定平均數Z test(σ已知), T test(σ未知)

    –兩組樣本檢定平均數Independent T Test

    Paired T Test

    中位數Kruskal-Wallis Test(非常態)

    Mean 有差異

    A B

    Variation 有差異

    A

    B

    Part 2

  • 差異比較(2) –兩組或多組樣本檢定平均數

    • 方法一、利用T Test進行兩兩比較 ”過度檢定”(overtesting)

    需要選擇合適的顯著水準,讓Overall Type I error控制

    • 方法二、變異數分析(ANOVA, F-test) 檢定所有組別平均數是否有顯著差異的整體量測方式

    前提假設

    1. 所有觀測值是獨立的每個觀測值彼此不相關

    2. 每一組內觀測值呈常態分布

    3. 變異同質性每一組內變異數與他組相同

    ANOVA只要樣本數夠大、每組樣本數相近效果就不錯!!

    Part 2

    For 2 Groups

    F=t2

  • T Test的誤用

    34%

    常見誤用情況:對於三組以上的資料,每次取兩組比較,針對所有組合比較 Example:比較A藥、B藥控制下病人的血糖值(A藥組、B藥組、對照組) A藥組 vs B藥組 α=0.05 A藥組 vs 對照組 α=0.05 B藥組 vs 對照組 α=0.05 Overall Type I error=3*0.05=15%(結論有15%的機率會是錯誤的!!)

    Part 2

  • 差異比較(3) –多組樣本檢定平均數,若ANOVA發現有差異(i.e.至少有一組平均數之間有差異存在),如何發現差異在哪?事後分析(Post-hoc Test)/多重比較

    • Bonferroni Test 組數多過於保守

    • Holm t Test 較Bonferroni不保守,有較大檢定力

    • Tukey test低估偵測顯著差異

    • Student-Newman-Keuls Test(SNK Test)過度偵測顯著差異

    • Scheffe Test

    • Fisher’s LSD Test太過自由

    • Duncan’s Multiple Range Test

    Part 2

    目前統計學家對於使用哪種統計方法較好尚未有共識

  • 信賴區間(Confidence Interval)

    母體 樣本

    N(μ, σ2) nNX2

    ,~

    信賴區間可以幫助我們估計未知參數的值,同時告訴我們估計的不確定程度有多大!!

    μ落在此區間的機率為95%

    Part 2

  • 怎麼比,才有效?

    Part 2

    專家說:”成長期的兒童若營養攝取不足,會影響他的成年身高” Why? How?

    方案一、觀察瓜地馬拉鄉下兒童吃到的食物約美國兒童的一半, 這些兒童長到七歲時, 平均身高比美國同齡兒童矮約15 cm/體重輕約5 kg, 之後差距還會拉大(1960)

    方案二、INCAP(WHO底下的研究單位)選了瓜國四個村莊分成兩組分別施予蛋白質及高熱量的A飲料及不含蛋白質及低熱量的B飲料,並登記兒童飲用量(1969)

    衛生條件、醫療設備、疾病盛行、種族差異、父母經濟能力等因

    素未考量!!

    結論:瓜國鄉下兒童與美國兒童的成長差異,主要是由蛋白質的攝取量造成 Finding平均來看,多攝取1磅可以多成長0.1 cm ,美國與瓜國兒童成長到七歲蛋白質攝取量差距約150磅可以解釋方案一之發現

  • 兩個變數之關係

    • 使用時機

    – 研究常需同時審視兩個變項的資料(ex:身高、體重) • 兩個變項之間是否有關連(relationship)

    • 關連的強弱

    • 統計圖形散佈圖(Scatter Plot)

    • 統計量相關係數(Correlation Coefficient)

    – 瞭解兩個變項之間的線性關係

    Part 3

    當兩個變項之間存有某種連動的變化趨勢,則稱他們之間是相關的

  • 相關性的強弱

    Part 3

    完全正相關 完全負相關

    正相關 負相關

    沒有直線關係 沒有直線關係 但有非線性相關

    可用相關係數(r)的大小進行判斷越接近+1 or -1代表線性相關程度越強!!

  • 各種相關係數

    • 皮爾森相關係數(Pearson correlation coefficient)

    – 主要是測量兩連續變數間關係的強弱

    • 斯皮爾曼等級相關係數(Spearman rank C.C.)

    – 主要是測量兩等級變項間關係的強弱

    需符合常態假設

    不需常態假設

    Part 3

  • 相關係數範例 Example:分析孩童注射疫苗比率的高低與死亡率是否相關?

    方法一皮爾森相關係數

    • r = -0.79

    • t = -5.47

    p-value

  • 相關係數使用注意事項 Q :假如我們取樣1000筆資料,研究兩個變數之間的相關性,得到相關係數為r=-0.06 (p0.75 強相關(good to excellent relationship)

    Part 3

  • 相關≠因果

    •即使相關係數數值很高且達顯著統計意義,這並不表示兩個連續變 項具有因果關係。 •兩變項間是否為一因果關係,應是依臨床或學理來決定。

    Part 3

  • 相關≠因果的例子(1)

    出處:“Evils of Pickle Eating,” by Everett D. Edington, originally printed in Cyanograms.

    Part 3

    吃黃瓜的禍害(有相關不代表有因果關係的一個著名的例子) …酸黃瓜與身體大多數重要疾病有關。吃黃瓜會引起戰爭或共產主義的盛行;

    大多數的空難、交通事故也與吃酸黃瓜有關,犯罪率的增加也與酸黃瓜的消

    耗量有正相關。例如,

    幾乎所有生病的人都吃過酸黃瓜…

    99%死於癌症的人都吃過酸黃瓜…

    100%的士兵都吃過酸黃瓜…

    96.8%的共產黨人都吃過酸黃瓜…

    99.7%的車禍或空難者,在事故發生前14天都有吃過酸黃瓜…

    93.1%的犯罪青少年,都來自常吃酸黃瓜的家庭,證明酸黃瓜的長期影響。

    在1839年出生且晚餐吃過酸黃瓜的人,有100%的死亡率。

  • 相關≠因果的例子(2)

    • 台灣彩券針對近197位中獎五百萬元以上者進行分析,發現每期都購買、且在住家附近下注,中獎率超過三成。其中,已婚、男性、四十歲到四十九歲、O型、射手座等特質中頭獎機率最高,跟北富銀時代比較,除了星座外,其餘特質皆相同。

    相關不代表因果

    2007.05奇摩新聞 -- 大樂透連六槓,上看3億,射手O型已婚男中獎率最高

    Part 3

  • 一致性 vs 相關性 • 相關性(Correlation)

    – 如果資料點完全落在任何一直線上即是完美相關(r=1)!!

    • 一致性(Agreement)

    – 完美的一致性需要所有資料點全落在平等線!!

    Bland-Altman Difference Plot

    兩種量測的平均值

    兩種量測的差異

    若>95%的點落在此區間一致

    Part 3

  • 一致性分析範例 -- 利用心臟超音波評估二尖瓣閉鎖不全

    RF(逆流分率)

    Objective:分析兩種測量方法是否一致?

    r=0.89代表兩種方法差不多,但是沒有量化其一致性!!

    利用Bias(Doppler-Cath) vs 平均值,判斷兩種測量方法沒有系統偏差且相當一致!!

    Part 3

  • 迴歸分析(Regression) • 迴歸(regression)

    –以一個自變項(independent variable)的變化來預測或解釋另一個應變項(dependent)的變化

    • 1.以身高來預測體重

    • 2.以指考成績來預測大一第一學期的成績

    • 3.以年齡來預測血中膽固醇濃度

    • 4.預測食鹽攝取量對血壓值的影響

    • 5.以氣溫來預測飲料的銷售量

    能迴歸者,必相關!!

    Part 3

  • 有相關並非證明有因果關係

    Part 3

  • 相關係數與迴歸分析(1)

    Part 3

  • 相關係數與迴歸分析(2)

    Part 3

  • 相關係數與迴歸分析的限制

    • 無法有效測量一個非線性關係的強度

    • 當樣本數n很小時(n

  • 應用迴歸分析注意事項 • 相關分析確認變數間的關係

    • 判斷是否存在”共線性”問題相關係數>0.8或VIF>10 – 若自變項間相關太密切,可挑選較有代表性的變項放入迴歸分析

    – 或用主成分分析(principle component analysis)縮減變項

    • 畫各自變項與依變項的「散佈圖」判斷是否非直線關係 – 若存在非直線關係則需修正迴歸方程式

    • 確認樣本的同質性ex:不該把病人與正常人資料混合分析

    • 「極端值」檢驗∵Outlier對結果的影響甚大 – 可用盒型圖或直方圖作檢查

    • 不應盲目地選擇「逐步法」(可採Forward or Backward) – 每個變數在放入迴歸模型之前最好都有一定的理論基礎

    • 有「顯著」的迴歸係數(β)不代表就有”強的預測力”要看R2

    • 切勿用很少的樣本數,但卻放很多的自變項建議10:1

    Part 3

  • 當用相關或迴歸聯繫兩個變數時

    •必須檢視樣本資料作成的圖,以瞭解資料是否符合統計方法之假設。 •兩變項間是否為一因果關係,應是依臨床實驗或學理來決定。

    Part 3

  • 統計與因果

    Part 3

    1. 即使兩個變數間有很強的關聯,也不代表改變其中一個變數的值會導致另

    一個變數的改變。 2. 兩個變數之間的關聯,常常受其他潛在背景中的潛在變數(Z)影響。 3. 建立因果關係最好的證據,來自隨機化比較實驗。

    X Y

    因果關係

    X Y

    Z

    共同反應

    X Y

    Z

    ?

    ?

    交絡

    Example:看電視會延年益壽?(胡說相關) X:平均每人電視機數 Y:國民平均餘命 Z:國家財富

    Example:胖媽媽和胖女兒 X:媽媽BMI Y:女兒BMI Z:其他因素(生活習慣)

  • 因果證據 Q:當我們不能做實驗時,能確立因果關係的標準在哪?

    – 相關很強 ex:吸菸和肺癌之間的相關性很強

    – 相關有一致性 ex:不同國家對不同人所做的研究都一致

    – 較高劑量和較強反應有關 ex:吸菸較多或菸齡較長更常得病

    – 被懷疑的原因在時間上早於結果(時序性) • 肺癌是在吸菸多年後才顯現的

    • 吸菸人口越普遍後,死於肺癌的人數才上升

    – 被懷疑的原因是可信的(生物贊同性) ex:動物實驗結果顯示, 吸菸產生的焦油的確會致癌

    Part 3

    因果證據強度還是比不上用設計完美的實驗所得到的證據

    出處Hill AB. The Environment and Disease: Association or Causation? Proceedings of the Royal Society of Medicine. 1965;58:295-300.

    此篇文章2010被YJBM選為Five Classic Articles in Public Health!!

  • 質性資料的分析 • 質性資料特質

    – 不能作個人量化量測,它是關於有沒有存在某種特質的資料,例如:有無抽菸/喝酒/嚼檳榔

    – 依照感興趣的特質將資料分組,例如:高血壓、老年人

    – 觀測到的是次數

    – 用來將資料分組的表格稱為列聯表(Contingency Table)

    • 關心什麼?

    – 兩個變數有沒有相關?獨立性

    – 不同族群中某項特質的分佈是否相似?同質性

    – 實驗組vs對照組治療成功的比例有差?比例差異顯著性

    Part 4

    危險因子 有疾病 沒有疾病 總計

    有暴露 a b a+b

    沒有暴露 c d c+d

  • 分析方法 • 樣本為獨立樣本卡方檢定

    – 2X2列聯表,所有格子的期望值都要大於5

    – 更大的列聯表,各格的期望值不要小於1,且期望值小於5的格數不要超過20%

    – 如果發生上述情況,應採用Fisher Exact Test

    • 樣本為配對或非獨立McNemar’s Test

    – 適用時機:Matched 、Before-and-after design

    發生車禍前後是否習慣性繫安全帶?

    Part 4

  • 範例--卡方檢定 Example:欲探討性別與睡眠困擾之相關性

    觀測值(O) 期望值(E)

    •性別和睡眠困擾間是有相關性 •男>女

    獨立樣本

    Part 4

  • 範例--Fisher Exact Test 有兩格期望值

  • 範例--McNemar Test Example: 醫院想分析評鑑與員工發生睡眠困擾是否有關 假設去年沒有評鑑,今年有評鑑

    相依樣本

    a b

    c d

    •P值=0.039 •評鑑顯著增加睡眠困擾的比例

    Part 4

  • 相關強度的測量值

    • 相對風險(Relative Risk, RR)

    – 治療組之事件發生率/對照組之事件發生率

    – 若要計算RR ,需進行Prospective/Cohort Study

    – Case-Control Study之資料不能計算RR

    • 勝算比(Odds Ratio, OR)

    – 個案組中暴露的勝算/對照組中暴露的勝算

    – 當a&c遠小於b&d時,RR ≒OR

    危險因子 有病 沒病 總計

    有暴露 a b a+b

    沒有暴露 c d c+d

    )/(

    /

    dcc

    baaRR

    bc

    ad

    db

    caOR

    /

    /

    Part 4

  • 範例--Odds Ratio

    職場壓力與睡眠困擾有顯著相關!!

    •沒壓力組沒睡眠困擾勝算2.4(12/5) •有壓力組沒睡眠困擾勝算0.32(8/25) •Odds Ratio7.5(2.4/0.32)

    沒有壓力沒睡眠困擾勝算是有壓力的7.5倍

    Part 4

  • Measure of Effect

    • Risk Ratio / Odds Ratio

    – Not the same thing, but close enough

    • 暴露與不良結果的相關性 – RR 或 OR= 1有無暴露於危險因子中, 發生不良結果的可能性一樣

    – RR 或 OR > 1暴露於危險因子中導致不良結果的風險增加

    – RR 或 OR< 1暴露於危險因子者比未暴露更不可能發生不良結果

    • Common Rule

    – 病例對照研究(Case-control study)偏差(bias)較多, 當OR > 4 較有意義

    – 世代研究(Cohort study)較嚴謹, 但仍有偏差存在, RR > 3 時較有意義

    – 除考慮RR與OR的數值大小, 可利用信賴區間 (CI)來確認準確度

    當信賴區間越窄, 結果準確度越高

    Part 4

  • 辛普森詭論(Simpson’s Paradox)

    • Example: 入學審核有性別歧視? (E. H. Simpson, 1951)

    Part 4

    內容:在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

    電機工程

    男 女

    通過 30 10

    拒絕 30 10

    總和 60 20

    英文

    男 女

    通過 5 10

    拒絕 15 30

    總和 20 40

    合併

    男 女 總和

    通過 35 20 55

    拒絕 45 40 85

    總和 80 60 140

    +

    男女申請通過比例皆50% 男女申請通過比例皆33% 男>女

    男申請通過比例=44% 女申請通過比例=33%

    當潛在變數存在時,觀察到的關聯有可能是誤導的,辛普森詭論只是這項事實的一種極端形式!!

  • 研究結果要如何解讀?

    •媒體經常披露各式各樣的研究結果,通常還加上引人注目的標題,例如:

    咖啡喝多了對心臟不好 酒喝多 想護肝 來杯茶、咖啡 日本研究指出唱歌可以抗癌 低脂飲食無助防癌救心?

    有此一說維他命丸A、E越吃越早死!! …

  • 咖啡喝多了對心臟不好?

    臨床營養期刊說:一個人若每天喝超過一杯以上的咖啡,則當事人得到心臟病的機會會比別人高上許多!! (希臘某大學營養學者研究結果)

    IF=6.6

  • 咖啡喝多了對心臟不好? 每天喝多少咖啡?

    抽血

    約3000人

    身體健康成人(無心血管疾病)

    咖啡喝得越多,血液中的發炎因子含量越高!!

    目前的研究已知:當發炎因子多時,代表體內的血液循環系統有問題

    +

    推論

    咖啡喝得越多,對心臟越不好

    正相關

    因果

  • 咖啡喝多了對心臟不好?

    要點一:看研究不能只看標題,必須讀內文,瞭解研究怎麼做的!!

    要點二:兩件事情有正向關聯,不代表兩者有因果關係!!

  • 低脂飲食無助防癌救心? 2006.2.9 綜合外電報導(經過剪輯內容較粗略)

  • 低脂飲食無助防癌救心?

    JAMA :February 8, 2006, Vol 295, No. 6

    此研究為美國國家衛生研究院”婦女健康促進計畫”的一部分

    IF=30!!

    題外話辛苦是有代價的(N很大近五萬人, 長達八年蒐集資料)

  • 低脂飲食無助防癌救心?

    每天吃了什麼食物

    ?

    實驗組 19541人

    對照組 29294人

    •目標:改變飲食習慣(總熱量中只有20%來自脂肪) 增加蔬菜水果和穀類攝取量

    18+4*7=46次

    營養和健康: 美國人之飲食指南

    + + 道德勸說

    + + 每天吃了什麼食物

    ?

    Self-report

  • 低脂飲食無助防癌救心?

    要點三:當一項研究所需數據,必須依賴參與研究者自己提供時,其正確性值得審慎考量!!

  • 維他命丸A、E越吃越早死!! 2007.3.9 綜合外電報導(經過剪輯內容較粗略)

  • 維他命丸A、E越吃越早死!!

    Again辛苦是有代價的or N很大就好了

    JAMA : February 28, 2007, Vol 297, No. 8

    其中47個實驗(18.1萬人)分析後發現整體而言會使死亡率提高5%!! •β胡蘿蔔素提高7% •維他命A提高16% •維他命E提高4% •維他命C可能不影響or提高6% •硒減少10%

  • 維他命丸A、E越吃越早死!! • Meta analysis/整合分析/薈萃分析

    – 將現有的知識背景(base)加以組合。不管是已出版的論文或是原始未處理的數據,以統計技術合成所有的知識。所得到的結論是基於這些資料在過去的貢獻。

    – 在實證醫學(Evidence-Based Medicine, EBM)常被用到

    • 特色

    – 1.多個且具同樣主題研究的綜合分析

    – 2.利用統計方法予以客觀的量化數據

    • Concerns

    – 篩選標準該怎麼訂定沒有公認的準則 • 此例子中原本篩出的68個實驗和後來精挑的47個實驗結論不一致

  • 維他命丸A、E越吃越早死!!

    2010有其他學者重新審視該分析的做法,從68個實驗中選出66個,將實驗重新歸類(3類Primary/Secondary/Therapy)、重新定義outcome (區分Benefit(+)/Null(0)/Harm(-)),分析後發現: •依Outcome區分Benefit*24/Null*39/Harm*3 •不同類型實驗比較無充分證據顯示維他命補充劑是有益/有害!! [註]實驗分類 Primary降低健康人群中的死亡風險 Secondary減緩發病或預防復發事件和死亡率 Therapy治療,以提高生活質量,限制併發症和/或提供康復

  • 維他命丸A、E越吃越早死!!

    要點四:不要只看到一項研究結果,就當作事實來遵行,當研究結論和長期認知有違背時,更應存疑!!

    要點五:對於薈萃分析的結論,不妨保持保留態度!!

  • Review

    • 統計是什麼?

    • 統計跟醫學研究的關係?

    • 資料蒐集(母體vs樣本)

    • 醫學研究常用統計方法 –敘述統計、推論統計、差異比較

    –相關、迴歸分析、質性資料分析

    • 研究結果要如何解讀?

  • Reminder Key 統計思考 >> 統計方法

    聰明作推論的第一步,是瞭解你的數據及你想回答的問題

    PS 其他的請找統計專家!!

  • Reference

    • 統計與生活(國立台灣大學出版中心, 2010)

    • 你不能不懂的統計常識(天下文化, 2007)

    • 簡明生物統計學(2nd ed.)

    • Basic Statistics for the Health Sciences(5th ed.)

    • Reading Statistics and Research(5th ed.)

    • Understanding Statistics for Research Staff, Rachel Enriquez

    • Statistical guidelines for contributors to medical journals

    • Statistical errors in medical research –a review of common

    pitfalls(2007)

    • Applying the Right Statistics: Analyses of Measurement

    Studies(2003)

    • Misusage of statistics in medical research(2007)

  • 感謝聆聽 Q & A

    靜思語:知識要用心體會,才能變成自己的智慧。

  • Regression Example -- Body depth vs Total length

    Part 3

  • 比較 Multiple Regression Logistic Regression

    應變數 Y必須為連續性資料 Y必須為類別性資料(是/否)

    自變數 可為連續性或類別資料 類別資料需以虛擬變數 表示(Dummy variable)

    可為連續性或類別資料

    類別資料需設定參考組

    注意事項 K個水準的類別資料需設 K-1個虛擬自變數

    Ex:性別(0/1) 1個 血型(A/B/O/AB) 3個

    x1 x2 x3 x1 x2 x3

    A: ( 0 0 0 ) B: ( 1 0 0 )

    O: ( 0 1 0 ) AB: ( 0 0 1 )

    Odds Ratio 95% CI of Odds Ratio

    P value (Wald statistic)

    Accuracy of model=85.9%

    Nagelkerke R2

    Linear Regression vs Logistic Regression

  • 資料型態與適用統計方法

  • 有母數與無母數統計方法之比較

    比較 方法 有母數統計 無母數統計

    適用對象 常態母體 非常態或未知母體

    推論對象 母體參數 1. 母體參數 2. 非母體參數(適合性、獨立性、

    一致性之檢定)

    適用尺度 等距、比率 名目、順序、等距或比率

    優點 1. 在等距或比率尺度時,其準確度較高。

    2. 母體已知時,效率較高。 3. 小樣本下,準確度較高。

    1. 無需假設母體為常態,因此應用較為廣泛。

    2. 各種尺度皆為適用。 3. 計算簡單且快速。 4. 在小樣本時特別適用於非常態

    母體。

    缺點 1. 需假設母體為常態,因此應用較有限。

    2. 無法適用於名目與順序尺度。

    1. 在等距或比率尺度時,其準確度較低。

    2. 因樣本較小,檢定誤差相對較高。

    3. 母體已知時,效率相對較低。

  • Research Design •只介紹同時有實驗組與對照組研究設計(最常見)

    •每一種研究設計使用的統計方法跟風險測量不盡相同

  • 回溯性研究(Retrospective Study)

    •回溯性研究 –最常見的設計為病例對照研究,即先選定病例組的人數,然後再決定對照組的人數,然後再回溯兩組是否有暴露在某個危險因子之下,進而探討該危險因子是否與疾病有所關聯。

    –以抽煙跟肺癌的例子,我們可先挑選50位罹患肺癌的病人,接著按照一定的比例,例如1:3的比例(比例可自行決定),收取150位未罹患肺癌的病人資料,然後回顧這200位病人的抽煙史,結果可能顯示病例組有70%曾經抽煙而對照組僅有40%曾經抽過煙,接著透過統計分析來檢定抽煙跟肺癌是否具有關聯性。

    –優勢是速度比較快,只需查病歷資料即可完成,而且因為不是向前收案,因此成本便宜而且不會有失去追蹤的問題。病例對照研究也特別適合用於研究罕見的疾病,相較之下,世代研究若追蹤很罕見的疾病則不適合,例如追蹤10年才少數幾位個案發生疾病,會導致統計分析上的檢定力(power)薄弱。反之病例對照研究的劣勢是不適合研究罕見的暴露因子。

  • 世代研究(Cohort Study)

    •世代研究 –研究一開始將研究對象(不一定是有病的人)隨機地分派至兩組,其中一組是暴露組(exposed group)另一組則是未暴露組(unexposed group),至於暴露的因子則是研究者關心的變項

    –例如:抽煙與肺癌的關係或居住在高壓電附近與腦部病變的關係。然後往後追蹤一段期間,就會觀察到暴露組與未暴露組都有人發生事件(event,例如疾病)

    –此時就可計算兩組發生事件比例的比較,例如追蹤10年後抽煙組發生肺癌比例為3%而未抽煙組罹患肺癌比例為1%,接著進而透過統計分析評估究竟暴露因子(抽煙)是否與事件(肺癌)有關聯。

    –世代研究是非常具有因果推論效力的研究設計,但是非常耗時也非常耗費成本,以抽煙跟肺癌來說,可能至少的追蹤期要10年以上才有意義。另外一方面也因為追蹤期很長,研究參與對象會有失去追蹤(lost to follow up)的問題。

  • 臨床實驗(Clinical Trials)

    • 臨床實驗(或稱作臨床試驗) – 包括平行設計(Parallel Trial)及交叉設計(Cross-over),而以平行設計較常見/簡單

    • 平行設計(Parallel Trial) – 類似於心理教育領域的準實驗設計(Quasi-experimental design,或稱類實驗),即一開始將研究對象隨機分派(random assign)為治療組與對照組。

    – 例如以藥廠的臨床藥物實驗,想要比較原廠及台廠的藥物療效比較,則一開始即隨機將自願參加病人分成兩組,然後開始進行藥物使用,最後評估療效,例如檢定台廠藥物成功治癒的比例與原廠藥物是否有差別。

    – 不過在隨機分派的過程中也有可能兩組病人的基本特性差異很大,例如一組剛好年齡很大另外一組比較年輕,因此在分派過程可適當考慮重要的基本特性(例如性別、年齡層、疾病嚴重分級)來作隨機的分派,即作分層隨機分派(stratified randomization),以確保兩組病人的基本資料是同質的(homogeneous)。

    • 交叉設計(Cross-over)