如何利用excel進行統計分析hualien.tzuchi.com.tw/epi-stat/images/class/2015/2015... ·...
TRANSCRIPT
課程目標
• 讓同仁能熟悉利用Excel進行下列分析
– 描述性統計統計量、交叉表、統計圖
– 推論性統計相關分析、差異分析、迴歸分析
[註]此次課程講義內容皆以Excel 2007進行示範教學!!
Back to basic!!
醫學研究常用統計方法• 針對醫學護理類搜尋20~30篇論文,將其統計方法整理如下:
80/20法則
學會•描述統計•ANOVA
•t檢定/卡方檢定•皮爾森相關•迴歸分析就具備九成功力!!
如何利用Excel進行統計分析
• Step 1.掌握研究的主要分析目的
• Step 2.依資料特性選擇合適的統計方法
• Step 3.利用Excel提供之相關功能完成分析
– 樞紐分析
– 圖表
– 統計函數
– 分析工具箱
– 巨集
• 自己或他人已撰寫完成之VBA巨集
公開版眾所周知
隱藏版消失的密室
終極版玩家典藏
Outline
• 準備工作
• 如何利用Excel進行”描述性統計分析”
– Unit 1.統計量、交叉表
– Unit 2.統計圖
• 如何利用Excel進行”推論性統計分析”
– Unit 3.相關分析
– Unit 4.差異分析
– Unit 5.迴歸分析
0.準備工作先打開”消失的密室”
準備工作1安裝分析工具箱Windows圖案Excel選項增益集執行選擇分析工具箱
1
2
3
4
5
準備工作2啟動巨集功能Windows圖案Excel選項信任中心設定啟用所有巨集
1
2
點選「信任中心設定」
3
點選「啟用所有巨集」
4
範例資料說明• 研究主題
– “門診病人對醫療服務品質的看法”(2006)
• 問卷設計四大構面: (共19題)
– 醫療專業(5)
– 等候時間(4)
– 硬體設施(6)
– 人員服務(4)
範例資料蒐集方式說明
• 抽樣方法便利抽樣
• 資料蒐集
– 利用醫院門診時段收集問卷
– 為了避免在相同門診時段重覆收案及考量收案代表性• 週一至週五上、下午的門診時段到該院批價領藥的等候區,隨機選取門診病人填答問卷並當場回收問卷,年幼的病人則透過親人來回答問卷內容。
– 盡量考慮蒐集不同科別門診病患(降低selection bias)
• 問卷回收狀況
– 問卷發放時間2006/9/1~2006/12/31
– 總共回收502份問卷,其中427份為有效問卷(85.06%)
範例資料(SPSS)
資料經coding後輸入,反向題有轉向計分
如何利用EXCEL進行PART I.”描述性統計分析”?
描述統計-- 統計量 & 統計圖
統計量集中趨勢、離散趨勢•Mean
•Median
•Mode
•Max/Min
•Quartile(Q1,Q3)
•Range
•Standard Deviation
目的:讓分析者可以在短時間內瞭解資料的分佈狀況與訊息Histogram
Pie Chart
Boxplot
”描述性統計分析”
-- UNIT 1.統計量
集中趨勢量數vs差異量數
•集中趨勢量數平均數、中位數、眾數等統計量•差異量數全距、四分位差、標準差等統計量
A
B
μA μB
RA
RB
平均數/中位數/眾數與資料分佈(偏態)的關係
•偏態係數
–(a)左偏、(b)右偏、(c)對稱
–注意:偏態的方向描述是極端值方向
(c)
平均數=中位=眾數
平均數 中位數 眾數 眾數 中位數 平均數
(a) (b)
利用Excel計算統計量(1/2)
Excel資料資料分析選擇”敘述統計”相關設定
1
2
3
4
利用Excel計算統計量(2/2)
針對所選取之資料可自動計算出常用之統計量!!
”描述性統計分析”
-- UNIT 1.交叉表/列聯表
利用Excel進行交叉分析(1/3)
•樞紐分析表利用表格的方式幫助分析者掌握資料分佈情況(次數、百分比、統計量)
快速檢視類別變項間的相關性
1
2
Excel選取資料插入樞紐分析表相關設定
利用Excel進行交叉分析(2/3)設定包括:列、欄及篩選欄位設定,值的呈現方式
利用Excel進行交叉分析(3/3)
值的呈現方式可選擇”值欄位設定”顯示方式
Count列百分比
”描述性統計分析”
-- UNIT 2.統計圖
常見統計圖形Bar Graph
Boxplot
Histogram
Line Graph
不同類別間之差異 單組資料之分佈
不同類別間之差異 時間變化趨勢
Pie Chart
各類別所佔比例
長條圖(Bar Graph)
Excel選取資料插入直條圖相關設定
1
2
1
2
版面配置可進行標籤、座標軸、誤差線等調整
長條圖(Bar Graph)範例針對課程練習資料利用樞紐分析計算統計量後繪製
直方圖(Histogram)
Excel資料資料分析直方圖相關設定1
2
1
2
3
直方圖(Histogram)範例點選Bar按右鍵選擇資料數列格式設定”無間距”
1
2
3
盒形圖(Box Plot)
Excel將資料複製到Excel sheet即可自動繪製!!
(應用他人撰寫之巨集)
1 2
參考網頁 http://www.vertex42.com/ExcelTemplates/statistics.html
盒形圖(Box Plot)範例
此圖形可用於比較不同組資料測量結果之散佈情況
折線圖(Line Graph)
Excel選取資料插入折線圖相關設定
1
2
1
2
版面配置可進行標籤、座標軸、誤差線等調整
折線圖(Line Graph)範例
圓形圖(Pie Chart)
Excel選取資料插入圓形圖相關設定
1
2
1
2
版面配置可進行標題、圖例、資料標籤等調整
圓形圖(Pie Chart)範例
如何利用EXCEL進行PART II.”推論性統計分析”?
母體與樣本
PopulationX1, X2,…,XN
Samplex1,…,xn
Parameter Statistics
推論
Inference
描述
Descriptive
Sampling
Experiment
母體 樣本
統計量參數
H0 vs H1
”推論性統計分析”
-- UNIT 3.相關分析
質性(類別)資料的分析• 質性(類別)資料特質
– 不能作個人量化量測,它是關於有沒有存在某種特質的資料• 例如:有無抽菸/喝酒/嚼檳榔
– 依感興趣的特質將資料分組,例如:高血壓、老年人、BMI
觀測到的是次數,呈現方式為列聯表(Contingency Table)
• 關心什麼?
– 兩個變數有沒有相關?獨立性
– 不同族群中某項特質的分佈是否相似?同質性
– 實驗組vs對照組治療成功的比例有差?比例差異顯著性
危險因子 有疾病 沒有疾病 總計
有暴露 a b a+b
沒有暴露 c d c+d
分析方法• 樣本為獨立樣本卡方檢定
<注意事項>
– 2X2列聯表,所有格子的期望值都要大於5
– 更大的列聯表,各格的期望值不要小於1,且期望值小於5
的格數不要超過20%
– 如果發生上述情況,應採用Fisher Exact Test
• 樣本為配對或非獨立McNemar’s Test
– 適用時機:Matched 、Before-and-after design
發生車禍前後是否習慣性繫安全帶?
1
2
範例--卡方檢定Example:欲探討性別與睡眠困擾之相關性
觀測值(O) 期望值(E)
•性別和睡眠困擾間是有相關性•男>女
獨立樣本
jiij PPnE ..
利用Excel進行卡方檢定
Excel輸入資料利用統計函數即可計算P值與檢定統計量(X2)
可利用CHITEST進行計算
可利用CHIINV或公式進行計算
範例--McNemar TestExample: 醫院想分析評鑑與員工發生睡眠困擾是否有關
假設去年沒有評鑑,今年有評鑑相依樣本
a b
c d
•P值=0.039
•評鑑顯著增加睡眠困擾的比例
評鑑前
評鑑後
利用Excel進行McNemar檢定Excel輸入資料利用統計函數即可計算P值與檢定統計量(X2)
可利用CHITEST進行計算
可利用CHIDIST進行計算
”推論性統計分析”
-- UNIT 4.差異分析
差異比較(1/2)• 統計學家發明了許多統計檢定方法
– 單一樣本檢定平均數Z test(σ已知), T test(σ未知)
– 兩組樣本檢定平均數Independent T Test (獨立)
Paired T Test (相依)
中位數Wilcoxon rank-sum test (獨立)
Wilcoxon signed-rank test (相依)
Mean 有差異
A B
Variation 有差異
A
B
較受重視
差異比較(2/2)– 兩組或多組樣本檢定平均數
• 方法一、利用T Test進行兩兩比較”過度檢定”(overtesting)
需要選擇合適的顯著水準,讓Overall Type I error控制
• 方法二、變異數分析(ANOVA, F-test)
檢定所有組別平均數是否有顯著差異的整體量測方式
前提假設
1. 所有觀測值是獨立的每個觀測值彼此不相關
2. 每一組內觀測值呈常態分布
3. 變異同質性每一組內變異數與他組相同
ANOVA只要樣本數夠大、每組樣本數相近效果就不錯!!
For 2 Groups
F=t2
利用Excel進行Independent T Test(1/2)
Excel資料資料分析選擇”t檢定”相關設定
1
2
3
利用Excel進行Independent T Test(2/2)
自動計算檢定統計量及P-value男/女年紀有顯著差異!!
Example:檢定受訪對象(男vs女)之平均年齡是否相等!!
利用Excel進行Paired T Test(1/2)
Excel資料資料分析選擇”t檢定(成對)”相關設定
1
2
3
利用Excel進行Paired T Test(2/2)
自動計算檢定統計量及P-value減重效果顯著超過3kg!!
Example:檢定減重前後體重是否有顯著降低3公斤以上!!
利用Excel進行ANOVA(1/3)
Excel資料資料分析選擇”單因子變異數分析”
相關設定
1
2
3
利用Excel進行ANOVA(2/3)Example:比較四台機器的每小時平均產能是否相同!!
利用Excel進行ANOVA(3/3)
F檢定之P-value=0.018<0.05不同機器產能不盡相同!!
”推論性統計分析”
-- UNIT 5.迴歸分析
兩個連續變數之關係
• 使用時機
– 研究常需同時審視兩個變項的資料(ex:身高、體重)
• 兩個變項之間是否有關連(relationship)
• 關連的強弱
• 統計圖形散佈圖(Scatter Plot)
• 統計量相關係數(Correlation Coefficient)
– 瞭解兩個變項之間的線性關係
當兩個變項之間存有某種連動的變化趨勢,則稱他們之間是相關的
相關性的強弱完全正相關 完全負相關
正相關 負相關
沒有直線關係沒有直線關係但有非線性相關
可用相關係數(r)的大小進行判斷越接近+1 or -1代表線性相關程度越強!!
各種相關係數
• 皮爾森相關係數(Pearson correlation coefficient)
– 主要是測量兩連續變數間關係的強弱
• 斯皮爾曼等級相關係數(Spearman rank C.C.)
– 主要是測量兩等級變項間關係的強弱
需符合常態假設
•Spearman等級相關係數屬於無母數的統計方法它對離群質較不敏感!!
•通常用於非常態之連續變數相關或是兩個序位變項間的一致性!!
不需常態假設
迴歸分析(Regression)• 迴歸(regression)
– 以一個自變項(independent variable)的變化來預測或解釋另一個應變項(dependent)的變化
<例如>
• 1.以身高來預測體重
• 2.以指考成績來預測大一第一學期的成績
• 3.以年齡來預測血中膽固醇濃度
• 4.預測食鹽攝取量對血壓值的影響
• 5.以氣溫來預測飲料的銷售量
相關係數與迴歸分析
利用Excel進行迴歸分析(1/3)
Excel資料資料分析選擇”迴歸”相關設定
1
2
3
利用Excel進行迴歸分析(2/3)Example:
某運輸公司需分析司機每日行駛哩數與時間的關係!!
利用Excel進行迴歸分析(3/3)
檢定之P-value=0.008<0.05行駛哩數與時間顯著相關!!
y = 0.0671x + 1.1285R² = 0.6014
0
1
2
3
4
5
6
7
8
9
10
0 20 40 60 80 100 120
行駛時間
(Y)
行駛哩數(X1)
行駛時間 vs 行駛哩數
行駛時間(Y)
線性(行駛時間(Y))
邏輯斯迴歸分析• 邏輯斯迴歸(Logistic Regression)
– 當我們考慮的迴歸模型中依變數為二元類別資料(ex:有病/
沒病)時則此迴歸模型稱為邏輯斯迴歸
– 自變數可為連續型或類別型變數
– 當自變數只有一個稱為簡單邏輯斯迴歸(Simple)
– 當自變數超過一個以上稱為多元或複邏輯斯迴歸
範例--簡單邏輯斯迴歸(1/2)
•要注意應變數(Y)的coding!!
•模型探討的是Internal Value=1的發生機率i.e. 發生睡眠困擾的機率
•年紀與是否有睡眠困擾是顯著相關!!
•年紀每增加一歲,有睡眠困擾的勝算增加為1.099倍(即exp(0.095))!!
X為連續型
範例--簡單邏輯斯迴歸(2/2)
X為類別型X因為有3類所以需要產生兩個虛擬變數!!
利用Excel進行邏輯斯迴歸分析(1/2)
Excel將資料複製到Excel sheet按”Logistic”即可!!
(應用他人撰寫之巨集)
[註]A欄為Y之資料內容/C~H欄則依序為X1~X6之資料內容!!
1
2
利用Excel進行邏輯斯迴歸分析(2/2)
Example:利用高中學生智商預測物理成績是否及格!!
資料共有55位及格/45位不及格
學生智商(X1)越高物理越容易及格(智商每增加一單位,物理成績及格的機率是原來的1.25倍)!!
資料型態與適用統計方法
欲檢定的變項/依變項(Y)
欲進行比較的組別數/自變項(X)
類別
連續兩組 三組或以上
獨立樣本 相依樣本 獨立樣本 相依樣本
連續資料 欲檢定的情形:集中趨勢(central tendency) 相關分析
常態假設或中央極限定理成立
Independent
t-testPaired t-test ANOVA
Repeated
measures
ANOVA
皮爾森相關Linear
regression
常態假設或中央極限定理不成立
Wilcoxon
rank-sum
test
Wilcoxon
signed-rank
test
Kruskal-
Wallis test
Friedman
test
Spearman’s
correlation
類別資料 欲檢定的情形:關聯性(association)
兩個類別卡方檢定
(Yate修正)
McNemar’s
test卡方檢定
Cochran’s Q
test
Logistic
regression
三類以上 卡方檢定Cochran’s Q
test卡方檢定
Cochran’s Q
test
Multilnomial/
Ordinal Logistic
regression
Review
• 準備工作
• 如何利用Excel進行”描述性統計分析”
– Unit 1.統計量、交叉表
– Unit 2.統計圖
• 如何利用Excel進行”推論性統計分析”
– Unit 3.相關分析
– Unit 4.差異分析
– Unit 5.迴歸分析
Reference• 統計學與Excel資料分析之實習應用(王文中, 2012)
• 統計分析實務與應用:Excel 2007(王鴻儒, 2008)
感謝聆聽Q & A
靜思語:知識要用心體會,才能變成自己的智慧。