生物統計學 - ncfser.t · 統計概念 (描述統計可經由描述數據過程中,產生問...
TRANSCRIPT
-
1
生物統計學
江大雄
師大健康促進與衛生教育研究所
統計概念
統計可分「估計(Estimation)」和「推論(Inference)」
兩大部份。
前者為估算平均數、標準差與百分比等。後者為
「假說檢定」,常會使用到各種不同的檢定方法。
與前者有關的統計稱為「描述性統計」,與後者有
關的統計稱為「推論性統計」。
-
2
統計概念
「描述統計」可經由描述數據過程中,產生問
題或假說。
「分析統計」的目的則在測試前者產生的問題
或假說是否屬實。其結果可用來解釋一個事實
或現象,或用來做預測用。
母數(Parameter)與統計值(Statistics)
描述母群體(population)的指標參數稱為母數
(parameter)。
描述樣本(sample)的指標參數稱為統計值
(statistics)。
母數通常是指平均數 m 和變異數s2,其相對應
的樣本統計值為 和s2。 x
-
3
無母數(non-parameter)
指的是中位數(median)、極小值(minimum)、極
大值(maximum)、四分位數(quartile)、十分位
數(decile)、百分位數(percentile)等。
針對序數(rank)而言。
不牽涉變項的分佈。
描述性統計–變項
變項(Variable,Covariate,Field,String):
類別變項(Categorical variable)
- 命名變項(Nominal variable):互斥,不能比大
小。如性別、血型。【頻率、次數與百分比】
- 序位變項(Ordinal variable):互斥,可比大小,
但單位間不一定等距,如教育程度、成績。【頻
率、次數與百分比】
等距變項(Interval variable):如長度、重量。
【平均數與變異數】
-
4
描述性統計–變項
變項(Variable,Covariate,Field,String):
連續性變項(continuous variable)與非連續性變
項(discrete variable):等距變項為連續性變項,
命名變項與序位變項為非連續性變項。
自變項(independent variable)與依變項
(dependent variable):自變項有解釋或預測的
功能。依變項則是隨自變項變動產生的反應或
結果變項。
集中量數(Central Tendency)
算術平均數(Arithmetic mean):易受極端值影響。
=
為母群體平均數 m 之無偏差估計值。
例:(120+80+90+110+95)/5 = 99 mmHg
加權平均數(Weighted mean): =
f 為權數。
(3*120+2*80+5*90+1*110+2*95)/13 = 98 mmHg
X
N
x
x
x
f
fX
-
5
集中量數(Central Tendency)
中位數(Median):若資料中有若干個極大或極
小值時,以中位數較能代表全體數值之集中量
數。(序數rank)
若個案數(n)為奇數,則中位數為第(n+1)/2個觀
測值。若個案數(n)為偶數,則中位數為第n/2
與n+2/2個觀測值之平均值。
80 90 95 110 120
集中量數(Central Tendency)
眾數(Mode):出現頻率最多之值,又稱為流行
值,可能會有好幾個。較適於類別變項。若以
圖形表示所有數值,則在最高峰處(peak)的對應
數值為眾數。
若資料屬於類比變項,則要先計算那一組人數
最多,再取該組組距的中點為眾數。
-
6
集中量數(Central Tendency)
幾何平均數(Geometric mean):通常用於微生
物或血清資料的研究,可以用來表示平均改變
率、平均生長率和平均比率。
GM x x x x antin
xn in
i
n
n
1 21
1log log
集中量數(Central Tendency)
盤尼西林抑制淋菌生長的最低濃度
幾何平均數
= antilog{[(21*log(0.03125)+6*log(0.0625)+…+3*log(1.0)]/74}
= 0.0143 mg/ml
濃度(mg/ml)
頻率 濃度(mg/ml)
頻率
0.03125 21 0.250 19
0.0625 6 0.50 17
0.125 8 1.0 3
-
7
變異量數(發散Dispersion)
全距(Range):為群體中最大值與最小值的差。
平均差(mean deviation):各數值與平均值之相差值的平
均數。其公式為:
平均差 =
變異數(Variance):將每個數值減以平均值後平方相加之
總和(sum of square,SS),再除以個案數。
x x
n
變異量數(發散Dispersion)
母群體變異數 σ2 =
樣本變異數 s2 =
※ 為估計值,所以樣本數 n要減1。s2為σ2之無偏差
估計值。n-1稱為自由度(degree of freedom)
標準差(Standard deviation):由變異數開平方根而來,族群
的標準差為σ;樣本之標準差為 s。針對變項的一群數值而
言。
2
XN
m
2
1
x xn
x
sum of square
-
8
變異量數(發散Dispersion)
標準誤(standard error, SE):標準差除以
s/ 係針對一群母群體平均數的分佈而言。
s / 係針對一群母群體平均數的分佈而言。
中央極限定理(central theorem limit):
重複取樣,每個樣本的樣本數至少30,則這
些樣本的平均數呈現常態分佈。
n
n
n
變異量數(發散Dispersion)
變異係數(Coefficient of Variance, C.V.):
( ) *100%
主要作用為比較二種不同變項的變異情形,若CV
值愈大,表示測量愈不好。
CV值一般以不超過30%為佳,若超過則不宜以
「平均值+標準差」來表達變項,應以全距及最大
和最小值來表示。
例: 10.3+4.4 , 7.9+1.3 , 6.5+11.2
s
m or
S
x
-
9
17
Percentile, Quartile
Percentile: e.g. 25th Percentile, 1st quartile
Shapes of the Variable Distribution
任何連續變項都能計算它的集中量數和變異量
數,但無法描述整個資料的狀況。
Three common shapes of frequency distributions:
Symmetrical
and bell shaped
Positively skewed or
skewed to the right
Negatively skewed or
skewed to the left
A B C
-
10
變項之分佈(distribution)
• 對稱 (symmetric)
– Left tail looks like right tail
– Mean = Median = Mode
Mean Median Mode
變項之分佈(distribution)
偏右 (right skewed, positively skewed)
Long right tail
Mean > Median
Mean Mode
Median
-
11
變項之分佈(distribution)
• 偏左 (left skewed, negatively skewed)
– Long left tail
– Mean < Median
Mode Median Mean
變項之分佈(distribution)
常態分佈(normal distribution):X ~ N(m, s2)
Mean
Standard Deviation Standard Deviation
Mean
-
12
Normal distribution
平均數(期望值)與變異數
變項內的每一個數減去一個正數,則平均數減少一個正數,變異數不改變。圖形向左移一個正數單位。
變項內的每一個數加上一個正數,則平均數增加一個正數,變異數不改變。圖形向右移一個正數單位。
E(X-a) = E(X) – a = m – a (圖形左右移動);
Var(X-a) = Var(X) = s2 。
變項內的每一個數乘以一個常數,則平均數乘以一個常數,變異數增加為常數的平方倍。若常數大於1,則圖形變為寬扁。若常數小於1,則圖形變為尖聳。
Var(3X) = 32*Var(X) = 9 s2 (圖形變寬扁)
Var(X/3) = (1/3)2*Var(X) = (1/9) s2 (圖形變高聳)
http://upload.wikimedia.org/wikipedia/commons/1/1b/Normal_distribution_pdf.png
-
13
Z distribution:X~N(0, 1)
Standard Score (Z) = (x-m)/s或= (x - )/s
x
Standard Normal Scores (Z值)
Z = 1:觀察值位於平均值右側1個標準差的位置
Z = 2 :觀察值位於平均值右側2個標準差的位置
Z = -1:觀察值位於平均值左側1個標準差的位置
Z = -2:觀察值位於平均值左側2個標準差的位置
-
14
Z值的計算
假設男性血壓平均值為125mmHg,標準差為
14mmHg。
若一男性血壓值為167mmHg,則其Z值為
(167-125)/14 = 3.0。
若另一男性血壓值為97mmHg,則其Z值為
(97-125)/14 = -2.0。
Z值的意義與運用
Within Z SDs of the mean
More than Z SDs above the mean
More than Z SDs above or below the mean
Z
1.0
2.0 2.5 3.0
68.27%
95.45% 98.76% 99.73%
15.87%
2.28% 0.62 % 0.13%
31.73%
4.55% 1.24% 0.27%
Within Z SDs of the mean
More than Z SDs above the mean
More than Z SDs above or below the mean
Z
1.0
2.0 2.5 3.0
68.27%
95.45% 98.76% 99.73%
15.87%
2.28% 0.62 % 0.13%
31.73%
4.55% 1.24% 0.27%
-
15
Binormial distribution X~B(m=np, s2=np(1-p))
Binomial PDF and Normal approximation for n=6 and p=0.5.
c2 distribution
http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png
-
16
變項的表達-折線圖
變項的表達-XY散佈圖 (scattergram)
-
17
變項的表達-日字圖(Box plot)
變項的表達-莖葉圖 (Stem and leaf plot)
-
18
推論性統計
統計假設:
原始(虛無)假設(H0)與替代假設(H
1)
雙尾假設:H0:m
1 = m
2; H
1:m
1 m
2
單尾假設:H0:m1 = m2; H1:m1 > m2
單尾假設:H0:m1 = m2; H1:m1 < m2
推論性統計
值:type I error或significant level。若原始假設H0是正確
的,檢定結果卻排除了原始假設H0,此種誤差稱type I
error,其大小以值表示。通常值的大小不超過0.05。
b值:type II error。若替代假設H1是正確的,檢定結果卻
排除了替代假設H1,此種誤差稱type II error,其大小以b
值表示。通常b值的大小不超過0.20。(1-b)稱為檢定方法的
效力(power),效力在檢定時,至少要不小於80%。
-
19
推論性統計
Ho HA
Reject
Ho
Not
Reject Ho
D
E
C
I
S
I
O
N
TRUTH
Type I Error
-level
Type II Error
b
Power
1- b
Ho HA
Reject
Ho
Not
Reject Ho
D
E
C
I
S
I
O
N
TRUTH
Type I Error
-level
Type II Error
b
Power
1- b
推論性統計
(1-)信賴區間(Confidence Interval,CI):
(1-) CI of m: Z(1-/2)* s (雙尾)
Z(1-) * s (單尾)
※ =0.05,則為95%信賴區間。
※ 若為樣本的95%信賴區間,則以95%
Confidence Limit (CL) 表示。
x
x
-
20
推論性統計
若變項為線性分佈,則其95%信賴區間對平均數
呈對稱分佈。如:平均數為3.9, 95%信賴區間為
(1.6, 6.2)。
若變項為非線性分佈,則其95%信賴區間對平均
數不呈對稱分佈。如:Odds ratio 0.88之95%信賴
區間為(0.32, 2.40)。
40
接受H0區和排除H0區 (acceptance & rejection region)
-
21
推論性統計
自由度(degree of freedom, df):每一個樣本的
df 為1,每一個估計的母數值也為1。
p值 (p value):在原始假設下,檢定值所在之
尾端區面積。
p < 0.05代表有統計顯著意義 (statistically
significant) 。
42
mean m1< null mean m0
mean m1 null mean m0
-
22
母數檢定方法 (parameter test, distribution test)
Z檢定:
檢定樣本平均數和母群體平均數之差異。
H0 : m = m0,H1 : m m0。
Z = ( - m0)/(s / )
檢定兩個比率間之差異。(可用c2 檢定取代)
H0 : p1 = p2,H1 : p1 p2 。
x n
Z 檢定
美國21~40歲婦女的膽固醇平均值為190 mg/dL,標準差為40 mg/dL。選取200位同年齡群亞洲移民婦女,測得她們的膽固醇平均值為181.52 mg/dL。比較移民婦女與美國婦女的膽固醇平均值有無差異?
H0 : m = m0 = 190,H1 : m m0 (= 190)
Z = (181.52-190)/(40/ ) = -3.00
-3.00 < Z0.025(= -1.96) → 排除原始假設
P value = 2*(-3.00) = 0.003 < (=0.05)
200
-
23
Student’s t 檢定
比較兩個獨立樣本的平均數。
H0 : m1 = m2,H1 : m1 m2
或 H0 : m1 - m2 = 0,H1 : m1 - m2 0
兩個獨立樣本都要有常態分佈
測試是否有相同的變異數分佈(Bartlett’s test)
t test with equal variance (同質性)
t test with unequal variance (異質性)
樣本同質性?異質性?
-
24
Bartlett’s 檢定(測變異數是否相同?)
H0 : = ,H1 :
若Bartlett 檢定的p值>0.05,表示兩個樣本為同質性。
比較這兩個樣本的平均數要使用有同質性的t檢定(t test
with equal variance)。
若Bartlett 檢定的p值
-
25
Student’s t 檢定
比較抽菸者65人和非抽菸者589人的用力呼氣
量(Forced Expiroatory Volume, FEV)。
50
Student’s t test with equal variance
Pooled variance
-
26
Student’s t test with unequal variance
修正degree of freedom
Student’s t 檢定(Using FEV data)
抽菸者和無抽菸者的FEV平均數無統計顯著差異(P>0.05).
-
27
Paired t test (before-after test)
自己當做自己的對照組,減少個案間的差異。也
可減少樣本數。
10位婦女使用避孕丸前後,血壓有無增加?
H0 : = 0,H1 : 0,where
= (Sdi)/n
dj: 使用避孕丸後的血壓增減值
d d
d
Paired t test
BP Before OC BP After OC After-Before
1. 115 128 13
2. 112 115 3
3. 107 106 -1
4. 119 128 9
5. 115 122 7
6. 138 145 7
7. 126 132 6
8. 105 109 4
9. 104 102 -2
10. 115 117 2
Sample
Mean: 115.6 120.4 4.8 (SD, 4.6 mmHg)
-
28
Paired t test
tpaired = ( - 0)/ (4.6/ ) = 4.8/1.45 = 3.30
3.30稱為 t 檢定值,自由度=10-1=9,
p = 0.0089 < 0.05
避孕藥的使用會影響血壓。
10d
Pearson c2 test (卡方檢定)
觀查值表(Observed Table)
D: 有病; :無病
E:有暴露; :無暴露
D 合計
E a b a+b
c d c+d
合計 a+c b+d a+b+c+d=n
D
E
D
E
-
29
Pearson c2 test (卡方檢定)
期望值表(Expected Table)
D 合計
E (a+b)*(a+c)/n (a+b)*(b+d)/n a+b
(c+d)*(a+c)/n (c+d)*(b+d)/n c+d
合計 a+c b+d a+b+c+d=n
D
E
Pearson c2 test (卡方檢定)
用來做類別資料分析。
c2 =
R*C表:習慣上自變項(Column)在上,依變項
(Row)在左。
自由度(df) = (R-1)*(C-1)
CR
E
EO*
1
2
)(
-
30
生魚片 有病 沒病 合計
有吃 43 11 54
沒吃 3 18 21
合計 46 29 75
生魚片 有病 沒病 合計
有吃 33 21 54
沒吃 13 8 21
合計 46 29 75
期望值表
觀查值表
= [(43-33)2 / 33] + [(11-21) 2 / 21]
+ [(3-13)2 / 13] + [(18-8)2 / 8]
= 27.984 ~ c21, 0.975
P值 = 0.0000002
H0 : p1 = p2,H1 : p1 p2
p1 → p1 = 43/46 = 93.5%
p2 → p2 = 11/29 = 37.9%
測試兩個獨立比率是否相同
生魚片 有病 沒病 合計
有吃 43 11 54
沒吃 3 18 21
合計 46 29 75
觀查值表
生魚片 有病 沒病 合計
有吃 33 21 54
沒吃 13 8 21
合計 46 29 75
期望值表
H0 : p11 = p‧1* p 1‧
H1 : p11 p‧1* p 1‧
測試兩個變項是否相關
P‧1 → p‧1 = 46/75 = 61.3%
P1‧ → p1‧ = 54/75 = 72.0%
P11 → p11 = 43/75 = 57.3%
= [(43-33)2 / 33] + [(11-21) 2 / 21]
+ [(3-13)2 / 13] + [(18-8)2 / 8]
= 27.984 ~ c21, 0.975
P值 = 0.0000002
-
31
Yate’s corrected c2 test (葉氏修正c2檢定)
c2yate’s =
適用於中等大小樣本。
若c2檢定呈現無統計顯著意義,但葉氏修正c2
檢定呈現統計顯著意義,則採用葉氏修正c2檢
定的結果。
CR
E
EO*
1
2
)5.0|(|
Fisher’s exact test (費雪氏確實檢定)
當R*C格數中有超過20%格數的預期值小於5
時,使用此檢定法。
-
32
線性迴歸 (linear regression analysis)
簡單線性迴歸(Simple linear regression):自變項
及依變項皆為等距變項,使用單一自變項解釋或
預測單一依變項。
樣本迴歸方程式 Yi=b0+b1Xi+i;一般寫成
Y=b0+b1X+。b0:截距;b1:迴歸係數;i:抽
樣誤差
三個重要假設:Yi要相互獨立;有相同之分佈;
i ~ N(0,s2)。
64
簡單線性迴歸 (Simple linear regression analysis)
年齡每增加一歲,就增加0.222公升的FEV值。
-
33
線性迴歸 (linear regression analysis)
複線性迴歸(Multiple linear regression):用多個
自變項來解釋或預測一個依變項。 例:探討
年齡、體重、性別、血型、與收縮壓之關係。
迴歸方程式:Yi=b0+b1X1i+b2X2i +… +bpXpi +i
類別變項需轉換成擬似變項(dummy variable):
需設(K-1)個擬似變項。
66
複線性迴歸 (Multiple linear regression analysis)
控制身高、性別和抽菸狀態後,
年齡每增加一歲,就增加0.049公升的FEV值。
-
34
變異數分析(Analysis of Variance)
用在比較多個平均數。若F test結果顯示沒有統
計差異,則不需要進一步做多個平均數間之比
較。否則,要做如:Scheffe test;Tukey test;
Bonferroni test等之多個平均數檢定法。
變異數分析(Analysis of Variance)
3,000多人依其抽煙狀況分為六組:Nonsmokers
(NS), Passive smokers (PS), Non-inhaling
smokers (NI), Light smokers (LS), Moderate
smokers (MS), Heavy smokers (HS)。
除不吸入組取50人外,其他組各抽200人。測量
這些人的FEF (Forced Expiratory Flow)。
-
35
變異數分析(Analysis of Variance)
FEF Da ta for S mo k ing and N on-Sm ok in g Ma les
Mea n FEF S D FEF
G roup (L /s) (L/s ) n
NS 3.7 8 0 .79 20 0
P S 3.3 0 0 .77 20 0
NI 3.3 2 0 .86 5 0
LS 3.2 3 0 .78 20 0
M S 2.7 3 0 .81 20 0
HS 2.5 9 0 .82 20 0
變異數分析(Analysis of Variance)
單一變項ANOVA (one-way analysis of variance)結果
顯示六組之FEF有統計上的顯著差異(p < 0.001)。
若組別間FEF平均值間的變異數(between group
variation)大於組內的變異數(within group variation),
則代表組別間的FEF值確實有差異。
-
36
變異數分析(Analysis of Variance) 2.5
33.5
4
FE
F V
alu
es (
L/s
)
NS PS NI LS MS HSSmoking Group
變異數分析(使用FEV data)
72
-
37
對數邏輯迴歸(logistic regression analysis)
當依變項非連續變項,而為兩項式之類比變項時,
解釋或預測自變項與依自變項間關係時採用此種
分析法。
算出來的迴歸係數稱logit,elogit = OR。若發病率
小於5%,則算出來的迴歸係數可用來計算elogit =
RR。(OR:Odds Ratio; RR=Relative Risk)
簡單對數邏輯迴歸(使用Oswego data)
香草冰淇淋和食品中毒有統計相關
-
38
複對數邏輯迴歸(使用Oswego data)
控制年齡後,香草冰淇淋和食品中毒有統計相關
Pearson correlation ()
相依係數值()是用來表示兩連續變項間的線性相
關。值 > 0表示正相關,也就是自變項增加,依
變項跟著增加。 值 < 0表示負相關,也就是自變
項增加,依變項則減少。 值 = 0表示自變項與依
變項不相關。
用XY散佈圖可以觀看出自變項(X)與依變項(Y)的
關係是直線,還是曲線?
-
39
Pearson correlation ()
迴歸分析的R2值,除了表是依變項(Y)的變異數
有多少比率為自變項(X)所解釋。R值表示自變
項(X)和依變項(Y)的相關情形。正或負相關可由
自變項(X)的迴歸係數的正負值來決定。如迴歸
係數為負值,則R值為負值,表示負相關。
兩個類比變項的相依係數由Spearman rank
correlation來表示。
78
Pearson correlation ()
年齡和FEV的相關係數為0.7565,有統計顯著意義。
-
40
無母數檢定方法 (non parameter test, distribution free test)
不需要符合變項分佈的假設。
使用序數(rank)。
適用於小樣本。
不受偏離值(outliers)的影響。母數檢定法很容
易受偏離值(outliers)的影響而有不同的檢定結
果。
相對於母數檢定法而言,無母數檢定法較不
powerful (sensitive)。
無母數檢定方法 (non parameter test, distribution free test)
若不合乎 t 檢定的假設,則無法比較兩個獨立樣本的
平均值。但可使用無母數檢定方法中的Wilcoxon rank
sum test (又稱Mann-Whitney test或U test)來比較兩個
獨立樣本的中位數值。
若不符合ANOVA的假設,則可使用Kruskal-Wallis
test來比較三個或三個以上獨立樣本的中位數值 。
-
41
Wilcoxon rank sum test
10位高中生隨機分配到實驗組和對照組,觀查
兩個月衛生教育對實驗組的影響。
兩組的衛生教育評分為:
實驗組 (I) 5 0 7 2 19
對照組 (C) 6 -5 -6 1 4
Wilcoxon rank sum test
先將所有成績排序,再算各組序數平均值。
-6 –5 0 1 2 4 5 5 7 19
Rank 1 2 3 4 5 6 7 8 9 10
Group C C I C I C I C I I
實驗組序數平均值 =
對照組序數平均值 =
865
109653 .
2.45
86421
-
42
Wilcoxon rank sum test
依照公式比較兩個序數平均值(中位數值) 6.8和
4.2,得知 p 值為0.17 > 0.05。(接受兩組序數平
均值沒有差異的原始假設)
兩個月的衛生教育並未造成學生生活方式的差
異。
無母數檢定(Using FEV data)
84 抽菸者和無抽菸者的FEV中位數無統計顯著差異(P>0.05).