kirk' experimental design, chapter 2

2013-03-5 (@世新大學社心系)

實驗設計樣本與實驗操弄：如何進行隨機化分配？

13年3月5⽇日星期⼆二

關於作業

✤ 請在今天決定分組，每一組上限四人

✤ 每組繳一份作業，請回答下列這些題目：

✤ Kirk Ch 1, Review Exercise: 3, 4, 5, 9, 10, 11

✤ Kirk Ch 2, Review Exercise: 2, 4, 5, 9, 10, 12, 13, 15, 17, 19

✤ 格式：請以 word 檔交件。字體12 point，1.5行高。每一題之間要分頁，作答的字數請限制在一頁之內。第一行請以章節、題號開始。

✤ 繳交期限：3月 11日


Previously in Experimental Design...

✤ 上週介紹實驗法的基本概念:

✤ manipulation: 操弄

✤ 研究者操弄一個或數個獨變項

✤ random assignment

✤ 採用隨機分配的方式排除干擾變項

✤ observation/ measurement

✤ 觀察依變項

✤ 本週進一步介紹基本的實驗設計類型


實驗設計類型

✤ t test for independent samples 獨立樣本t 檢定

✤ Completely Randomized Design (CRD) 完全隨機化設計

✤ Randomized Block Design (RBD) 隨機化區集設計

✤ Latin Square Design (LSD) 拉丁方格

✤ Completely Randomized Factorial Design (CRFD) 完全隨機化複因子設計



✤ 用法：從兩個母群抽樣並且估計各自的平均值，然後檢驗平均值是否相等。

✤ 統計假設：



✤ 用法：從兩個母群抽樣並且估計各自的平均值，然後檢驗平均值是否相等。

✤ 統計假設：

✤ H0: µ1 - µ2 = 0

✤ H1: µ1 - µ2 ≠ 0



✤ 範例：比較兩種矯正煙癮的治療方式的效果，以每天消耗的香煙數量當作依變項。

✤ 受試者 (Si)

✤ i = 1~30

✤ IV: 治療方式 (A)

✤ aj ; j = 1, 2

✤ DV: Yij

Levels

Group1

Subjects1

Subjects2

：

：

Subjects15

a1

a1

：

：

a1

Group2

Subjects16

Subjects17

：

：

Subjects30

a2

a2

：

：

a2


✤ Completely Randomized Design (CRD, CR-p) 完全隨機化設計

✤ p: 實驗組別的數量

✤ 用法：獨變項的組別數量有三組以上，觀察各組的依變項之平均值有無差異。

✤ 統計假設：




✤ 用法：獨變項的組別數量有三組以上，觀察各組的依變項之平均值有無差異。

✤ 統計假設：

✤ H0: µ1 = µ2 = µ3

✤ H1: µj ≠ µj’ for some j and j’, j ≠ j’



✤ 範例：比較三種矯正煙癮的治療方式的效果，以每天消耗的香煙數量當作依變項。

✤ 受試者 (Si)

✤ i = 1~45

✤ IV: 治療方式 (A)

✤ aj ; j = 1, 2, 3

✤ DV: Yij

Levels

Group1

Subjects1Subjects2

：

：Subjects15

a1a1

：

：a1

Group2

Subjects16Subjects17

：

：Subjects30

a2a2

：

：a2

Group3


：

：Subjects45

a3a3

：

：a3


✤ DV 的表現主要來自五個效果：

1.獨變項 IV (aj)

2.個別受試者，或者實驗情境的限制

3.受試者每次表現反應時隨機的變動

4.測量/紀錄過程的誤差

5.其他無法排除的干擾變項

✤ 前述的“煙癮治療”研究的測量值如何被這些因素影響？


✤ DV: Yij

✤ i: 受試者; j: 實驗組別 (treatment)

✤ Y17,2 = 3

✤ 第17號受試者在第二個實驗組別下的測量值為 3

✤ 以煙癮治療的例子來說：

✤ 第17號受試者接受第二種治療方式之後每日消耗3根香煙



✤ 範例：針對45位受試者比較三種矯正煙癮的治療方式的效果，以每

天消耗的香煙數量當作依變項。

✤ Yij = µ + αj + εi(j) (i = 1,..., n; j = 1,...,p)

Yij 受試者 i 在第 j 個實驗組別下的依變項

µ 母群的平均值，各實驗組別平均觀察值(µ1, µ2, µ3)的總平均值。µ為固定值。

αj(alpha) 第j個實驗組別的效果，等於該組平均值與母群平均值的差異量(µj–µ)。同一個實驗組別之下每個觀察值有一樣的 αj。

εi(j) (epsilon) Yij的殘差值，等於 Yij – µ – αj。


✤ 干擾因素可以分為可控制的與不可控制的兩類。

✤ 隨機化 (randomization)

✤ 不可控制的因素可利用隨機化程序來削減其影響，比如受試者的氣質。

✤ 隨機指定哪些受試者應該接受哪些處理(treatments)，以及實驗進行的次序(order)。

✤ 區集 (blocking)

✤ 將可控制的因素變成區集(Blocks)，同一個區集之內受試者的狀態盡量一致。

隨機化與區集


✤ dependent samples 相依樣本

✤ 針對受試者的氣質進行控制，確保不同實驗組別之間的差別來自獨變項的影響。

✤ 消除內在校度的威脅 (threats of internal validity)

✤ 採用相依樣本的時候「隨機分配」以及「分析」的做法都比獨立樣本的情況更為複雜。下列各種狀況都視為相依樣本：

✤ 受試者接受每一種實驗組別，重複測量(repeated measure)各種組別之下的表現

✤ 先測量某個與研究議題有關的指標，然後採用這個指標將受試者分成數個區集(blocking, subject matching)

✤ 搜集許多組雙胞胎，或者採用來自同一個家庭成長的個體

✤ 由受試者自己指定的匹配對象


✤ 以相依樣本的方式來改進煙癮治療研究：

✤ IV: 兩種治療程序

✤ DV: 持續治療六個月之後每天抽幾根煙

✤ 假設每個受試者只能接受一種實驗組別，不適合進行重複測量。

✤ 什麼因素會影響 DV的效果？

✤ e.g.: 接受治療之前每天抽幾根煙？

✤ 根據治療前的抽煙習慣將受試者分組，將每一個區集的受試者隨機分到實驗組別之下。


✤ 以相依樣本的方式來改進煙癮治療研究：

✤ 根據治療前的抽煙習慣將受試者分組，將每一個區集的受試者隨機分到實驗組別之下。

✤

LevelsLevels

Block1 a1 a2

Block2 a1 a2

Block3 a1 a2

：：：

Block15 a1 a2

Levels

Group1

Subjects1Subjects2

：

：Subjects15

a1a1

：

：a1

Group2


：

：Subjects30

a2a2

：

：a2


✤ Randomized Block Design (RBD, RB-p) 隨機化區集設計


✤ 用法：獨變項的組別數量有三組以上，將受試者依照某個特性分成區集，然後將各區集之下的受試者隨機分配到實驗組別之下。

✤ e.g.: 將45個受試者分成15個區集

✤ 統計假設：

✤ 如果第二個虛無假設不成立，代表將某個干擾效果移除殘差項。

✤ H0: µ.1 = µ.2 = µ.3

✤ H0: µ1. = µ2. = ⋯⋯ = µ15.

✤ H1: µ.j ≠ µ.j’ for some j and j’, j ≠ j’

LevelsLevelsLevels

Block1 a1 a2 a3

Block2 a1 a2 a3

Block3 a1 a2 a3

：：：：

Block15 a1 a2 a3



✤ Yij = µ + αj + πi + εij (i = 1,..., n; j = 1,...,p)

LevelsLevelsLevels

Block1 a1 a2 a3

Block2 a1 a2 a3

Block3 a1 a2 a3

：：：：

Block15 a1 a2 a3

Yij 受試者 i 在第 j 個實驗組別下的依變項

µ 母群的平均值。µ為固定值。

αj

(alpha) 第j個實驗組別的效果，等於該組平均值與母群平均值的差異量(µ.j–µ)。同一個實驗組別之下每個觀察值有一樣的 αj。

πi(pi) 第i個區集的效果，等於該區集平均值與母群平均值的差異量(µ i.–µ)。

εi(j) (epsilon) Yij的殘差值，等於 Yij – µ – αj – πi。



✤ Yij = µ + αj + εi(j) (i = 1,..., n; j = 1,...,p)

✤ εij = Yij – µ – αj


✤ Yij = µ + αj + πi + εij (i = 1,..., n; j = 1,...,p)

✤ εij = Yij – µ – αj – πi



✤ εij = Yij – µ – αj

✤ ∑∑ε2 = ∑∑(Yij – µ – αj)2


✤ εij = Yij – µ – αj – πi

✤ ∑∑ε2 = ∑∑(Yij – µ – αj – πi)2

✤ 採用 RB-p 設計來進行變異數分析時，其殘差平方和不包含區集的效

果，並且小於 CR-p的殘差平方和。

✤ RB-p 設計可以提供比較大的F統計值，較容易拒絕H0。


✤ Latin Square Design (LSD, LS-p) 拉丁方格


✤ 特點：排除兩個干擾變項

✤ 用法：將受試者依照兩個特性分成區集，然後將各區集之下的受試者隨機分配到實驗組別之下。兩種特性的區集數量必須和實驗組別一樣。

✤ e.g.: 觀察三種治療方式。根據治療前每天抽煙數量、抽煙年數定出九個區集(3 x 3)。

< 1 年 1~5年 >5年c1 c2 c3

<1包 b1 a1 a2 a3

1~3包 b2 a2 a3 a1

>3包 b3 a3 a1 a2




✤ 特點：排除兩個干擾變項

✤ 用法：將受試者依照兩個特性分成區集，然後將各區集之下的受試者隨機分配到實驗組別之下。兩種特性的區集數量必須和實驗組別一樣。

✤ e.g.: 觀察三種治療方式。根據治療前每天抽煙數量、抽煙年數定出九個區集(3 x 3)。

✤ 統計假設：

✤ H0: µ1.. = µ2.. = µ3.. (實驗組別的平均表現一致)

✤ H0: µ.1. = µ.2. = µ.3. (第一類區集的平均值無差異)

✤ H0: µ..1 = µ..2 = µ..3 (第二類區集的平均值無差異)



✤ Yij = µ + αj + εi(j)

✤ ∑∑ε2 = ∑∑(Yij – µ – αj)2


✤ Yij = µ + αj + πi + εij

✤ ∑∑ε2 = ∑∑(Yij – µ – αj – πi)2


✤ Yij = µ + αj + !k + "l + πi + εij

✤ ∑∑ε2 = ∑∑(Yij – µ – αj – !k – "l – πi)2


✤ 目前為止介紹了三種基本的實驗設計，而且都只考量一個獨變項。

✤ CR-p 完全隨機化設計

✤ 無法排除任何干擾變項的影響。

✤ RB-p 隨機化區集設計

✤ 針對一個干擾變項將受試者分成數個區集，觀察區集的效果，同

時減少殘差項 (∑∑ε2)。

✤ LS-p 拉丁方格

✤ 針對兩個干擾變項將受試者分成數個區集，兩種區集的數量與實

驗組別一樣。有效的 LS-p可以取得更小的殘差項。


✤ Completely Randomized Factorial Design (CRF-pq) 完全隨機化複因子設計

✤ 特點：觀察兩種獨變項各自的效果，以及兩者的交互作用。

✤ e.g.: 室內光照(5燭光, 30燭光)與字體大小(9-point, 12-point, 15-point)對閱讀速度的影響

✤ 實驗組別: a1b1、 a1b2、 a1b3、 a2b1、 a2b2、 a2b3

✤ 將受試者隨機分配到各實驗組別，然後進行二因子變異數分析。





✤ Yijk = µ + αj + !k + (α!)jk + εi(jk)

✤

Yijk 受試者 i 在每一種實驗組合之下的表現

µ 母群的平均值。µ為固定值。

αj第一個獨變項的j個實驗組別的效果，等於該組平均值與母群平均值的差異量(µ.j–µ)。

βk第二個獨變項的k個實驗組別的效果，等於該組平均值與母群平均值的差異量(µ.k–µ)。

(αβ)jk 交互作用

εi(j) (epsilon) Yij的殘差值，等於 Yij – µ – αj – πi。





✤ 統計假設：

✤ H0: µ1. = µ2.

✤ H0: µ.1 = µ.2 = µ.3

✤ H0: µjk – µj’k – µjk’ + µj’k’ = 0

✤ 室內光照之主效果 (main effect)

✤ 字體大小之主效果 (main effect)

✤ 交互作用 (interaction)


有交互作用無交互作用

從趨勢來看：(a): 高光度情況下的閱讀速度較快。9-point字體大小的閱讀速度最慢，12、15-point兩種情況下似乎沒有差異。另外，15-point之下的光度的效果在較另外兩種字體不明顯。

(b): 高光度情況下的閱讀速度較快。9-point字體大小的閱讀速度最慢，12、15-point兩種情況下似乎沒有差異。字體大小及光照沒有交互作用。


關於實驗設計的幾個步驟

✤ 列出與研究主題相關的獨變項、依變項、干擾變項

✤ 選擇受試的單位以及數量

✤ 決定分配受試者、實驗刺激的方式

✤ 選擇統計方法，進行推論統計(statistical inference)


推論統計(statistical inference)

✤ 研究假設：吸煙會造成高血壓

✤ 實務上，研究者無法觀察母群的每個人來檢視這個研究假設，但是可以使用“推論統計”，以實驗設計的方式觀察有無吸煙的兩組小樣本的高血壓發生率，藉此來推斷母群的表現。

✤ 一般推論統計的做法有兩種：

✤ 假設檢定 (hypothesis testing)

✤ 信賴區間 (interval estimation)


假設檢定(hypothesis testing)

✤ 將「研究主題預測的效果」轉換成「對立假設 (H1)」。比如，有吸煙習慣者的血壓比無吸煙者的還要高：

✤ H1: µ1–µ2 > 0; or H1: β> 0

✤ 任何非 H1 的狀況就是「虛無假設 (H0)」

✤ H0: µ1–µ2 ≤ 0; or H0: β≤ 0



✤ sampling distribution (抽樣分佈)

✤ 研究者常常從母群中隨機選出一組樣本，然後取得這組樣本的統計值。下一次抽樣取得的統計值與先前抽樣的結果往往有差異。進行許多次抽樣之後每一次的統計值形成一組分布，該分布稱為「抽樣分佈」。

✤ central limit theorem (中央極限定理)

✤ 採用適當數量的樣本計算平均數的時後，不論母群的機率分佈的形狀為何，抽樣分佈的形狀會趨近於常態分佈。


✤ 範例：3967個中文形聲字的筆畫數、字頻(取log)、音旁結合度、義旁結合度各自有不同的分佈形狀。

筆劃數:

字頻(log)

音旁結合度

義旁結合度

Mean = 13.13

Mean = 4.51

Mean = 7.36

Mean = 86.78

母群(N = 3967)



筆劃數:

字頻(log)

音旁結合度

義旁結合度

Mean = 13.13

Mean = 4.51

Mean = 7.36

Mean = 86.78

母群(N = 3967) 小樣本(N = 15)

Mean = 11.93

Mean = 4.2

Mean = 9.07

Mean = 127.53



筆劃數:

字頻(log)

音旁結合度

義旁結合度

Mean = 13.13

Mean = 4.51

Mean = 7.36

Mean = 86.78

母群(N = 3967) 小樣本(N = 15)

Mean = 11.93

Mean = 4.2

Mean = 9.07

Mean = 127.53

小樣本(N = 30)

Mean = 12.86

Mean = 4.31

Mean = 7.43

Mean = 93.13


✤ 採用N=15或30 重複抽樣1000次，得到1000組平均值，四種詞彙變數的抽樣分佈都趨近於常態分佈：

筆劃數:

字頻(log)

音旁結合度

義旁結合度

Mean = 13.13

Mean = 4.51

Mean = 7.36

Mean = 86.78

母群(N = 3967)



筆劃數:

字頻(log)

音旁結合度

義旁結合度

Mean = 13.13

Mean = 4.51

Mean = 7.36

Mean = 86.78

母群(N = 3967) 小樣本(N = 15)

Mean = 13.10

Mean = 4.5

Mean = 7.4

Mean = 86.75



筆劃數:

字頻(log)

音旁結合度

義旁結合度

Mean = 13.13

Mean = 4.51

Mean = 7.36

Mean = 86.78

母群(N = 3967) 小樣本(N = 15)

Mean = 13.10

Mean = 4.5

Mean = 7.4

Mean = 86.75

小樣本(N = 30)

Mean = 13.14

Mean = 4.50

Mean = 7.35

Mean = 86.78



✤ test statistics 檢定統計量/統計數

✤ 驗證「統計假設」的統計數值

✤ 比如，檢驗兩個平均數是否相等：

✤ Z 統計數 (z statistics)：已知母群的標準差

✤ T 統計數 (t statistics)：未知母群的標準差


✤ 即使未知母群的標準差，樣本數夠大的時候t分數的分佈曲線接近z分數。


✤ 以單一樣本T檢定為例。假設某大學的學生平均智商為 115，請問學生會成員的智商是否高於一般學生的平均值？

✤ 1. 提出統計假設

✤ H0: µ ≤ 115 H1: µ > 115

✤ 2. 選擇檢定統計量。未知母群的變異情況，採用T分數。

✤ 3. 決定樣本數以及抽樣分佈：抽樣61人，其自由度為60，此時T分佈曲線趨近於常態分佈。

✤ 4. 指定顯著水準 (α)

✤ 5. 搜集數據並且決定是否接受虛無假設


✤ 4. 指定顯著水準

✤ Ｔ分數越接近零表示樣本的平均數與期望值相似。T分數距離中央越

遠，|T| 越大，表示極有可能樣本的µ 不等於期望值，就可以拒絕

H0。根據機率函數可以將T 分數轉換為機率值，一般認為H0發生的機率低於 0.05的時候表示可以承擔錯誤的判斷。

臨界區

臨界值


✤ 4. 指定顯著水準

✤ 統計假設明確的預期統計量之間的差異方向時採用單尾檢定：

✤ H0: µ ≤ 115 H1: µ > 115

✤ 統計假設不預期統計量之間的差異方向，只預期有無差異時採用雙尾檢定：

✤ H0: µ = 115 H1: µ ≠ 115

✤ 此時臨界值定在α/2

✤ 比較一下，單尾/雙尾檢定之下，哪一種情況的臨界值距離0比較近？會不會影響結果？


✤ 依據統計檢定量作出決定的後果：

✤ 一般將 α 定在 0.05。

✤ 將實驗數據帶入公式2.5-1可以估計β。

✤ 1–β就是統計效果量(power)，代表可以拒絕H0的機率。一般研究者認為β大於0.8代表該研究效果值得信任。

真實情況真實情況

H0為真 H0為假

研究者的決定

無法拒絕 H0正確接受H0

probability = 1 – α第二類型錯誤

probability = β

研究者的決定

拒絕H0

第一類型錯誤

Type I errorprobability = α

正確拒絕H0

probability = 1 – β


✤ 母群的平均智商為115。樣本的平均值為117.5 (n = 61)，標準差為12.5。


推論統計(statistical inference)

✤ 研究假設：吸煙會造成高血壓

✤ 實務上，研究者無法觀察母群的每個人來檢視這個研究假設，但是可以使用“推論統計”，以實驗設計的方式觀察有無吸煙的兩組小樣本的高血壓發生率，藉此來推斷母群的表現。

✤ 一般推論統計的做法有兩種：

✤ 假設檢定 (hypothesis testing)

✤ 信賴區間 (interval estimation)


✤ 常見的信賴區間做法 (未知母群的標準差)：

✤ 以樣本平均數為中心，估計上限(97.5%)、下限 (2.5%) 的位置

✤ 如果期望值介於上限、下限之內就表示無法拒絕H0

✤ 相較於假設檢定，估計信賴區間可以提供平均值以及樣本變異的狀況


「實驗設計」與「推論統計」的步驟

✤ 1. 提出統計假設(H0 & H1)

✤ 2. 選擇檢定統計量。未知母群的變異情況，採用T分數。

✤ 3. 決定樣本數以及抽樣分佈。

✤ 4. 指定顯著水準 (α)


✤ 1. 列出與研究主題相關的獨變項、依變項、干擾變項

✤ 2. 選擇受試的單位及數量

✤ 3. 決定分配受試者、實驗刺激的方式

✤ 4. 選擇統計方法，進行推論統計



kirk' experimental design, chapter 2

Data & Analytics