hlm! 想聽不懂,很難!-三星統計張偉豪-20140929

http://www.semsoeasy.com.tw/

1

HLM! 想聽不懂,很難HLM VS. MPLUS

張偉豪

三星統計服務有限公司執行長

SEM 亞洲一哥

版本:2014/9/29

Outline• HLM vs. MPLUS

• Hierarchical Linear Modeling 基本概念

• HLM常用的名詞

– 殘差變異數 (rij, μ0j, μ1j, γ00, γ01, γ01, γ11)

– Fixed and Random Effect

– Centering

– ICC, Reliability, rwg(j)

– HLM六大模型分析

• HLM SOP

• 看懂HLM的論文http://www.semsoeasy.com.tw/

2

HLM vs. MPLUS


3

HLM MPLUS

分析變數觀察變數觀察及潛在變數

變數關係迴歸,ANOVA及中介效果

迴歸,ANOVA,中介效果, CFA, SEM

LEVEL1,2 R2 自行計算提供R2

ICC 自行計算提供ICC

RWG(j) 自行計算自行計算

DATA FILE Aggregate及Disaggregate

Disaggregate

軟體操作拖拉點選撰寫語法

報表非標準化標準化及非標準化

估計方法 RML, ML MLR, MUML

HLM到底在做什麼?

• SPSS VS. HLM兩種資料型態

– 樣本獨立 (cross-section)

– 樣本不獨立 (longitudinal, panel data)

• 掛在嘴上的兩句話

– 巢狀結構

– 非巢狀結構


4


• HLM就只是兩組迴歸分析而已!– Disaggregate level regression (個體)

– Aggregate level regression (群體)

• 弄懂兩個重要的名詞

– 固定效果 (Fixed effect)

– 隨機效果 (Random effect)


5


• 計算兩種變異

– 組內變異 (between variance)

– 組間變異 (within variance)

• 估計兩個參數

– 截距(平均數)(ANOVA)

– 斜率(干擾(調節)效果分析)


6


• 只看兩張表格

– Estimation of Fix Effect

– Estimation of Variance Components

• 計算兩個重要指標

– ICC 1 (Intra Correlation Coefficient)

– Rwg(j) (Interrater agreement)


7


• 自變數平減(Mean center)兩種方法

– Group mean center (組平減)

– Grand mean center (總平減)

• 內生變數(Y)變異數的分解

– 可解釋變異 (R2) (Level1 and Level 2)

– 不可解釋變異 (殘差)


8

故事從ANOVA開始


9

μ1 μ2 μ3

μ=(μ1+μ2+μ3)/3

故事從ANOVA開始


10

Why hierarchical linear modeling?• 在研究領域中有許多的資料是巢狀結構

– 學生巢形(包含)於教授之下,教授巢形學校之下

– 病患巢形於醫生之下,醫生巢形於醫院之下

– 果樹巢形於果園之下,果園巢形於產地之下

– 員工巢形於公司之下,公司巢形於產業之下

– 兒童巢形於家庭之下,家庭巢形於社區之下

– 人民巢形於城市之下,城市巢形於國家之下

– 重複實驗巢形於個人之下

– 校外實習生巢形於公司經理之下

– 連續10年財務指標巢形於公司之下

• 重點是以上的個體樣本資料都不獨立


11

12

levels• Level-1 變數:

–巢形於群組下的變數(或個人底下的重複測量的次數)

•依(結果)變數永遠都在第一層

• Level-2 變數:–這些變數是位於較高層次的變數

• group level (老師的經驗,學校教材)

• individuals (重複量數實驗)

Two-level hierarchical structures

• 學生巢形於學校之下

• 每個學校隨機抽樣幾個學生


13

Students St1 St2 St3 St1 St2 St1 St2 St3 St1 St2 St3 St4

Schools Sc1 Sc2 Sc3 Sc4 Schools

Students

14

HLM只是迴歸而已

•了解了吧! 但是到底 …– Two levels HLM 模型分析是如何?–從概念模型來看

• Step 1–分別估計每個群體的迴歸方程式

–進行群組間的描述性分析 (intercept and slopes的平均數及變異數)

• Step 2–將步驟1求得的截距與斜率當作結果變數與LEVEL2的變數進行迴歸分析

–從數學上來講,並不是真的分成兩個階段,但這種講法有助於理解HLM是怎麼一回事

15


Level 1: 每一群各自的迴歸值(斜率)

Level 2:

•群組變數預測的截距變異數(每個樣本有不同的截距)

•群組變數預測的斜率變異數(每個樣本有不同的斜率)

Yij

Xij

16

HLM只是迴歸而已•有些人就是喜歡看方程式…

•多層次模型的二階段方法– Level 1: 估計各群組組內的關係

– Level 2: 群組變數估計 level-1的參數,包括截距與斜率 (intercepts & slopes)

Level 1: Yij = ß0j + ß1j Xij + rij

Level 2: ß0j = 00 + 01 (Groupj) + U0j

ß1j = 10 + 11 (Groupj) + U1j

{ j 小標表示參數跨群不同}

17


•利用一個簡單的例子說明

– Individual variables (Level 1)

•學生學習成績(DV)

•學生參與程度(IV)

– Group variable (Level 2)

•老師教學技巧

18


•整體而言,學生參與與學習成績呈現正相關 (跨群組的平均迴歸值)

•教師有好的教學技巧,學習成績會高於較差的教學技巧(平均截距 green/solid vs.red/dotted line)

•好的教學技巧會使得學生參與對學習成績優於較差教學技巧 (平均斜率)

學習成績

學生參與

好的教學技巧

差的教學技巧

19

fixed and random effect

•固定效果:估計參數具有跨群組的不變性– e.g., 截距及跨第二層的斜率

•隨機效果:估計參數會隨著群組不同而不同– level-1 及 level-2 的誤差項

–模型中可以用其它的自變數來解釋這些變異的存在

•學校是從眾多學校中隨機抽出,學生也是從學校中隨機抽出,因此會有隨機效果

•性別及學校類型只有有限的分類,因此不會有隨機效果

多層次模型示意圖


20

截距

Xij

Yij截距

Wj

γij

σ2

μ0j

β1j

γ00

γ10

μ1j

γ01

γ11

β0j

二階迴歸是對一階迴歸係數做解釋，而不是對依變項本身做解釋

Yij=γ00 + γ01Wj +γ10Xij + γ11WjXij

+ μ0j + μ1j + μ1jXij + γij

HLM分析流程

• 資料準備

• 空模型(NULL or 隨機ANOVA MODEL)

• 僅含Level 1的自變數(隨機ANCOVA MODEL)

• 僅含Level 2的自變數(固定效果模型)– 自變數為類別變數.

• 僅含Level 2的自變數(隨機迴歸模型)– 自變數為連續變數

• Level 1及Level 2同時包含自變數(完整模型)


21

多層次模型的六大次模型

• 隨機效果單因子變異數分析(one-way ANOVA with random effects )

• 隨機效果單因子共變數分析(one-way ANCOVA with random effects)

• 隨機係數迴歸模型(random coefficients regression model)

• 截距模型(intercept-as-outcomes regression )• 脈絡模型(contextual model)• 非隨機變化斜率模型

(a model with nonrandomly varying slopes)

隨機ANOVA模型

• 又稱為空模型

• 目的:計算ICC(1),了解資料是否適合進行HLM

• 模型只有依變數不含任何自變數

– 低度組內相關: ICC<.059,

– 中度組內相關: 0.059<ICC<0.138

– 高度組內相關: ICC>0.138


23

隨機ANOVA模型

• LEVEL 1: 𝒀𝒊𝒋 = 𝜷𝟎𝒋 + 𝜸𝒊𝒋

• LEVEL 2: 𝜷𝟎𝒋 = 𝜸𝟎𝟎 + 𝝁𝟎𝒋

• General model: 𝒀𝒊𝒋 = 𝜸𝟎𝟎 + 𝝁𝟎𝒋 + 𝜸𝒊𝒋

• 𝑽𝒂𝒓(𝒀𝒊𝒋) = 𝑽𝒂𝒓(𝜸𝟎𝟎 + 𝝁𝟎𝒋 + 𝜸𝒊𝒋) = 𝝉𝟎𝟎+𝝈𝟐

• 組內相關係數ICC= 𝝆 = 𝝉𝟎𝟎/(𝝉𝟎𝟎+𝝈𝟐)


24

隨機ANOVA模型


25

如果不設定μ0等於求全體平均數

隨機ANOVA模型


26

• Run Analysis Run the model shown

隨機ANOVA模型


27

• File View Output

只看兩張表


28(卡方差異值)

Estimation Methods

• RML: 當群組(j)較少時,可以得到較佳的估計值FML 具有兩點優勢:– 計算容易

– FML估計迴歸係數及變異數成份的整體卡方值, RML只有變異數成份檢定而已.

• 如果比較兩個巢狀模型離異值的差異檢定應採用FML比較理想


29

隨機ANCOVA模型

• LEVEL 1加入預測變數(X)

• 當X為類別變數時,斜率應設定為固定效果𝒀𝒊𝒋 = 𝜸𝟎𝟎 + 𝜸𝟏𝟎𝑿𝒊𝒋 + 𝝁𝟎𝒋 + 𝜸𝒊𝒋


30

隨機ANCOVA模型

• LEVEL 1加入”性別“預測變數(X)


31

隨機係數的迴歸模型

• LEVEL 1加入預測變數(X)

• 當X為連續變數時,斜率應設定為隨機效果𝒀𝒊𝒋 = 𝜸𝟎𝟎 + 𝜸𝟏𝟎𝑿𝒊𝒋 + 𝝁𝟎𝒋 + 𝝁𝟏𝒋 𝑿𝒊𝒋 + 𝜸𝒊𝒋


32



33


• LEVEL 1加入連續變數 (X)

• 𝒀𝒊𝒋 = 𝜸𝟎𝟎 + 𝜸𝟏𝟎𝑿𝒊𝒋 + 𝝁𝟎𝒋 + 𝝁𝟏𝒋 𝑿𝒊𝒋 + 𝜸𝒊𝒋


34

Centering

• 定義:– 自變數(Level 1 or 2)減去自己本身的平均數

• 目的:– 避免產生不合理的解釋值

– 降低干擾變數共線性問題

• Grand mean (減去總平均值),結果與自變數不平減一樣

• Group mean (減去組平均值),只在Level1,估計斜率時使用


35

截距模型• LEVEL 1: 𝒀𝒊𝒋 = 𝜷𝟎𝒋 + 𝜸𝒊𝒋

• LEVEL 2: 𝜷𝟎𝒋 = 𝜸𝟎𝟎 + 𝜸𝟎𝟏𝑾𝒋 + 𝝁𝟎𝒋

• General Model: 𝒀𝒊𝒋 = 𝜸𝟎𝟎 + 𝜸𝟎𝟏𝑾𝒋 + 𝝁𝟎𝒋 + 𝜸𝒊𝒋

• LEVEL 2加入預測變數

• LEVEL 2的預測變數影響的是LEVEL 1的截距


36

截距模型• LEVEL 2加入老師的經驗


37

完整模型(截距及斜率模型)

• LEVEL 1: 𝒀𝒊𝒋 = 𝜷𝟎𝒋 + 𝜷𝟏𝒋𝑿𝒊𝒋 + 𝜸𝒊𝒋

• LEVEL 2: 𝜷𝟎𝒋 = 𝜸𝟎𝟎 + 𝜸𝟎𝟏𝑾𝒋 + 𝝁𝟎𝒋𝜷𝟏𝒋 = 𝜸𝟏𝟎 + 𝜸𝟏𝟏𝑾𝒋 + 𝝁𝟏𝒋

• General Model: 𝒀𝒊𝒋 = 𝜸𝟎𝟎 +

𝜸𝟎𝟏𝑾𝒋 + 𝜸𝟏𝟎𝑿𝒊𝒋 + 𝜸𝟏𝟏𝑾𝒋𝑿𝒊𝒋 + 𝝁𝟎𝒋 + 𝝁𝟏𝒋𝑿𝒊𝒋 + 𝜸𝒊𝒋


38

完整模型(截距及斜率模型)


39

40

Multi-level constructs•構面是研究發展及測試理論的組成元件

• Group-level constructs 是將群組當成整體處理並分成以下二種型態 (Kozlowski & Klein, 2000): – Global constructs

– Shared constructs

41

Global Constructs•相對客觀,容易觀察,描述群體特徵

•源自於群體層次

• Examples: –老師教學經驗,學校型態或學校地點

•不具“有意義”的組內變異(within-group variability)

•測量一般是直覺的

42

Shared Constructs•群組特性是來自於群組成員的組合

•源自於群組成員的態度,認知或行為

•組內變異一般要很低,如此才能從個體層次提升自群體層次

– rwg(j)為必須計算的指標

• Examples:–組織氣侯,主觀規範,認知行為控制

What is rwg(j)?

• rwg(j)是目前使用最廣泛的interrateragreement指標,特別是針對量表為李克特量表

• (j)代表的是構面量表的題數


43

44

Rule-Of-Thumb

•實務上一般認為 Rwg(j) >0.70 表示可以接受個別的分數整合成群體分數,當然愈高愈好

• Zohar (2000) cited rWG values in the .70’s and mid .80’s as proof that judgments “were sufficiently homogeneous for within group aggregation”

Zohar, D.(2000). A group-level model of safety climate: testing the effect of group climate on microaccidents in manufacturing jobs. Journal of Applied Psychology, 85(4), 587-596.

How to calculate rwg(j)?


45

James L R, Demaree R G, Wolf G.(1993). Rwg: An Assessment of within-Group Interrater Agreement. Journal of Applied Psychology.78, 306-309.

Sample size requirements

• Kreft (1996) proposes a general 30/30rule, in which there are 30 groups and 30 observations per group.

• Hox (1998) suggests a minimum ratio of 50/20 rule, in order to test cross-level interactions.

• Hox (1998) also suggests a minimum ratio of 100/10 to test random effects.


46

Hox,J.(1998). Multilevel modeling: When and why. In R.Mathar & M. Schader, Classification, data analysis, and data highways. Berlin, Germany: Springer-Verlag.

Kreft, I.G.G. (1996). Are multilevel techniques necessary? An overview, including simulation studies. Unpublished manuscript, California State University, Los Angeles, CA.

hlm papers/Multi-level Modeling. when and why.pdf

hlm papers/Sufficient Sample Sizes for Multilevel Modeling.pdf

Variance explained

• R2 at level 1 = 1 – (σ2

cond + τcond) / (σ2uncond + τuncond)

= 1 – (.46 + .86) / (.64 + .88)= 1- (1.32/1.52)=.1316 = 13.16%

• R2 at level 2 =1 – [(σ2cond / nh) + τcond] / [(σ2

uncond / nh) + τuncond]

• nh = the harmonic mean of n for the level 2 units (k / [1/n1 + 1/n2 +…1/nk])

• 調和平均數可利用SPSS計算


47

hlm papers/HLM R-sqr.docx

Variance explained

• Level 1 增加自變數後,殘差變異數改善的比例 (又稱為Effect Sizes, ES)R2 = (τbaseline – τconditional) / τbaseline

= (.64 – 46)/.64=.28 = 28%

• Effect Sizes (Cohen, 1988)

– ES= 0.02~0.15 are weak

– ES= 0.15~0.35 are moderate

– ES> 0.35 are strong


48


4949

三星統計服務有限公司協辦http://www.semsoeasy.com.tw/


hlm! 想聽不懂,很難!-三星統計張偉豪-20140929

Education