copyright 2012 calebabc co., ltd. all rights reserved. œ 14회 chef_구조방정식.pdf ·...
TRANSCRIPT
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 3
구조방정식모형(1/2)
구조방정식 모형이란?
• SEM(Structure Equation Model)
• 공분산구조분석(Covariance Structure Analysis)
• 특정현상을 파악하기 위해 구조모형 이론의 분석 방법을 이용하여 확증적인(Confirmatory) 형태의
모형에서 상호 변수들간의 인과관계와 그 유의성을 검정하는 모형
• 요인분석(Factor Analysis) + 경로분석(Path Analysis)
왜 사용하는가?
• 사회 현상이나 각종 경제 현상 등의 연구에서 각 변수들 간의 복잡한 인과 관계를 파악하기 위해
• 연구자가 원하는 형태의 다양한 인과 관계를 생성하여 검증하기 위해
회귀분석
상관분석
요인분석
인과관계 분석
…
구조방정식 모델
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 4
구조방정식모형(2/2)
구성
• 측정모형: 결과가 생기도록 원인 역할을 해주는 모형
• 구조모형: 측정모형 사이의 인과관계를 파악할 수 있는 모형(=인과모형)
λxx , κxx : 경로계수
ξ1: 외생변수
η1: 내생변수
X1
X2
X3
요인 1 ξ1
요인 2 η1
Y1
Y2
λ11
λ21
λ31
ζ1
κ41
κ61
ε1
ε2
δ1
δ2
δ3 Y3 ε3
κ51
측정모형
구조모형
측정모형
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 5
적용분야
일반 사회과학 연구 분야
• 각종 사회 현상(청소년, 의류 구매, 소비자 심리, 각종 증후군)에 대한 인과관계 분석
• 기존 회귀 및 요인분석을 이용한 분석 결과의 고도화
• 사회 현상의 경로 및 과정을 통한 연구 분석 분야
• 각종 사회과학 연구소, 학교, 선거 분석 기관 등
마케팅/리서치 분야
• 소비자 만족도/충성도 조사 분석
• 소비자 행동 파악 인과관계 분석
• 제품 구매 경로 및 구매 인과관계 분석
• 마케팅 설문분석의 고도화
• 일반 제조 기업의 마케팅 팀 및 리서치 회사
경제 모델 및 기타 분야
• 경제 지표의 인과 관계성 모델
• 의료 분야 질병 원인 모델(특히 신경 정신과)
• 공공정책 입안 관련 모델
• 종합병원, 의학 연구소, 국가 공공기관
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 7
다변량분석
다변량분석(Multivariate Analysis)
• 많은 변수를 가진 데이터에 대한 분석방법
Multivariate Analysis in B-BoxTM
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 8
타 분석과의 비교
개체분류
• 군집분석: 측정변수들을 이용하여 개체간 거리를 구하여
개체를 분류
• 판별분석: 판별식을 구하고 이를 이용하여 새로운 개체를
분류
변수축약
• 주성분분석: 측정 변수를 축약하여 개체들간의 관계를 그리거나 이상치를 발견, 다른 분석에 이용한다.
• 요인분석: 변수들을 몇 개의 그룹으로 분류한다.
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 9
주성분분석의 이해(1/2)
정의
• 변수를 축소하여 자료를 설명하는 기법
• 변수들의 선형결합을 통하여 변수들이 가지고 있는 전체정보를 최대한 설명할 수 있는 서로
독립적인 새로운 인공변수(artificial variable)들을 유도하여 해석하는 분석방법
목적
• 정보의 손실을 최소화하면서 서로 상관관계가 있는 변수들 사이의 복잡한 구조를 단순하고
이해하기 쉽게 설명하고자 함.
• 요인분석에서 요인공간의 차원을 결정하는데 이용
주성분(Principal Component)
설명변수 1 설명변수 2 설명변수 P
목적변수
……
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 10
주성분분석의 이해(2/2)
구조
• i 번째 주성분 Ci 계수: i번째 고유값 λi에 대응되는 고유벡터 ei
• 첫 주성분은 데이터의 변동(분산, 정보)을 가장 많이 설명하고 계속 구해지는 2, 3, … 번째 주성분은
자료의 나머지 정보들을 설명하고 그 크기는 점점 줄어듦.
X1 X2 Xp
C1
……
C2 Cp …… ppppppp
pp
pp
XeXeXexeC
XeXeXexeC
XeXeXexeC
2211
222211222
122111111
'
'
'
주성분계수=변수의 중요도
주성분의 분산=변수변동 설명력
ppCCC 2121 )var()var()var(
0
),(,),,(),,(
21
2211
p
pp eee
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 11
주성분분석 예시(1/3)
종합점수의 TOP 선출을 위한 분석방법
• 예) 영화 관객수와 DVD 판매수
– 영화 105: 종합 인기도 TOP
– 축: 주성분, 좌표: 주성분점수
종합 인기도 TOP인 영화
관객수
D V D 판 매 수
영화 105 영화 191
영화 5
영화 23
주성분점수
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 12
주성분분석 예시(2/3)
종합점수의 TOP 선출을 위한 분석방법
• 예) 클레임 건수와 판매액 조사
지점 5 지점 6
지점 3
지점 1
지점 2
지점 4
지점 7
본점
클레임 건수
판 매 액
종합 실적 TOP인 가게와
꼴찌인 가게는?
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 13
주성분분석 예시(3/3)
종합점수의 TOP 선출을 위한 분석방법
• 예) 클레임 건수와 판매액 조사
본점
지점 5 지점 6
지점 3
지점 1
지점 2
지점 4
지점 7
꼴찌
TOP
클레임 건수
판 매 액
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 14
주성분분석 절차(1/2)
주성분 개수 선정
• 주성분 개수 = 설명변수 개수
• 총변동 설명 비율
– 일반적으로 주성분 2~3개로 8~90% 설명 가능
– 상관행렬 사용 시, 고유값 1이상인 주성분까지 선택
– 고유값이 작다고 무시하면 안됨.
• SCREE plot 이용
– 갑자기 떨어지거나 0에 가까워지는 것 이전까지의 주성분 선택
0
1
2
3
4
0 2 4 6
pk
i
i /1
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 15
주성분분석 절차(2/2)
주성분 점수
• 개체(데이터) 이상치 발견 가능 및 주성분 변수간 관계 파악
• 주성분 점수=실제자료*주성분계수(회귀식과 유사)
– 고유벡터가 주성분에 미치는 영향을 의미
Biplot
• 제1주성분과 제2주성분만을 구해 2차원의 점그래프로 표현하는 것이 일반적
• 주성분에 대한 고유벡터와 자료별 주성분 점수를 좌표로 나타내면 주성분과 자료간의 관계를
파악할 수 있음.
C1
C2
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 16
주성분분석 예제(1/2)
라면종류별 평가
• 면 / 그릇 / 국물 5단계로 평가
라면종류 면 그릇 국물
쇠고기 2 4 5
해물 1 5 1
얼큰 5 3 4
떡 2 2 3
짬뽕 3 5 5
만두 4 3 2
치즈 4 4 3
된장 1 2 1
볶음 3 3 2
김치 5 5 3
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 17
주성분분석 예제(2/2)
라면종류별 평가
• Biplot
– 첫 번째 주성분
» 라면의 종합평가(첫 번째 주성분) 1위: 짬뽕라면, 2위: 김치라면
» 라면의 종합평가에 가장 영향을 끼치는 변수: 국물
짬뽕
김치
얼큰
치즈
쇠고기
해물
만두
볶음
떡
된장
면
국물
그릇
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 19
요인분석의 이해(1/2)
요인분석(Factor Analysis)
• 데이터의 배후에 있는 설명변수를 찾아 내는 분석방법
• 일반적으로 변수들이 상관구조에 의하여 몇 개 그룹으로 분류될 수 있을 때 사용
• Spearman(1904)
– 학생들의 6과목 성적에 대한 상관계수로 두 그룹으로(언어, 수리) 나눌 수 있을 거라 생각 → 한계
– 변수간에 내재된 공통 개념(f) 부분과 랜덤(e) 부분으로 나눌 수 있을 거라 생각(f와 e는 독립 가정)
– 공통개념이 무엇인지는 모르겠지만 공통개념이 영향을 주는 정도가 같은 과목끼리(변수끼리) 그룹 형성
⇒ group 1: 고전,불어,영어, group2: 수학, 과학, 음악
6262161
2222121
1221111
eff
eff
eff
음악
불어
고전
고전
f1 f2
불어 영어 과학 음악 수학
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 20
요인분석의 이해(2/2)
구조
• 인자모형에서 개별변수 Xi는 common factor Fj들과 specific factor εi와의 선형결합으로 표시
– common factor: 모든 변수에 공통적으로 영향을 미치는 잠재적인 공통인자
– specific factor: 개별 변수에만 영향을 미치는 특정인자
• 각 요인에서 인자적재값의 절대값이 큰 것들만 선택하여 변수 그룹화
– lij: 변수 Xi에 대한 j번째 공통인자 Fj의 중요성을 나타내는 가중치
LFX
pmpmpppp
mm
mm
FlFlFlX
FlFlFlX
FlFlFlX
2211
2222212122
1121211111
특정인자
공통인자
인자적재값
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 21
주성분분석과의 비교
주성분분석
요인분석
설명변수 1 설명변수 2 설명변수 4
목적변수 1 목적변수 2
설명변수 3
목적변수 1 목적변수 2 목적변수 4
설명변수 1 설명변수 2
목적변수 3
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 22
요인분석 절차(1/3)
가정
• 표준화변수 Zi=(Xi-μi)/σi 사용
• 분석 “前” 공통인자 개수 가정
인자적재값의 추정
• 주성분방법(Principal Component Method)
– 공통인자 개수 m 선택: 고유값이 1보다 큰 개수
–
– m개 공통인자에 의하여 설명되는 누적 설명비율
],,,[ 2211 mm eeeL
pm
j
j /ˆ
1
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 23
요인분석 절차(2/3)
요인 회전
• 해석하기 어려운 경우 발생 → 인자의 축 회전(rotation) → 단순 구조 변경 가능
• 베리멕스 회전(Varimax Rotation)
– 요인 행렬의 각 열 내의 적재 제곱의 분산의 합을 제안하고 이 분산을 최대화 하는 회전 방법
– 분산합이 크면 회전된 인자적재행렬의 각 열의 인자적재값을 큰 값과 아주 작은 값으로 구분하기 때문에 각
인자적재값이 높은 변수의 수를 최소화시키는 효과
• 추정된 인자적재행렬
• 직교변환행렬(시계바늘 방향 회전)
• 회전 후 인자적재
• 구하는 방법: Varimax 기준
pxmL̂
cossin
sincosT
TLL ˆˆ*
T
m
j
j
p
i
ij
p
i
ijj
VV
lp
lp
V
1
**
2
1
2*
2
2
1
2**)ˆ(
1)ˆ(
1
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 24
요인분석 절차(3/3)
각 공통인자의 의미 해석
• 인자적재값의 절대값이 클수록 ‘이 공통인자는 그 목적변수에 영향을 미치고 있다.’ 라고 해석
요인점수(factor score) 계산
• 각 개체에서 공통인자의 구체적인 값
• 인자공간에서 개별 관측치의 위치 검토
• 후속 통계분석(회귀분석, 판별분석 등)에서 새로운 변수값으로 이용 가능
• 비가중 최소제곱법(Unweighted Least Squares method)
??? ???
jZZZj ZLLLf 'ˆ)ˆ'ˆ(ˆ 1f1 f2
1 XX XX
2 XX XX
3 XX XX
: : :
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 25
요인분석 예제(1/4)
병원 평가 설문조사
다음은 귀하의 일반적인 사항에 대한 내용입니다. 해당되는 곳에 O 표를 해주시기를 바랍니다. 1. 귀하의 성별은? ①남자 ②여자 2. 귀하의 연령은? ①10-19세 ②20-29세 ③30-39세 ④40-49세 ⑤50세 이상 : 다음은 귀하의 ㅇㅇ병원에 대한 생각을 묻는 내용입니다. 해당되는 곳에 O표를 해주시기를 바랍니다.
구분 매우 나쁘다 나쁘다 보통이다 좋다 매우 좋다
접근의 용이성 1 2 3 4 5
편리한 시설 1 2 3 4 5
고급스러운 분위기 1 2 3 4 5
전문적 인력 1 2 3 4 5
친절도 1 2 3 4 5
적극적 처리 1 2 3 4 5
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 26
요인분석 예제(2/4)
병원 평가 설문조사
• 공통인자 개수 2개 가정
• 고유값과 고유벡터
고유값 2.74 2.32
고유벡터
설명 비율 2.74/6
=45.7% 2.32/6
=38.7%
누적 비율 45.7% 84.4%
6
5
4
3
2
1
e
e
e
e
e
e
37.0
37.0
38.0
45.0
44.0
43.0
42.0
43.0
47.0
41.0
37.0
34.0
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 27
요인분석 예제(3/4)
병원 평가 설문조사
• 추정된 인자적재값
• 요인회전
– 40° 회전 시, 분산 최대값
64.061.0
66.062.0
72.062.0
62.075.0
56.073.0
52.071.0
42.0
43.0
47.0
41.0
37.0
34.0
32.2
37.0
37.0
38.0
45.0
44.0
43.0
74.2
],[ 2211 eeL
f1
f2
접근 용이성
편리한 시설
고급 분위기
전문적 인력
친절도
적극적 처리
88.006.0
90.005.0
95.002.0
01.097.0
04.092.0
06.088.0
)77.064.0
64.077.0(
42.037.0
43.037.0
47.038.0
41.045.0
37.044.0
34.043.0
ˆˆ* TLL40°
Copyright ⓒ 2012 CalebABC Co., Ltd. All Rights Reserved. 28
요인분석 예제(4/4)
병원 평가 설문조사
• 각 공통인자의 의미 해석
접근의 용이성
시설만족도 진료만족도
편리한 시설
고급스러운 분위기
전문적 인력
친절도
0.88
적극적 처리
0.92 0.97 0.95 0.90
0.88
0.06 0.04 0.01 0.02 0.05 0.06