análise fatorial e cluster no stata 11
TRANSCRIPT
Análise Fatorial e Cluster no Stata 11Samuel Alex Coelho Campos1
1. Análise FatorialA análise fatorial pode ser estimada, entre outros, por componentes principais ou por
máxima verossimilhança, que é um método melhor que o anterior, mas necessita que as
variáveis tenham distribuição normal multivariada.
No Stata, para as variáveis instalacaovacas a variação, vacacocho e cochoarea:
.mvtest normality instalacaovacas- variacao vacacocho cochoarea, stats(all)
Supondo que as variáveis não tenham distribuição normal, devemos estimar a análise
fatorial pelo procedimento de componetes principais:
.factor instalacaovacas- variacao vacacocho cochoarea, pcf
*Nesta situação foram escolhidos 5 fatores, uma vez que foram extraídos aqueles
fatores que possuíram eigenvalue maior que 1, nomeando-os com os nomes de f1, f2, f3, f4 e
f5:
.predict f1 f2 f3 f4 f5
Posteriormente, é testada a adequação dos dados à análise fatorial:
factortest instalacaovacas- variacao vacacocho cochoarea
Este comando apresenta o valor do determinante da matriz, o teste de esferacidade de
Bartlett e a estatística Kaiser-Meyer-Olkin (KMO)
2. Análise de ClusterPara agrupar os indivíduos por meio do método de dois estágios proposto por Punj e
Steward (1983), primeiramente, determina o número de grupos por meio do método de
variância mínima de Wald:
Na análise de cluster são utilizados os fatores extraídos da Análise Fatorial como
descrito acima.
. cluster wardslinkage f1 f2 f3 f4 f5, measure(L2) name(wald)
Posteriormente, o número ideal de clusters a serem formados é determinado:
.cluster stop wald, rule(calinski)
.cluster stop wald, rule(duda)
1 Mestrando em Economia Aplicada pela Universidade Federal de Viçosa.
1
Para selecionar o número de cluster pelo critério de Calinski–Harabasz, pseudo-F,
observe os maiores valores; Pelo critério de Duda–Hart, Je(2)/Je(1), observe os maiores
valores; e para o Duda–Hart, pseudo-T, observe os menores valores (Stata Corp, 2009).
Supondo que os critérios determinaram que devam ser formados dois clusters:
Pelo comando, será criada uma variável de nome “kmean22” que assumira valores 1
ou 2, de acordo com o cluster a qual grupo o indivíduo estará inserido. Estão sendo utilizados
os fatores f1 a f5.
. cluster kmeans f1 f2 f3 f4 f5, k(2) measure(L2) name(kmean22) start(krandom)
3. Referências
PUNJ, G. e STEWART, D.W. Cluster Analysis in Marketing Research: Review and Suggestions for Application. Journal of Marketing Research, v. 20, n. 2, p. 134-148, 1983.
2