de diferentes estruturas de correlação nos ... · pdf fileext = ++ex ex ex, o ci...
TRANSCRIPT
Cincia e Natura
ISSN: 0100-8307
Universidade Federal de Santa Maria
Brasil
da Silva, Augusto Maciel; Ramalho De Morais, Augusto; Cirillo, Marcelo Angelo
Efeito de diferentes estruturas de correlao nos ngulos formados entre componentes
principais e interpretveis em amostras com presena de pontos discrepantes
Cincia e Natura, vol. 35, nm. 2, 2013, pp. 95-105
Universidade Federal de Santa Maria
Santa Maria, Brasil
Disponvel em: http://www.redalyc.org/articulo.oa?id=467546171011
Como citar este artigo
Nmero completo
Mais artigos
Home da revista no Redalyc
Sistema de Informao Cientfica
Rede de Revistas Cientficas da Amrica Latina, Caribe , Espanha e Portugal
Projeto acadmico sem fins lucrativos desenvolvido no mbito da iniciativa Acesso Aberto
http://www.redalyc.org/revista.oa?id=4675http://www.redalyc.org/revista.oa?id=4675http://www.redalyc.org/articulo.oa?id=467546171011http://www.redalyc.org/comocitar.oa?id=467546171011http://www.redalyc.org/fasciculo.oa?id=4675&numero=46171http://www.redalyc.org/articulo.oa?id=467546171011http://www.redalyc.org/revista.oa?id=4675http://www.redalyc.org
DOI: http://dx.doi.org/10.5902/2179-460X856Revista do Centro do Cincias Naturais e Exatas - UFSMCincia e Natura, Santa Maria, ISSN: 2179-460X, v. 35 n. 2 dezembro, 2013, p. 095-104
Efeito de diferentes estruturas de correlao nos ngulos formados entre componentes principais e interpretveis em amostras com presena de
pontos discrepantesEffect of different correlation structures in angles formed between principal and
interpretable components in samples witch presences of outliers
Augusto Maciel da Silva1, Augusto Ramalho De Morais2, Marcelo Angelo Cirillo3
1Universidade Federal de Santa Maria, 2Universidade Federal de Lavras, Lavras, Minas Gerais, 3Universidade Federal de Lavras, Lavras, Minas Gerais.
Resumo
Anlise de Componentes Principais (ACP) tem como objetivo descrever a estrutura de covarincias de um vetor aleatrio utilizando combinaes
lineares das variveis originais. Em algumas situaes, os coeficientes dos Componentes Principais (CP) podem no ser facilmente interpretados
devido ao nmero de variveis ou presena de pontos discrepantes. Assim foram introduzidos os Componentes Interpretveis (CI), os quais so
avaliados atravs do ngulo formado entre os mesmos e os Componentes Principais. O presente trabalho tem como objetivo avaliar os efeitos de
diferentes estruturas de correlao via Simulao de Monte Carlo e estatstica circular na distribuio dos ngulos formados entre os componentes
em amostras com e sem contaminao. Foi verificado que as estruturas de correlao atuam de forma diferente nos ngulos, sendo a estrutura de
Simetria Composta a que apresenta menores mdias angulares para os primeiros componentes em situaes de maior coeficiente de correlao. Foi
verificado tambm que a contaminao da amostra no atua diretamente na magnitude dos valores esperados dos ngulos.
Palavras-chave: estatstica circular, simulao de Monte Carlo, direo mdia, pontos discrepantes.
Abstract
The principal component analysis aims to explain the variance structure of a random vector consisting of p variables, using linear combinations of
the original variables. In some situations, the coefficients of the principal components may not be easily interpreted because the number of variables
or the presence of outliers. Thus were introduced interpretable components, which are measured by the angle formed between the Principal and
Interpretable Component. This paper aims to evaluate the effects of different correlation structures via Monte Carlo simulation and circular statistics
on the angles formed between the components in samples with and without contamination. It was found that the structures act differently on the
angles, and the CS structure which has the smallest expected angle for the first components in situations of higher correlation coefficient. Still, it
was found that the contamination of the sample does not act directly on the magnitude of the expected values of the angles.
Keywords: Circular Statistics, Monte Carlo Simulation, Mean Direction, Contamination.
Recebido em: 2013-08-26, Aceito em: 2013-11-24
96 SILVA, MORAIS E CIRILLO | Efeito de diferentes estruturas...
1. Introduo
Anlises estatsticas envolvendo muitas vari-veis tm interpretaes nem tanto triviais, podendo assumir um alto grau de complexidade. As variveis envolvidas em determinado processo podem frequen-temente apresentar algum tipo de relao entre si. As tcnicas de anlise multivariada permitem a utilizao de modelos mais simplificados, que explorem entre outras caractersticas, estas possveis relaes.
A anlise de Componentes Principais tem por caracterstica explicar a estrutura de varincia e cova-rincia de um conjunto de variveis atravs de poucas combinaes lineares destas variveis. Assim, pode-se citar dois objetivos que so a reduo da dimensio-nalidade dos dados e a interpretao (JOHNSON e WICHERN, 2007), sendo a garantia da explicao da variabilidade pela reduo da dimenso, o objetivo mais comumente observado na anlise.
Apesar da facilidade de aplicao da tcnica de Componentes Principais (CP), estes podem apresentar coeficientes de difcil interpretao. Assim, Chipman e Gu (2005) introduziram algumas restries aos com-ponentes de forma a torn-los mais interpretveis, restringindo os coeficientes a um nmero reduzido e obtendo assim os chamados Componentes Inter-pretveis (CI). Outros estudos sobre interpretao de componentes podem ser encontrados em Vines (2000) e mais recentemente em Enki et al. (2013), que considera a interpretabilidade dos componentes conjuntamente com anlise de agrupamentos.
A avaliao dos CI pode ser feita atravs da obteno do ngulo entre o eixo formado pelo CI e o eixo formado pelo CP, que deve ser o menor possvel, a fim de garantir a representatividade. Dessa forma torna-se necessrio o conhecimento desses ngulos, que formam um conjunto de dados circulares.
Dados circulares ocorrem em vrios campos do conhecimento, como biologia, meteorologia, medicina, anlise de imagens, astronomia (MARDIA, 1972). Uma observao circular pode ser definida como um ponto em um crculo de raio unitrio ou um vetor unitrio indicando uma direo. A periodicidade dos dados circulares os caracteriza de forma diferente de obser-vaes na reta, sendo necessrias algumas restries ao se trabalhar com esse tipo de dados, que possuem definies apropriadas de medidas de posio bem como modelos probabilsticos adequados, que so tratados pela estatstica circular (FISHER, 1993).
Os dados circulares esto sujeitos aos mesmos fenmenos que os dados lineares, como por exem-plo, ocorrncia de pontos discrepantes. A ocorrncia de pontos discrepantes em dados lineares tem sido amplamente pesquisada envolvendo os mais diversos modelos, como pode ser observado em Silva e Cirillo (2009) em estudo sobre estimadores robustos em modelos binomiais sob contaminao com excesso
de zeros, fonte causadora de pontos discrepantes. Em se tratando de ocorrncia de pontos discrepantes em dados circulares, alguns mtodos de anlise so tratados por Ibrahim (2013) e Collet (1980), propondo testes para a identificao de observaes discrepantes em dados provenientes da distribuio Von-Mises, que apropriada a dados circulares (MARDIA, 1972).
Particularmente em casos multivariados, Filzmoser et al.(2008) propuseram um mtodo com-putacional para se identificar tais pontos em altas dimenses. Computacionalmente podem-se obter amostras multivariadas com pontos discrepantes, atravs de variveis com distribuio normal multivariada contaminada (JOHNSON, 1987), sendo necessrio para tal estabelecer diferentes vetores de mdias e matrizes de correlao ou covarincias para as variveis. Um estudo sobre matrizes de covarincias e utilizao de diferentes graus de correlao entre as variveis pode ser encontrado em Cirillo et al. (2006).
De acordo com Diggle et al. (2002) e Diggle (1988), uma matriz de correlao deve apresentar flexibilidade para englobar diferentes variaes entre as variveis, tais como: fontes de variao devida aos efeitos aleatrios; variao explicada por correlao serial, em que se espera que as observaes mais prximas sejam fortemente correlacionadas e ainda variao devido a erros de medida. Para tal, no pro-cesso de simulao foram utilizadas duas estruturas que assumem correlaes diferentes entre as variveis e uma estrutura que assume a mesma correlao entre as variveis, afim de que se possa observar possveis diferenas nos ngulos em tais situaes.
Dessa forma, este trabalho tem como objetivo avaliar computacionalmente a influncia de diferentes estruturas de correlao na distribuio dos ngulos formados entre os Componentes Principais e Interpre-tveis provenientes de dados na ausncia e presena de pontos discrepantes. Foram consideradas ainda, variaes nos coeficientes de correlao nas proba-bilidades de mistura utilizadas na contaminao e tambm diferentes tamanhos amostrais. Outro aspecto a ser observado a difuso da estatstica circular para obteno dos valores esperados dos ngulos obtidos entre os componentes no processo de simulao, bem como meios de representao grfica desses ngulos.
2. Conceitos preliminares
Para um melhor entendimento e compreenso do trabalho, sero apresentados nesta seo alguns conceitos e notaes referentes obteno da direo mdia angular, distribuio normal assimtrica mul-tivariada, mistura de distribuies e Componentes Interpretveis. Estes conceitos so essenciais para a estruturao do processo de simulao.
97Cincia e Natura, Santa Maria, v.