Ana M. Abreu - 2006/07
Slide 1Capítulo 6Estatística não-paramétrica
Teste de ajustamento do Qui-quadrado
Testes de independência e de homogeneidade do Qui-quadrado
Ana M. Abreu - 2006/07
Slide 2Algumas considerações�As secções deste capítulo referem-se à análise
de dados categorizados (qualitativos ou atributos) os quais podem ser classificados em diferentes categorias (frequentemente designadas por células).
�Vamos usar a distribuição χχχχ2 (Qui-quadrado).
�No teste de ajustamento temos uma tabela com apenas uma linha ou uma coluna.
�Nos testes de independência e de homogeneidade as tabelas têm, pelo menos, 2 linhas e 2 colunas.
Ana M. Abreu - 2006/07
Slide 3Algumas considerações
Definições
� Testes ParamétricosOs testes paramétricos obrigam a que as populações envolvidas obedeçam a certas premissas.
� Testes Não -ParamétricosNos testes não-paramétricos as populações não têm que obedecer a quaisquer premissas. Assim sendo, este testes são também designados por testes “distribution-free“.
Ana M. Abreu - 2006/07
Slide 4Vantagens dos Métodos
Não-paramétricos1. Os métodos não-paramétricos podem ser aplicados
numa grande variedade de situações pois não exigem premissas rígidas, tal como acontece com os métodos paramétricos. Em particular, os métodos não-paramétricos não exigem que as populações tenham distribuição Normal.
2. Ao contrário do que acontece com os métodos paramétricos, os métodos não-paramétricos podem ser aplicados a dados qualitativos.
3. Habitualmente, os métodos não-paramétricos envolvem cálculos mais simples do que os correspondentes métodos paramétricos, donde são mais fáceis de perceber e aplicar.
Ana M. Abreu - 2006/07
Slide 5Desvantagens dos Métodos
Não-paramétricos
1. Os métodos não-paramétricos tendem a desperdiçar informação uma vez que, frequentemente, os dados quantitativos são transformados em dados qualitativos.
2. Os testes não-paramétricos não são tão eficientes como os métodos paramétricos logo, em geral, com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo, uma amostra maior ou maiores diferenças) para poder rejeitar a hipótese nula.
Ana M. Abreu - 2006/07
Slide 6
Experiência MultinomialEsta é uma experiência que obedece às seguintes condições:
1. O número de provas é fixo.
2. As provas são independentes.
3. Todos os resultados de uma prova devem poder ser classificados numa só das diferentes categorias.
4. As probabilidades para cada uma das categorias permanecem constantes em cada prova.
Definição
Ana M. Abreu - 2006/07
Slide 7DefiniçãoTeste de ajustamento
Um teste de ajustamento é usado para testar a hipótese de uma certa distribuição de frequências observadas seguir uma certa distribuição teórica.
Ana M. Abreu - 2006/07
Slide 8
0 representa a frequência (ou valor) observada (o)
E representa a frequência esperada (de acordo com a distribuição teórica)
k representa o número de categorias
n representa a dimensão da amostra (ou seja, neste contexto, o número de provas)
Teste de ajustamentoNotação
Ana M. Abreu - 2006/07
Slide 9Frequências Esperadas
Se todas as frequências esperadas foremiguais :
cada valor esperado é a soma de todas as frequências observadas dividida pelo número de categorias.
nE =
k
Ana M. Abreu - 2006/07
Slide 10
Se as frequências esperadas forem diferentes :
cada valor esperado determina-se multiplicando a soma de todas as frequências observadas pela probabilidade de cada categoria.
E = n p
Frequências Esperadas
Ana M. Abreu - 2006/07
Slide 11Teste de ajustamentoEstatística de teste
Valores críticos 1. Determinam-se usando a tabela da distribuição Qui-quadrado com k – 1 graus de liberdade, onde k = número de categorias.
2. A hipótese alternativa é sempre unilateral direita.
X2 = ΣΣΣΣ (O – E)2
E
Ana M. Abreu - 2006/07
Slide 12
�Um valor muito elevado da estatística de teste levará à rejeição da hipótese nula (a qual diz que não há diferença entre os valores observados e os valores esperados)
�Se os valores observados estiverem próximos dos valores esperados, então o valor da estatística de teste serápequeno (que é o mesmo do que dizer que o P-value será grande) e vice-versa.
Ana M. Abreu - 2006/07
Slide 13
Tabelas de contingência: Independência e Homogeneidade
Ana M. Abreu - 2006/07
Slide 14
� Uma tabela de contingência é uma tabela de frequências que representa um conjunto de dados que foram classificados simultaneamente segundo duas (bidimensional) ou mais variáveis (multidimensional).
As tabelas de contingência têm, pelo menos, 2 linhas e 2 colunas.
Definição
Ana M. Abreu - 2006/07
Slide 15
Ana M. Abreu - 2006/07
Slide 16
� Teste de IndependênciaEste método testa a hipótese nula
de a variável linha e a variável coluna numa tabela de contingência não estarem relacionadas. (A hipótese nula afirma que as duas variáveis são independentes.)
Definição
Ana M. Abreu - 2006/07
Slide 17Pressupostos1. As observações são seleccionadas
aleatoriamente.
2. A hipótese nula H0 afirma que as variáveis linha e coluna são independentes; a hipótese alternativa H1 afirma que as variáveis linha e coluna são dependentes.
3. O valor esperado , E, de cada célula da tabela de contingência tem que ser, pelo menos, 5. (Que não é o mesmo do que dizer que cada valor observado, O, de cada célula da tabela de contingência tenha que ser, pelo menos, 5.)
Ana M. Abreu - 2006/07
Slide 18Teste de Independência
Estatística de teste
Valores críticos:1. Determinam-se através da tabela da distribuição Qui-quadrado com
(r – 1)(c – 1)=graus de liberdade
onde r é o número de linhas e c o número de colunas da tabela de contingência.
X2 = ΣΣΣΣ (|O – E|-0.5)2
E
Correcção de Yates: aplica-se quando a tabela de contingência é 2x2. Neste caso, a estatística de tes te é
X2 = ΣΣΣΣ (O – E)2
E
Ana M. Abreu - 2006/07
Slide 19
(total de linha) (total de coluna)
(total)E =
E =n
ni. n.j
2. A hipótese alternativa é sempre unilateral direita.
Ana M. Abreu - 2006/07
Slide 20Teste de Independência
H0: A variável linha é independente da variável coluna.
H1: A variável linha é dependente (estárelacionada com a) da variável coluna.
A dependência entre as duas variáveis significa apenas que as duas variáveis estão relacionadas, não especifica o tipo de relação (por exº, do tipo causa/efeito).
Ana M. Abreu - 2006/07
Slide 21Frequências Observadas e Esperadas
332
1360
1692
318
104
422
29
35
64
27
18
45
706
1517
2223
Men Women Boys Girls Total
Survived
Died
Total
Vamos usar a tabela de contingência referente aos passageiros do Titanic para calcular as frequências esperadas. Para a primeira célula, a que se encontr a na posição 11, ou seja, 1ª linha e 1ª coluna, temos:
= 537.360E11 =(706)(1692)
2223
n1. n.1
n =
Ana M. Abreu - 2006/07
Slide 22
332537.360
1360
1692
318
104
422
29
35
64
27
18
45
706
1517
2223
Men Women Boys Girls Total
Survived
Died
Total
Cálculo da frequência esperada da célula na posição 21, sob a hipótese de independência entre as variáveis.
= 1154.640E21 = (1517)(1692)2223
Frequências Observadas e Esperadas
Ana M. Abreu - 2006/07
Slide 23
332537.360
13601154.64
1692
318134.022
104287.978
422
2920.326
3543.674
64
2714.291
1830.709
45
706
1517
2223
Men Women Boys Girls Total
Survived
Died
Total
Para interpretar o resultado obtido para a célula, por exemplo, na posição 21, dizemos que embora tivessem sido observadas 1360 mortes nos homens, se houvesse independência entre a sobrevivência e o facto de um indivíduo ser homem, mulher, rapaz ou rapariga, esperaríamos apenas 1154.64 mortes nos homens.
Frequências Observadas e Esperadas
Ana M. Abreu - 2006/07
Slide 24
Exemplo: Teste a hipótese de a sobrevivência dos passageiros do Titanic ser independente do facto do passageiro ser homem, mulher, rapaz ou rapariga, usando um nível de significância de 0.05.
H0: A sobrevivência dos passageiros é independente do facto de ser homem, mulher, rapaz ou rapariga. H1: A sobrevivência dos passageiros é dependente do facto de ser homem, mulher, rapaz ou rapariga.
Ana M. Abreu - 2006/07
Slide 25
Cálculos:
X2= (332–537.36)2 + (318–132.022)2 + (29–20.326)2 + (27–14.291)2
537.36 134.022 20.326 14.291
+ (1360–1154.64)2 + (104–287.978)2 + (35–43.674)2 + (18–30.709)2
1154.64 287.978 43.674 30.709
X2=78.481 + 252.555 + 3.702+11.302+36.525+117.536+1.723+5.260= 507.084
Ana M. Abreu - 2006/07
Slide 26
O número de graus de liberdade é
(r–1)(c–1) = (2–1)(4–1) = 3
pois a tabela tem 2 linhas e 4 colunas. Então, o va lor
crítico é
χχχχ2(0.05;3) = 7.815
Ana M. Abreu - 2006/07
Slide 27X2 = 507.084
com αααα = 0.05 e (r – 1) (c– 1) = (2 – 1) (4 – 1) = 3 graus de liberdade
Valor crítico: χχχχ2 = 7.815
Estatística de teste:
Ana M. Abreu - 2006/07
Slide 28
Com pare os valores observados, Com pare os valores observados, Com pare os valores observados, Com pare os valores observados, OOOO , com , com , com , com
os respectivos valores esperados, os respectivos valores esperados, os respectivos valores esperados, os respectivos valores esperados, EEEE ....
XXXX 2222 grande, grande, grande, grande, P----value value value value pequeno.pequeno.pequeno.pequeno.XXXX 2222 pequeno, pequeno, pequeno, pequeno, P----value value value value grande.grande.grande.grande.
O `s e E `s próxim os. O `s e E `s afastados.
R ejeitar HR ejeitar HR ejeitar HR ejeitar H 0000 ....NNNN ão rão rão rão rejeitar Hejeitar Hejeitar Hejeitar H 0000 ....
XXXX 2222 aquiaquiaquiaqui XXXX 2222 aquiaquiaquiaqui
Relações entre as componentes num Teste de Independência
Ana M. Abreu - 2006/07
Slide 29Definição
� Teste de Homogeneidade
Num teste de homogeneidade, verificamos se diferentes populações têm as mesmas características.
Ana M. Abreu - 2006/07
Slide 30Como distinguir um teste de
homogeneidade dum teste de independência:
A dimensão das amostras provenientes da diferentes populações foi fixada à partida (teste de homogeneidade), ou foi recolhida apenas uma amostra que depois foi classificada aleatoriamente nas diferentes linhas e colunas (teste de independência)?
Ana M. Abreu - 2006/07
Slide 31
Exemplo: Através da tabela que se segue, teste o ef eito do sexo do entrevistador nas respostas de uma amostra de indivíduos do sexo masculino a uma certa sondagem, com um nível de significância de 0.05.
Ana M. Abreu - 2006/07
Slide 32
H0: A proporção de respostas concordantes/discordante s é a mesma quer o entrevistador seja do sexo masculin o ou feminino.
H1: As proporções são diferentes Chi-Square Tests
Value df Asymp. Sig.
(2-sided) Exact Sig. (2-sided)
Exact Sig. (1-sided)
Pearson Chi-Square 6,529(b) 1 ,011 Continuity Correction(a)
6,184 1 ,013
Likelihood Ratio 6,662 1 ,010 Fisher's Exact Test ,011 ,006 Linear-by-Linear Association 6,524 1 ,011
N of Valid Cases 1200
a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 110,67.
Ana M. Abreu - 2006/07
Slide 33
O SPSS fornece-nos o valor da estatística de teste X 2 = 6.184 e o P-value 0.013 (pois a tabela é 2x2). Usando a abordagem através do P-value, rejeitamos a hipótese nula de igualdade (homogeneidade) das proporções(porque o P-value é menor do que 0.05).
Assim, concluímos que existe evidência suficiente p ara rejeitar a hipótese de igualdade de proporções.