Download - Slide 1 Estatística não-paramétrica - cee.uma.ptcee.uma.pt/edu/Bioest/teorica/capitulo6.pdf · com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo,

Ana M. Abreu - 2006/07

Slide 1Capítulo 6Estatística não-paramétrica

Teste de ajustamento do Qui-quadrado

Testes de independência e de homogeneidade do Qui-quadrado


Slide 2Algumas considerações�As secções deste capítulo referem-se à análise

de dados categorizados (qualitativos ou atributos) os quais podem ser classificados em diferentes categorias (frequentemente designadas por células).

�Vamos usar a distribuição χχχχ2 (Qui-quadrado).

�No teste de ajustamento temos uma tabela com apenas uma linha ou uma coluna.

�Nos testes de independência e de homogeneidade as tabelas têm, pelo menos, 2 linhas e 2 colunas.


Slide 3Algumas considerações

Definições

� Testes ParamétricosOs testes paramétricos obrigam a que as populações envolvidas obedeçam a certas premissas.

� Testes Não -ParamétricosNos testes não-paramétricos as populações não têm que obedecer a quaisquer premissas. Assim sendo, este testes são também designados por testes “distribution-free“.


Slide 4Vantagens dos Métodos

Não-paramétricos1. Os métodos não-paramétricos podem ser aplicados

numa grande variedade de situações pois não exigem premissas rígidas, tal como acontece com os métodos paramétricos. Em particular, os métodos não-paramétricos não exigem que as populações tenham distribuição Normal.

2. Ao contrário do que acontece com os métodos paramétricos, os métodos não-paramétricos podem ser aplicados a dados qualitativos.

3. Habitualmente, os métodos não-paramétricos envolvem cálculos mais simples do que os correspondentes métodos paramétricos, donde são mais fáceis de perceber e aplicar.


Slide 5Desvantagens dos Métodos

Não-paramétricos

1. Os métodos não-paramétricos tendem a desperdiçar informação uma vez que, frequentemente, os dados quantitativos são transformados em dados qualitativos.

2. Os testes não-paramétricos não são tão eficientes como os métodos paramétricos logo, em geral, com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo, uma amostra maior ou maiores diferenças) para poder rejeitar a hipótese nula.


Slide 6

Experiência MultinomialEsta é uma experiência que obedece às seguintes condições:

1. O número de provas é fixo.

2. As provas são independentes.

3. Todos os resultados de uma prova devem poder ser classificados numa só das diferentes categorias.

4. As probabilidades para cada uma das categorias permanecem constantes em cada prova.

Definição


Slide 7DefiniçãoTeste de ajustamento

Um teste de ajustamento é usado para testar a hipótese de uma certa distribuição de frequências observadas seguir uma certa distribuição teórica.


Slide 8

0 representa a frequência (ou valor) observada (o)

E representa a frequência esperada (de acordo com a distribuição teórica)

k representa o número de categorias

n representa a dimensão da amostra (ou seja, neste contexto, o número de provas)

Teste de ajustamentoNotação


Slide 9Frequências Esperadas

Se todas as frequências esperadas foremiguais :

cada valor esperado é a soma de todas as frequências observadas dividida pelo número de categorias.

nE =

k


Slide 10

Se as frequências esperadas forem diferentes :

cada valor esperado determina-se multiplicando a soma de todas as frequências observadas pela probabilidade de cada categoria.

E = n p

Frequências Esperadas


Slide 11Teste de ajustamentoEstatística de teste

Valores críticos 1. Determinam-se usando a tabela da distribuição Qui-quadrado com k – 1 graus de liberdade, onde k = número de categorias.

2. A hipótese alternativa é sempre unilateral direita.

X2 = ΣΣΣΣ (O – E)2

E


Slide 12

�Um valor muito elevado da estatística de teste levará à rejeição da hipótese nula (a qual diz que não há diferença entre os valores observados e os valores esperados)

�Se os valores observados estiverem próximos dos valores esperados, então o valor da estatística de teste serápequeno (que é o mesmo do que dizer que o P-value será grande) e vice-versa.


Slide 13

Tabelas de contingência: Independência e Homogeneidade


Slide 14

� Uma tabela de contingência é uma tabela de frequências que representa um conjunto de dados que foram classificados simultaneamente segundo duas (bidimensional) ou mais variáveis (multidimensional).

As tabelas de contingência têm, pelo menos, 2 linhas e 2 colunas.

Definição


Slide 15


Slide 16

� Teste de IndependênciaEste método testa a hipótese nula

de a variável linha e a variável coluna numa tabela de contingência não estarem relacionadas. (A hipótese nula afirma que as duas variáveis são independentes.)

Definição


Slide 17Pressupostos1. As observações são seleccionadas

aleatoriamente.

2. A hipótese nula H0 afirma que as variáveis linha e coluna são independentes; a hipótese alternativa H1 afirma que as variáveis linha e coluna são dependentes.

3. O valor esperado , E, de cada célula da tabela de contingência tem que ser, pelo menos, 5. (Que não é o mesmo do que dizer que cada valor observado, O, de cada célula da tabela de contingência tenha que ser, pelo menos, 5.)


Slide 18Teste de Independência

Estatística de teste

Valores críticos:1. Determinam-se através da tabela da distribuição Qui-quadrado com

(r – 1)(c – 1)=graus de liberdade

onde r é o número de linhas e c o número de colunas da tabela de contingência.

X2 = ΣΣΣΣ (|O – E|-0.5)2

E

Correcção de Yates: aplica-se quando a tabela de contingência é 2x2. Neste caso, a estatística de tes te é

X2 = ΣΣΣΣ (O – E)2

E


Slide 19

(total de linha) (total de coluna)

(total)E =

E =n

ni. n.j

2. A hipótese alternativa é sempre unilateral direita.


Slide 20Teste de Independência

H0: A variável linha é independente da variável coluna.

H1: A variável linha é dependente (estárelacionada com a) da variável coluna.

A dependência entre as duas variáveis significa apenas que as duas variáveis estão relacionadas, não especifica o tipo de relação (por exº, do tipo causa/efeito).


Slide 21Frequências Observadas e Esperadas

332

1360

1692

318

104

422

29

35

64

27

18

45

706

1517

2223

Men Women Boys Girls Total

Survived

Died

Total

Vamos usar a tabela de contingência referente aos passageiros do Titanic para calcular as frequências esperadas. Para a primeira célula, a que se encontr a na posição 11, ou seja, 1ª linha e 1ª coluna, temos:

= 537.360E11 =(706)(1692)

2223

n1. n.1

n =


Slide 22

332537.360

1360

1692

318

104

422

29

35

64

27

18

45

706

1517

2223


Survived

Died

Total

Cálculo da frequência esperada da célula na posição 21, sob a hipótese de independência entre as variáveis.

= 1154.640E21 = (1517)(1692)2223

Frequências Observadas e Esperadas


Slide 23

332537.360

13601154.64

1692

318134.022

104287.978

422

2920.326

3543.674

64

2714.291

1830.709

45

706

1517

2223


Survived

Died

Total

Para interpretar o resultado obtido para a célula, por exemplo, na posição 21, dizemos que embora tivessem sido observadas 1360 mortes nos homens, se houvesse independência entre a sobrevivência e o facto de um indivíduo ser homem, mulher, rapaz ou rapariga, esperaríamos apenas 1154.64 mortes nos homens.

Frequências Observadas e Esperadas


Slide 24

Exemplo: Teste a hipótese de a sobrevivência dos passageiros do Titanic ser independente do facto do passageiro ser homem, mulher, rapaz ou rapariga, usando um nível de significância de 0.05.

H0: A sobrevivência dos passageiros é independente do facto de ser homem, mulher, rapaz ou rapariga. H1: A sobrevivência dos passageiros é dependente do facto de ser homem, mulher, rapaz ou rapariga.


Slide 25

Cálculos:

X2= (332–537.36)2 + (318–132.022)2 + (29–20.326)2 + (27–14.291)2

537.36 134.022 20.326 14.291

+ (1360–1154.64)2 + (104–287.978)2 + (35–43.674)2 + (18–30.709)2

1154.64 287.978 43.674 30.709

X2=78.481 + 252.555 + 3.702+11.302+36.525+117.536+1.723+5.260= 507.084


Slide 26

O número de graus de liberdade é

(r–1)(c–1) = (2–1)(4–1) = 3

pois a tabela tem 2 linhas e 4 colunas. Então, o va lor

crítico é

χχχχ2(0.05;3) = 7.815


Slide 27X2 = 507.084

com αααα = 0.05 e (r – 1) (c– 1) = (2 – 1) (4 – 1) = 3 graus de liberdade

Valor crítico: χχχχ2 = 7.815

Estatística de teste:


Slide 28

Com pare os valores observados, Com pare os valores observados, Com pare os valores observados, Com pare os valores observados, OOOO , com , com , com , com

os respectivos valores esperados, os respectivos valores esperados, os respectivos valores esperados, os respectivos valores esperados, EEEE ....

XXXX 2222 grande, grande, grande, grande, P----value value value value pequeno.pequeno.pequeno.pequeno.XXXX 2222 pequeno, pequeno, pequeno, pequeno, P----value value value value grande.grande.grande.grande.

O `s e E `s próxim os. O `s e E `s afastados.

R ejeitar HR ejeitar HR ejeitar HR ejeitar H 0000 ....NNNN ão rão rão rão rejeitar Hejeitar Hejeitar Hejeitar H 0000 ....

XXXX 2222 aquiaquiaquiaqui XXXX 2222 aquiaquiaquiaqui

Relações entre as componentes num Teste de Independência


Slide 29Definição

� Teste de Homogeneidade

Num teste de homogeneidade, verificamos se diferentes populações têm as mesmas características.


Slide 30Como distinguir um teste de

homogeneidade dum teste de independência:

A dimensão das amostras provenientes da diferentes populações foi fixada à partida (teste de homogeneidade), ou foi recolhida apenas uma amostra que depois foi classificada aleatoriamente nas diferentes linhas e colunas (teste de independência)?


Slide 31

Exemplo: Através da tabela que se segue, teste o ef eito do sexo do entrevistador nas respostas de uma amostra de indivíduos do sexo masculino a uma certa sondagem, com um nível de significância de 0.05.


Slide 32

H0: A proporção de respostas concordantes/discordante s é a mesma quer o entrevistador seja do sexo masculin o ou feminino.

H1: As proporções são diferentes Chi-Square Tests

Value df Asymp. Sig.

(2-sided) Exact Sig. (2-sided)

Exact Sig. (1-sided)

Pearson Chi-Square 6,529(b) 1 ,011 Continuity Correction(a)

6,184 1 ,013

Likelihood Ratio 6,662 1 ,010 Fisher's Exact Test ,011 ,006 Linear-by-Linear Association 6,524 1 ,011

N of Valid Cases 1200

a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 110,67.


Slide 33

O SPSS fornece-nos o valor da estatística de teste X 2 = 6.184 e o P-value 0.013 (pois a tabela é 2x2). Usando a abordagem através do P-value, rejeitamos a hipótese nula de igualdade (homogeneidade) das proporções(porque o P-value é menor do que 0.05).

Assim, concluímos que existe evidência suficiente p ara rejeitar a hipótese de igualdade de proporções.

Download - Slide 1 Estatística não-paramétrica - cee.uma.ptcee.uma.pt/edu/Bioest/teorica/capitulo6.pdf · com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo,

Top Related