Download - SOCIO-ESTATÍSTICA APOSTILA

III. Análise exploratória de dados

Apostila de EstatísticaProfª Irene Mauricio Cazorla

21

Sumário

Sumário ................................................................................................................................ i

Lista de Tabelas ................................................................................................................. ivLista de Figuras .................................................................................................................. iv

I. O papel da Estatística na pesquisa científica ................................................................... 1

1.1 Relação entre o projeto de pesquisa e a estatística .......................................... 11.2 Formulação de hipóteses ou questões de pesquisa .......................................... 31.3 Planejamento operacional da pesquisa ................................................................. 41.4 Métodos de amostragem ......................................................................................... 51.5 Definição operacional das variáveis ..................................................................... 51.6 Métodos de coletas de dados .................................................................................. 81.7 Qualidade dos instrumentos de medida ................................................................ 81.8 Análises dos dados ..................................................................................................... 10

II. Dicas para trabalhar com o SPSS ......................................................................... 11

2.1 O que é o SPSS .......................................................................................... 112.2 As janelas ou telas do SPSS ...................................................................... 11 2.2.1 A tela de dados.................................................................................. 11 2.2.2 A tela de saída .................................................................................. 12 2.2.3 A tela de sintaxe................................................................................ 13 2.2.4 A tela de gráficos.............................................................................. 132.3 O menu principal do SPSS ........................................................................ 13 2.3.1 O comando FILE............................................................................... 14 2.3.2 O comando EDIT.............................................................................. 15 2.3.3 O comando DATA ........................................................................... 15 2.3.4 O comando TRANSFORM............................................................... 17 2.3.5 O comando STATISTICS ............................................................... 18 2.3.6 O comando GRAPHS ...................................................................... 19 2.3.7 O comando UTILITIES.................................................................... 19 2.3.8 O comando WINDOWS................................................................... 192.4 Criando um banco de dados no SPSS ........................................................ 20



22

III. Análise exploratória de dados ............................................................................. 21

3.1 Trabalhando com variáveis qualitativas .................................................... 213.2 Trabalhando com variáveis quantitativas .................................................. 25 3.2.1 Trabalhando com variáveis discretas que tomam poucos valores ou com séries temporais ................................................................ 25 3.2.2 Trabalhando com variáveis discretas com muitos valores ou com variáveis contínuas ......................................................................... 273.3 Análise univariada para variáveis quantitativas ........................................ 27 3.3.1 Principais estatísticas: definição e operacionalização ...................... 32 3.3.2 Medidas de tendência central: média, mediana e moda ................... 33 3.3.3 Medidas de posição .......................................................................... 36 3.3.4 Medidas de dispersão ....................................................................... 38 3.3.5 O Diagrama de Box-Plot .................................................................. 413.4 Análise bivariada para variáveis quantitativas ......................................... 423.5 Outros comando do SPSS para análise exploratória de dados .................. 47

IV. Introdução à Probabilidades ............................................................................... 50

4.1 Por que precisamos aprender probabilidades?.......................................... 504.2 Introdução à probabilidades ..................................................................... 53 4.2.1 Experimento e fenômeno aleatório ................................................. 54 4.2.2 Definição frequentista de probabilidades ....................................... 57 4.2.3 Definição axiomática de probabilidades ......................................... 58 4.2.4 Probabilidade condicional ............................................................... 59 4.2.5 Independência de eventos ................................................................ 62 4.2.6 Amostragem sem reposição ............................................................. 63 4.2.7 Amostragem com reposição ............................................................ 644.3 Variável aleatória ....................................................................................... 65 4.3.1 Variável aleatória discreta ............................................................... 65 4.3.1.1 Distribuição de Bernoulli ..................................................... 67 4.3.1.2 Distribuição Binomial .......................................................... 67 4.3.2 Variável aleatória contínua................................................................ 67 4.3.2.1 Distribuição Normal ............................................................. 68 a) Estudando a normalidade das variáveis ........................... 76 b) Teste de normalidade ....................................................... 78 4.3.2.2 Distribuição Uniforme ......................................................... 804.4 Distribuições amostrais ............................................................................. 87 4.4.1 Distribuição da média amostral ........................................................ 88 4.4.2 O Teorema Central do Limite ........................................................... 91 4.4.3 Distribuição da frequência e da proporção amostral......................... 93 4.4.4 Distribuição qui-quadrado ................................................................ 93 4.4.5 Distribuição t-student........................................................................ 94 4.4.6 Distribuição F.................................................................................... 95



23

V. Inferência Estatística ............................................................................................ 96

5.1 Introdução................................................................................................... 965.2 Estimação de parâmetros ........................................................................... 97 5.2.1 Estimação pontual .......................................................................... 97 5.2.2 Estimação por intervalo ou intervalar .............................................. 99 5.2.2.1 Intervalo de confiança para a média populacional .............. 99 5.2.2.2 Intervalo de confiança para a proporção populacional ........ 102 5.2.2.3 Intervalo de confiança para a variância populacional ......... 1025.3 Tamanho de amostra .................................................................................. 106 5.3.1 Tamanho de amostra para a média populacional ............................ 106 5.3.2 Tamanho de amostra para a proporção populacional ...................... 106

VI. Teste de Hipóteses .............................................................................................. 107

6.1 A estatística como ferramenta auxiliar na tomada de decisões ................. 1076.2 Teste de hipóteses para média populacional.............................................. 112 6.2.1 Teste de hipóteses para média populacional: pequenas amostras ... 1146.3 Teste de hipóteses para proporção populacional ....................................... 1196.4 Teste de hipóteses para a diferença de duas médias .................................. 122 6.4.1 Amostras emparelhadas ................................................................... 127 6.4.2 Amostras independentes .................................................................. 1316.5 Testando a igualdade de mais de duas médias ANOVA ........................... 140 6.5.1 Comparações múltiplas ................................................................................. 145

VII. Análise de dados categóricos ............................................................................ 146

7.1 Tabelas de contingência ............................................................................ 1467.2 Teste de independência .............................................................................. 1477.3 Teste de homogeneidade ........................................................................... 1537.4 O coeficiente de contingência ................................................................... 1547.5 O teste exato de Fisher .............................................................................. 154

VIII. Análise de correlação e regressão .................................................................... 156

8.1 A covariância e o coeficiente de correlação de Pearson ............................ 1578.2 Análise de regressão .................................................................................. 162



24

Lista de Tabelas

Tabela 1. Procedimentos disponíveis para apresentação de dados ............................ 22Tabela 2. Distribuição dos alunos por série na Escola General Porphyrio da Paz,

Paulínia-SP, maio de 1998 ......................................................................... 21Tabela 3. Distribuição da repetência por série na Escola General Porphyrio da Paz,

Paulínia-SP, maio de 1998. ........................................................................ 24Tabela 4. Evolução do número de alunos matriculados no Ensino Fundamental da

cidade XYZ, no período de 1988 a 1998 ................................................... 26Tabela 5. Número de mulheres por classe social, segundo o número de filhos......... 26Tabela 6. Exemplos de alguns experimentos e fenômenos aleatórios ...................... 55Tabela 7. Cálculo da média amostral se uma das crianças for a primeira ................ 89Tabela 8. Quadro de decisão em condição de incerteza ........................................... 108Tabela 9. Mudança no quadro decisório ao mudar a hipótese ................................... 109Tabela 10. Os erros em função da formulação de hipóteses ....................................... 110Tabela 11. Quadro de decisão em condições de incerteza .......................................... 114Tabela 12. Quadro comparativo da formulação de hipóteses do ponto de vista do

consumidor e do produtor .......................................................................... 115Tabela 13. Quadro de decisão em condição de incerteza ............................................ 119Tabela 14. Quadro comparativo da formulação de hipóteses ..................................... 119Tabela 15. Os modelos da Pesquisa Experimental: experimentação provocada......... 125Tabela 16. Os modelos da Pesquisa Experimental: experimentação invocada............ 126Tabela 17. Número de crianças segundo tipo de comercial escolhido e gênero.......... 148Tabela 18. Porcentagem de crianças por tipo de comercial escolhido e gênero........... 148Tabela 19. Porcentagem de crianças por gênero e tipo de comercial escolhido .......... 149Tabela 20. Número de alunos segundo seu desempenho em Matemática e

participação dos pais nas atividades extra-escolares .................................. 153Tabela 21. Cálculo do coeficiente de correlação de Pearson ....................................... 157

Lista de Figuras

Figura 1. Esquema de um projeto de pesquisa .......................................................... 1Figura 2. A produção do conhecimento científico..................................................... 2Figura 3. Relações entre o mundo teórico e o mundo empírico ................................ 2Figura 4. Tipos de hipóteses ...................................................................................... 3Figura 5. Métodos de coleta de dados........................................................................ 8Figura 6. Distribuição dos alunos por série na Escola General Porphyrio da Paz,

Paulínia-SP, maio de 1998. ........................................................................ 24Figura 7. Distribuição da repetência por série na Escola General Porphyrio da Paz,

Paulínia-SP, maio de 1998. ........................................................................ 25Figura 8. Evolução do número de alunos matriculados no Ensino Fundamental da

cidade XYZ, no período de 1988 a 1998 ................................................... 26Figura 9. Distribuição das notas na prova de Matemática dos alunos da 5ª série ...... 30Figura 10. Distribuição das notas na prova de Matemática dos alunos da 5ª série, por

escola ......................................................................................................... 31Figura 11. Histograma das notas na prova de Matemática dos alunos da 5ª série das

três escolas ................................................................................................. 38



25

Lista de Figuras

Figura 12. Relação entre o desempenho e atitude em relação a Matemática dosalunos da 5ª série por escola ..................................................................... 43

Figura 13. Relação entre salário, anos de estudos, tempo de serviço e número defilhos ......................................................................................................... 44

Figura 14. Relação entre a nota dos alunos no SARESP e na prova discursiva ........ 46Figura 15. Distribuição da nota de um aluno em Matemática ................................... 51Figura 16. Distribuição das notas na prova de Matemática ....................................... 68Figura 17. Histograma de 5000 números aleatórios gerados por uma distribuição

normal de média 7 e desvio padrão 1 ....................................................... 69Figura 18. Histograma e função de densidade de probabilidade de 300 números

aleatórios gerados por uma distribuição N(50;100) .................................. 77Figura 19. Normal Probability Plot de uma distribuição normal .............................. 78Figura 20. Detrended Normal Plot de uma distribuição normal ................................ 79Figura 21. Histograma de 300 números aleatórios gerados por uma distribuição

uniforme de parâmetros 20 e 80 ............................................................... 81Figura 22. Normal Probability Plot de uma distribuição uniforme ........................... 81Figura 23. Detrended Normal Plot de uma distribuição uniforme ............................ 82Figura 24. Análise visual sobre a normalidade das três escolas ................................ 84Figura 25. Histograma das atitudes em relação a Matemática de todos os alunos de

Paulínia ..................................................................................................... 85Figura 26. Box-plot das atitudes frente a Matemática por série e gênero .................. 86Figura 27. Esquema do processo de inferência estatística ......................................... 87Figura 28. Distribuição das notas da população ......................................................... 90Figura 29. Distribuição das notas da amostra de tamanho 2 ...................................... 90Figura 30. Histogramas correspondentes à distribuição normal de algumas

populações ................................................................................................ 92Figura 31. Esquema geral de um curso de estatística ................................................ 96Figura 32. Região de rejeição e de aceitação da hipótese nula e relação entre alfa e

beta, no caso da postura conservadora ..................................................... 111Figura 33. Região crítica na postura do produtor ...................................................... 117Figura 34. Relação entre o peso inicial e final das cobaias ........................................ 130Figura 35. Região crítica ............................................................................................ 133Figura 36. Distribuição das notas no pré-teste ........................................................... 136Figura 37. Distribuição das diferenças de notas (pós-pre) ........................................ 138Figura 38. Relação entre o desempenho nos testes, por grupo................................... 140Figura 39. Porcentagem de crianças por tipo de comercial escolhido e gênero ........ 148Figura 40. Porcentagem de crianças por gênero e tipo de comercial escolhido ........ 149Figura 41. Relação entre X e Y .................................................................................. 158Figura 42. Relação entre as variáveis estudadas ........................................................ 162

Lista de Quadros

Quadro 1. Distribuição normal padrão ...................................................................... 73Quadro 2 Distribuição Qui-quadrado ....................................................................... 74Quadro 3. Distribuição t-student ............................................................................... 74Quadro 3. Distribuição F de Snedecor ...................................................................... 75



26

I. O PAPEL DA ESTATÍSTICA NA PESQUISA CIENTÍFICA

1.1 Relação entre o projeto de pesquisa e o papel da estatística

A estatística tem tido uma longa e estreita relação com a filosofia da ciência e suaepistemologia, embora a estatística, frequentemente tem sido modesta na sua extensão epragmática na sua atitude. Em stricto sensu a estatística é parte da filosofia da ciência,porém de fato, essas duas áreas são estudadas separadamente (Kuskal e Tuner, 1978).

Segundo Pereira (1997) a estatística é a tecnologia da ciência e, portanto, a estatística deveestar presente desde o início da pesquisa. A Figura 1 mostra a relação entre o projeto depesquisa e o papel da estatística, a Figura 2, a produção do conhecimento científico e aFigura 3, as relações entre o mundo teórico e o mundo empírico.

O projeto de pesquisa1 O papel da estatística

Conceitualização do objeto de pesquisa1. Definição do objeto de pesquisa2. Situação dos conhecimentos3. Modelo teórico e hipóteses ou questões

da pesquisa

A estatística ajuda aoperacionalizar as hipóteses

ou questões de pesquisa

Escolha de umaestratégia de pesquisa

4.a) Modelo de pesquisa escolhido 4.b) Validade do modelo

Por estratégia de pesquisaentende-se a integração earticulação do conjunto dasdecisões a serem tomadas, paraapreender de maneira coerente arealidade empírica, a fim detestar de maneira rigorosa ashipóteses ou questões de pesquisa

Planificação operacional da pesquisa5) população estudada6) definição das variáveis e coleta de dados7) Análise de dados8) Cronograma e orçamento9) Pertinência da pesquisa10) Respeito às regras éticas

A estatística ajuda na definição dapopulação a ser estudada, nadefinição das variáveis, na coletade dados e na análise.

Figura 1. Esquema de um projeto de pesquisa

1 Extraído de Contandriopoulos e outros, pag. 16

III. Análise exploratória de dados 27

A roda do conhecimento científico2 O papel da estatística

Teorias Parâmetrospopulacionais

Generali-zações Hipóteses

InferênciaEstatística

HipótesesAmostras

Estimadores

Observações DadosEstimativas

Figura 2: A produção do conhecimento científico

Mundo conceitual teórico Mundo empírico observado

X1

Proposiçãoteórica

Figura 3: Relaçõ

Modelo teórico. Uma tleis relativas a eles. Uentre os conceitos. O para a situação problempossível que seja precispesquisador deve propoobservações.

A qualidade de dos fenômenos o

2 Extraído de Contandriopou3idem, pag. 30

X1

Operacionalização Hipótese

X22
X

es entre o mundo teórico e o mundo empírico3

eoria é uma explicação sistemática dos fenômenos observados e dasma teoria se expressa pelos enunciados das relações que existemmodelo teórico escolhido deve então propor uma solução originalática que constitui o objeto do estudo projetado, caso já exista é

o adaptá-lo e modificá-lo. Quando não existe um modelo teórico or um que integre a situação dos conhecimentos e as suas próprias

um modelo teórico reside na sua capacidade de dar contabservados no mundo empírico.

los e outros, pag. 27



28

1.2 Formulação das hipóteses ou questões de pesquisa

Hipóteses. Uma hipótese é um enunciado formal das relações esperadas entre pelo menosuma variável independente e uma variável dependente. Nas pesquisas exploratórias, ashipóteses podem se tornar questões de pesquisa. Estas questões pela sua especificidade,devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela suaclareza, permitir uma resposta interpretável.

As hipóteses devem ser formuladas na forma de uma relação a ser verificada entre, pelomenos, duas variáveis e não em termo de uma hipótese nula, impossível de verificar, comono caso seguinte:

“Os programas de diagnóstico de câncer do pulmão por radiografia nãodiminuem a mortalidade por câncer de seio”

As hipóteses de uma pesquisa devem enunciar-se por propostas claras e específicas quantopossível, como, por exemplo:

“Os programas de diagnóstico de câncer do seio por mamografiadiminuem em um terço o risco de mortalidade por este câncer”

“A intenção de utilizar preservativo é associada positivamente à presençade normas sociais aprovando a adoção desse comportamento”.

Em um mesmo estudo pode haver mais de uma hipótese e estas podem se relacionar dediferentes formas, conforme Figura 4.

1.3 Planejamento operacional da pesquisa

O planejamento operacional da pesquisa consiste em prever as ações que deverão serefetuadas para aplicar a estratégia da pesquisa escolhida. Estas ações dizem respeito àseleção da população a ser estudada, à definição das variáveis e à coleta de dados, assimcomo à análise dos dados recolhidos.

População. Toda questão de pesquisa define um universo de objetos aos quais osresultados do estudo deverão ser aplicados. A população alvo, também chamadapopulação estudada, é composta de elementos distintos possuindo um certo número decaracterísticas comuns (pelo menos). Estes elementos, chamados de unidadespopulacionais, são as unidades de análise sobre as quais serão recolhidas informações.

“Uma população ou universo, no sentido geral, é um conjunto deelementos com pelo menos uma característica comum. Essa característicacomum deve delimitar inequivocamente quais os elementos que pertencemà população e quais os que não pertencem” (Costa neto, 1977)



29

a) Duas hipóteses independentes

X1 H1 Y1

X2 H2 Y2

b) Duas hipóteses ligadas pela variável independente

X1 H1 Y1 H1 Y1ou X1

X1 H2 Y2 H2 Y2

c) Duas hipóteses ligadas pela variável dependente

X1 H1 Y1 X1 H1ou Y1

X1 H2 Y1 X2 H2

d) Uma rede de hipóteses

X1 H1 Y2

H2 H3 Y1

Figura 4: Tipos de hipóteses4

As unidades populacionais podem estar constituídas por pessoas, famílias, turmas dealunos, empresas, escolas, ou ainda fazer parte de um objeto mais complexo, como porexemplo, órgãos ou partes do corpo, ou, ainda, podem ser objetos, como, por exemplo,peças defeituosas, plantas, animais, entre outros.

Duas séries de critérios servem para definir os elementos que constituem a população alvo:os critérios de inclusão e, de exclusão. A conjunção desses critérios deveria ser tal modoque todo elemento pudesse ser classificado, sem equívoco, como fazendo ou não parte dapopulação alvo. Teoricamente, a população alvo deveria ser definida com uma precisão talque fosse possível estabelecer a lista de todos os elementos que a constituem, o que emalguns casos, é impossível.

Amostra. Uma amostra é um subconjunto de indivíduos da população alvo. Para que asgeneralizações sejam válidas, as características da amostra devem ser as mesmas dapopulação.

4 Extraído de Contandriopoulos e outros, pag. 33



30

Existem dois tipos de amostras, as probabilísticas, baseadas nas leis de probabilidades, e asamostras não probabilísticas, que tentam reproduzir o mais fielmente possível a populaçãoalvo. Entretanto, somente as amostras probabilísticas podem, por definição, originar umageneralização estatística, apoiada no cálculo de probabilidades e permitir a utilização dapotente ferramenta que é a inferência estatística.

Existem várias técnicas de amostragem, cada uma tem vantagens e desvantagens, e aescolha deverá ser feita pelo pesquisador de acordo aos objetivos propostos pela pesquisa.

1.4 Técnicas de amostragem

Amostragem probabilística:a) Amostragem aleatória simplesb) Amostragem sistemáticac) Amostragem por conglomeradosd) Amostragem estratificada

Amostragem não probabilísticaa) Amostragem acidentalb) Amostragem de voluntáriosc) Amostragem por escolhas racionais

i) Julgamento do especialistaii) Julgamento por escolha deliberada

d) Amostragem por quotas

1.5 Definição operacional das variáveis

Toda questão de pesquisa define um número de construções teóricas que o pesquisadorquer associar. O grau de operacionalização destas construções não faz parte de umconsenso. Porém, a seção que trata das definições das variáveis deve permitir ao leitoravaliar a adequação entre os instrumentos utilizados, as variáveis escolhidas e asconstruções teóricas descritas no quadro conceitual.

Variável é uma característica da população

Classificação funcional das variáveis

Tipos de pesquisa Tipos de variáveisPesquisa experimental Variáveis independentes

Variáveis dependentesAs “outras” variáveis (variáveis de controle, fator deconfusão, entre outras)

Pesquisa sintética Não é pertinente a classificação, pois as variáveis serelacionam em rede

Pesquisa de desenvolvimento Não é necessário distinguir as variáveis, pois o objetivo éestabelecer e validar uma intervenção ou um instrumentode medida de uma construção



31

Variáveis dependentes. São aquelas cujos efeitos são esperados de acordo com as causas.Elas se situam, habitualmente, no fim do processo causal e são sempre definidas nahipótese ou na questão de pesquisa.

Variáveis independentes. São aquelas cujos efeitos queremos medir. Podem serassinaladas às “causas” do fenômeno que se quer estudar.Quando um estudo tem mais de uma hipótese, podem ser definidas diversas variáveisdependentes. Elas podem ser independentes umas das outras ou constituir uma ordemhierárquica, na qual certas variáveis dependentes podem ter um efeito sobre outrasvariáveis dependentes. Por exemplo:

Hipótese 1: O consumo de álcool diminui o estado de alerta do cérebroHipótese 2: O risco de acidentes de trânsito aumenta quando o estado de alerta do

cérebro diminui

consumo deálcool

estado de alertado cérebro

risco deacidentes de

trânsito

variávelindependente

variáveldependente

intermediária

variáveldependenteprincipal

Notação estatística:

X Y Z

A variável dependente intermediária ou mediatriz representa o mecanismo que precisa arelação entre a variável dependente principal e a variável independente.

Classificação das variáveis pela sua natureza

Nominal (não existe ordenação entre as categorias)Qualitativas

Ordinal (existe uma ordem natural nas categorias)

Discretas (resultado de contagens)Quantitativas

Contínuas (resultados de mensurações)

Exemplos:

nominal: sexo, raça, consumo de álcool (sim, não), gostar de matemática, ...ordinal: classe social, grau de instrução, consumo de álcool (pouco, médio, muito), ...discreta: número de filhos, número de reprovações em matemática, número de copos de

álcool consumidos,...contínua: estatura, nota na prova de matemática, quantidade de álcool consumido, ...



32

Observa-se que uma variável quantitativa pode-se transformar em uma variável qualitativae isso depende da descrição da variável

Descrição das variáveis

A variável constitui um primeiro nível de operacionalização de uma construção teórica e,para cada uma, se deve dar, em seguida, uma descrição operacional. Para algumasvariáveis a descrição é simples, porém, em outros casos, essa definição é mais complexa.

Idade Consumo de álcool Classe socialNominal Sim, NãoOrdinal Criança, jovem, velho Pouco, médio, muito Baixa, média, alta

Discretas Número de anoscompletos

Número de copos deálcool ingeridos

Número de saláriosmínimos completos

Contínuas Idade em anos, meses,dias,...

Quantidade de álcoolpresente no sangue

Renda familiar em reais

No exemplo do consumo de álcool e o risco de acidente, pode-se definir a variávelconsumo de álcool das seguintes formas:

a) número de copos consumidos nas quatro horas que precedem o momento de dirigir,segundo a declaração do motorista;

b) concentração de álcool no sangue segundo o bafômetro;c) observação do motorista enquanto passa pelo teste de dirigir em marcha a ré em

linha reta;d) análise em laboratório de uma amostra sanguínea

Outro exemplo é medir atitude em relação a matemática, pode-se perguntar:

Você gosta de matemática?a) ( )Não ( )Sim

b) ( )Detesta ( )Gosta pouco ( )Mais ou menos ( )Gosta muito ( )Gosta muitíssimo

c) De uma escala de 0 a 10 atribua uma nota para o quanto você gosta dematemática: ______

d) Na escala a seguir, marque com um X o quanto você gosta de matemática:

0 1 2 3 4 5 6 7 8 9 10

Diante das dificuldades de operacionalizar as variáveis, recomenda-se descreverdetalhadamente as condições operacionais de medida, assim como os instrumentosutilizados.



33

1.6 Métodos de coleta de dados:

Existem três grandes fontes de dados: a utilização de documentos, a observação pelopesquisador e a informação fornecida pelos indivíduos.

OficiaisEscritos

Utilização de Pessoaisdocumentos

MudosExperimental

Sistemática Semi-experimental

Ligada à entrevista NaturalObservação

Livre

ParticipanteDe exploração

Livre Com informação chave

Informações Clínicafornecidas pelos

indivíduos Semi-estruturadaDirigida

QuestionárioFigura 5: Métodos de coleta de dados5

1.7 Qualidade dos instrumentos de medida

A qualidade de um instrumento de medida se aprecia pela sua fidelidade (ouconfiabilidade) e pela sua validade. A confiabilidade é a capacidade de um instrumentomedir fielmente um fenômeno. A validade é capacidade de um instrumento medir comprecisão o fenômeno a ser estudado

Confiabilidade Medir fielmente

Validade Medir com precisão

5 Contandriopoulos e outros, pag. 73



34

Recomenda-se pré-testar os instrumentos a fim de avaliar sua confiabilidade e validadeantes de trabalhar com a população alvo.

Confiabilidade de um instrumento de medida

A confiabilidade de um instrumento de pesquisa é sua capacidade de reproduzir umresultado de forma consistente no tempo e no espaço, ou com observações diferentesquando for utilizado corretamente.

“por definição, a apreciação da confiabilidade se baseia na repetição damedida e na comparação dos resultados obtidos”

Existem três abordagens para avaliar a confiabilidade de um instrumento:

a) a comparação com resultados obtidos pela utilização de um mesmo instrumento,em diferentes momentos, para avaliar sua estabilidade;

b) a apreciação da equivalência dos resultados obtidos, quando um mesmo fenômenoé medido por vários observadores ao mesmo tempo;

c) quando um instrumento é composto por vários itens ou indicadores, suaconfiabilidade pode ser apreciada medindo a homogeneidade de seus componentes

A escolha do método estatístico para medir confiabilidade de um instrumento depende dométodo de validação previsto e do tipo de dados por ele fornecidos. A confiabilidade seavalia de forma diferente: se a medida obtida for uma variável contínua (como é ainteligência ou o peso do indivíduo), uma variável ordinal (a pertença a um nível, como osda escala sócio-econômica), ou ainda, uma variável nominal (como um diagnóstico).

A confiabilidade de um instrumento de medida é uma característicaindependente da questão de pesquisa. Ela pode, no entanto, variar emfunção das populações

Os seguintes testes serão abordados para avaliar a confiabilidade dos instrumentos demedida:

• coeficiente de correlação de Pearson;• coeficiente alfa de Cronbach• coeficiente de correlação intra-classe• coeficiente Kappa de Cohen

Validade da medida. A validade se define como a capacidade de um instrumento medircom precisão o fenômeno em estudo, isto é, a adequação existente entre as variáveisescolhidas e o conceito teórico a ser medido. Existem três tipos de validade:

• Validade de conteúdo• Validade prática ou de critério• Validade de construção



35

1.8 Análise dos dados

Análises qualitativas

Não existe regra formal, no sentido estatístico, para a análise qualitativa dos dados. Porém,quando os dados se apresentam em forma de discurso, a análise pode compreender quatroetapas:

a) a preparação e a descrição do material bruto;b) a redução dos dados;c) a escolha e a aplicação dos modos de análise;d) a análise transversal das situações ou dos casos estudados.

Análises quantitativas

O planejamento das análises deve ser feita em função de cada uma das questões ouhipóteses da pesquisa. Devem ser considerados dois níveis de análises: as descritivas e asligadas às hipóteses.

Análises descritivas

As análise descritivas servem para descrever o comportamento de uma variável em umapopulação ou no interior de subpopulações. Todos os estudos utilizando dadosquantitativos, independentemente das hipóteses da pesquisa, requerem análises descritivas.

Análises ligadas às hipóteses

Cada uma das hipóteses formuladas no quadro conceitual deve ser verificada. Quando osdados coletados são de natureza quantitativa, esta verificação se faz com a ajuda deferramentas estatísticas. A natureza da hipótese constitui o primeiro determinante daescolha da ferramenta estatística a ser utilizada, devendo ser levados em conta os seguintespontos:

• as características da estratégia da pesquisa;• o modelo;• as variáveis medidas.

Esta é a seção da análise estatística do projeto de pesquisa que será desenvolvida ao longoda disciplina.



36

II. DICAS PARA TRABALHAR COM O SPSS

2.1 O que é o SPSS

O SPSS for Windows é um software que permite o gerenciamento e a análise estatística dedados. Existem outros softwares similares, tais como o SAS, o Minitab, e o Statistica, amaioria deles em inglês. Em português, existe o SAEG desenvolvido pela UniversidadeFederal de Viçosa. Todos esses softwares são bastante “amigáveis” e tem uma estruturasimilar, logo aprender um deles dá base para migrar para qualquer outro software.

A planilha EXCEL também pode ser usada para analisar dados estatísticos, porém paratécnicas mais avançadas tem que se desenvolver rotinas específicas, o que demanda de umbom conhecimento do EXCEL.

O SPSS lê bancos de dados criados pelo EXCEL, por qualquer banco de dados que criearquivos com extensão DBF, tais como FOXPRO, ACSSES, dBase, e de dados em ACSII,além dos dados gerados pelo ORACLE e SQL.

O diretório do SPSS, criado por ele mesmo, é o SPSSWIN. Você pode criar sub-diretóriosdentro dele, é mais prático para trabalhar.

2.2 As telas ou janelas do SPPS

O SPSS trabalha com quatro telas:a) a tela de dados - PROGRAM EDITOR - onde se colocam os dados a serem trabalhados

ou onde são carregados os dados criados anteriormente pelo próprio SPSS ou criadospor outros programas. Todos os arquivos de dados do SPSS tem como extensão .SAV

b) a tela de saída - OUTPUT - gerado pelo SPSS ao rodar algum comando. A extensãodestes arquivos são .LST

c) a tela de sintaxe (opcional, caso você queira repetir sequências de procedimentos noSPSS), cuja extensão é .SPS

d) a tela de gráficos, denominado CHART CARROUSEL, que pode conter um ou maisgráficos. Cada gráfico deve ser editado e gravado, a extensão é .CHT.

2.2.1 A tela de dados

Ao abrir o SPSS, a primeira tela que ele mostra é a tela de dados – NEWDATA – que éuma matriz formada por linhas e colunas. Cada linha é um registro, que contém os dadosde uma unidade amostral (sujeitos da pesquisa) e cada coluna é uma variável. Praticamentenão existe limite para linhas e colunas.

var var var var var Var ... ...123...



37

Suponha que você tem o seguinte banco de dados: nome do aluno, sexo, idade, série, turma

nome sexo idade serie turma ...

1 Luiz Masculino 9 3ª A

2 Carla Feminino 8 2ª B

3 Leonardo Masculino 8 3ª C

4 Paula Feminino 7 2ª D

...

Lembre-se que o SPSS é um pacote em inglês, logo os nomes das variáacentos, ç, ífem, etc., use no máximo oito letras. Os rótulos ou LABELS asímbolo, logo podemos usar os símbolos próprios do português. Como vernão é necessário escrever por extenso os rótulos das variáveis, podemodepois dar nome aos códigos, que podem ser guardados em uma bibliopara uso em outras variáveis ou em trabalhos futuros. Recomenda-se cvariáveis, mesmo sendo estas de caráter qualitativas, ou seja entrar comvariável numérica, isto facilitará muito o trabalho futuro, como por eestamos usando a técnica da análise de variância.

Ao gravar um banco de dados do SPSS este automaticamente o fará compor essa razão basta dar o nome, também gravará o arquivo no diretóriocontém apenas arquivos de dados gerados pelo SPSS, a menos que você teum outro diretório.

2.2.2 A tela de saída

A tela de saída - OUTPUT - guarda todas as tabelas, estatísticas, testeaplicação dos comandos nos dados. Às vezes estamos rodando várias comando, ou porque erramos, ou porque inserimos novas opções, cada rsaída, logo, a tela de saída acumula, via de regra, muito lixo, que deve snão gravar resultados desnecessários. Por isso não esqueça de limpar a tela

Para limpar a tela de saída, ir no EDIT, clicar SELECT ALL e acionar a te

Caso você queira guardar a saída num documento WORD, selecione todaEDIT e clicando SELECT ALL, copiar com o comando CONTROL Ccomando COPY do comando EDIT e colar no WORD, com o comanCONTROL V. não esqueça de arrumar a saída, pois via de regra o Wformato padrão e fica desarrumado. Para arrumar selecione todo o documde letra COURIER NEW e diminuir o tamanho da letra.

variáveis

Registros ousujeitos

veis não aceitamceitam qualqueremos mais tardes usar códigos eteca (templates),odificar todas as

o se fosse umaxemplo quando

extensão .SAV, SPSSWIN quenha selecionado

s, resultantes davezes o mesmoodada gera umaer limpado para.

cla DELETE.

a saída, indo no, ou clicando odo COLAR ou

ORD utiliza oento e use o tipo



38

Outra forma de inserir a saída do SPSS no seu texto do WORD é fazê-lo de forma diretacom o comando copiar/colar. Neste caso, apenas cuide do formato das tabelas, utilize aletra COURIER NEW .

2.2.3 A tela de sintaxe

Geralmente, em pequenas análises não será necessário usar este recurso, que é muito útilpara rodar um mesmo programa com vários bancos de dados.

2.2.4 A tela de gráficos

O SPSS cria uma tela para cada gráfico e os guarda no CHART CARROUSSEL, caso vocêqueira gravar um gráfico você deverá editá-lo e depois salvá-lo com um nome,automaticamente o SPSS colocará a extensão .CHT.

Caso você queira colar esse gráfico no seu relatório, no WORD, por exemplo, você deveráexecutar os seguintes passos:

1. Com o gráfico editado no SPSS, ir no menu EDITAR e clicar em COPY CHART;2. Abrir seu relatório no WORD, colocar o cursor onde você deseja inserir o gráfico e

clicar COLAR ESPECIAL, o WORD abrirá um menu indicando a natureza do gráfico,ai é só dar enter.

Outra forma é copiar e colar direto (Control C no gráfico no SPSS e Control V no WORD).

No WORD para evitar que seu gráfico mude de local a cada alteração é recomendávelinseri-lo em uma caixa de texto.

Um outro cuidado a ser observado com os gráficos gerados pelo SPSS é que editá-los apartir do WORD aumenta significativamente a quantidade de memória utilizada pelodocumento, por esta razão é melhor deletá-lo e fazer as correções no próprio SPSS e colarde novo.

2.3 O menu principal do SPSS

O SPSS é um programa estatístico amigável, praticamente auto-explicativo, conta com aajuda - HELP. Os principais comandos são:

File Manipula arquivos de dados, de saída, de sintaxe e de gráficos. Abre arquivos novos e jáexistentes, fecha, salva e salva com outro nome; Imprime e outros subcomandos maisespecíficos do SPSS.

Edit Edita os arquivos, copia, cola, deleta, seleciona, busca, substitui, entre outros.Data Manipula os dados, seleciona, sorteia, insere variáveis, renomeia, entre outrosTransform Transforma os dados e variáveis, através de cálculos, recodifica, entre outrosStatistics Disponibiliza as técnicas estatísticas mais usuais na pesquisa científicaUtilities Alguns comandos úteisWindows Mostras as janelas, em cada janela há um arquivo, geralmente dados, saída e gráficosHelp Tela de ajuda



39

2.3.1 O Comando FILE

File Função Nome SignificadoNew Abre um arquivo novo Data

SPSS SyntaxSPSS Output

Arquivo de dadosArquivo de sintaxeArquivo de saída

Open Abre um arquivo já existente DataOracleSQL serverSPSS SyntaxSPSS Output

Arquivo de dados

Arquivo de sintaxeArquivo de saída

Read ASCII data Lê um arquivo gravado em ASCII, por exemplo com o EDIT do DOSCloseSaveSave As

Fecha o arquivoSalva o arquivoSalva o arquivo com outro nome

Display data InfoApply Data DictionaryApply Chart Template

Mostra os dados (*)Mostra a natureza das variáveis

PrintPrint SetupStop processor

Imprime

Pára o programaExit Sair

Para abrir um banco de dados já existente, seguir os passos: File

OpenData o SPSS abre um menu onde mostra o diretório SPSSWIN e

mostrará os arquivos com extensão .SAV. Clicar duas vezes o arquivo desejado

Para salvar um banco de dados, seguir os passos: File

Save as o SPSS abre um menu onde mostra o diretório SPSSWIN e mostrará os arquivos com extensão .SAV deixando um espaço, para colocar o nome desejado.

Quando você está digitando seus dados é recomendável gravar a cada certo tempo, neste caso: File Save data

Este procedimento pode ser usado tanto para abrir como salvar dados, saídas, gráficos eprogramas. Para isto você deve estar na tela que deseja gravar.

Na tela de saída: File

Save as o SPSS abre um menu onde mostra o diretório SPSSWIN e mostrará os arquivos com extensão .LST deixando um espaço, para colocar o nome desejado.



40

Na tela de gráficos, editar o gráfico:

FileSave as o SPSS abre um menu onde mostra o diretório SPSSWIN e

mostrará os arquivos com extensão .CHT deixando um espaço, para colocar o nome desejado.

O mesmo procedimento para leitura de saídas e/ou gráficos já existentes:

File Open OUTPUT File Open CHART

2.3.2 O Comando EDIT

Como já foi dito, o comando EDIT gerencia os comandos de edição dos arquivos, copia,cola, procura, limpa, etc.

Edit Teclado SignificadoUndo Cut Desfaz o último corte

Cut

Copy

Copy Table

Copy Chart

Paste

Clear

Select all

Shift+Del

Ctrl+Ins

Shift+Ins

Del

Corta a parte selecionada do arquivo

Copia a parte selecionada do arquivo

Copia uma tabela selecionada

Copia um gráfico (Use para levar o gráfico para o WORD)

Cola a parte selecionada do arquivo

Deleta a parte selecionada do arquivo

Seleciona o arquivo inteiro

Search For Data

Search For Text

Replace Text

Round

Alt+F5

F5

Shift+F5

Procura por um dado específico, da variável onde está o cursor

Procura por um texto específico

Substitui um texto selecionado

Preferences Você pode manipular o formato de saída. Por exemplo, a ordem“default” das variáveis é alfabética, você pode modificar paraque o SPSS processe na ordem de entrada dos dados. Aqui, vocêpode modificar o comprimento dos valores das variáveis, bemcomo o número de casas decimais. No OUTPUT você podemodificar o número de linha e colunas das páginas da saída.

2.3.3 O Comando DATA

Manipula os dados, tanto as variáveis quanto os registros. Para selecionar uma variávelclicar uma vez no nome dela, a coluna ficará em preto.



41

O comando DATAData Função Como acionar e os subcomandos

Clicar duas vezes no nome da variávelName: colocar o nome da variávelType: diz o tipo de variável (Numérica, String-Alfanumérica, Data, etc.), quantas casas ela tem equantos números decimais

Define variable Define as características davariável em questão

Label: são os rótulos para as variáveisqualitativas. É recomendável definir uma variávelqualitativa como numérica e depois atribuir osrótulos ou labels. Por exemplo a variável sexo,digitar 1 para sexo feminino e 2 para sexomasculino e nos labels colocar a equivalência.Missing values: define como deve ser osvalores da variável que não teminformaçãoColumn format: formata a coluna de dados

Templates É uma biblioteca de rótulosque podem ser atribuído asvariáveis. Recomendasse usarquando várias variáveispossuem os mesmos labels,como por exemplo o caso dasvariáveis da escala de atitudes

Para acionar, selecionar as variáveis desejadas eclicar em templates. Clicar em define, que abreuma tela inferior. Digitar o nome desejado emname e em value labels colocar para cada valordigitado e o nome desejado. Clicar em ADD paraadicionar à BIBLIOTECA. Clicar em apply, valuelabels e dar OK.

Insert Variable Insere uma nova variável Selecionar a variável depois de onde você queiraque o SPSS insira a nova variável, depois e sóclicar este comando.

Insert Case Insere um novo registro(sujeito)

Selecionar o registro variável depois de onde vocêqueira que o SPSS insira o novo registro, depois esó clicar este comando.

Go to case Vai para o registro desejado Digitar o número do registro desejadoSort cases Ordena o arquivo segundo os

valores de uma variávelAo clicar neste comando ele abre uma tela ondevocê seleciona a variável desejada e a ordem, A-ascendente, D – descendente

Transpose Cria um novo arquivo onde aslinhas viram colunas e ascolunas linhas

Selecione as variáveis a ser transpostas emvariable(s) a variável chave em variable name.Está última vai virar nome das variáveis recémcriadas.

Merge Files Junta dois ou mais arquivos.Os arquivos devem estarordenados (Usar SORT)

ADD CASES:Adiciona novos registros ou junta dois arquivos,um debaixo do outro. Cuidado pois as variáveistem que ter os mesmos nomes. O SPSS guarda osdados em um novo arquivo, ou seja nãocompromete os dados originaisADD VARIABLES:Adiciona novas variáveis que estão em outroarquivo. Neste caso o cuidado é ter uma variávelindexadora, tipo RA, número de matrícula, númerodo questionário, etc.

Continua...



42

Continuação do comando data

Data Função Como acionar e os subcomandos

Aggregate Cria um novo arquivo comvalores de variáveis agregadas,pode ser a soma, média, etc.

Selecionar a variável(s) de agregação e colocar embreak variable, que pode ser mais de uma.Selecionar a variável(s) que deverão ser agregadase colocar em aggregate variable, que pode sermais de uma. O defaul é calcular a média, mas sevocê quiser usar outras funções entrar em funtione trocar. Se você quiser trocar o nome do novoarquivo que o SPSS criará entrar em file.

Split file Divide (virtualmente) umarquivo segundo uma variávelqualitativa

Clicar em repeat analysis for each groupSelecionar a variável desejada e colocar em groupbased on. Este recurso é útil quando temos defazer relatórios iguais por grupos.

Selected cases Seleciona os casos quecumprem uma certa condição

Clicar em if condition is satisfied. Clicar em if.Selecionar a variável e especificar a condição.O SPSS cria um filtro e não considerará os casosque não satisfazem a condição. Este recurso é bompara encontrar erros no Banco de dados.Depois de processar voltar a este comando e clicarem all cases, para rodar o arquivo completo.

Weight cases Pondera os valores da variável É muito útil quando temos valores que devemtomar pesos ou ponderações diferentes

2.3.4 O Comando TRASFORM

Transforma as variáveis, criando novas a partir de outras, recodifica variáveis, etc.

Transform Função Como acionar e os subcomandos

Compute Calcula uma nova variável apartir de outras já existentes,podendo usar todas asfunções matemáticas eestatísticas

Colocar o nome da nova variável em targetvariable. Em numerical expression colocar asvariáveis existentes e as operações entre elas. Porexemplo soma=a1+a2+a3+a4.Ainda você pode selecionar os casos que vocêdeseje trabalhar clicando em if

Random Number Seed É a semente para gerar um número aleatórioCountRecode Recodifica variáveis • Into the same variable: altera os valores da

variável e guarda as alterações na mesmavariável. Selecionar a variável e entrar emOld and new values, e a cada valor antigocolocar o valor novo e adicionar clicando add,no fim dar continue.

• Into the diferent variable: cria uma novavariável em função de uma já existente, seguiro mesmo esquema do item anterior

Rank cases Atribui postos na variável segundo uma outraAutomatic recode Cria uma nova variável com o mesmo conteúdo da variável desejadaRun Pending transforms Roda as transformações pendentes



43

2.3.5 O Comando STATISTICS

Oferece vários procedimentos estatísticos

Statistics Subcomandos Função

Frequencies Calcula a tabela de distribuição de frequências.Descriptives Calcula as principais estatísticas descritivas.Explore Faz uma análise completa das variáveis, podendo

ainda repetir essas analises por outra variável.Crosstabs Calcula a tabela de distribuição de frequências

cruzadas, calcula o teste chi-quadrado paraassociação de variáveis e outros testes.

List cases Lista casos escolhendo as variáveis desejadas

Summarize

Report Summaries in Rows Organiza relatórios em linhas, segundo uma variávelMeans Calcula a média, o desvio padrão, soma, etc. das

variáveis desejadas.Independent–sampled T-test Calcula o teste de diferença de duas médias de

populações independentesPaired-sampled T-test Calcula o teste de diferença de duas médias de

populações emparelhadas.

Compare means

One-Way ANOVA Testa a diferença de médias de mais de duas amostrasSimple factorial Testa a diferença de médias do modelo fatorialGeneral factorial Testa a diferença de médias do modelo geral

ANOVA models

Multivariate Calcula o teste de análise de variância multivariadaCorrelate Bivariate

PartialDistances

Calcula a matriz de correlação, tomando as variáveisde duas em duasCalcula o coeficiente de correlação parcialCalcula a distância euclidiana entre os casos(sujeitos)

Regression LinearLogisticProbitNonlinear

Ajusta o modelo de regressão linearAjusta o modelo de regressão logísticaAjusta o modelo ProbitAjusta um modelo não linear

Loglinear GeneralHierarchicalLogit

Classify K-means clusterHierarchical clustersDiscriminant

Análise de clustersAnálise de clusters hierárquicosAnálise discriminante

Data Reduction Factor Análise factorialScale Reliabity analysis

Multidimensional ScalingAnálise de confiabilidade

Non Parametric Test Chi-squareBinomialRuns1-Sample K-S2-Independent Samplesk-Independent Samples2-Related SamplesK-Related Samples

Testes não paramétricos ou de distribuição livre

Survival Análise de sobrevivênciaMultiple response Análise de respostas múltiplas



44

2.3.6 O Comando GRAPHS

Oferece vários tipos de gráficosGraphs Função Tipo de variáveis

Bar Gráfico de barra Qualitativas, discretas de poucos valoresLine De linha Séries de tempoArea De área Série de tempoPie Circular QualitativasBoxplot Da caixa QuantitativasScatter De dispersão Relação entre duas variáveis quantitativas,

podendo colorir segundo outra variávelHistogram Histograma Quantitativa (de preferência contínua). Tem a

opção de desenhar a curva normal superposta aohistograma

2.3.7 O Comando UTILITIES

Oferece vários procedimentos úteis no gerenciamento das informações

Utilities Função

Command Index

Fonts Fonte da letra usada na tela de dados e de saída

Variable Mostra a definição utilizada para a variável

File Info Mostra a definição utilizada para todas as variáveis do arquivo ativo

Output Page Titles Coloca título em todas as páginas

Define sets

Use sets

Grid lines Coloca (ou tira) as linhas de grade da tela de dados

Value labels Mostra os rótulos das variáveis

Auto New case

Designate window

2.3.8 O Comando WINDOWS

Manipula a apresentação das janelas e serve para mudar de janela.

Windows Função

Tile Coloca todas as janelas ativas uma ao lado da outra

Cascade Coloca as janelas em cascata, para mudar de tela é só clicar na tela desejada

Icon Bar

Status Bar

Mostra as janelas ativas



45

2.4 Criando um banco de dados no SPSS

O SPSS oferece a opção de criar o banco de dados no próprio SPSS, bem como importarum banco de dados do EXCEL ou de qualquer outro banco de dados de extensão dbf.

Para criar um banco de dados no próprio SPSS, basta definir cada uma das variáveis e paraisso clicar duas vezes no cabeçalho da variável, o SPSS abre uma tela de definição, ondevocê indica o tipo de variável (numérica, string-alfanumérica-, data, etc.), os labels(rótulos), formatos, nome da variável. Aqui recomenda-se o uso de códigos numéricos paraas variáveis qualitativas. Por exemplo: 1=Masculino, 2=Feminino. Os rótulos podem serguardados em uma biblioteca que você pode acessar em qualquer momento, issoeconomiza tempo e trabalho.

Uma vez criadas as variáveis, você está pronto para digitar seus dados. Retomando oexemplo da página 12:

nome sexo idade serie turma ...1 Luiz Masculino 9 3ª A2 Carla Feminino 8 2ª B3 Leonardo Masculino 8 3ª C4 Paula Feminino 7 2ª D...

Codigo nome sexo idade serie turma ...1 1 Luiz 1 9 3 12 2 Carla 2 8 2 23 3 Leonardo 1 8 3 34 4 Paula 2 7 2 4... 5

Tabela de códigos:

Embora o SPSS tenha a numeraçãodas linhas, recomenda-se codificartodos os sujeitos isso facilita aidentificação dos questionários,principalmente na hora da crítica econsistência da digitação e dasrespostas

Sexo:1=Masculino2=Feminino

Série:1=1ª série2=2ª série...

Turma:1=A2=B....



46

III. ANÁLISE EXPLORATÓRIA DE DADOS

A análise exploratória de dados é utilizada, como o nome indica, para organizar os dados eapresentá-los de forma a perceber as informações subjacentes, elucidando o trabalho depesquisa. Os procedimentos estatísticos disponíveis independem da origem dos dados,sejam produtos de um censo (trabalhando com todos os elementos da população) ou deuma amostra (trabalhando com uma parte da população, aleatória ou não), ou seja, osprocedimentos estatísticos disponíveis na análise exploratória de dados, antigamenteconhecida como estatística descritiva, podem ser aplicadas a qualquer conjunto de dados.

Freqüentemente, nos trabalhos de pesquisa, levanta-se uma série de variáveis acerca dossujeitos de pesquisa. Uma vez coletados os dados é preciso apresentá-los de forma legívelpara o examinador.

Antes de iniciar a aplicação dos procedimentos deve-se analisar a natureza dos dados a fimde apresentá-los da forma mais adequada. A Tabela 1 exemplifica a gama deprocedimentos aplicáveis aos dados, segundo sua natureza.

3.1 Trabalhando com variáveis qualitativas

Para as variáveis qualitativas, num enfoque univariado, ou seja, descrever essas variáveisindependentemente da ocorrência de outras, deve-se construir as Tabelas de Distribuiçãode Freqüências, que contam o número de ocorrências de sujeitos em cada categoria. Istopode ser feito pelo SPSS, seguindo os passos:

StatisticsSummarize

Frequencies Selecionar as variáveis série

Tomado como referência o Banco de Dados de Paulínia, a distribuição da amostra porsérie é:

Tabela 2. Distribuição dos alunos por série da Escola General Porphyrio da Paz,Paulínia-SP, maio de 1998.

Série Número de alunos Porcentagem5ª série do E.F. 103 7,36ª série do E.F. 139 9,97ª série do E.F. 167 11,98ª série do E.F. 187 13,81º ano E.M. 245 17,42º ano E.M. 400 28,53º ano E.M. 164 11,7Total 1405 100,0

Fonte: Pesquisa realizada em junho de 1998

Observa-se que a saída do SPSS inclui a porcentagem válida, ou seja, retirando a influênciados valores perdidos (missing), que não faz sentido quando isto não acontece.



22

Tabela 1. Procedimentos disponíveis para a apresentação de dados

Tipo da variável Valores da variável Tipo de tabela Tipo de estatística Tipo de gráfico

Qualitativa

• Sexo• Série

• Grau de instrução do pai

• Tipo de escola• Turno• Repetência em

matemática

Recomenda-se definir a variável comonumérica e depois colocar os rótulos

• 1=Feminino; 2=Masculino• 5=5ª série do 1º Grau; 6=6ª série do 1º

Grau; 7=7ª série do 1º Grau; 8=8ª sériedo 1º Grau; 9=1º ano do 2º Grau; 10=2ºano do 2º Grau e 11=3º ano do 2º Grau.

• 1=Analfabeto; 2=1º Grau; 3=2º Grau;4=Superior

• 1=Pública; 2=Particular• 1=Matutino; 2=Vespertino e 3=Noturno• 1=Sim; 2=Não

Tabela de distribuiçãode frequências

Frequências absolutase relativas

Barras simplesCircular

Qualitativa cruzada• Repetência versus série

Tabela de distribuição defrequências cruzada

Freqüência simples;relativa à linha

e/ou coluna(valor esperado, teste

chi-quadrado...)

Gráfico de barrascomposto:

Lado a lado (clustered)Superposto (stacked);

OpostosDiscreta(que toma poucos valores)• Número de filhos por

mulher• Número de reprovações

por série• Número de horas por

dia que estudamatemática

• 0; 1; 2; .... 10

• 0; 1; 2; 3; 4

• 0; 1; 2; 3; 4

Tabela de distribuição defrequências

Frequências absolutase relativas

Gráfico de bastãoGráfico de barras simples

Observa-se que variáveis qualitativas ordinais podem ser tratadas como variáveis quantitativas, por exemplo, série em que estuda, que poderia ser interpretado comonúmero de anos de estudo aprovados. Assim, o estudo da taxa de fracasso escolar por série pode ser trabalhado, tanto com o teste qui-quadrado, quanto com a análisede regressão e correlação.



23

Tabela 1. Procedimentos disponíveis para a apresentação de dados

Tipo da variável Valores da variável Tipo de tabela Tipo de estatística Tipo de gráfico

Discreta(que toma muitos valores )• Número de alunos por

turma• Idade do pai (anos

completos)• Número de veículos que

passam por um pontomovimentado

Contínua• Nota na prova de

matemática• Valor na escala de

atitudes(*)• Renda familiar• Coeficiente de

Inteligência• Tempo gasto na prova

20; 21; ...., 50

30,31,.....,70,...

0,1,2, ...... 500,...

Intervalo fechado de 0 a 10: [0;10]

Intervalo fechado de 20 a 80: [20; 80]

Intervalo semi-fechado de 0 a M: [0; M[Intervalo fechado de 0 a 150: [0; 150]

Intervalo fechado de 0 a 2 horas: [0; 2]

Tabela de distribuição defrequências desde queos dados tenham sidoagrupados em faixas

ou intervalos

Média;Mediana

ModaDesvio padrão

Coeficiente de variaçãoQuartis

...

Diagrama deramo e folhaHistograma

(pode usar a opção dadistribuição normal,

caso se estejatrabalhando sob

esse pressuposto)

Quando se quer analisar associação entre duas ou mais variáveisquantitativas

Análise de correlaçãoAnálise de regressão

Scatter plotou diagrama de pontos

Uma quantitativa em função de uma qualitativa Análise de variância Diagrama de ramo efolha, box-plot

Relação entre variáveis

Uma quantitativa em função de variáveis qualitativas e quantitativas Análise de covariância Scatter plotou diagrama de pontos

Séries temporais• Número de alunos

matriculados no períodode 1980 a 1998

Quando se pretende analisar a trajetória devariáveis ao longo do tempo

Tabela contendo avariável tempo e asvariáveis estudada

Análise de sériestemporais

Análise de regressão ecorrelação

Gráfico de linhas;De áreasDrop-line

(*) pela forma de construção, esta variável seria discreta

IV. Noções de probabilidades


50

Figura 6. Distribuição dos alunos por série, da Escola General Porphyrio da Paz, dePaulínia, Campinas-SP, maio de 1998.

Pode-se, também, apresentar os dados de uma variável qualitativa classificada por outra,ou seja, a Tabela de Distribuição de Freqüências de dupla entrada ou Bivariada. Porexemplo, a repetência por série:

Tabela 3. Distribuição da repetência por série, da Escola General Porphyrio da Paz,Paulínia-SP, maio de 1998.

Série Frequência Reprovou alguma vez?% linha

%colunaSim Não Total

5ª série – Ensino Fundamental 3635,0 %6,0 %

6765,0%8,4 %

1037,3 %


10279,4 %12,7 %

1399,9 %


9959,3 %12,3 %

16711,9 %


13672,7 %17,0 %

18713,3 %

1º ano – Ensino Médio 11546,9 %19,1 %

13053,1 %16,2 %

24517,4 %


18646,5 %23,2 %

40028,5 %


8350,6 %10,2 %

16411,7 %

Total 60242,8 %

80357,1 %

1405100,0 %

Fonte: Pesquisa realizada em maio de 1998.

5ª 6ª 7ª 8ª 1º 2º 3º

7,39,9

11,913,8

17,4

28,5

11,7

0

5

10

15

20

25

30

5ª 6ª 7ª 8ª 1º 2º 3º---ENSINO FUNDAMENTAL --- ---ENSINO MÉDIO ---

%



51

Como solicitar essa tabela no SPSS:

StatisticsSummarize

CrosstabsSelecionar as variáveis: linha (row) série

coluna (col) repeteSelecionar as opções statistics caso queira testar hipóteses

Cells Valor esperado / %linha / %coluna ....

Neste caso, pode-se utilizar o gráfico de barras superposto

Figura 7. Distribuição da repetência por série, na Escola General Porphyrio da Paz,Paulínia-SP, maio de 1998.

Você pode usar a parte gráfica do SPSS ou do EXCEL, este último tem mais recursos naparte de gráfico de barras, circular, linhas. O SPSS é melhor para o diagrama de dispersãoe histograma, onde coloca a curva normal ajustada.

3.2 Trabalhando com variáveis quantitativas

3.2.1 Trabalhando com variáveis discretas que tomam poucos valores ou com séries temporais

Quando a variável é discreta e toma poucos valores recomenda-se a Tabela de Distribuiçãode Freqüências, gráficos de barras, linhas, bastão e algumas estatísticas descritivas. Porexemplo.

35 26,640,7

27,346,9 53,5 49,4

73,459,3

72,753,1 46,5 50,6

65

0%

20%

40%

60%

80%

100%

5ª 6ª 7ª 8ª 1º 2º 3º

NãoSim

Reprovou?

--- ENSINO FUNDAMENTAL --- --- ENSINO MÉDIO ---



52

Tabela 4. Evolução do número de alunos matriculados no Ensino Fundamental da cidadeXYZ, no período de 1988 a 1998.

Governo X Governo Y Governo Z

Ano 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998

Nº de Matrículas 14.122 14.225 14.524 15.008 15.501 15.900 16.100 16.200 16.250 16.300

Fonte: Secretaria de Educação da Prefeitura

Neste caso, você pode usar gráfico de barras ou de linhas. Você pode calcular e graficar ataxa de crescimento, a fim de analisar se houve interferência da política dos governos naevolução do número de matrículas, etc.

Figura 8. Evolução do Evolução do número de alunos matriculados no EnsinoFundamental da cidade XYZ, no período de 1988 a 1998.

Observe que a escala do número de alunos matriculados inicia em 13.000 e não em zero.Este tipo de apresentação tem vantagens e desvantagens. Iniciar a escala em zero eliminaráa percepção visual da evolução desta variável, em contraposição, iniciar a escala em 13 milpode ressaltar diferenças não significativas. Neste caso, é aconselhável calcular a taxa devariação, que parece ser um indicador mais adequado aos dados, até porque, é fácil saberqual é a taxa de crescimento da população, que pode-se tornar um parâmetro decomparação.

Outro exemplo é o número de filhos por mulher. Suponha que você tem dados diferenciadopor classe social:

Tabela 5. Número de mulheres por classe social, segundo o número de filhos.

Número de filhosClasse Social 0 1 2 3 4 5 ou mais

Alta 10 70 20 0 0 0Média 10 500 450 40 0 0Baixa 10 500 700 200 80 10

89 90 91 92 93 94 95 96 97 9813000

13500

14000

14500

15000

15500

16000

16500

89 90 91 92 93 94 95 96 97 98

Número de alunos



53

Como você apresentaria esses dados? Será que existe evidências empíricas sobre a relaçãoentre número de filhos e classe social? Trabalhe esses dados.

3.2.2 Trabalhando com variáveis discretas, que tomam muitos valores, ou comvariáveis contínuas.

Para variáveis discretas (que tomam muitos valores) ou para variáveis contínuasrecomenda-se trabalhar com intervalos de classe (ou faixas) ou com o diagrama de ramo efolha.

3.3 Análise univariada para variáveis quantitativas

Suponha que foi realizada uma pesquisa para analisar o desempenho dos alunos nadisciplina de matemática, na 5ª série, em três escolas diferentes. De cada escola foiselecionada uma turma, que no critério dos professores era a de melhor desempenho emMatemática. Essas três turmas foram submetidas a um teste de conhecimentos e a umaescala de atitudes.

Dados brutos (fictícios) de notas no teste de conhecimentos matemáticos e valores naescala de atitude

ALUNO NOTA1 NOTA2 NOTA3 ATITUDE1 ATITUDE2 ATITUDE3 1 5,00 7,70 3,00 50 70 30 2 2,30 8,80 3,30 25 80 33 3 5,50 7,80 4,40 60 72 46 4 5,60 9,90 4,50 55 75 48 5 7,00 10,00 5,50 78 76 50 6 6,70 2,30 2,30 55 20 29 7 5,50 8,70 5,30 50 60 54 8 4,00 9,40 6,20 42 70 60 9 2,60 9,20 4,60 30 57 50 10 2,40 7,70 7,00 35 69 80 11 3,30 8,50 5,50 30 60 60 12 8,80 8,60 6,30 70 66 72 13 4,50 7,30 6,10 40 71 72 14 5,30 8,30 4,50 55 56 50 15 2,30 8,90 6,20 30 60 62 16 4,90 9,40 5,30 50 60 53 17 4,50 7,80 5,40 52 59 55 18 5,60 6,50 4,50 60 50 48 19 3,30 6,50 4,80 33 48 50 20 5,30 8,70 4,90 43 50 50 21 3,90 10,00 3,30 35 40 40 22 4,10 8,90 5,50 40 60 56 23 3,80 7,80 5,60 32 58 60 24 3,70 , 5,70 35 , 62 25 2,80 , 6,20 25 , 58 26 1,20 , 4,50 25 , 50 27 3,10 , 5,50 34 , 50 28 3,20 , 4,30 35 , 48 29 4,10 , 2,30 46 , 40 30 5,50 , , 59 , , 31 4,90 , , 30 , , 32 4,70 , , 48 , , 33 3,80 , , 42 , , 34 4,40 , , 46 , , 35 4,10 , , 50 , , 36 2,30 , , 30 , , 37 4,10 , , 25 , , 38 2,90 , , 30 , , 39 3,80 , , 40 , , 40 4,20 , , 40 , ,



54

O diagrama de ramo e folha

Este diagrama é muito útil para uma primeira análise dos dados.

Passos para construir um diagrama de ramo e folha:1. Encontrar o valor mínimo e máximo dos dados, no caso da escola 1, o mínimo é 1,2 e o

máximo 8,82. Como a variável toma valores entre zero e dez pode-se convencionar que o ramo é a

unidade e a folha é a casa decimal3. A partir dai examina-se cada valor e coloca-se a parte decimal na folha. O valor zero,

significa que há informação e que é um número inteiro. Já quando naquele valor inteironão existe observações, não colocar nada, deixar em branco

4. Ordenar os ramos

Original OrganizadoFrequência Ramo

(unidade)Folha

(decimal)Ramo

(unidade)Folha

(decimal)1 1 2 1 27 2 3643839 2 33346899 3 339871288 3 12337888912 4 059511974112 4 0111124557998 5 05653635 5 033555661 6 7 6 71 7 0 7 01 8 8 8 8

Colocando os resultados das três escolas simultaneamente:

Ramo(unidade)

Escola 1 Escola 2 Escola 3 Geral

1 2 22 3334689 3 3 33333346893 123378889 0033 0123333788894 011112455799 345555689 0111123445555556789995 03355566 334555567 033334555555566676 7 55 12223 122235577 0 377888 0 003778888 8 35677899 3567788999 2449 2449

10 00 00

Que conclusões você pode extrair olhando o formato da distribuição de notas por escola?Observe que o diagrama de ramo e folhas faz as vezes do histograma.

Se você estivesse trabalhando com a escala de atitudes, cujos valores variam de 20 a 80,você pode construir o diagrama, sendo que as dezenas seriam as folhas e as unidades osramos.



55

Para processar os dados no SPSS, a primeira providência é criar um arquivo de dados noSPSS e, você pode fazer isso de duas maneiras.

Caso 1: Criar um arquivo da forma como estão os dados, ou seja (EXPLORA1.SAV):

1ª coluna, 1ª variável: Aluno - número que identifica o aluno2ª coluna, 2ª variável: Nota1 - nota dos alunos da escola 13ª coluna, 3ª variável: Nota2 - nota dos alunos da escola 24ª coluna, 4ª variável: Nota3 - nota dos alunos da escola 35ª coluna, 5ª variável: Atitude1 – valor na escala de atitudes dos alunos da escola 16ª coluna, 6ª variável: Atitude2 - valor na escala de atitudes dos alunos da escola 27ª coluna, 7ª variável: Atitude3 - valor na escala de atitudes dos alunos da escola 3

você terá surpresas desagradáveis, pois o SPSS levará em conta apenas os registros quetem valores em todas as variáveis, ou seja calculará todas as estatística em função dos 23primeiros alunos.

Caso 2: Criar um arquivo com as seguintes variáveis (EXPLORA2.SAV):

1ª coluna, 1ª variável: Aluno - número que identifica o aluno2ª coluna, 2ª variável: Escola – número que identifica a escola3ª coluna, 3ª variável: Nota- nota dos alunos segundo ordem e escola4ª coluna, 4ª variável: Atitude – valor na escala de atitudes segundo ordem e escola

Esta é a forma correta de se criar o banco de dados.

Para usar o comando EXPLORE:

StatisticsSummarize

ExploreSelecionar a(s) variáveis desejadas

Exemplo da saída do subcomando EXPLORE:

NOTA By ESCOLA 1 Valid cases: 40,0 Missing cases: ,0 Percent missing: ,0

Mean 4,2250 Std Err ,2303 Min 1,2000 Skewness ,6835 Median 4,1000 Variance 2,1214 Max 8,8000 S E Skew ,3738 5% Trim 4,1583 Std Dev 1,4565 Range 7,6000 Kurtosis 1,4602 IQR 2,0000 S E Kurt ,7326

Frequency Stem & Leaf

1,00 1 . 2 7,00 2 . 3334689 9,00 3 . 123378889 12,00 4 . 011112455799 8,00 5 . 03355566 1,00 6 . 7 1,00 7 . 0 1,00 Extremes (8,8)

Stem width: 1,00 Each leaf: 1 case(s)

IV. Noções de probabilidades 56

Fazendo o histograma para as notas das três escolas, usando o SPSS. Para isso, seguir osseguintes passos:

GraphsHistogram

Selecionar a variável e clicar em curva normal

VqV

Número de alunos

Figura 9. Distribuição das notas na prova de Matemática dos alunos da 5ª série

ocê observa que o SPSS automaticamente criou intervalos de 0,5 pontos. Caso vocêueira modificar essa amplitude, você terá de editar o gráfico e alterar o eixo da escala.ocê pode usar o EXCEL, mas este software não proporciona o ajuste à curva normal.

NOTA

10,009,50

9,008,50

8,007,50

7,006,50

6,005,50

5,004,50

4,003,50

3,002,50

2,001,50

1,00

20

10

0

Std. Dev = 2,16 Mean = 5,44N = 92,00

0

5

10

15

20

25Número de alunos

1 2 3 4 5 6 7 8 9 10 NOTAS




57

As estatísticas fornecidas pelo comando EXPLORE devem ser colocadas em tabelascomparativas, a fim de analisar o perfil das escolas, porém não é preciso que todos essesvalores sejam inseridos no corpo do relatório, via de regra, coloca-se a média e o desviopadrão, às vezes, o coeficiente de variação.

Variável NotaEstatística Escola1 Escola2 Escola3 GeralNº de observações 40 23 29 92Média 4,2 8,2 4,9 5,4Mediana 4,1 8,6 5,3 5,3Mínimo 1,2 2,3 2,3 1,2Máximo 8,8 10,0 7,0 10,0Amplitude 7,6 7,7 4,7 8,8Desvio padrão 1,45 1,62 1,19 2,161º Quartil 3,2 7,7 4,5 3,93º Quartil 5,2 9,2 5,7 6,9Assimetria 0,68 -2,28 -0,69 0,43Curtose 1,46 0,48 0,07 -0,63

O SPSS não calcula a Moda nem o Coeficiente de Variação, logo, se for preciso deve-secalcular estas estatísticas.

Para visualizar comparativamente o desempenho dos alunos por escola, além do diagramade ramo e folha, pode-se usar o diagrama box-plot:

GraphsBox-plot

Escolher a opção desejada

Figura 10. Distribuição das notas na prova de Matemática dos alunos da 5ª série, por escola

A interpretação destes resultados será apresentada logo a seguir.

292340N =

ESCOLA

321

NOTA

12

10

8

6

4

2

0

46

12



58

3.3.1 Principais estatísticas: definição e operacionalização

Deve-se ter cuidado com a notação, uma vez que se pode estar trabalhando tanto comdados populacionais, quanto amostrais. Notação das principais estatísticas:

Parâmetro populacional Estimador Variável aleatória

Tamanho Tamanho da populaçãoN

Tamanho da amostran

Média Média populacionalµ

Média amostralX

Esperança matemáticaE(X)

Proporção Proporção populacionalπ

Proporção amostralP

Esperança matemáticaE(X)

Variância Variância populacionalσ2

Variância amostralS2

Variância matemáticaV(X)

Desvio padrão Desvio padrão populacionalσ

Desvio padrão amostralS

Coeficiente decorrelação

Coef. correlação populac.ρ

Coef. correlação amostralr

Medidas de tendência central: indicam onde se concentram a maioria dos dados.

Estatística Notação Definição, propriedades

Média_X

É a soma dos valores da variável dividida pelo número de observações

Mediana MeÉ o valor que ocupa a posição central da série de observações de umavariável, dividindo o conjunto em duas partes iguais. 50% dos dadostomam valores menores ou iguais ao valor da mediana e os 50% restantesacima.

Moda Mo È definida como a realização mais freqüente dos valores observados

Medidas de posição: quartis, percentis. Os quartis dividem o conjunto de dados emquatro partes iguais e os percentis em 100 partes iguais.


1º quartil Q1 É o valor que ocupa a posição tal que um quarto dos dados (25%) tomamvalores menores ou iguais ao valor do primeiro quartil.

2º quartil(Mediana)

Q2Me

Coincide com o valor da mediana, ou seja 50% dos dados tomam valoresmenores ou iguais aos da mediana. Entre o primeiro quartil (Q1) e amediana (Me) ficam 25% dos dados.

3º quartil Q3 É o valor que ocupa a posição tal que um quarto dos dados (25%) tomamvalores maiores ou iguais ao valor do terceiro quartil. Entre a mediana(Me) e o terceiro quartil (Q3) ficam 25%


De todos os percentis os mais importantes são:

Percentil Notação Definição, propriedades

1º P1 1% dos dados tomam valores menores ou iguais5º P5 5% dos dados tomam valores menores ou iguais

10º P10 10% dos dados tomam valores menores ou iguais25º P25 25% dos dados tomam valores menores ou iguais (Q1)50º P50 50% dos dados tomam valores menores ou iguais (Q2 = Me)75º P75 25% dos dados tomam valores maiores ou iguais (Q3)90º P90 10% dos dados tomam valores maiores ou iguais95º P95 5% dos dados tomam valores maiores ou iguais99º P99 1% dos dados tomam valores maiores ou iguais

Medidas de dispersão: medem o grau de variabilidade ou dispersão dos dados


Amplitude A É a distância entre o valor mínimo e máximo e da variávelA = Xmax - Xmin

AmplitudeInterquartílica

IQ É a distãncia entre o valor do primeiro e do terceiro quartilIQ = Q3 – Q1

Desvio médio DM É a média dos valores absolutos dos desvios dos valores davariável em relação à média

Variância S2 É a média dos quadrados dos desvios dos valores da variávelem relação à média

Desvio padrão S É a raiz quadrada da variância

Coeficiente devariação

CV É uma medida de dispersão relativa. É definida como oquociente entre o desvio padrão e a média, multiplicado por100, para expressar porcentagem.

3.3.2 Medidas de tendência central

Média: é o centro de gravidade do conjunto de dados, ela é definida como a soma de todosos valores da variável dividida pelo número de observações:

Calcular a mépágina 29. Teç

l
Média amostral
Apostila deProfª Irene Ma

dia do número de filhos por a comentários.

Xn

ii 1

n

x= =

∑

Média populaciona

Estatísticauricio Cazorla

mulher, por classe social e geral, da Tabela 5,

µ = =∑ ii 1

N

xN



60

Suponha que você tem três alunos cujas notas nas cinco provas de matemática são asseguintes:

Aluno Prova1 Prova2 Prova3 Prova4 Prova5 Média

A 8 8 8 8 8 8B 6 6 8 10 10 8C 10 10 10 5 5 8

Observe que os três alunos têm a mesma nota média, mas será que essa estatística ésuficiente para descrever o desempenho dos alunos? Será que é lícito afirmar que os trêsalunos tem desempenho similar? Não. A média é insuficiente para descrever um conjuntode dados, para isso é preciso complementar com uma medida de variação ou de dispersão,que será estudado na próxima seção, nas medidas de dispersão.

A média e os valores extremos

A média apresenta um grave problema., ela é fortemente influenciada pelos valoresextremos. Por esta razão deve-se fazer uma análise cuidadosa dos dados.

Suponha que você está estudando a distribuição de renda de nove famílias, em número desalários mínimos, com os seguintes valores:

X: Número de salários mínimosX: 1, 1, 1, 1, 2, 2, 3, 5, 20

A renda média dessas nove famílias é quatro. Mas o que acontece se a família com rendaigual a 20 salários mínimos fosse retirada da amostra? O valor da média cai para doissalários mínimos, o que parece mais razoável já que esse valor descreve melhor esteconjunto de dados.

Distribuição de renda das famílias da amostra * valor extremo * * * * * * * *

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

média retirando o média com o valor extremo valor extremo

Este exemplo ilustra como a média é vulnerável ao efeito de valores extremos. Neste casoé recomendado utilizar a mediana.


Apostila de EProfª Irene Maur

61

Mediana (Me): divide o conjunto de dados em duas partes iguais, abaixo dela ficammetade dos dados (50%) e acima a outra metade (50%).

Utilizando os valores anteriores

lugar /posição

1º 2º 3º 4º 5º 6º 7º 8º 9º

variável X1 X2 X3 X4 X5 X6 X7 X8 X9

valores davariável 1 1 1 1 2 2 3 5 20

50% dos dados = 4 dados 50% dos dados = 4 dados abaixo do valor da mediana acima do valor da mediana

Observe que a mediana é independente doconsideração os valores de posição central.

Passos para encontrar a mediana:

Caso nº 1: quando o número de dados é impar

1. Ordenar os dados em ordem ascendente (não é comum e pode atrapalhar na hora de

2. O lugar ou posição que a mediana ocupa é3. O valor da mediana é o valor da variável q

Me = X

No exemplo: n=9, logo (n+1)/2=5, logo o val

Se n fosse igual a 21, então o valor da medianSe n fosse igual a 49, então o valor da median

Caso nº 2: quando o número de dados é par

4. Ordenar os dados em ordem ascendente5. O lugar ou posição que a mediana ocupa e6. O valor da mediana será a média simples d

MeXn/2=

+

Mediana=2

statísticaicio Cazorla

s valores extremos, porque ela só leva em

pode ser também na ordem descendente, mas calcular as medidas de posição): (n+1)/2 eue ocupa o lugar (n+1)/2

(n+1)/2

or da mediana será: Me=X5=2

a será: Me=X11a será: Me=X25

stá entre: n/2 e (n/2)+1 eos valores que ocupam esses lugares

Xn/2 1+

2


ApostProfª Ire

62

Suponha que, no exemplo anterior, o valor extremo X9 =20, fosse eliminado

lugar /posição

1º 2º 3º 4º 5º 6º 7º 8º

variável X1 X2 X3 X4 X5 X6 X7 X8

valores davariável 1 1 1 1 2 2 3 5

50% dos dados = 4 dados 50% dos dados = 4 dados abaixo do valor da mediana acima do valor da mediana

Como n=8, logo a mediana estará entre

MeMeM

Se n fosse igual a 20, então o valor da mSe n fosse igual a 50, então o valor da m

Observe como varia a média e a median

Valor extremo

Com

Sem

Moda (Mo): é o valor que se repete compode ter mais de valor, principalmente qanterior, a moda é igual a 1.

Mo = 1

Calcule a moda no exemplo do númeTabela 5, página 29. Construa um gráf

3.3.3 Medidas de Posição

Assim como as medidas de tendêncialocal onde a maioria dos dados se con

Mediana=1,5

ila de Estatísticane Mauricio Cazorla

o 4º e 5º lugar, ou seja:

= (X4 + X5)/2 = ( 1 + 2) / 2 .

e = 1,5 .

ediana será: Me=(X10 + X11)/2ediana será a media de: Me=(X25 + X26)/2

a ao se retirar o valor extremo

Média Mediana

4 2

2 1,5

maior frequência. Ele pode não existir, bem comouando a variável toma muitos valores. No exemplo

salário mínimo.

ro de filhos por mulher segundo classe social, daico apropriado. Comente os resultados.

central tem por objetivo fornecer indicadores docentram, as medidas de posição tem por objetivo



63

indicar onde é o ponto de corte para uma certa posição. As medidas mais conhecidas sãoos quartis e sua versão mais geral, os percentis.

Quartil: assim como a mediana divide em duas partes iguais um conjunto de dados, osquartis dividem em quatro partes iguais

Usando o exemplo da nota dos 92 alunos das três escolas, página 31:

Ramo(unidade)

Geral Lugar ou posição(os dados já estão ordenados)

Frequência Freq.acumulada

1 2 1 1 12 3333334689 2345678901 10 113 012333378889 234567890123 12 234 011112344555555678999 456789012345678901234 21 445 03333455555556667 56789012345678901 17 616 12223557 23456789 8 697 00377888 01234567 8 778 356778899 890123456 9 869 2449 7890 4 90

10 00 12 2 92

A formula geral para calcular qualquer percentil p, que via de regra toma os seguintesvalores: 1, 5, 10, 25, 50, 75, 90, 95 e 99.

XP = (1 – f )*Xi + f*Xi+1 onde i=f*n

Percentil P 1 5 10 25 50 75 90 95 99Valores de f 0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99

No caso dos quartis:

n=92 n/4=92/4=23

25% 25% 25% 25%23 23 23 2323 46 69 92

Q1=0,75*X23 + 0,25*X24Q1=0,75*3,9 + 0,25*4Q1=3,925

Me=0,5*X46 + 0,5*X47Me=0,5*5,3 + 0,5*5,3Me=5,3

Q3=0,25*X69 + 0,75*X70Q3=0,25*6,9 + 0,75*7,0Q3=6,925

Para calcular qualquer percentil, neste exemplo, onde n=92:Percentil P 1 5 10 25 50 75 90 95 99Valores de f 0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99Valores de i 1 5 9 23 46 69 83 87 92


Figura 11. Histograma das notas dos alunos da 5ª série das três escolas

5% d

3.3.4 M

Medem

A amprudimeamplitquartilPLOT

Const

Para edesvioexemp37). Aenquanpoucosrecupevariab

N

20

10

0

Std. Dev = 2,16 Mean = 5,44N = 92,00


P5=2,3 P90=8,8os alunos obtiveram notas 10% dos alunos obtiveram notasmenores ou iguais a 2,3 maiores ou iguais a 8,8

edidas de dispersão

o grau de variabilidade ou dispersão dos dados.

litude mede a distância entre o menor valor máximo e mínimo, ela é uma estatísticantar, pois embora dá uma noção de dispersão ela não diz qual é sua natureza. Aude interquartil, ou comprimento da caixa, é a distância entre o primeiro e terceiro, é muito útil para detectar valores extremos, e é muito usado no diagrama de BOX-

Amplitude = Xmáximo - XmínimoAmplitude interquatil = Q3 – Q1

ruindo o desvio padrão:

ntender a construção do desvio padrão deve-se, primeiro, analisar a natureza doss dos valores da variável em relação a sua própria média. Para isto retoma-se olo dos três alunos, cujas médias eram iguais, mas seus desempenhos diferentes (pag.nalisando os desvios observa-se que os três alunos têm desempenhos diferentes,to o aluno A é constante em seu desempenho, o segundo vai progredindo aos e o terceiro tem uma queda abrupta no seu desempenho e não consegue serar. Ou seja, apesar dos três alunos terem o mesmo desempenho médio, eles temilidades diferentes.

OTA

10,009,50

9,008,50

8,007,50

7,006,50

6,005,50

5,004,50

4,003,50

3,002,50

2,001,50

1,00


Analisando os desvios dos valores da variável em relação a média.

Aluno Prova1 Prova2 Prova3 Prova4 Prova5 Soma dos desvios∑ (Xi-X)

A

Desvios

8 8

0

8

0 0 0

8

8

0

8

∑ (Xi - X)= 0 + 0 + 0 + 0 + 0∑ (Xi - X)=0

B

Desvios

6 6

-2

8

-2 0 +2

8

10

+2

10

∑ (Xi – X)=(-2) + (-2) + 0 + 2 + 2∑ (Xi – X)=0

C

Desvios

10 10

-2

10

-2 -2 +3

8

5

+3

5

∑ (Xi – X)=(-2) + (-2) + (-2)+3 + 3∑ (Xi – X)=0

Poderia se pensar em construir um desvio médio, como sendo a soma dos desvios divididapelo número de observações, porém, a soma dos desvios é igual a zero. Então, comoconstruir uma medida de dispersão? Como o problema é a compensação dos valorespositivos com os negativos, a pergunta é: como converter os valores negativos empositivos? De duas maneiras: tomando valor absoluto (distância) ou elevando ao quadradocada desvio. Assim têm-se o desvio médio e a variância.

A(

Mav

D

Desvio

Apostila de EstatísProfª Irene Mauricio C

ssim, o Desvio Médio (DM) é a média dos valS2) é a média dos quadrados dos desvios.

as ao calcular a variância elevou-se ao quadradumentados; então, é preciso retirar esse efeito, ariância, dando origem ao desvio padrão (S).

Mn

i 1

n

=−∑

=X Xi

( )=

−=∑ X X

n

ii 1

n 2

S2

ticaazorla

ores absolutos d

o cada desvio, oassim, deve-se e

Desvio
Variância
os desvios e a variância

u seja, os desvios foramxtrair a raiz quadrada da

S s= 2



66

Calculando o desvio médio, a variância e o desvio padrão:

Aluno Prova1 Prova2 Prova3 Prova4 Prova5 Soma Média Raizquadrada

A

Desvios|desvios|(desvio)2

8

000

8

000

8

000

8

000

8

000

40

000

8

0DM=0S2=0 S=0

B


6

-224

6

-224

8

000

10

+224

10

+224

40

08

16

8

0DM=1,6S2=3,2 S=1,79

C


10

-224

10

-224

10

-224

5

+339

5

+339

40

01230

8

0DM=2,4S2=6,0 S=2,45

Observa-se que o desvio padrão é sempre maior ou igual ao desvio médio, e isto devido aofato de ter elevado ao quadrado cada desvio, aumentando desproporcionalmente o peso dosvalores extremos. Lembrar que o fato de ter extraído a raiz quadrada da variância nãoelimina completamente o efeito de ter elevado ao quadrado cada desvio, uma vez que a raizquadrada de uma soma não é igual a soma da raiz quadrada de cada somando.

Aluno Média Mediana Moda Amplitude Desviomédio

Desviopadrão

A 8 8 8 0 0 0

B 8 8 6 / 10 4 1,6 1,79

C 8 10 10 5 2,4 2,45

Logo, conclui-se que apesar dos três alunos terem a mesma nota média, seus desempenhostem diferentes graus de variabilidade, sendo que o aluno A tem um desempenhoperfeitamente homogêneo e o aluno C é o mais disperso.

Observa-se que quanto mais disperso o conjunto de dados maior o desvio padrão, desviomédio e amplitude.

+ homogeno desvio padrão zero+ disperso desvio padrão aumenta

Entretanto, às vezes pode-se querer comparar o grau de dispersão de dois conjuntos dedados com unidades de medidas diferentes. Neste caso, deve-se usar o coeficiente devariação (CV), que é uma medida de dispersão relativa, uma vez que ela não está afetadapelas unidades da medida da variável.



67

Suponha que você tem a média e o desvio padrão da renda familiar de três países, desistemas monetários diferentes. Como você poderia comparar e saber em que país adistribuição de renda é mais homogênea?

País Moeda Média DesvioPadrão

CoeficienteDe variação

A Real 5.000 1.000 20%

B Dólar 10.000 1.000 10%

C Pesos 2.000 1000 50%

Neste exemplo, apesar de os três países ter o mesmo desvio padrão, isso não implica queelas tenham a mesma distribuição de renda.

3.3.5 O diagrama de Box-Plot ou diagrama da caixa

Como construir o diagrama de Box-Plot

*Valores extremos: valores maiores que 3 comprimentos

da caixa, a partir do percentil 75%

25% dosdados estãoacima dacaixa

OOutliers: valores maiores que 1,5 comprimentos da

caixa, a partir do percentil 75%

Maior valor que não é outlier

Percentil 75%

50% dosdados estão Medianadentro dacaixa

Percentil 25%

Menor valor que não é outlier25% dosdados estãoabaixo dacaixa

O Outliers: valores menores que 1,5 comprimentos dacaixa, a partir do percentil 25%

* Valores extremos: valores menores que 3 comprimentosda caixa, a partir do percentil 25%

Comprimento da caixa = amplitude interquartílica = Q3 - Q1

C VSX

= * 1 0 0



68

Retomando o exemplo das notas dos 92 alunos da 5ª série das três escolas, pagina 34.

Estatísticas Escola 1 Escola 2 Escola 3 Geral

Q1 3,2 7,7 4,5 3,9

Q3 5,2 9,2 5,7 6,9

Q3 - Q1 2,0 1,5 1,2 3,0

1,5 *(Q3 - Q1) 3,0 2,25 1,8 4.5

3,0 *(Q3 - Q1) 6,0 4,5 3,6 9,0

Outliers inferioresXi ≤ Q1 -1,5 *(Q3 - Q1) ≤ 0,2 ≤ 4,45 ≤ 2,7 ≤ **

Valores extremos inferioresXi ≤ Q1 - 3,0 *(Q3 - Q1) ≤ ** ≤ 3,2 ≤ 0,9 ≤ **

Outliers superioresXi ≥ Q3 + 1,5 *(Q3 - Q1) ≥ 8,2 ≥ ** ≥ 7,5 ≥ **

Valores extremos superioresXi ≥ Q3 + 3,0 *(Q3 - Q1) ≥ ** ≥ ** ≥ 9,3 ≥ **

** valores menores que zero ou maiores que dez, por tanto impossíveis.

3.4 Análise bivariada de variáveis quantitativas

Para estudar a influência de uma variável em outra ou o grau de associação entre elas deve-se usar o diagrama de pontos (scatter plot). Este gráfico permite examinar se existe relaçãoentre as variáveis em estudo.

Por exemplo, estudar a relação entre as atitudes frente a matemática e o desempenho nadisciplina.

Para obter o diagrama do pontos da relação das duas variáveis seguir os passos:

GraphsScatter plot

Simple Y axis variável dependente

X axis variável independente Set markers by escola (para colorir por escola)



69

Figura 12. Relação entre o desempenho e atitude em relação a Matemática dosalunos da 5ª série, por escola

Observe que a nota varia de zero até dez e que a escala de atitudes varia de 20 a 80, apesardisto, a escala do gráfico vai além desses limites e isto porque quando se usa a escala exatamuitos pontos caem nos limiares e ficam mal desenhados.

Olhando o gráfico percebe-se que existe uma relação positiva e linear entre as duasvariáveis, ou seja, quando uma aumenta a outra também aumenta e quando uma diminui aoutra também diminui. Percebe-se, também, que existe uma relação diferente por escola.A escola 2 tem sua nuvem de pontos no quadrante superior direito, o que significa queessas crianças tendem a ter atitudes mais positivas e melhor desempenho. Já os alunos daescola 1 tendem a ser mais negativos e seu desempenho tende, também, a ser menor.

Para analisar a relação entre essas duas variáveis deve-se utilizar as técnicas de correlaçãoe regressão. Observa-se que quando se está analisando um conjunto de variáveis e suaspossíveis relações pode-se fazer uso da matriz de correlação e o scatter plot múltiplo:

GraphsScatter plot

Matrix Matrix variables variáveis desejadas

Set markers by escola (para colorir por grupos, se necessário)

ATITUDE1

908070605040302010

NOTA

12

10

8

6

4

2

0

ESCOLA

3

2

1



70

Suponha que os seguintes dados se referem a situação de funcionários de uma empresasobre: salário, anos de estudo, número de filhos e tempo de seviço, que podem serencontrados no arquivo (EXPLORA3.SAV):

CODIGO SALARIO ANOSESTU NFILHOS TSERVICO

1 200 5 4 5 4 300 5 4 8 5 400 6 5 10 6 400 7 4 12 7 500 8 3 8 8 800 8 3 10 9 1000 11 3 15 10 1000 12 2 10 11 2500 15 1 2 12 3000 16 1 4 13 4000 22 2 10 14 5000 23 1 15 15 6000 23 1 20

Conforme Figura 13, observa-se que existe uma relação exponencial positiva entresalário e anos de estudo; uma relação negativa, também exponencial ou inversa entresalário e número de filhos; uma relação linear, positiva entre salário e tempo de serviços,observando-se dois grupos diferentes; uma relação inversa linear entre anos de estudo enúmero de filhos; e uma relação difusa entre anos de estudo e tempo de serviço.

Figura 13.Relação entre salário, anos de estudos, tempo de serviço e número de filhos

SALARIO

ANOSESTU

NFILHOS

TSERVICO



71

Quando você utiliza a análise de regressão para verificar o grau de associação de suasvariáveis, ajustando uma função, você pode graficar simultaneamente a função ajustada eos dados originais.

Para exemplificar, usaremos parte do banco de dados EXPLORA4.SAV que contem partedos dados pesquisados por Ivonete, que aplicou a mesma prova aplicada no SARESP, apósalguns dias da aplicação oficial, só que, ao invés de ter alternativas para marcar, elasolicitou aos alunos que resolvessem as questões, denominando esta prova deDISCURSIVA.

ALUNO SARESP DISCURSI PRE_1

1 50,00 38,00 55,89415 2 60,00 58,00 67,28595 3 30,00 62,00 33,11056 4 55,00 64,00 61,59005 5 70,00 59,00 78,67775 6 40,00 50,00 44,50236 7 40,00 51,00 44,50236 8 40,00 57,00 44,50236 9 60,00 76,00 67,28595 10 90,00 101,00 101,46134 11 60,00 47,00 67,28595 12 30,00 33,00 33,11056 13 40,00 47,00 44,50236 14 40,00 65,00 44,50236 15 40,00 51,00 44,50236 16 60,00 68,00 67,28595 17 70,00 93,00 78,67775 18 65,00 81,00 72,98185 19 45,00 52,00 50,19826 20 85,00 117,00 95,76544 21 25,00 5,00 27,41466 22 55,00 49,00 61,59005 23 50,00 37,00 55,89415 24 55,00 65,00 61,59005 25 50,00 70,00 55,89415 26 50,00 30,00 55,89415 27 35,00 44,00 38,80646 28 60,00 73,00 67,28595 29 50,00 39,00 55,89415 30 30,00 29,00 33,11056

A análise de regressão será estudada no Capítulo VIII. Análise de correlação e regressão,mais adiante, mas caso você queira reproduzir os resultados, seguir os passos:

Statistics Regression

Linear Dependent variable Independente variable

SAVE para gravar o valor preditoPredicted values

Unstandardized o SPSS grava uma nova variável chamada PRE_1 na última coluna



72

GraphsScatter plot

Overlay Y – X pairs (marcar x e y simultaneamente)

Swap pairs caso a ordem não esteja de acordo com Y – X (dependente-independente) trocar com este comando

Como a prova estava composta de 30 questões, onde cada questão valia 5 pontos, e comono SARESP só existem duas possibilidades, acertou (5 pontos), errou (0 pontos), logo anota no SARESP vai de 0 a 150, de cinco em cinco.

Já a nota na prova discursiva é diferente, uma vez que a correção dependeu do grau deelaboração da resposta, podendo obter notas entre 0 e 5. Em teoria, ambas notas deveriamcoincidir, assim se esperaria que a maioria dos pontos caísse em torno da reta X=Y. AFigura 14 ilustra os resultados.

Figura 14. Relação entre a nota dos alunos no SARESP e na prova Discursiva

Discutir detalhadamente todas as implicações desta análise.

saresp

150100500

discursiva

150

100

50

0

Discursiva = -1,06 + 1,14*SARESP R2=61.2%



73

3.5 Outros comandos do SPSS para análise exploratória de dados

Os outros comandos do SPSS que fornecem estatísticas descritivas. Trabalhando com obanco de dados do SPSS: BANK.SAV. Para saber o que cada variável contem:

UtilitiesFile info

OUTPUT: List of variables on the working fileName Position

ID Employee code 1 Print Format: F4 Write Format: F4

SALBEG Beginning salary 2 Print Format: F5 Write Format: F5 Missing Values: 0

SEX Sex of employee 3 Print Format: F1 Write Format: F1 Missing Values: 9

Value Label

0 Males 1 Females

TIME Job seniority 4 Print Format: F2 Write Format: F2 Missing Values: 0

AGE Age of employee 5 Print Format: F6.2 Write Format: F6.2 Missing Values: ,00

SALNOW Current salary 6 Print Format: F5 Write Format: F5 Missing Values: 0

EDLEVEL Educational level 7 Print Format: F2 Write Format: F2 Missing Values: 0

WORK Work experience 8 Print Format: F6.2 Write Format: F6.2

JOBCAT Employment category 9 Print Format: F1 Write Format: F1 Missing Values: 0

Value Label

1 Clerical 2 Office trainee 3 Security officer 4 College trainee 5 Exempt employee 6 MBA trainee 7 Technical



74

MINORITY Minority classification 10 Print Format: F1 Write Format: F1 Missing Values: 9

Value Label

0 White 1 Nonwhite

SEXRACE Sex & race classification 11 Print Format: F1 Write Format: F8.2

Value Label

1 White males 2 Minority males 3 White females 4 Minority females

usando o comando DESCRIPTIVES (usar só com variáveis quantitativas!)

StatisticsSummarize

DescriptivesSelecionar as variáveis desejadas

Selecionar as estatísticas desejadas em options

OutputNumber of valid observations (listwise) = 474,00

ValidVariable Mean Std Dev Minimum Maximum N Label

WORK 7,99 8,72 ,00 39,67 474 Work experienceEDLEVEL 13,49 2,88 8 21 474 Educational levelAGE 37,19 11,79 23,00 64,50 474 Age of employeeTIME 81,11 10,06 63 98 474 Job senioritySALBEG 6806,43 3148,26 3600 31992 474 Beginning salarySALNOW 13767,83 6830,26 6300 54000 474 Current salary

Observe que a variável EDLEVEL= nível educacional é uma variável discreta, checar avalidade das estatísticas descritivas:EDLEVEL Educational level (usando o comando frequencies)

Valid CumValue Label Value Frequency Percent Percent Percent

8 53 11,2 11,2 11,2 12 190 40,1 40,1 51,3 14 6 1,3 1,3 52,5 15 116 24,5 24,5 77,0 16 59 12,4 12,4 89,5 17 11 2,3 2,3 91,8 18 9 1,9 1,9 93,7 19 27 5,7 5,7 99,4 20 2 ,4 ,4 99,8 21 1 ,2 ,2 100,0 ------- ------- ------- Total 474 100,0 100,0

Valid cases 474 Missing cases 0



75

Quando você deseja listar algumas observações com algumas variáveis usar:

StatisticsSummarize

List casesVariables (selecionar as variáveis desejadas)

(selecionar as opções desejadas)

saída do List Cases dos 10 primeiros funcionários

ID SALBEG SALNOW

628 8400 16080 630 24000 41400 632 10200 21960 633 8700 19200 635 17400 28350 637 12996 27250 641 6900 16080 649 5400 14100 650 5040 12420 652 6300 12300

Number of cases read: 10 Number of cases listed: 10

Quando você deseja listar as estatísticas descritivas, por grupos e para todos os dados usar:

StatisticsSummarize

Report Summaries in RowData coluns (selecionar as variáveis desejadas)Break options (selecionar a variável dos grupos, por exemplo, sexo,

raça, etc.)options (para as colunas ou variáveis você pode selecionar as

estatísticas desejadas a serem calculadas para cada grupo)options (você pode selecionar as mesmas estatísticas para serem

calculadas para todos os dados)

OUTPUT Page 1

Sex of Beginning Currentemployee salary salary________ _________ _______

MalesMean 8121 16577StdDev 3645 7800

FemalesMean 5237 10413StdDev 1174 3023

Grand Total

Mean 6806 13768StdDev 3148 6830



76

IV. NOÇÕES DE PROBABILIDADES

4.1 Por que precisamos aprender probabilidades?

Nas aulas anteriores vimos as diversas formas de apresentar os dados visando captar asinformações subjacentes nesses. Observamos, por exemplo, que o desempenho dos alunosda 5ª série na prova de matemática e na escala de atitudes varia segundo a escola (pag. 27).Os alunos da escola 1 têm atitudes tendendo ao negativo e com baixo desempenho,enquanto que os alunos da escola 2 mostram um bom relacionamento com a matemática, eos alunos da escola 3, mostram um desempenho intermediário entre as duas escolas.

Mas, como saber se essas diferenças são estatisticamente significativas? Como saber se obaixo desempenho dos alunos da escola 1 é apenas fruto do acaso? E, isso, porque estamostrabalhando com amostras, uma vez que a prova foi aplicada uma única vez, além disso,esses alunos podem estar vindo de uma população maior, onde, mesmo que tenhamosescolhido aleatoriamente, podemos, por acaso, termos escolhido os alunos com os pioresdesempenhos. Então, como podemos afirmar que as crianças das escolas tem desempenhosdiferentes?

Esse é um exemplo típico em que precisamos tomar uma decisão em condições deincertezas. Observamos que para fazer um estudo desta natureza, parte-se do pressupostode que todos os alunos vem de uma população “normal”, de condições similares, nosentido de maturidade física, afetiva, intelectual, tendo visto os mesmos conteúdos damatemática, ou seja, que as diferenças entre o desempenho se deva apenas a forma como aMatemática foi aprendida e ensinada, o que está atrelada à escola que, no caso, estamospressupondo ser o fator determinante na explicação das possíveis diferenças. Este é umexemplo que será tratado pela Análise de Variância, mais adiante. Por enquanto énecessário entender o processo probabilístico subjacente na análise. Precisamos de doisconceitos, o de amostragem e o da distribuição de uma variável, ou seja, do conceito deprobabilidade.

Suponhamos que a população de estudo está composta por todos os alunos que estãocursando a 5ª série, nas três escolas, onde estamos medindo duas variáveis: o desempenho,através da nota e a atitude frente a matemática, através da escala de atitude:

População: todos os alunos da 5ª série das três escolasX: nota na prova de matemática quantitativa contínua toma valores de zero a dezY: valor na escala de atitude quantitativa contínua toma valores de 20 a 80

Observa-se que estas variáveis (funções) são diferentes de uma função, matemática oufísica, como, por exemplo, a função velocidade, que depende do espaço e o tempo, que, seconhecidos, é possível conhecer apriori valor da velocidade, ou seja, tem um caráterdeterminístico. Já a nota em uma prova não pode ser conhecida apriori, depende de umasérie de fatores probabilísticos. Vejamos que fatores são esses:


Analisando o desempenho do aluno nas provas:

Aluno Prova1 Prova2 prova3 ...

Desempenho do aluno em Matemática X: nota do aluno em Matemática(análise longitudinal)

Espera-se que o aluno tenha um desempenho e que as diversas provas irão medi-lo, comcerta fidedignidade. Isto não significa que o aluno sempre obterá a mesma nota em todas asprovas, haverá uma variação aleatória, que pode ser considerada erro de medição, fruto devários fatores, tais como, calibração da prova (nível de dificuldade), do estado emocionaldo aluno, de ter estudado ou não na véspera, entre outros.

A variável nota do aluno é chamada de variável aleatória. Veremos , adiante, a definiçãodeste conceito. Esta variável aleatória terá como média (esperança matemática) odesempenho do aluno em matemática (parâmetro), as provas são apenas amostras,medições da variável. Espera-se que a maioria das notas fiquem muito próximas da médiae que a variação seja pequena, esse comportamento é conhecido como distribuiçãonormal.

Se medíssemos infinitas vezes o desempenho do aluno e se seu desempenho seguisse umadistribuição normal, com média 7,0 e desvio padrão 1,0, o formato da distribuição dasnotas deste aluno seria:

F

4 5 6 7 8 9 10X: nota do aluno em Matemática


igura 15. Distribuição da nota de um aluno em Matemátic

Normalµ=7,0σ=1 0

a


Analisando o desempenho dos alunos em uma prova:

Prova aluno1 aluno2 aluno3 ...

...Desempenho dos alunos em uma prova de Matemática X: nota dos alunos na prova(análise transversal)

Da mesma forma podemos supor que a prova foi calibrada para ter uma média de 7,0 e umdesvio padrão de 1,0. Nesse caso, a distribuição das notas com esses parâmetros será omesmo da Figura 15.

Ou seja, temos duas variáveis aleatórias interagindo simultaneamente, uma fruto dodesempenho do aluno e outra, da prova. Além dessas variações, existe outro fator, quetornará mais complexo o mundo de probabilidades subjacentes nesta análise, que éresultante do processo de amostragem.

Analisando a variabilidade inerente ao processo de amostragem:

População (N alunos) Amostra (n alunos; n<N)

Onde:

X: notµ: é a X : é de pro

Assimsubjac

...
......
...


a dos alunos na prova de Matemáticanota média de todos os alunos (parâmetro populacional)a média amostral, depende dos alunos que comporão a amostra, que depende das leisbabilidades.

, o presente capítulo tem por objetivo apresentar a teoria de probabilidadesente no processo estatístico.

...

Xµ



79

4.2 Introdução à probabilidades

A principal preocupação da estatística é tirar conclusões acerca dos parâmetrospopulacionais, baseando-se nos resultados observados em uma amostra. Quando a amostraé selecionada aleatoriamente não podemos determinar, ou prever apriori, os resultados(experimento aleatório). Contudo, podemos construir modelos probabilísticos quepermitem calcular as chances de ocorrência dos possíveis resultados, através da teoria deprobabilidades.

Suponha que você deseje conhecer a chance relativa teórica de sair cara no experimentolançar “n” vezes uma moeda não viciada. Existem duas formas de abordar o problema,uma através da experimentação e a outra através de um modelo probabilístico.

Através da experimentação, observamos a freqüência relativa com que cara aparece nos“n” lançamentos. Se repetirmos o experimento teremos outra freqüência relativaobservada, que não necessariamente é igual a anterior, mas esperamos que esteja muitopróximo dela. Assim, se repetirmos várias vezes os “n” lançamentos, esperamos que asfreqüências observadas convirjam para um número chamado probabilidade. Buffon ePearson realizaram esse tipo de experimento com os seguintes resultados:

Estimativa da probabilidade através das freqüências observadas

Buffon Pearson

Possíveisresultados

FreqüênciaAbsoluta

FreqüênciaRelativa

FreqüênciaAbsoluta

FreqüênciaRelativa

Cara 2048 0,5069 12012 0,5005

Coroa 1992 0,4931 11988 0,4995

Total 4040 1,0000 24000 1,0000

Outra forma de se chegar a freqüência relativa teórica á através da construção de ummodelo probabilístico teórico sob certas suposições adequadas. Assim, no exemplo,sabemos que existem somente dois possíveis resultados: cara ou coroa, sendo que as duasfaces tem as mesmas chances de ocorrer. Então, a freqüência relativa teórica para aocorrência de cada resultado é ½ ou 0,5.

Possíveis resultados cara coroa total

Freqüência teórica ½ ½ 1

Este modelo representa de forma adequada o resultado do experimento e, quando falamosde probabilidades da ocorrência dos possíveis resultados do experimento, estamos noreferindo as chances teóricas deles acontecerem.



80

A partir de fenômenos ou experimentos aleatórios pode-se construir modelosprobabilísticos, baseados em certas suposições teóricas adequadas, que reflitam seuscomportamentos, de maneira que seja possível determinar as chances de ocorrência(probabilidade) dos possíveis resultados (espaço amostral), sem precisar de realizar oexperimento.

4.2.1 Experimento e fenômeno aleatório

É aquele que repetido em condições idênticas produz geralmente resultados distintos. Porexemplo jogar uma moeda não viciada, sabemos que a chance de sair cara é 50%, mas nãoconseguimos prever com exatidão o resultado da jogada, mesmo controlando todas ascircunstâncias relevantes ao experimento (jogar a moeda).

O conceito de fenômeno aleatório é ligeiramente diferente do conceito de experimentoaleatório. Nos experimentos aleatórios podemos controlar, de certa forma, fatores alheiosao problema os quais podem influenciar os resultados do experimento, além disso,podemos “reproduzir” o experimento com certa margem de liberdade.

Já nos fenômenos aleatórios nós somos meros observadores, os fenômenos aleatóriostratados pela estatística são aqueles que possuem “regularidade estatística”, isto é, sãoobserváveis e suceptíveis de repetição (ver exemplos na Tabela 6, página 55).

Espaço amostral ( Ω )

É o conjunto formado por todos os possíveis resultados de um experimento ou fenômenoaleatório

Espaço amostral discreto: quando as realizações do experimento denotam uma qualidadeou são resultados de uma contagem, o espaço amostral é dito discreto, isto é, suceptível deenumeração (finita ou infinita), nesse caso, cada possível resultado é chamado de eventoelementar wi.

Ω = w1, w2, w3, ...

onde• cada wi representa um único possível resultado;• a união de todos os eventos elementares compõem o espaço amostral;• a interseção de qualquer par de eventos elementares é o conjunto vazio, ou seja, são

mutuamente exclusivos.

Espaço amostral contínuo: quando as realizações do experimento são resultados de umamensuração, isto é, os possíveis resultados não são enumeráveis, o espaço amostral échamado de contínuo. Neste caso, não faz sentido falar em eventos elementares e, emgeral, os eventos estão constituídos por intervalos (ver Tabela 6, pag. 55).



55

Tabela 6. Exemplos de alguns experimentos e fenômenos aleatórios

Nº Experimento Tipo Tipo Espaço amostral Variáveis aleatórias

1. Lançar uma moeda três vezes Experim Discreto Ω = CCC, CCX, CXC, XXC,CXX,XCX, XXC, XXX

número de carasnúmero de lançamentos até aparecer cara

2. Escolher aleatoriamente uma amostra detrês alunos da disciplina de estatística (*)

Experim Discreto Ω1 = ABC, ACD, ABE,... Ω2 = AAA, AAB, AAC,...

número de alunos de sexo masculino

3. Lançar dois dados Experim Discreto Ω = (1,1) (1,2), ... (6,6) soma dos valores das facesdiferença entre os valores das faces

4. Escolher aleatoriamente eleitores eperguntar em quem irão votar parapresidente

Experim Discreto Ω = Lula, FHC, CG, E, X número de eleitores quem votarão nocandidato X

5. Escolher aleatoriamente uma mulher eanotar o número de filhos vivos

Experim DiscretoContínuo

Ω = 0, 1, 2 ... Ω = X; 12 ≤ X ≤ 50

número de filhos vivos por mulheridade em que engravidou a primeira vez

6. Observar o número de casos demeningite por mês

Fenômeno Discreto Ω = 0, 1, 2 ... número de casos de meningite por mêsnúmero de casos por sexo, por faixa etária, ...

7. Aplicar uma prova de Matemática de 5questões, com duração de duas horas

Experim ContínuoDiscretoContínuo

Ω = X; 0 ≤ X ≤ 10Ω = 0, 1, 2, 3, 4 e 5Ω = X; 0 ≤ X ≤ 2

nota na prova de Matemática (nota)número de questões erradastempo que demorou para responder a prova

8. Aplicar a escala de atitudes frente aMatemática e observar a pontuação

Experim Contínuo Ω = X; 20 ≤ X ≤ 80 Valor na escala de atitudes

9. Observar a reprovação em Matemáticados alunos de 5ª séries por turma

Fenômeno Contínuo Ω = X; 0% ≤ X ≤ 100% Porcentagem de alunos reprovados por turma

10. Observar o tempo de vida (até queimar)de uma lâmpada

Experim Contínuo Ω = X; X ≥ 0 Tempo de vida da lâmpada (em horas)

11. Observar a quantidade de chuva mensal Fenômeno Contínuo Ω = X; 0 ≤ X ≤ M M suficientemente grande, porém limitado

Quantidade de chuva mensal (em mm)

(*) Depende do tipo de amostra: sem o com reposição

I. O papel da Estatística na pesquisa científica 56

Evento (A): É todo subconjunto do espaço amostral

Por exemplo, no experimento 3, lançar dois dados:A= pelo menos uma face é número par: todos os pares sombreadosB= as duas faces tem o mesmo valor: (1,1), (2,2), (3,3), (4,4), (5,5), (6,6)

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

No experimento 7, aplicar uma prova de Matemática:A= o aluno obter uma nota menor que 6 A=X; X < 6)B= o aluno tirar notas entre 7 e 9 B=X; 7 < X < 9

Operações com eventos: Sejam A e B dois eventos associados a um espaço amostral

União A ∪ B: implica na ocorrênciade pelo menos um dos eventos

Interseção A ∩ B: quando os doisevento ocorrem simultaneamente

Ω

B

Ω

Complemento ocorre quando n

Ω

Ac

Diferença simétocorre apenas um

Ω

A

A

A

A

Β


de A (Ac):ão ocorre A

Diferença A-B: quando ocorreA mas não ocorre B

Ω

rica A ∴ B: dois evento

Eventos mutuamente exclusivos: quandoa interseção deles é o evento impossível

Ω

A

A

Β

Β

Β A Β

I. O papel da Estatística na pesquisa científica


57

Evento seguro Ω: ocorre sempreEvento impossível φ : nunca ocorre

4.2.2 Definição frequentista de probabilidade

A freqüência relativa de um evento é definida como o quociente entre o número de casosfavoráveis ao evento e o número total de observações. Por exemplo, quando lançamos umamoeda não viciada, a freqüência relativa de cara é:

Buffon encontrou essa freqüência igual a 0,5069 em 4.040 lançamentos, enquanto quePearson achou 0,5005 em 24.000 lançamentos, sendo que a freqüência teórica é ½ .Observa-se como estes experimentos foram tentativas de montar um modeloprobabilístico, isto é, atribuir probabilidades aos resultados do experimento.

Então podemos definir a probabilidade de sair cara como o limite para onde a freqüênciarelativa tende quando o número de ensaios tende para infinito:

Quando a variável é contínua, a freqüência relativa é dada em termos de intervalos oufaixas, por exemplo, a freqüência relativa de alunos das três escolas cujas notas variam de4 a 6:

Então, a estimativa da probabilidade de que um aluno tenha notas entre 4 e 6 será 0,4130.

Ao falarmos de probabilidades em termos de freqüência relativa, temos em mente onúmero em torno do qual os valores das freqüências relativas se concentram quando onúmero de repetições do experimento tende ao infinito. Esta é a definição frequentista deprobabilidade, mas é uma definição que tem uma série de limitações. Logo definiremos aprobabilidade axiomaticamente.

FrequenciaNumero de vezes que cara aparece

Numero de ensaioscara =

FrequenciaNumero de alunos com notas entre 4 e 6

Numero de alunos[4;6] = = =3892

0 4130,

P(cara limiteNumero de vezes que aparece cara

nn) ( )=

−>∞


4.2.3 Definição axiomática de probabilidade

Probabilidade é uma função que associa a cada evento A, do espaço amostral, um númeroP(A), chamado de probabilidade do evento A, satisfazendo os seguintes axiomas:

Axioma 1: P(A) ≥ 0

Axioma 2: P(Ω) = 1

Axioma 3: Se A e B são dois eventos disjuntos, isto é, A ∩B= φ,

então: P(A ∪ B)= P(A)+ P(B)

Em geral:

Se A1, A2, A3, ..., são eventos disjuntos de Ω, tal que Ai ∩ Aj = φ, para todo i≠j,

então: P(A1∪ A2∪... An)= P(A1) + P(A2)+...P(An)

Exemplo: experimento lançar uma moeda

x P(x)

Ω ℜ Cara p

Coroa 1-p

P :

Exemplo:

x

0

Onde:

C

C

Ω

ara

oroa


ℜ

0 p 1-p 1

aplicar a prova de Matemática (se tivesse uma distribuição normal):

Ω=ℜ ℜ

1 2 3 4 5 6 7 8 9 10 0 1 X: Nota na prova de Matemática P: probabilidade

f x e x( ) / [( )/ ]= − −12

1 2 2

σ πµ σ

P(4 x 6)≤ ≤ = ∫ f x dx( )4

6



59

No exemplo das notas: 0 ≤ x ≤ 10 ; µ =7 e σ =1Em geral: - ∞ ≤ x ≤ +∞ ; - ∞ ≤ µ ≤ + ∞ e σ ≥ 0Propriedades:

Propriedade 1: 0 ≤ P ≤ 1

Propriedade 2: P(φ) = 0

Propriedade 3: P(Ac)= 1 - P(A)

Propriedade 4: Se A está contido em B, então P(A) ≤ P (B)

Propriedade 5: P(A ∪ B) ≤ P(A) + P(B) e isto devido a:

P(A ∪ B) = P(A) + P(B) – P(A ∩B)

Vejamos através de um exemplo como se atribui probabilidades aos eventos. Noexperimento lançar uma moeda, suponha que temos quatro funções P1, P2, P3, e P4, taisque:

Evento P1 P2 P3 P4

Cara ½ ¼ 0 1/3Coroa ½ ¾ 1 ¼Total 1 1 1 7/12

Observamos que com exceção de P4, as três primeiras funções são de probabilidade, poiscumprem com os axiomas. Agora a pergunta é: qual das três funções devemos escolherpara atribuir probabilidade aos eventos? Isto depende do experimento, se a moeda não forviciada, P1 é a função mais apropriada. Se ambos lados da moeda forem cara, então P3 é amais adequada. Se suspeitamos que a moeda está carregada para sair coroa, “talvez” P2seja a função mais adequada para representar o experimento, em todo caso devemosrecorrer a freqüência relativa para estimar os valores.

4.2.4 Probabilidade condicional

A probabilidade condicional deum evento A dado a ocorrênciado evento B é definida por:

Ω

Logo, a probabilidade da interseção de dois eventos,probabilidades, conhecido como a regra da multiplica

Β

P(A / B)P(A B)

P(B)=

∩

A

pode seção:

0
A ∩B onde P(B) ≥
r obtido multiplicando as



60

P(A∩B)= P(A/B)*P(B)No exemplo dos dois dados, página 56:

A= pelo menos uma face é número par: todos os pares sombreados

P(A)=27/36

B= as duas faces tem o mesmo valor: (1,1), (2,2), (3,3), (4,4), (5,5),

(6,6) P(B)=6/36

A∩B =(2,2),(4,4),(6,6) P(A∩B)=3/36

Estas probabilidades são muito utilizadas na área de medicina, principalmente para avaliara qualidade dos testes utilizados para diagnosticar doenças e situações clínicas, vejamosum exemplo:

Diagnóstico Probabilidade

Grávida Positivo Negativo marginal

Sim P[grávida ∩ positivo] P[grávida ∩ negativo]

β=P[falso negativo]

P[Grávida]

Não P[nãográvida ∩ positivo]

α=P[falso positivo]

P[nãográvida ∩ positivo] P[Não grávida]

ProbabilidadeMarginal

P[positivo] P[Negativo] 1,00

Aqui estamos trabalhando com duas variáveis: gravidez e diagnóstico. As probabilidadesisoladas de cada variável são conhecidas como probabilidades marginais, e isto porque sãocalculadas à margem da outra variável; já as probabilidades das interseções são conhecidascomo probabilidades conjuntas, pois são calculadas através da ocorrência das duasvariáveis simultaneamente.

Neste tipo de análise estamos interessados nas seguintes probabilidades:

β=P[falso negativo], que é a probabilidade do teste não detectar a gravidez, quando a mulher está grávida (erro de diagnóstico)

α=P[falso positivo], que é a probabilidade do teste detectar a gravidez, quando a mulher não está grávida (erro de diagnóstico)

P(A / B) =P(A B)

P(B)∩

= = =3 366 36

3 6 0 5//

/ ,



61

Especificidade de um teste é a probabilidade que o resultado do teste dê negativo dado quea mulher não está grávida = P(-/N)

Sensibilidade de um teste é a probabilidade que o resultado do teste dê positivo dado que amulher está grávida = P(+/G)

A qualidade do teste são medidos por esses indicadores.Usando o diagrama da árvore para ilustrar melhor as probabilidades

Sensibilidadedo teste

P(+/G) Positivo P(G ∩ +)

Grávida

P(G) P(-/G) Negativo P(G ∩ -)=β=P[falso negativo]

P(N) P(+/N) Positivo P(N ∩ +)=α=P[falso positivo]Nãográvida

P(-/N) Negativo P(N ∩ -)

especificidadedo teste

Suponha que 300 mulheres, que suspeitavam que estavam grávidas, fizeram o teste paradiagnosticar a gravidez, com os seguintes resultados:

DiagnósticoGrávida Positivo Negativo Total

Sim 216 24 240Não 18 42 60Total 234 66 300

Probabilidades conjuntas probabilidades marginais P(G∩+) =216/300=0,72 P(G) =240/300=0,80

β=P[falso negativo] P(G∩ -) = 24/300=0,08 P(N) = 60/300=0,20α=P[falso positivo] P(N∩+) = 18/300=0,06 P(+) = 234/300=0,78

P(N∩ -) = 42/300=0,14 P(-) = 66/300=0,22



62

Probabilidades condicionais

Usando o diagrama da árvore:

P(+/G) + P(G ∩ +)=0,8*0,9=0,72

G0,9

0,1 P(G)=0,8 P(-/G) - P(G ∩ -)=0,8*0,1=0,08

P(N)=0,2 P(+/N) + P(N ∩ +)=0,2*0,3=0,06

N0,3

0,7P(-/N) - P(N ∩ -)=0,2*0,7=0,14

Probabilidade Total

P(+)=P(G ∩ +) + P(N ∩ +) = 0,72 + 0,06 = 0,78P(-)=P(G ∩ -) + P(N ∩ -) = 0,08 + 0,14 = 0,22

Teorema de Bayes

Dado que você recebeu o laudo do teste e o resultado é positivo, qual é a probabilidade deque o laudo esteja errado:

4.2.5 Independência de eventos

Dois eventos A e B são independentes se a ocorrência de um deles não interfere nãoocorrência do outro:

P(A/B)=P(A)

P(+ / G) =P(G +)

P(G)∩

= = =216 300240 300

216240

0 9//

,

P(- / N) =P(N -)

P(N)∩

= = =42 30060 300

4260

0 7//

,

Sensibilidade

Especificidade

P(G / +) =P(G +)

P(+)∩

= =0 720 78

0 9231,,

,

P(N / -) =P(N -)

P(-)∩

= =0 140 22

0 6364,,

,

P(A) =P(A B)

P(B)∩ P(A∩B)=P(A)*P(B)



63

Logo, dois eventos são independentes se a probabilidade da interseção é igual ao produtode suas probabilidades isoladas, ou ainda, se a probabilidade conjunta é produto dasprobabilidades marginais.

No exemplo do diagnóstico da gravidez:

P(G ∩ +)= 0,72

P(G)=0,80 e P(+)=0,78 P(G)*P(+)=0,80*0,78=0,624

Logo P(G ∩ +) ≠ P(G)*P(+) portanto são eventos dependentes.

O conceito de independência é crucial na análise estatística, principalmente na escolha dasamostras. Vejamos um exemplo atrelado a seleção de uma amostra. Suponha quedesejamos estimar a proporção de homens e a idade média dos alunos da disciplina deEstatística, composto por 11 alunos (N=11), dos quais dois são homens. Suponha que paraestimar esses parâmetros selecionamos uma amostra de tamanho três (n=3).

4.2.6 Amostragem sem reposição

Quando a população é finita, a amostragem sem reposição gera dependência entre oselementos que compõem a amostra. Vejamos como varia a população a cada sorteio:

1º sorteioN=11

2º sorteioN=10

3º sorteioN=9

H

HM

MH

P(A / B)P(A B)

P(B)=

∩



64

M

Sejam os eventos:

H1=o aluno selecionado no primeiro sorteio é de sexo masculinoM1=o aluno selecionado no primeiro sorteio é de sexo femininoH2=o aluno selecionado no segundo sorteio é de sexo masculinoM2=o aluno selecionado no segundo sorteio é de sexo femininoH3=o aluno selecionado no terceiro sorteio é de sexo masculinoM3=o aluno selecionado no terceiro sorteio é de sexo feminino

P(H1) = 2/11 P (H2 /H1 )=1/10 P(H3 /H1H2)=0

P(M1)= 9/11 P (M2 /M1 )=8/10 P(M3 /M1M2)=7/9

P(H1H2H3 ) =P(H1) *P(H2 /H1 )* P(H3 / H1H2) = (2/11)*(1/10)*(0/9) = 0

P(M1M2M3 )=P(M1)*P(M2 /M1)* P(M3 /M1M2)= (9/11)*(8/10)*(7/9) = 504/990

Assim por diante...

1º sorteio(N=11)

2º sorteio(N=10)

3º sorteio(N=9)

Eventos Proba-bilidades

0 H3 H1H2H3 0/9901/10 H2

1 M3 H1H2M3 18/990H1

2/11 1/9 H3 H1M2H3 18/9909/10 M2

8/9 M3 H1M2M3 144/990

1/9 H3 M1H2H3 18/9902/10 H2

9/11 8/9 M3 M1H2M3 144/990M1

2/9 H3 M1M2H3 144/9908/10 M2

7/9 M3 M1M2M3 504/990

4.2.7 Amostragem com reposição



65

Já na amostragem com reposição os eventos se tornam independentes:

P(H1 ) = 2/11

P (H2 / H1 ) = P(H2) = 2/11 P(H1) = P(H2) = P(H3) = 2/11

P(H3 / H1H2) = P(H) = 2/11

Ou seja, a probabilidade do aluno sorteado ser homem independe do sorteio e dosresultados anteriores. Logo podemos trabalhar apenas com os evento:

H=o aluno selecionado é de sexo masculinoM=o aluno selecionado é de sexo feminino

P( H1H2H3 ) = P(HHH) = P(H) *P(H)* P(H) = (2/11)*(2/11)*(2/11) =(2/11)3

P(M1M2M3 ) = P(MMM)= P(M)*P(M)*P(M) = (9/11)*(9/11)*(9/11) =(9/11)3

E assim por diante...

Em geral, se P(H)=p e P(M)=q, onde q=1-p, teremos a seguintes probabilidades:

Eventos Sem reposição Sem reposição Sem reposiçãoem geral

H1H2H3 0/990 (9/11) 0*(2/11)3 p3

H1H2M3 18/990 (9/11)1*(2/11)2 qp2

H1M2H3 18/990 (9/11) 1*(2/11)2 qp2

H1M2M3 144/990 (9/11)2*(2/11)1 q2p

M1H2H3 18/990 (9/11)1*(2/11)2 qp2

M1H2M3 144/990 (9/11)2*(2/11) 1 q2p

M1M2H3 144/990 (9/11)2*(2/11) 1 q2p

M1M2M3 504/990 (9/11)3*(2/11)0 q3

4.3 Variável aleatória

É qualquer função de número real, definida no espaço amostral associado a umexperimento aleatório. Geralmente, quando o espaço amostral é formado por eventos quedenotam qualidade, a variável aleatória tem um papel importante, pois transforma os



66

eventos em números, facilitando o tratamento matemático destes. Já quando o espaçoamostral é contínuo, via de regra, a variável aleatória é a própria identidade.

4.3.1 Variável aleatória discreta

No experimento escolher uma amostra de três alunos da disciplina para estimar aproporção de homens, podemos definir a variável aleatória X número de homens naamostra:Seja X: número de homens na amostra:

X : Ω ℜ

ℜ

0 1 2 3

P(X)

ℜ

0 1

Função de probabilidade de uma variável aleatória (amostragem sem reposição)

P(X)0,5

p=2/11 p=½ p=¼0,4

0,3

0,2

0,1

0,0 0 1 2 3 0 1 2 3 0 1 2 3

X: número de homens na amostra (amostragem com reposição)

X P(X) P(X) P(X) P(X)

ΩHHHHHMHMHMHHHMMMHMMMHMMM

X



67

p=2/11 p=½ p=¼ p0 (9/11)3=0,5477 1/8 0,421875 q3

1 3(9/11)2 (2/11) =0,3651 3/8 0,421875 3q2p

2 3(9/11)(2/11)2=0,0812 3/8 0,140625 3q p2

3 (2/11)3=0,0060 1/8 0,015625 p3

Total 1,0000 1 1,000000 1

4.3.1.1 Distribuição de Bernoulli

Uma variável aleatória X, que assume apenas dois valores 0 (fracasso) e 1 (sucesso) com afunção de probabilidade

xFracasso

0Sucesso

1 TotalP(x) 1-p p 1

É chamada de variável aleatória de BernoulliNeste caso:

E(X)=pV(X)=p(1-p)

4.3.1.2 Distribuição Binomial

Se repetirmos um ensaio de Bernoulli “n” vezes, ou obtemos uma amostra de tamanho “n”de uma distribuição de Bernoulli, sendo que as repetições são independentes, ou seja, oresultado de um ensaio não têm influência nenhuma no resultado de qualquer outro ensaio,podemos definir a variável aleatória número de sucessos;

X: número de sucessos em n ensaios X ~ B(n , p)

Então X tem uma distribuição binomial, com parâmetros n e p, onde p é a probabilidade desucesso no ensaio de Bernoulli e cuja função de probabilidade está dada por:

onde x = 0, 1, . . . , nE(X)=npV(X)=np(1-p)

Esta distribuição é muito importante para a formação do estimador da proporçãopopulacional.

P(x) x p (1 p)x n x=

− −

n



68

4.3.2 Variável aleatória contínua

Como vimos anteriormente, via de regra, uma variável aleatória contínua é aquela quedescreve a própria função de probabilidade associada a variável em estudo. No exemplodas notas na prova e dos valores na escala de atitudes frente a Matemática, observamos queestas são duas variáveis aleatórias, pois tem como domínio o espaço amostral e comoimagem a probabilidade.Toda variável aleatória contínua precisa de uma função de densidade de probabilidade, apartir da qual é possível calcular as probabilidades. A probabilidade para uma variávelaleatória contínua é definida como a área contida no intervalo desejado e a função dedensidade de probabilidade, logo não existe a probabilidade da variável tomar exatamenteum valor.

Retomando o exemplo da página 58 X: notas na prova de Matemática

x Ω=ℜ ℜ

0 1 2 3 4 5 6 7 8 9 10 0 1 X: Nota na prova de Matemática P: probabilidade

4.3.2.1 Distribuição normal

Se X tem uma distribuição normal de parâmetros µ e σ, sua função de densidadeprobabilidade é definida assim:

Onde:

f x dx( ) =−∞

+∞

∫ 1

e f(x) ≥ 0 para todo x que pertence aos reais

No exemplo das notas: 0 ≤ x ≤ 10 ; µ =7 e σ =1

Figura 16. Distribuição das notas na prova de Matemática

f x e x( ) / [( )/ ]= − −12

1 2 2

σ πµ σ e P(a x b)≤ ≤ = ∫ f x dx

a

b( )

Notação: X ~ N (µ, σ2)

- ∞ ≤ x ≤ +∞- ∞ ≤ µ ≤ + ∞ σ ≥ 0


A probabilidade de que um aluno escolhido aleatoriamente tenha notas entre 4 e 6, áreasombreada na Figura 16, é calculada como a área contida no intervalo [ 4 ; 6 ] e a funçãode densidade de probabilidade. Esta área é calculada através de um processo de integração,muito laborioso. Felizmente existe uma tabela pronta que pode ser usada para calculartodas as probabilidades desejadas e os pacotes estatísticos já fornecem os valores.

Características da distribuição normal

A distribuição normal é simétrica

E(X)=µV(X)=σ2

Figura 17. Histograma de 5000 números aleatórios gerados por umadistribuição normal de média 7 e desvio padrão 1

4 5 6 7 8 9 10X: nota do aluno em Matemática

Normalµ=7,0σ=1,0

4 5 6 7 8 9 10 X µ-3σ µ-2σ µ-σ µ µ-σ µ-2σ µ-3σ


68%



70

95%

99%

A distribuição normal padrão: Z ~N (0,1)

A distribuição normal padrão é aquela cuja média é zero e cuja variância é 1. Existe umatabela contendo as probabilidades.

A distribuição normal padrão: Z ~N (0,1)

Leitura da tabela normal padrão

Probabilidades p tais que p = P(0<Z<Zc)

Segundo decimal ZcParte in-teira e 1ºdecimal

0 1 2 3 4 5 6 7 8 9

0,0

1,2 39973 40147

1,6 44950 45053

1,9 47500

2,3 49010

−3 −2 −1 0 1 Ζc 2 3 Ζ



71

2,5 49492 49506

4,5 49999 50000

Então:

P(0<Z<1,96)=0,475 P(Z<-1,96)=P(Z>1,96)=0,025

P(-1,96<Z,1,96)=0,95 conhecido como 1- α ou nível de confiança

P(Z<-1,96) + P(Z>1,96)=0,05 conhecido como α=5% ou nível de significância

Alguns valores de Z para alfas clássicos:

Unilateral Bilateral

α Ζα Ζα/21% 2,33 2,585% 1,64 1,9610% 1,28 1,64

Padronização de uma variável aleatória N(µ, σ2)

Toda variável aleatória normal de média µ e variância σ2 pode sedistribuição normal de média zero e variância igual a 1, usando a s

Por exemplo:

X: notas dos alunos de matemática X ~N(7, 1)

1-α
α/2 α/2
r transformada em umaeguinte transformação:


AProfª

72

4 5 6 7 8 9 10

X-7:

-3 -2 -1 0 1 2 3

Neste caso não precisamos dividir pelo desvio padrão que este é igual a 1

X: valor na escala de atitude frente a matemática X ~N(50, 102)

20 30 40 50 60 70 80

X-50:

-30 -20 -10 0 10 20 30

(X-50)/10:

-3 -2 -1 0 1 2 3

Calcule as seguintes probabilidades:

P ( X > 70 ) = P( Z > 2) Z = ( X - µ ) / σ = ( 70 – 50 ) / 10 = 2

Mas a tabela nos dá o valor da probabilidade entre 0 e 2 P(0<Z<2)=0,47725Como a distribuição é simétrica, logo o valor de metade da função é igual o ½, entãopodemos calcular P(Z>2) pelo complemento

P(Z>2)= 0,50000 – P(0<Z<2) = 0,50000 – 0,47725

= 0,02275 37

Podemos interpretar este resultado da seguinteforma, apenas 2,3% dos alunos tem uma atitudesuperior a 70 pontos.

postila de EstatísticaIrene Mauricio Cazorla

50 59



73

P(37<X<59)=padronizando 37: Z= (X−µ)/σ = (37-50)/10=-1,7 P (-1,7<Z<0)=P(0<Z<1,7)=0,45543padronizando 59: Z= (X−µ)/σ = (59-50)/10= 0,9 P ( 0 <Z<0,9)=0,31594P(37<X<59)= P (-1,7<Z<0) + P ( 0 <Z<0,9)=0,45543 + 0,31594 = 0,77137

Quadro 1. Distribuição Normal Padrão

(Prezado usuário, aqui deverá ser inserida a Tabela da Distribuição Normal Padrão, quepode ser encontrada em qualquer livro de Estatística Básica)



74

Quadro 2. Distribuição de qui-quadrado: χ2

(Prezado usuário, aqui deverá ser inserida a Tabela da Distribuição de Qui-quadrado (χ2),que pode ser encontrada em qualquer livro de Estatística Básica)

Quadro 3. Distribuição de Student

(Prezado usuário, aqui deverá ser inserida a Tabela da Distribuição de Student (t-student),que pode ser encontrada em qualquer livro de Estatística Básica)



75

Quadro 4. Distribuição F de Fisher-Snedecor

(Prezado usuário, aqui deverá ser inserida a Tabela da Distribuição F de Fisher-Snedecor,que pode ser encontrada em qualquer livro de Estatística Básica)



76

a) Estudando a normalidade das variáveis

O banco de dados RANDOM.SAV contem 1000 registros de números aleatórios geradospor várias distribuições:

Nor01 X ~ N (0,1)Nor5010 X ~ N (50,100) NormalNor71 X ~ N (7,1)Chi1 X~χ2

1

Chi10 X~χ210 Chi-quadrado

Chi30 X~χ230

F11 X~F1,1F110 X~F1,10 F de SnedecorF1010 X~F10,10t10 X~t10 t-studentt30 X~t30B3001 X~B(30, 0.1) BinomialB3005 X~B(30, 0.5)P2 X~P(2) PoissonP15 X~P(15)Logist01 X~Lg(0,1) Log-normal

O banco de dados RANDOM1.SAV contem 300 registros de números aleatórios geradospor várias distribuições:

Nor5010 X ~ N (50,10) NormalUni2080 X ~ U (20,80) UniformeBin10005 X ~ B (100, 0.5)Bin10003 X ~ B (100, 0.3) BinomialBin10007 X ~ B (100, 0.7)Bin100005 X ~ B (100, 0.05)

Para estudar o grau de normalidade de uma variável aleatória devemos testar hipóteses, oque faremos posteriormente; por enquanto, vamos aprender a examinar o formato dasvariáveis e os gráficos que nos permitem avaliar de forma intuitiva se a variável emquestão pode ser modelada ou não por uma distribuição normal.

Usando o comando EXPLORE para examinar os dados:

StatisticsSummarize

ExploreEscolha as variáveis

Plots escolha a opção para fazer os gráficos Normality plots with tests Spread vs level with Levene test



77

Saída do SPSS para as variáveis contidas no banco de dados RANDOM1.SAV:

Variável: NOR5010

Valid cases: 300,0 Missing cases: ,0 Percent missing: ,0 Mean 49,9015 Std Err ,5811 Min 21,7907 Skewness ,0880 Median 49,8198 Variance 101,3192 Max 79,8518 S E Skew ,1407 5% Trim 49,8238 Std Dev 10,0657 Range 58,0610 Kurtosis -,2301 IQR 14,3134 S E Kurt ,2805

Frequency Stem & Leaf

1,00 2 * 1 3,00 2 . 588 16,00 3 * 0001222223334444 36,00 3 . 555666666667778888888888899999999999 38,00 4 * 00000000111111111223333333334444444444 59,00 4 . 55555555555566666666666666667777777788888888899999999999999 54,00 5 * 000000011111111111111122222222223333333333333344444444 47,00 5 . 55555555666666666677777778888888889999999999999 27,00 6 * 000011111112222223333333344 12,00 6 . 555677788889 4,00 7 * 0114 2,00 7 . 55 1,00 Extremes (80)


Figura 18. Histograma e função de densidade de probabilidade de 300 númerosaleatórios gerados de uma distribuição N(50;100)

Estes dados simulam a distribuição dos valores na escala de atitudes. Observe como,apesar desta amostra vir de uma distribuição normal, ela não é perfeitamente normal.

NOR5010

77,572,5

67,562,5

57,552,5

47,542,5

37,532,5

27,522,5

17,512,5

120

100

80

60

40

20

0

Std. Dev = 10,26 Mean = 49,5N = 1000,00

Função dedensidade deprobabilidade

f(x)

frequência



78

b) Teste de normalidade

Desde que a distribuição normal é muito importante na inferência estatística,frequentemente devemos examinar a suposição de que nossos dados vem de umadistribuição normal. Uma forma de fazer isto é através do gráfico da probabilidade Normal- Normal Probability Plot-. Neste gráfico, cada valor observado é emparelhado com seurespectivo valor esperado, sob a suposição de normalidade. O valor esperado de umadistribuição normal está baseado no número de casos na amostra e na ordem (crescente)que ocupa na amostra. Se a amostra vem de uma distribuição normal esperamos que ospontos caiam na linha reta.

A Figura 19 mostra a qualidade do ajuste do desempenho da amostra de 300 númerosaleatórios gerados por uma distribuição normal com média 50 e desvio padrão 10,simulando o comportamento da escala de atitudes.

Figura 19. Normal Probability Plot de uma distribuição normal

na abscissa coloca-se o valor observado da amostra, cuja média é: 49,9015 e desvio padrão10,0657 (apesar de vir de uma simulação de média 50 e desvio padrão 10).

abscissa

20 30 40 50 60 70 80

ordenada

-3 -2 -1 0 1 2 3

valor esperado Z = ( X - 49.9015) / 10,0657

Estes pares formam a linha reta, os pontos são calculados da seguinte maneira:

Normal Plot of NOR5010

Observed Value

9080706050403020

Expected Normal

3

2

1

0

-1

-2

-3



79

P (X ≤ 30 ) = 7 / 300 = 0,0233333 ==> 0,5 - 0,0233333 = 0,4777777777 na tabela normal o valor mais próximo é 0,47670 ==> que da um valor de Z padronizado observado de -1,99

P (X ≤ 40 ) = 64 / 300 = 0,2133333 ==> 0,5 - 0,2133333 = 0,2866666 na tabela normal o valor mais próximo é 0,28524 ==> que da um valor de Z padronizado observado de -0,79

e assim por diante...

Outra forma de checar graficamente a normalidade dos dados é graficar o valor observadoversus a diferença entre o valor observado e o valor esperado: Detrended Normal Plot.Neste gráfico, os pontos devem ficar em torno do valor zero, sem nenhuma tendência.

Figura 20. Detrended Normal Plot de uma distribuição normal

Embora os gráficos anteriores mostrem visualmente o comportamento da variável emrelação a curva normal é recomendável fazer testes de normalidade. Os testes maisutilizado são o Lilliefors test, baseado no teste de Kolmogorov-Smirnov e o teste Shapiro-Wilk´s test, ambos testes serão apresentados no capítulo de teste de hipóteses.

Resultado do teste de K-S (Lilliefors) para avaliar a normalidade dos dados:

Hipótese nula Ho: X~Normal Aceita-se Ho

Statistic graus de liberdade Significance(p-value ou p-valor)

K-S (Lilliefors) 0,0320 300 > ,2000

Detrended Normal Plot of NOR5010

Observed Value

9080706050403020

Dev from Normal

,3

,2

,1

0,0

-,1

-,2



80

Enquanto não apresentamos a lógica do teste de hipótese, a leitura do resultado de qualquerteste de hipótese, pode ser feita comparando o p-valor com o nível de significância α(alfa), escolhido por você (pesquisador), via de regra, trabalha-se com α=5%, 10% ou 1%.Para aceitar a hipótese nula, o p-valor tem que ser maior que o nível de significância, casocontrário rejeita-se Ho.

Regra de decisão:

maior alfa Aceita-se Hop-valor

menor alfa Rejeita-se Ho

4.3.2.2 Distribuição Uniforme

Uma variável aleatória segue uma distribuição uniforme, de parâmetros a e b, se suafunção de densidade de probabilidades esta dada por:

f(x)

1 .b-a

a c d b x

Para calcular a probabilidade de x estar entre c e d, devemos integrar a função:

Podemos supor que o valor das atitudes das crianças frente a Matemática seguem umadistribuição uniforme de parâmetros 20 e 80, o que significaria que a média seria 50 e odesvio padrão 17,321.

Essa suposição significaria que haveria alunos com atitudes tendendo ao positivo, aonegativo e neutros, quase que com a mesma proporção. Este modelo não parece serapropriado para os nossos dados. Mas, com fins ilustrativos, apliquemos o teste denormalidade, a 300 dados gerados por uma distribuição uniforme entre 20 e 80.

f xb a

( ) =−1X~U[a;b] se Para a ≤ x ≤ b e

0 para qualquer outro valor

P c x db a

dxc

d( )≤ ≤ =

−∫1 Onde em geral:

P(c ≤ x ≤ d) = (d-c)/(b-a)para todo c e d contidos no intervalo [a;b]

Onde:E(X) =(a+b)/2V(X) = (b-a)2/12



81

Variável: UNI2080Casos válidos=300,0 Média=49,3258 Desvio padrão=18,2216

Figura 21. Histograma de 300 números aleatórios gerados de umadistribuição uniforme de parâmetros 20 e 80

Quando a amostra vem de uma população uniforme, suas caudas são muito pesadas, logo,dificilmente, passará pelo teste de normalidade. Observe como os valores, principalmentedas caudas se afastam da reta.

Figura 22. Normal Probability Plot de uma distribuição uniforme

UNI2080

80,075,0

70,065,0

60,055,0

50,045,0

40,035,0

30,025,0

20,0

30

20

10

0

Std. Dev = 18,22 Mean = 49,3N = 300,00

Normal Plot of UNI2080

Observed Value

100806040200-20

Expected Normal

3

2

1

0

-1

-2

-3



82

Figura 23. Detrended Normal Plot de uma distribuição uniforme

Resultado do teste de K-S (Lilliefors) para avaliar a normalidade dos dados:

Hipótese nula Ho: X~Normal Rejeita-se HoStatistic graus de liberdade Significance

K-S (Lilliefors) 0,0896 300 0,0000

Ou seja, concluímos que dificilmente uma amostra aleatória proveniente de umadistribuição uniforme se ajustará a uma distribuição normal.

Testando a normalidade de dados gerados aleatoriamente a partir de outras distribuições deprobabilidades.

Resultado do teste de K-S (Lilliefors) para avaliar a normalidade dos dados das outrasvariáveis do banco de dados RANDOM1.SAV:

Hipótese nula Ho: X~Normal

Variáveis Statistic graus deliberdade

Significance Decisão Normal?

Binomial (100;0,5) 0,0682 300 0,0018 Rejeita-se Ho Não

Binomial (100;0,3) 0.0714 300 0,0009 Rejeita-se Ho Não



Detrended Normal Plot of UNI2080

Observed Value

908070605040302010

Dev from Normal

1,5

1,0

,5

0,0

-,5

-1,0

-1,5



83

Testando a normalidade das notas dos alunos de 5ª série das três escolas, tanto de formaisolada, quanto de forma conjunta (página 27, EXPLORA2. SAV)

Para análise geralStatistics

Explore Selecionar a variávelPlots

Normality plots with testSpread vs level with Levene Test

Para analisar o desempenho por escolaData

Split fileRepeat analysis for each group

Selecionar a variável desejada e colocar em: Group based on Repita o procedimento anterior

Resultado para as notas das três escolas:

Hipótese nula Ho: X~Normal

Teste K-S Lilliefors

Variáveis Statistic graus deliberdade (n)

Significance Decisão Normal?

Geral 0,1220 92 0,0018 Rejeita-se Não

Escola 1 0,0976 40 > 0,2000 Aceita-se Sim



Teste de Shapiro-Wilks ( recomendado para pequenas amostras)

Escola 1 0,9675 40 0,4209 Aceita-se Sim

Escola 2 0,7929 23 < 0,0100 Rejeita-se Não

Escola 3 0,9353 29 0,0924 Aceita-se a 10% Sim a 10%

Observe como a decisão não é unânime, depende do teste. Na realidade, observamos quedificilmente as notas das três escolas juntas passariam pelo teste de normalidade e issoporque existe uma diferença nítida da escola 2 para as outras duas escolas, o que faz comque as notas das três tenha uma distribuição bimodal, e, no caso da normal, além de serunimodal ela deve ser simétrica. Vejamos como se comportam os dados das três escolas deforma isolada. Faça o teste e os gráficos para cada escola, anote o resultado, depois tire osvalores extremos e/ou outliers, veja o que acontece.



84

Detrended Normal Plot of NOTA

Observed Value

121086420

Dev from Normal

,4

,3

,2

,1

-,0

-,1

-,2

-,3

Figura 24. Análise visual sobre a normalidade das notas das três escolas

Aguçando a nossa percepção analisemos os dados dos valores da escala de atitudes dos1530 alunos da escola de Paulínia (use o banco de dados FINAL.SAV e variável soma)

Normal Plot of NOTA

Observed Value

121086420

Expected Normal

3

2

1

0

-1

-2

-3



85

Figura 25. Histograma das atitudes em relação a Matemática de todos os alunos da escola de Paulinia

Observe como a distribuição não é simétrica, há uma maior concentração na faixa dos 60´s.O Normal Probability Plot infelizmente não é muito ilustrativo, mas o gráfico dos desviosmostra a influência desta assimetria.

Detrended Normal Plot of SOMA

Observed Value

9080706050403020

Dev from Normal

,1

0,0

-,1

-,2

-,3

-,4

Observe como os desvios se concentram nos valores negativos e o impacto dos valoresextremos.

SOMA

80,075,070,065,060,055,050,045,040,035,030,025,020,0

300

200

100

0

Std. Dev = 11,35 Mean = 54,7N = 1411,00



86

Contudo, esses resultados chamam atenção uma vez que o senso comum nos diria que avariável atitude segue uma distribuição normal. Logo, a questão é: o que pode estarexplicando essa assimetria? Na realidade, o que esta acontecendo é a interferência davariável série, uma vez que analisando os dados observamos que existe diferençasignificativa por série, sendo que umas tendem a atitudes mais positivas do que outras. Poresta razão teríamos que analisar o comportamento dentro de cada série e se verificarmosque isto está acontecendo, então devemos retirar a influência desta variável. Bem, isto ficacomo exercício para você. Use o Banco de dados FINAL.SAV.

Figura 26. Box-Plot das atitudes frente a Matemática por série e gênero

5ª 6ª 7ª 8ª 1º 2º 3º ---- ENSINO FUNDAMENTAL ---- ---- ENSINO MÉDIO ----

11119912694947747 8215710384979149N =

3º d 2º G1º d 2º G7ª é i d 1º G5ª é i d 1º G

SOMA

90

80

70

60

50

40

30

20

10

Sexo

Masculino

Feminino

502

543

596

441

120 14731260

810

416



87

4.4 Distribuições amostrais

Como vimos na aula anterior, a maioria das variáveis estudadas de uma população seconstituem em variáveis aleatórias, ou seja, não conseguimos determinar apriori aocorrência de um resultado determinado, apenas podemos calcular a probabilidade de queele ocorra. Além disso, via de regra, estudamos uma população através de uma amostra,cujos resultados serão utilizados para estimar valores populacionais, num processochamado de inferência estatística.

Figura 27. Esquema do processo de inferência estatística6

Ilustremos este processo tomando como exemplo a variável nota dos alunos na prova deMatemática. Podemos supor que a nota dos alunos segue uma distribuição normal commédia µ e desvio padrão σ, ou, simplesmente, que ela possui uma distribuiçãodesconhecida.

6 Adaptado da Figura 6.1 do livro Statistical Methods in the Biological and Health Sciences de J. S. Milton,pag. 173

PopulaçãoX1, X2, X3, ..., XN

Amostra: X10, X21, ..., Xn

Dados7,0; 5,8; 6,4; ...

Estatísticas ouestimadores:

X, s, p

Estimativas:7,0; 1,2; 80%

Parâmetrosµ,σ,π

O pesquisadorseleciona uma

A amostragera

As estatísticasgeram

Os dados sãoprocessados por

são usados paradescrever a

São usadaspara estimar



88

Tanto a média populacional (µ) como o desvio padrão populacional (σ) denominados deparâmetros populacionais são desconhecidos, cujos valores desejamos estimar através dosdados da amostra:

Parâmetro é uma medida usada para descrever uma característica da população

Estatística ou estimador é uma característica da amostra, ou seja, é uma função dosvalores da amostra, por exemplo, a média amostral, a proporção amostral, avariância amostral, etc.

Estimativa é o valor que toma a estatística em uma amostra determinada

4.4.1 Distribuição da média amostral

Para simplificar o exemplo, suponha que os 40 alunos da escola 1 formam a população aser estudada (página 27, dados contidos no banco de dados EXPLORA1.SAV). Se issofosse verdade a média populacional seria igual a 4,2 (µ=4,2) com um desvio padrão de1,45 (σ=1,45). Suponha, também, que você vai escolher uma amostra de duas crianças(tamanho da amostra n=2).

Se fosse amostragem sem reposição teríamos 780 possíveis amostras de tamanho dois,este número é calculado com combinações de 40 tomados de dois em dois. Calculemos asmédias de tamanho 2, supondo que uma das crianças escolhidas foi a primeira ( ver Tabela7). Esse processo tem que ser repetido para cada criança. Observamos então que a médiaamostral é uma variável aleatória.

. .

.

Tabela 7. Cálculo da média amostral se uma das crianças for a primeira

10

4

7

6

5

. X = 8 5,

X = 4 5,



89

Aluno variável Valor X1 Xi Média

1 X1 5,00 5,00

2 X2 2,30 2,30 3,65

3 X3 5,50 5,50 5,25

4 X4 5,60 5,60 5,30

5 X5 7,00 7,00 6,50

6 X6 6,70 6,70 5,85

7 X7 5,50 5,50 5,25

8 X8 4,00 4,00 4,50

9 X9 2,60 2,60 3,80

10 X10 2,40 2,40 3,70

11 X11 3,30 3,30 4,15

12 X12 8,80 8,80 6,9

13 X13 4,50 4,50 4,75

14 X14 5,30 5,30 5,15

15 X15 2,30 2,30 3,65

16 X16 4,90 4,90 4,95

17 X17 4,50 4,50 4,75

18 X18 5,60 5,60 5,30

19 X19 3,30 3,30 4,15

20 X20 5,30 5,30 5,15

21 X21 3,90 3,90 4,45

22 X22 4,10 4,10 4,55

23 X23 3,80 3,80 4,40

24 X24 3,70 3,70 4,35

25 X25 2,80 2,80 3,90

26 X26 1,20 1,20 3,10

27 X27 3,10 3,10 4,05

28 X28 3,20 3,20 4,10

29 X29 4,10 4,10 4,55

30 X30 5,50 5,50 5,25

31 X31 4,90 4,90 4,95

32 X32 4,70 4,70 4,85

33 X33 3,80 3,80 4,40

34 X34 4,40 4,40 4,70

35 X35 4,10 4,10 4,55

36 X36 2,30 2,30 3,65

37 X37 4,10 4,10 4,55

38 X38 2,90 2,90 3,95

39 X39 3,80 3,80 4,40

40 X40 4,20 4,20 4,60

Observe que a maioria das notas se concentram em torno da média verdadeira. Os valoresextremos ocorrem, mas com menor probabilidade.



90

Assim poderíamos construir o histograma, tanto da variável original, como para a médiaamostral:

Figura 28. Distribuição das notas da população

Figura 29. Distribuição das notas da amostra de tamanho 2(fixando o primeiro aluno)

Observe como enquanto a variável original toma valores de 1 a 9, a médiaamostral toma valores de 3 a 7, que ambos tem a média muito próximas, masque o desvio padrão da média amostral cai de 1,45 para 0,7.

ESCOLA1

9,08,07,06,05,04,03,02,01,0

14

12

10

8

6

4

2

0

Std. Dev = 1,46 Mean = 4,2N = 40,00

MEDIA

7,006,506,005,505,004,504,003,503,00

14

12

10

8

6

4

2

0

Std. Dev = ,74 Mean = 4,60N = 39,00


A diminuição da variabilidade da distribuição da média amostral não acontece por acaso,pois é fácil mostrar que:

Isso implica que a medida que o tamanho da amostra tende ao tamanho da população avariância da média amostral tende para zero. No caso extremo quando amostramos apopulação inteira, não existe variação.

Logo, o desvio padrão da média amostral é igual ao desvio padrão da população divididopela raiz quadrada do tamanho da população, chamado de erro padrão:

Quando a população segue uma distribuição normal, então, a média amostral segueexatamente uma distribuição normal com a mesma média e com a variância dividida pelotamanho da amostra.

Ld

Mb

4

Ndas

Erro padraonx

_ = =σσ

σσ

x nN nN

=−−

1

Para populações finitas ouamostragem sem reposição

X Xi=1

n

= ∑ i n/ V(X)n

=σ 2

E(X)= µ

XN

− µ~ ( , )0 1
Se X ~ N (µ, σ2) X ~ N (µ, σ2/n)

ogo, podemos calcular probabilidades e valores muitos úteis para construçãoos intervalos de confiança e teste de hipóteses.

as, o que acontece se a população segue uma distribuição uniforme, exponencial,inomial, Poisson, ou simplesmente desconhecida?

Se X ~ ? (µ, σ2) X ~ N (µ, σ2/n) ?

.4.2 O Teorema Central do Limite

este caso, apelamos para o Teorema Central do Limite, que garante que a distribuiçãoa média amostral tende para uma distribuição normal, a medida que o tamanho damostra tende para infinito, ou no jargão estatístico, quando o tamanho da amostra foruficientemente grande (n ≥ 30):

Se X ~ ? (µ, σ2) então lim X ~ N (µ, σ2/n)n → ∞

Xn

N− µ

σ~ ( , )0 1

nσ



92

A convergência para normalidade será mais rápida se a distribuição dos dados forsimétrica, já quando a distribuição for muito assimétrica ou bimodal, a convergência serámais lenta.

Figura 30. Histogramas correspondentes à distribuição amostralde algumas populações7

7 Extraído do livro Estatística Básica de Bussab e Morettin, página 197.



93

Use o banco de dados RANDOM3.SAV para verificar como a distribuição da médiaamostral converge para média populacional e como o desvio padrão tende para zero.

Nor71 – Normal de média 7 e desvio padrão 1Nor712 – Normal de média 7 e erro padrão 0,5 n = 4Nor7110 – Normal de média 7 e erro padrão 0,1 n = 100Nor7130 – Normal de média 7 e erro padrão 0,0333 n = 900

4.4.3 Distribuição da frequência e da proporção amostral

Se a variável aleatória tem apenas duas respostas: sucesso com probabilidade π e fracassocom probabilidade (1-π), como, por exemplo, se o eleitor votaria ou não no candidatoXYZ, você pode trabalhar com a frequência de eleitores que votarão no candidato XYZ,que seguirá uma distribuição binomial:

X: número de eleitores que votarão no candidato XYZ X ~B (n, π), então:

E(X)=nπV(X)=nπ (1-π)

Ou, p = X/n proporção amostral, que é a média amostral de uma variável que toma valores0 e 1:

E(p)= π V( p)= π (1-π)/n

Obviamente, quando π tende para ½, ou quando a amostra é grande, a convergência para adistribuição normal será mais rápida. Observe que a convergência para a normal é frágilpara amostras pequenas, por esta razão quando se trabalha com proporções as amostrasdevem ser pelo menos de tamanho 30.

Assim como a média amostral é uma variável aleatória, a variância amostral também éuma variável aleatória:

Observe como o número de graus de liberdade coincide com o tamanho da amostra.Quando estimamos a média populacional pela média amostral perdemos um (1) grau deliberdade:

s xx

n

ii

n

2

2

1( )( )

=−

=∑ µ ( )

~xi

i

n

n

−=∑ µ

σχ

2

12

2

χn24.4.4 Distribuição qui-quadrado



94

Onde s2 é a variância amostral corrigida, ou seja, dividida por n-1. Esta distribuição émuito útil para construir intervalos de confiança para estimar a variância populacional,bem como para testar hipóteses.

Como a distribuição qui-quadrado nasce do quadrado de uma distribuição normal, ela tomasomente valores positivos, onde:

Então:

E(X) = n (igual ao número de graus de liberdade)V(X) = 2n

O grau de assimetria desta distribuição está atrelado a número de graus de liberdade quantomenor, mais assimétrica, a medida que os graus de liberdade aumenta, ela vai se tornandosimétrica. Como a distribuição é assimétrica, deve-se ter cuidado na leitura da tabela(Quadro 2, página 74).

Construa o histograma para as variáveis Chi1, Chi10, Chi30 do banco de dadosRANDOM1.SAV

4.4.5 Distribuição t-student

Já vimos que quando retiramos uma amostra de tamanho n de uma população normalentão:

Mas o que acontece se a variância populacional for desconhecida? Neste caso, estimamos avariância populacional com a variância amostral e assim chegamos a uma distribuição t-student, como o cociente entre uma distribuição normal e a raiz de uma distribuição qui-quadrado. Observe que estamos partindo do pressuposto de que a distribuição de origemé normal. Logo:

( )~

x xii

n

n

−=

−

∑ 2

12 1

2

σχ

( ) *~

n sn

−−

1 2

2 12

σχou

Xn

N− µ

σ~ ( , )0 1

χn2

Se X ~

Xs n

tn

−−

µ~ 1

Ou seja, segue uma distribuição t-studentcom n-1 graus de liberdade, onde n é otamanho da amostra, e se perde um grau aoestimar a média populacional pela amostral.



95

A distribuição t-tudent é simétrica cuja média é zero. Ela é parecida com a distribuiçãonormal, com a diferença que as caudas são mais pesadas, o que a torna mais rigorosa nostestes de hipóteses, quando a variância deve ser estimada a partir de dados amostrais. Porfim, observa-se que quando o tamanho da amostra cresce a t-student tende a uma normal.Para n maior ou igual a 30 podemos usar a distribuição normal. Por essas razões a t-studenté conhecida como a distribuição das pequenas amostras.

Use o banco de dados RANDOM1.SAV para checar o desempenho desta variável. Aleitura da tabela é simples, deve-se lembrar que ela é simétrica e que depende do númerode graus de liberdade. A tabela se encontra no Quadro 3, da página 74.

4.4.6 Distribuição F de Fisher-Snedecor Fn.m

Suponhamos que duas amostras independentes sejam retiradas de populações normais eforneçam variâncias amostrais s2

1 e s22 e que desejamos conhecer a distribuição amostral

do quociente. Isto é possível através da distribuição F.

Ou seja, a distribuição F nasce do quociente de duas distribuições qui-quadrado, cada umadividida pelo seu grau de liberdade. Esta distribuição é muito importante para testarhipóteses sobre a igualdade de variâncias e posteriormente para a análise de variânciaANOVA.

Como a distribuição F é resultante do quociente de duas variáveis que somente tomamvalores positivos, ela, também, toma valores positivos. O grau de assimetria diminui amedida que o número de graus de liberdade aumenta, o que está atrelado ao tamanho daamostra.

Como a distribuição F depende de dois parâmetros, via de regra, as tabelas são limitadaspara α=5%, às vezes encontramos tabelas para α=10% e para α=1%. No nosso casotrabalharemos apenas com a tabela para 5%, que se encontra no Quadro 4, página 75.

Use o banco de dados RANDOM1.SAV e cheque o comportamento desta variável.

Observa-se que a maioria dos softwares estatísticos calculam o p-valor, ou seja, aprobabilidade de que a distribuição exceda o valor calculado pela estatística, restandoapenas comparar esse valor com o nível de significância desejado, ou seja, não precisamosler tabelas.

Finalmente, frisamos o pressuposto de normalidade subjacente nas distribuições chi-quadrado, t-student e F de Snedecor. Por esta razão, quando trabalhamos com estasdistribuições, antes devemos checar a normalidade dos dados ou ter amostrassuficientemente grandes que não comprometam a estatística.

Fnmn m

n

m,

//

=χχ

2

2Lê-se: distribuição F com n graus de liberdadeno numerador e m graus no denominador



96

V. INFERÊNCIA ESTATÍSTICA

5.1 Introdução

Até agora preparamos o caminho para poder entrar nos problemas da inferência estatística.Vimos as diversas técnicas da análise exploratória de dados, as técnicas de amostragem e ateoria de probabilidades, cada uma dessas áreas constituem o tripé da inferência estatística.

Figura 31. Esquema geral de um curso de estatística8

Vimos, também, esse processo na Figura 27 da página 87. Agora, estamos prontos paraentrar na parte fundamental da estatística, que é a tomada de decisões em condições deincerteza.

A inferência estatística se divide em duas grandes áreas:

PontualEstimação

Inferência Por intervaloEstatística

Teste de Hipóteses

8 Extraído do livro Estatística de Costa Neto, 1977

EstatísticaDescritiva

Amostragem

Cálculo deProbabi-lidades

InferênciaEstatística



97

5.2 Estimação de parâmetros

Voltemos ao exemplo da 5ª série da escola 1, página 88. Ali vimos como a média amostralé uma variável aleatória:

X: nota dos alunos da 5ª série da escola 1, tomando uma amostra de tamanho 2 n=2

Se X ~ N (4,2; 1,452) X ~N (4,2; 1,452/2)

Ou pelo Teorema Central do Limite (embora o tamanho seja pequeno)

X ~? (4,2; 1,452) X ~N (4,2; 1,452/2)

Acontece que quando vamos ao campo escolhemos apenas uma única amostra das 780possíveis deste caso. No caso extremo, podemos escolher uma amostra composta pelosalunos número 5 e número 12 (página 89), que possuem as maiores notas, neste caso amédia amostral tomará o maior valor 7,9, este valor é chamado de estimativa:

X5=7,0 e X12=8,8 X = 7,9 consequentemente, super - estimaríamos a média, sóque a probabilidade de isto acontecer é extremamentepequena 2/780

O mesmo acontecerá se na amostra forem selecionados o aluno 26, cuja nota é 1,2 , a maisbaixa de todos os alunos, e como parceiros os alunos 2 ou 15 ou 36 cujas notas são 2,3

X26=1,2 e X2=2,3 X = 1,75 consequentemente, sub - estimaríamos a médiaSó que a probabilidade de isto acontecer é pequena,não tão pequena quanto o caso anterior, pois temostrês alunos com notas 2,3 6/780

O mais provável de acontecer, dado que a maioria dos alunos está perto da média, é que amédia amostral, também, fique próxima da verdadeira média. Podemos calcular todas essasprobabilidades, uma vez que podemos aproximar a distribuição da média amostral para adistribuição normal.

5.2.1 Estimação pontual

Quando utilizamos um único dado da amostra para estimar um parâmetro populacional sediz que a estimação é por ponto ou pontual. As estatísticas utilizadas para estimar osparâmetros populacionais são chamados de estimadores:



98

Estatística Parâmetro populacional Estimador

Média Média populacional: µ Média amostral: X

Proporção Proporção populacional: π Proporção amostral: P

Variância Variância populacional: σ2 Variância amostral: s2

Desvio padrão Desvio padrão populacional: σ Desvio padrão amostral: s

Coeficiente de correlação Coef. correlação populacional: ρ Coef. correlação amostral: r

E, os valores que os estimadores tomam em uma amostra determinada são chamados deestimativas.

Propriedades dos estimadores: Seja T um estimador de um parâmetro populacional θ:

Propriedade 1: Justeza ou não-tendenciosidade

Um estimador T é dito não viciado ou não-viesado de θ se :

E(T)= θ

Propriedade 2: Eficiência

Dois estimadores não viciados T e T´ de um mesmo parâmetro θ, e

V(T) < V(T´)

Então, T é dito ser mais eficiente que T´

Propriedade 3: Consistência

Um estimador T é consistente se:

Lim n→∞ P(|T -θ| ≥ ε ) = 0, para todo ε > 0

Isto significa que com amostras suficientemente grandes pode-se tornar oerro de estimação tão pequeno quanto se queira. Por outro lado, se oestimador for justo, a condição de consistência equivale a dizer que suavariância tende a zero, quando n tende a infinito:

Lim n→∞ σ2(T ) = 0

Propriedade 4: Suficiência

Um estimador é chamado de suficiente se contêm o máximo possível de informação comreferência ao parâmetro por ele estimado.



99

Para estimar a média populacional, temos vários estimadores. Comparemos apenas dois, amédia amostral e a mediana (supondo o número de dados ímpar, não muda se o número dedados for par):

Parâmetro a ser estimado: Média populacional: µ

Propriedades Média amostral: X Mediana(*)

Justeza E(X) = µ Sim E(Mediana) = µ Sim

Eficiência V(X) = σ2/n Sim V(Mediana) = σ2 Não

Consistência Sim Não

Suficiência Sim Não (*) para n ímpar

A maioria dos estimadores clássicos possuem estas propriedades.

5.2.2 Estimação por intervalo ou intervalar

O problema da estimação pontual, ou por ponto, é que este procedimento não permitejulgar qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia deconstruir intervalos de confiança que estão baseados na distribuição amostral do estimadorpontual.

5.2.2.1 Intervalo de confiança para a média populacional

Pelo Teorema Central do limite sabemos que :

Ou seja, dado α podemos encontrar valores Zα/2 tal que a:

P( - Ζα/2 < Z < Ζα/2) = 1-α

ZX

n=

− µσ



100

Podemos mostrar que:X - Ζα/2 *σ/Vn < µ < X + Ζα/2 *σ/Vn

a probabilidade de µ pertencer ao intervalo [X - Ζα/2*σ/Vn; X + Ζα/2*σ/Vn] é 1-α, chamado de nível de confiança

1-α nível de confiança (expresso em tanto por um) α nível de significância ou margem de erro

Suponhamos que α=5% 1-α =95% isso significa que se construíssemos 100intervalos de confiança, esperaríamos que 95 deles contenham o verdadeiro valor damédia, ou seja, haveria uma margem de erro de 5%, o que significaria que devemos esperarque 5 dos 100 intervalos não contenham o verdadeiro valor.

Voltemos ao exemplo dos alunos da escola 1, página 88. Contruamos alguns intervalos deconfiança, para α=5%, o que implica que Ζα/2 = 1,96, logo a formula geral será:

Supondo σ conhecido e igual a 1,45 e o tamanho da n=2

Limite inferior: X – 1,96 *1,45/V2 X - 2Limite superior X + 1,96 *1,45/V2 X + 2

Cálculo dos intervalos de confiança segundo os membros da amostra:

Sujeitos na amostra Média amostral Limite inferior Limite superior Contem µ=4,2?

X5 = 7,0 e X12 = 8,8 7,90 5,90 9,90 Não

X26= 1,2 e X2 = 2,3 1,75 0,00 3,75 Não

X3 = 5,5 e X4 = 5,6 5,55 3,55 7,55 Sim

X8 = 4,0 e X16 = 4,9 4,45 2,45 6,45 Sim

Acontece que você pega apenas uma única amostra! Alguém poderia perguntar como épossível estimar a média populacional supondo a variância populacional conhecida? Emalguns casos é possível fazer esta suposição, principalmente, em casos onde se conhece a

α/2 α/21−α

- Ζα/2 0 Ζα/2 Z


distribuição da variável em condições ambientais. Por exemplo, a distribuição da pressãosangüínea de pessoas normais (não doentes) é conhecida, porém você deseja conhecer oefeito de um medicamento sobre ela. Você pode partir do pressuposto de que a únicamudança que este medicamento vai trazer é o deslocamento da média, mas que o aingestão do medicamento não vai alterar substancialmente a estrutura devariabilidade9. Neste caso, você pode assumir que a variância da pressão depois de tomaro medicamento é igual a variância antes de tomar o medicamento. Esta suposição pode serfalsa, por essa razão quando testamos hipóteses sobre igualdades de média, a primeirapergunta que devemos responder é se a suposição de igualdade de variâncias se sustenta,para o qual o SPSS usa o LEVENE TEST.

Se a variância for desconhecida, esta pode ser estimada pela variância amostral. Se aamostra for grande (n>30) podemos utilizar a fórmula anterior, apenas substituindo avariância populacional pela variância amostral.

Limite inferior: X - Ζα/2 * s / Vn onde s é o desvio padrão amostral, que pode ou nãoLimite superior: X + Ζα/2 * s / Vn estar corrigido, já que se trata de grandes amostras

Porém se a amostra for pequena, ao invés de usar a distribuição normal devemos utilizar adistribuição t-student com n-1 graus de liberdade.

Limite inferior: X - τα/2 * s / Vn onde s é o desvio padrão amostral corrigidoLimite superior: X + τα/2 * s / Vn já que se trata de pequenas amostras

ZX

n=

− µσ

tXs

n=

− µ

ZXs

n=

− µ

ZX

n=

− µσ

ZXs=

− µ

(*) dependendo da natureza da variável pode ser que n precise ser

muito maior do que 30

Quadro de decisão para estimar a média:sim

σ2 conhecida não

sim não n > 30

X~Normal sim

não n > 30 (TCL)sim (amostra grande)

σ2 conhecida

não n > 30 (TCL) (grandes amostras)


9 O pressuposto da homocedasticidade da variância na comparação de médias é apresentado no próximocapítulo

n



102

5.2.2.2 Intervalo de confiança para a proporção

Limite inferior: p - Ζα/2 * p(1-p) /n só para n > 30

Limite superior p + Ζα/2 * p(1-p) /n

5.2.2.3 Intervalo de confiança para a variância: σ2

Limite inferior: (n-1)*S2/χα/2 Observamos que para pequenas amostras a variânciaLimite superior: (n-1)*S2/χ1−α/2 deve ser corrigida e que o numerador: (n-1)*S2 é

igual a soma dos quadrados dos desvios

Vejamos alguns exemplos:

Voltemos ao exemplo da nota e atitudes frente a Matemática das crianças das três escolas,página 27. Suponhamos que essas crianças correspondem a uma amostra de cada escola eque não conhecemos nenhum parâmetro. A primeira questão a ser respondida será se asvariáveis nota e atitude se distribuem segundo uma Normal. Podemos verificar que peloteste de Lilliefors (página 83) que as notas das três escolas seguem uma distribuiçãonormal:

Estatísticas Escola1 Escola2 Escola3 Geral

Nº de observações 40 23 29 92

Média 4,2250 8,2043 4,9138 5,4370

Desvio padrão 1,4565 1,6199 1,1895 2,1558

CHI10

30,028,0

26,024,0

22,020,0

18,016,0

14,012,0

10,08,0

6,04,0

2,0

120

100

80

60

40

20

0

Std. Dev = 4,64 Mean = 10,1N = 1000,00

α/2α/2

χ1−α/2 χα/2



103

Ramo(unidade)

Escola 1 Escola 2 Escola 3 Geral

1 2 22 3334689 3 3 33333346893 123378889 0033 0123333788894 011112455799 345555689 0111123445555556789995 03355566 334555567 033334555555566676 7 55 12223 122235577 0 377888 0 003778888 8 35677899 3567788999 2449 2449

10 00 00

Passos para calcular os intervalos de confiançaEscola1 Escola2 Escola3 Geral

α=5% Zα/2 tα/2 gl=22 tα/2 gl=28 Zα/2

Valor 1,96 2,07 2,05 1,96

Zα/2 *s / Vn 0,45 0,70 0,45 0,44

Limite inferior 3,77 7,50 4,45 4,99Limite superior 4,68 8,90 5,37 5,88

Obs: O SPSS sempre fornece a variância e o desvio padrão já corrigidos

O SPSS calcula o intervalo de confiança, quando solicitamos comparação de mais de duasmédia, use o banco de dados EXPLORE2.SAV:

StatisticsCompare means

One way ANOVADependent list nota e atitude

Factor escolaDefine Range 1 a 3 ( número de escolas)Post Hoc Selecionar Tukey´s honestly ...

(para achar as diferenças entre os grupos)

SAÍDA DO SPSS- - - - - - - - - - - - -- - O N E W A Y - - - - - - - - - - - - - -

ANÁLISE DE VARIÂNCIA - ANOVA: um critério de classificação

O que está sendo testado?

Se a nota das três escolas podem ser consideradas iguais:

Hipótese nula: Ho: µ1 = µ2 = µ3

Contra a possibilidade da existência de pelo menos uma diferença

Hipótese alternativa: H1: µi ≠ µj para algum i ≠ j



104

Variable NOTABy Variable ESCOLA Analysis of Variance

Sum of Mean F F Source D.F. Squares Squares Ratio Prob.

Between Groups 2 242,8353 121,4176 60,0079 ,0000 Within Groups 89 180,0790 2,0234Total 91 422,9143

Standard StandardGroup Count Mean Deviation Error Minimum Maximum 95 Pct Conf Int for MeanEscolas n média desvio erro-pad mínimo máximo lim.inferior lim.superior

Grp 1 40 4,2250 1,4565 ,2303 1,2000 8,8000 3,7592 TO 4,6908Grp 2 23 8,2043 1,6199 ,3378 2,3000 10,0000 7,5039 TO 8,9048Grp 3 29 4,9138 1,1895 ,2209 2,3000 7,0000 4,4613 TO 5,3662

Total 92 5,4370 2,1558 ,2248 1,2000 10,0000 4,9905 TO 5,8834

Levene Test for Homogeneity of Variances Statistic df1 df2 2-tail Sig. ,2565 2 89 ,774

Multiple Range Tests: Tukey-HSD test with significance level ,050

The difference between two means is significant ifMEAN(J)-MEAN(I) >= 1,0058 * RANGE * SQRT(1/N(I) + 1/N(J))with the following value(s) for RANGE: 3,37

(*) Indicates significant differences which are shown in the lower triangle

G G G r r r p p p

1 3 2 Mean ESCOLA

4,2250 Grp 1 4,9138 Grp 3 8,2043 Grp 2 * *

Estas saídas serão exploradas de forma detalhada na análise de variância, aqui apenasestamos mostrando o comando que calcula o intervalo de confiança para as médiaspopulacionais.

Observe que os limites dos intervalos calculados por nós diferem ligeiramente daquelesque o SPSS calculou, isto se deve a dois fatores: o primeiro, é que o SPSS usa sempre adistribuição t-student, independente do tamanho da amostra e, segundo, a precisão docálculo do SPSS é maior uma vez que ele só arredonda no final das contas e não nos passosintermediários.

Teste de homogeneidade de variânciasHipótese nula: Ho: σ1

2 = σ2

2 = σ3

2

H alternativa: H1: σi2

= σ j2

para algum i ≠ j

p-valor

p-valor



105

Intervalos de Confiança para estimar a nota em Matemática

Escola 1Escola 2Escola 3

GeralX: nota na prova 0 1 2 3 4 5 6 7 8 9 10

Observe que o comprimento do intervalo de confiança é 2 * Zα/2 * s / n

−ε ε

A amplitude do intervalo depende de:

• Nível de confiança: se aumentamos (ou diminuímos) o nível de confiança, ocomprimento do intervalo também aumenta (ou diminui)

• Nível de dispersão: se a variável for muito dispersa, o comprimento aumenta, se avariável for homogênea o comprimento diminui.

• Tamanho da amostra: se aumentamos o tamanho da amostra o comprimento diminui,mas se amostra for pequena o comprimento aumenta.

O ideal seria termos intervalos estreitos - precisos - com o maior nível de confiançapossível, intervalos amplos não são de muita utilidade. Aqui entra um outro conceito que éa precisão da estimativa. Uma estimativa é mais precisa quanto menor comprimento dointervalo de confiança, ou dito de outra forma, quanto menor for o erro absoluto.

Suponha que desejamos estimar a proporção de eleitores que votarão no candidato XYZ.De nada adiantará dizer que essa estimativa está entre 0% e 100%, o nosso objetivo serádar intervalos de confiança, com alta precisão e com um bom nível de confiança. Aliás, oque estamos acostumados a ouvir na mídia é, por exemplo, que o candidato XYZ tem 28%com uma margem de erro de mais ou menos 2%. O que significa isto? Que o intervalo deconfiança é de 26% a 30%, com um nível de confiança de 95% (de praxe).

Aproveitemos que estamos em pleno processo eleitoral para ler de forma mais crítica asreportagens sobre a corrida eleitoral, uma vez que a divulgação de um certo tipo deinformação pode ter influências decisivas no processo, principalmente quando está em jogoa decisão no primeiro turno e quem passa para o segundo.

erroabsolutoZ

n= =ε

σα / *2

XZ

n− α σ/ *2 X

Zn

+ α σ/ *2X



106

Trabalho individual: recorte ou tire fotocópia de uma reportagem sobre a corridaeleitoral, onde haja uma nota técnica sobre o planejamento e procedimento estatístico dapesquisa. Geralmente, a Folha de São Paulo tem essas informações técnicas (que devemestar anexas a reportagem, por lei), teça comentários a luz das ferramentas que estamostrabalhando.

Voltando a questão da precisão, então a pergunta a ser feita é, dado um nível de confiançae um grau de precisão desejado, qual deve ser o tamanho da amostra?

5.3 Tamanho da amostra

5.3.1 Tamanho da amostra para estimar a média populacional:

Vejamos um exemplo. Qual deve ser o tamanho da amostra de crianças de cada escola,para estimar a nota, supondo que a estrutura de variância é a mesma para todas as escolas eigual a (1,2)2 e a margem de erro não supere ½ ponto, com um nível de confiança de 95%.

α = 5% Zα/2 = 1, 96 a maioria arredonda para 2ε = 0,5σ = 1,2

Logo o tamanho da amostra deve ser de pelo menos 24 alunos por escola.

5.3.2 Tamanho da amostra para estimar a proporção populacional:

Suponha, que você deseja saber quantos eleitores devem ser entrevistados para estimar aproporção que votarão no candidato XYZ, com nível de confiança de 95% e a margem deerro igual a 2%, sabendo que aproximadamente ele tem 20% do eleitorado.

No pior dos casos, quando você não sabe nada sobre π, você pode usar π=0,5. Neste caso,o tamanho da amostra será 2.500. Comente esses resultados. Agora você entende porque amaioria dos institutos coletam amostras tão pequenas, com relação ao universo de eleitoresque beira 90 milhões de pessoas, ou seja, a fração de amostragem (f=n/N) é irrisória.

εσα=

Zn

/ *2n

Z=

α σε

/ *22

nZ

=

α σε

/ *22

( )n =

=

= = =2 1 2

0 52 40 5

4 8 23 04 242 2

2* ,,

,,

, ,

nZ

=

−α

επ π/ * * ( )2

2

1 n =

=2

0 020 2 0 8 1600

2

,* , * , .



107

VI. TESTE DE HIPÓTESES

6.1 A estatística como ferramenta auxiliar na tomada de decisões

A maioria das situações de tomada de decisões ocorrem em situação de incerteza, porque ébaseada nos dados de uma amostra proveniente de uma população. Nesses casos, aestatística fornece um poderoso instrumento para a tomada de decisões. Tentaremos,através de um exemplo, explorar a lógica desse tipo de tomada de decisão estatística.

Suponha que você tem R$20.000,00 (vinte mil reais) na poupança e está pensando investiresse capital na construção e funcionamento de um posto de gasolina, em um pontomovimentado de São Paulo. Suponha, também, que para o posto ser rentável (pagar oinvestimento inicial e dar um lucro maior do que a poupança), o número médio (µ) deveículos que passam por aquele ponto por dia (parâmetro) deve ser maior a 2000(hipótese estatística, chamada de hipótese nula Ho).

Este é um problema clássico de teste de hipóteses, pois você decidirá aceitar ou rejeitar ahipótese nula, em função dos resultados de uma amostra. Isto porque seria impossívelexaminar o número de veículos que passam todos os dias por aquele ponto (população),além da disponibilidade de recursos financeiros, entre outros. Ao pegarmos uma amostrade uma população estamos lidando com leis de probabilidades, logo você não temcondição de saber se sua hipótese nula é verdadeira ou falsa, você apenas pode medir asprobabilidades envolvidas na sua tomada de decisão.

No nosso exemplo, aceitar a hipótese nula, de que o número de veículos que passam peloponto é maior de 2000, implicará em você tirar o dinheiro da poupança e investir no postode gasolina; mas, a hipótese nula pode ser falsa, e aí, todo o empreendimento estará fadadoao fracasso, você perderá seu capital. O custo de uma decisão errada pode ser muitogrande, em termos financeiros, de vidas humanas, etc. Vejamos como é o quadro decisório:

Aceitar a hipótese nula (Ho) quando ela é verdadeira é uma decisão correta. No nossoexemplo significa construir o posto e realmente passam 2000 ou mais veículos por dia,logo o investimento será rentável, você recuperará seu capital e terá um retorno financeiroacima do rendimento da caderneta de poupança. Rejeitar uma hipótese falsa, também, éuma decisão correta, no caso, significa não construir o posto, deixar o dinheiro napoupança, uma vez que o posto não tinha chances de ser rentável.

Entretanto, existem dois tipos de erro ao tomarmos esse tipo de decisão. O primeiro erro érejeitar a hipótese nula (Ho) quando ela é verdadeira, chamado de erro de tipo I; nonosso exemplo, significa deixar de construir o posto quando ele seria rentável, neste caso, aperda não inclui valores físicos financeiros, apenas o valor fictício que se deixou deganhar. O segundo erro é aceitar a hipótese nula (Ho) quando ela é falsa, chamado deerro de tipo II, no exemplo significa construir o posto, quando por aquele ponto passammenos do que 2000 veículos, o que implicaria a perda do capital.



108

Tabela 8. Quadro de decisão em condição de incerteza(Postura inovadora)

Hipótese nula Ho

passam mais de 2000 veículos por dia: Ho: µ > 2000Decisão Hipótese (Ho) ser verdadeira:

Ho: µ > 2000(o posto será rentável)

Hipótese (Ho) ser falsaHo: µ < 2000

(o posto está fadado ao fracasso)Aceitar a hipótese(construir o posto)

Constrói o posto e é rentável

Decisão correta(1-α)

Constrói o posto e ele não érentável. Perde o capital

Erro de tipo IIBeta (β)

Rejeitar a hipótese(deixar o dinheiro

na poupança)

Não constrói o posto, porém seriarentável (deixa de lucrar)

Erro de tipo IAlfa (α)

Não constrói o posto e não erarentável

Decisão correta(1-β)

A teoria estatística nos possibilita medir todas as probabilidades envolvidas na questão,logo podemos nos prevenir, controlando a probabilidade de cometer o erro mais grave. Aprobabilidade de cometer o erro de tipo I (rejeitar a hipótese nula Ho quando ela éverdadeira) é simbolizada por alfa (α), também, conhecida como nível de significância.

α = nível de significância erro de tipo I

α = P (Rejeitar Ho / Ho é verdadeira)

Já a probabilidade de cometer o erro de tipo II (aceitar a hipótese nula Ho quando ela éfalsa) é simbolizada por beta (β), que está relacionado com o poder do teste.

β = P (Aceitar Ho / Ho é falsa) erro de tipo II

Essas probabilidades, alfa e beta, se relacionam inversamente, quando diminuímos alfa,beta cresce e vice-versa, e não dá para controlar as duas simultaneamente, a menos que seaumente o tamanho da amostra, o que implica no aumento de custos operacionais e detempo, o que pode inviabilizar a pesquisa (ver Figura 32).

Todos os testes estatísticos foram delineados para controlar alfa (α) o nível designificância, sendo que beta (β) é deixado livre. Por essa razão, a formulação dahipótese nula deve ser feita de tal forma que o erro mais grave recaia em alfa. No nossoexemplo analisando os dois tipos de erros, verificamos que o erro mais grave recai embeta. A pergunta é: como devemos formular a hipótese nula Ho, de tal forma que o piorerro caia em alfa? Neste caso, é só trocar a hipótese, negando a afirmação inicial. Vejamoso que acontece no quadro decisório:



109

Tabela 9. Mudança no quadro decissório ao mudar a hipótese(Postura conservadora)

Hipótese nula Ho

passam 2000 ou menos veículos por dia: Ho: µ < 2000Decisão Hipótese (Ho) ser verdadeira:

Ho: µ < 2000(o posto está fadado ao fracasso)

Hipótese (Ho) ser falsaHo: µ > 2000

(o posto será rentável)Aceitar a hipótese(deixar o dinheiro

na poupança)

Não constrói o posto e não erarentável

Decisão correta (1-α)

Deixa de construir o posto quandoseria rentável (deixa de lucrar)


Rejeitar a hipótese(construir o posto)

Constrói o posto e ele não érentável (perde o capital)


Constrói o posto e é rentável

Decisão correta( 1- β)

Verificamos que ao negarmos a hipótese que desejamos testar asseguramos que o pior errorecaia em alfa, que é controlado pelo pesquisador. Este tipo de formulação é conhecidacomo postura conservadora. Ou seja, estamos mais propensos a deixar o dinheiro napoupança (ou deixar do jeito que está) do que investir no risco (mudar para o novo) e,arriscaremos, somente, quando houver evidências da amostra muito fortes a favor do novo.

Portanto, devemos ser cuidadosos na formulação de hipóteses para saber qual é o tipo deerro que estamos controlando. O nível de significância é fixada pelo pesquisador. Éconvencional trabalhar com alfa igual a 1%, 5% ou 10%, sendo que em alguns casospodemos usar níveis maiores. A escolha do nível de significância (α) estará de acordocom a margem de segurança e da gravidade das conseqüências de vir a ocorrer o erro detipo I.

A formulação de hipóteses:

Em todo processo de decisão estatística, além da hipótese nula Ho existe a hipótesealternativa H1. Todo o processo decisório será feito em função de Ho, ou seja, aceitar ourejeitar Ho. Logo, aceitaremos H1 só se a hipótese nula for rejeitada. É convenção secolocar na Hipótese nula Ho o sinal de igualdade, embora, via de regra, é a negação dahipótese alternativa. Observamos que a maioria dos testes já tem as hipóteses formuladas.

A hipótese nula Ho coloca-se com o expresso propósito de ser rejeitada, se for rejeitada,pode-se aceitar a hipótese alternativa (na postura conservadora é a negação do que se querprovar). A hipótese alternativa H1 é a definição operacional da hipótese de pesquisa, que éa predição deduzida da teoria que está sendo testada (na postura conservadora é aafirmação do novo, do que se quer mostrar).



110

Tabela 10. Os erros em função da formulação das hipóteses

Postura conservadora Postura inovadoraHipótese nula

Hipótese alternativaHo: µ = 2000H1: µ > 2000

Ho: µ = 2000H1: µ < 2000


Construir o posto e o númeromédio é inferior a 2000, logo

perderemos o capital

Não construir o posto e o númeromédio é maior do que 2000,

deixamos de lucrarErro de tipo II

Beta (β)Não construir o posto e o número

médio é maior do que 2000,deixamos de lucrar

Construir o posto é o númeromédio é inferior a 2000, logo

perderemos o capital

A construção da região crítica ou de rejeição:

Uma vez decidida as hipóteses nula e alternativa e o nível de significância, decide-se aestatística a ser utilizada para operacionalizar a hipótese. Essa estatística depende doparâmetro que está sendo testado. No caso da média populacional a estatística será amédia amostral, que segue uma distribuição normal, pelo Teorema Central do Limite.Com essas informações se constrói a região crítica.

A região crítica ou de rejeição depende da hipótese alternativa e seu tamanho é o mesmodo nível de significância, o complemento é chamado de região de aceitação. A localizaçãoda região crítica depende da hipótese alternativa (ver Figura 32).

O processo decisório

A decisão de rejeitar ou aceitar a hipótese nula depende dos resultados da amostra.Calculada a estatística apropriada é só verificar em qual das duas regiões ela cai. Se cair naregião de aceitação, aceitaremos a hipótese nula, caso contrário, a rejeitaremos. Se ahipótese nula for rejeitada então aceitaremos a hipótese alternativa. Observamos que todoprocesso decisório é feito com a hipótese nula, a decisão em relação à hipótese alternativaé mera conseqüência:

maior α Aceita Ho

p-valor10

menor α Rejeita Ho Aceita H1

10 ver operacionalização, página 113


Figura 32. Região de rejeição e de aceitação da hipótese nula e relação entre alfa e beta,no caso da postura conservadora

Unil Cauda H1: µ

Operacionaliz

A construção da média populaa proporção po

X

X N n~ ( . , )2 000 2σ

RA=(1-α) α

A

RRα

1−α

ApProfª I

µ

Região de rejeiçã

ateral inferior < 2000

ando a tomada de dec

a estatística da amostrcional, a estatística espulacional, a estatística

βRA

RRα/2

RR: RegiãoCrítica ou de

Rejeição

RA: Regiãode Aceitação

µ = 2000

ostila de Estatísticarene Mauricio Cazorla

= 2500

o e de aceitação da hip

Bilateral Bicaudal H1: µ ≠ 2000

isão

a depende do parâmetrotará baseada na distribui usará a proporção amo

1-βRR

1−α

Distribuição damédia amostral,

sob Ho verdadeira

RR=

X

ótese nula

Uni Cauda H1: µ

que está sção da méstral e assi

X

1−α

Distribuição damédia amostral,

sob Ho falsa

lateral superior> 2000

N n~ ( . , )2 500 2σ

R
RA RA
RR
RRα/2
endo testado, se fordia amostral, se form por diante.

α


6.2 Teste de hipótese para a média populacional

Suponhamos que você selecionou uma amostra de 30 dias, em meses diferentes (tendocuidado de representar os dias da semana, bem como os finais de semana) e, que a médiaamostral seja 2050 veículos, com um desvio padrão de 200.

Como n=30 podemos fazer uso do Teorema Central do Limite (ver quadro, página 101),estimando o desvio padrão populacional com o desvio padrão da amostra, sob a hipótesenula:

ZXs n

o=− µ

X N S no~ ( , )µ 2

Zamostra =−

=2050 2000

20030

1 3693,X N~ ( . ; )2 000 20030

2

ou

ou

Em geral:


-∞ 0 +∞ Zamostra=1,37 Zα = 1,645

Como Zamostra é menor que Zα, então aceita-se Ho, ou seja, devemopoupança.

Em geral, a regra de decisão será: Rejeita-se a hipótese nula Ho se:

Cauda inferior Bicaudal Cau H1: µ < µo H1: µ ≠ µo

VC VC1 VC2

VA < VC VA < VC1 ou VA > VC2 V

11 Onde VA é o valor da amostra e VC é o valor crítico

RR: α =5%

A A

Unilateral Cauda superior Ho: µ = 2000 H1: µ > 2000

RA: 1-α=95%

No nossoexemplo:

s deixar o dinheiro na

da superiorH1: µ > µo

R
R RA
VC

A > VC

RR
RR RR RR
11



113

Este procedimento é trabalhoso, pois você tem que ter a tabela da distribuição da estatística(normal, t-student, etc.), o que só se justifica se você não tiver a mão um pacote estatístico.

Para evitar o fato de ter que procurar os valores em tabelas, a maioria dos pacotesestatísticos fornece, além do valor da estatística da amostra, o p-valor (p-value ousignificance), conhecido, também, como nível de significância observado ou da amostra.Este valor deve ser comparado com o nível de significância (α) escolhido pelopesquisador, neste caso é só comparar os dois valores. Se o p-valor for menor que alfa,rejeita-se a hipótese nula; caso contrário, aceita-se ( ver página 110).

Como calcular o p-valor:

O p-valor é a probabilidade que a estatística supere o valor observado na amostra, maior sefor da cauda superior, menor se for da cauda inferior, ou a probabilidade de rejeitar ahipótese nula quando ela é verdadeira, com os valores daquela amostra.

Se for cauda superiorHo: µ = 2000H1: µ > 2000

p-valor = P( Z > Zamostra)

Se for cauda inferiorHo: µ = 2000H1: µ < 2000

p-valor = P( Z < Zamostra)

Se for bicaudalHo: µ = 2000

H1: µ ≠ 2000

p-valor = P( Z > Zamostra) se Zamostra for +ou

p-valor = P( Z < Zamostra) se Zamostra for –

Este valor deve ser multiplicado por 2

No nosso exemplo:p-valor = P ( Z ≥ Zamostra)p-valor = P ( Z ≥ 1,37) = 0,08534 ou 8,5%

Como essa probabilidade é maior que α=0,05 cai na região de aceitação. Logo aceita-seHo.

Resumindo: passos para construção de um teste de hipótese:

Passo No 1: Formular as hipóteses nula e alternativaPasso No 2: Usando a teoria estatística e as informações disponíveis decida qual estatística

(estimador) será usada para julgar a hipótese Ho. Não esqueça dospressupostos implícitos na construção desta estatística

Passo No 3: Fixar o nível de significância e construir a Região CríticaPasso Nº 4: Calcular a estatística da amostraPasso No 5: Tomar a decisão



114

6.2.1 Teste de hipóteses para a média populacional: pequenas amostras

O exemplo dos tomates

Suponha que você é fiscal sanitarista da CEASA e que está inspecionando umcarregamento de tomates. Segundo as normas, a quantidade tolerada pelo corpo humano deuma substância tóxica e de até no máximo 10 unidades. Para decidir se você deve liberarou não o carregamento, seleciona uma amostra de tomates e com base nos dados, tomará adecisão. Analisemos o processo de formulação das hipóteses, o nível de significância e atomada decisão.

Conceitos Notação DefiniçãoPopulação Está formado por todos os tomates do carregamentoAmostra Os tomates que caírem na amostraVariável X Quantidade de tóxico por tomateParâmetro média

populacional µQuantidade média da substância tóxica por tomate naquele carregamento

Estimador média amostralX barra

Quantidade média da substância tóxica por tomate da amostra

Estimativa Valor da média daquela amostra

Tabela 11. Quadro de decisão em condição de incerteza(Postura “ética”)

Hipótese nula Ho : µ > 10A quantidade média de substância tóxica é superior a 10 unidades

DecisãoHo: µ > 10 ser verdadeira

(os tomates estão contaminados)Ho: µ > 10 ser falso

(os tomates estão aptos para oconsumo)

Aceitar a hipótese(incinerar o

carregamento)

Incinera o carregamento e os tomatesestavam contaminados

Decisão correta( 1 - α )

Incinera, porém os tomates estavamaptos para o consumo

O produtor perdeu sua colheitaErro de tipo II

Beta ( β )Rejeitar a hipótese

(liberar para oconsumo humano)

Libera o carregamento e os tomatesestavam contaminados

As pessoas serão contaminadasErro de tipo I

( α )

Libera e os tomates estavam aptospara o consumo

Decisão correta( 1 - β )

No caso da postura “ética”, o nível de significância alfa (α) significa o risco de liberar ocarregamento quando ele está contaminado e, consequentemente, colocar em risco vidahumanas, porém, você controla esse tipo de erro.

Certamente, o produtor não vai aceitar este tipo de formulação da hipótese, pois para ele ocarregamento de tomates não está contaminado. Vejamos com seria a formulação dashipóteses neste caso.



115

Tabela 12. Quadro comparativo da formulação de hipóteses do ponto de vista do consumidor e do produtor

Postura “ética”(Postura do consumidor)

Postura produtor

Hipótese nulaHipótese alternativa

Ho: µ = 10 (*) H1: µ < 10

Ho: µ = 10H1: µ > 10


Liberar o carregamento detomates quando eles estavam

contaminados

Incinerar o carregamento de tomatesquando eles estavam aptos para o

consumo humanoErro de tipo II

Beta (β)Incinerar o carregamento detomates quando eles estavam

aptos para o consumo humano

Liberar o carregamento de tomatesquando eles estavam contaminados

(*) Lembrar que é convenção colocar o sinal da igualdade na hipótese nula.

A final, você deve estar se perguntando, como isso influência na tomada de decisões, se aestatística calculada da amostra sempre é única. Vejamos através do exemplo, calculandoas regiões críticas para as duas formulações.

Suponha que esta variável siga uma distribuição normal e que você seleciona uma amostrade 16 tomates, cuja média é 9 unidades, com um desvio padrão de 2.

Operacionalizando a postura “ética”:

Passo 1: Formular as hipóteses: Ho: µ = 10 H1: µ < 10

Passo 2: A estatística a ser utilizada será a média amostral, estimando a variância populacional pela amostral, ou seja, devemos utilizar a distribuição t-student, com

15 graus de liberdade, lembre-se que esta distribuição pressupõe normalidade para a distribuição da variável.

Passo 3: Para α=5%, determinar a região de rejeição e aceitação. O valor tα = − 1,753 A região crítica estará formada por todos os valores menores ou iguais a –1,753

Passo 4: Calcular a estatística (observe que isto independe das hipóteses) n=16, média amostral = 9, desvio padrão da amostra =2

Passo 5: Tomar a decisão Como o valor da amostra foi –2 (tamostra = − 2,0) é menor que o valor crítico (tα = − 1,753), rejeita-se Ho

Ou seja, liberamos o carregamento de tomates.

tX

sn

amostrao=

− µtamostra =

−= −

9 102

162


Contudo, você está com muito receio de liberar o carregamento e este estar contaminado.Você pode diminuir α de 5% para 1%. Vejamos o que acontece:

-∞ t1%=

A úcas

Ope

Pas

Pas

Pas

Pas

Pas

logda caslibeproestã

α=1% α=5%


0 −2,602 t5%=−1,753

tamostra=−2,0

nica mudança será no Valor Crítico, que de tα = − 1,7o, aceitaremos Ho, ou seja, mandaremos incinerar o car

racionalizando a postura do produtor:

so 1: Formular as hipóteses: Ho: µ = 10 H1: µ > 10

so 2: é a mesma da postura ética, pois independe da fo

so 3: Para α=5%, determinar a região de rejeição e ace A região crítica estará formada por todos os valo (o único que muda é a cauda, que passa de ser in

so 4: Calcular a estatística (idem postura ética, observe hipóteses) tamostra = − 2,0

so 5: Tomar a decisão Como o valor da amostra foi –2 (tamostra = − 2) é (tα = + 1,753), aceita-se Ho

o libera o carregamento para o consumo humano, decpostura ética. Porém, vejamos o que acontece se dimio, t1%=+2,602, e, consequentemente, a decisão nãrando o carregamento, ao contrário da postura ética,tegendo o produtor, ou seja, do risco de incinerar o co sadios.

t15

RA: Incinerar ocarregamento

RR: Liberaro

+∞

53 caíra para tα = − 2,602. Nesteregamento de tomates.

rmulação das hipóteses:

itação. O valor tα = + 1,753res maiores ou iguais a +1,753ferior, para superior)

que isto independe das

menor que o valor crítico

isão que coincide com a decisãonuirmos α de 5% para 1%. Nesteo muda, ou seja, continuamos e isso porque neste caso, α estáarregamento, quando os tomates


Apostila de EstatísticaProfª Irene Mauricio Cazorl

117

Figura 33. Região Crítica na postura do produtor

-∞ 0 tamostra=−2,0 t5%=+1,7

Mas você deve estar intrigado como essas duas Tentaremos apresentar aqui a lógica das duas posturas.

Sabemos que sob a hipótese nula, a média amostral se n-1 graus de liberdade (não esqueça que está implícitomate segue uma distribuição normal, além das amost

Logo podemos perguntar a partir de que valores da méo nível de significância.

Logo no nosso exemplo, substituindo os valores: µo=1

Xc < 10 – 1,753*2/4 Xc < 10-0,8765 Xc < 9

Logo todas as amostras cujas médias forem menores liberadas.

Logo, substituindo os valores:

Xc > 10 +1,753*2/4 Xc > 10+0,8765 Xc >

Logo todas as amostras cujas médias forem maiores oincineradas.

RA: Liberar ocarregamento

P X X c( )< = α

Xs

ntn

−−

µ~ 1

Na postura ética:

P X X c( )> = αNa postura do produtor:

α=5% α=1%

t15
RR: Incineraro
a

+∞53 t1%=+2,602

posturas agem na regra decisão.

distribui segundo uma t-student comto que X: quantidade de tóxico porras independentes)

dia amostral rejeitaremos Ho, fixado

0, σ=2 e n=16

,1235

ou iguais a 9,1235 terão suas cargas

10,8765

u iguais a 10,8765 terão suas cargas

X tsn

c o< −µ α

X tsn

c o> +µ α



118

Comparemos graficamente as regras de decisão em cada caso. Para simplificar acomparação suponhamos que a variância é conhecida é igual a 4:

X: quantidade de tóxico por tomate X ~N(10,22) (supondo σ=2, conhecido)

4 6 8 10 12 14 16 µ−3σ µ−2σ µ−σ µ µ+σ µ+2σ µ+3σ

X~ N(10, ½ ) uma vez que a variância amostral é σ2/n =22/16 =1/2 erro padrão=0,71

7,9 8,6 9,3 10 10,7 11,4 12,1

Na postura ética Rejeita-se Ho Liberar para o consumo se:Ho: µ = 10 se a média amostral for menor queH1: µ < 10 µο−Ζα∗σ/Vn = 10 – 1,645*0,71

= 10 – 1,16795 8,83205

Rejeita-se Ho Aceita-se HoLibera o carregamento Incinera o carregamento

7,9 8,6 9,3 10 10,7 11,4 12,1

Na postura do produtor Rejeita-se Ho Incinerar o carregamento se:Ho: µ = 10 se a média amostral for maior queH1: µ > 10 µο+Ζα∗σ/Vn = 10 + 1,645*0,71

= 10 + 1,16795 11,16795

Aceita-se Ho Rejeita-se HoLibera o carregamento Incinera o carregamento

7,9 8,6 9,3 10 10,7 11,4 12,1

Veja que na postura “ética” mandaremos incinerar o carregamento se a média da amostrafor maior ou igual a 8,83205, enquanto que na postura do produtor, só faremos isso quandoa média da amostra for maior ou igual a 11,16795. Neste exemplo supomos conhecer avariância só com fins didáticos. A lógica é a mesma, quando tivermos que estimar avariância, apenas mudaremos de distribuição.

6.3 Teste de hipóteses para a proporção populacional: π



119

O exemplo da eleição de um candidato

Suponha que você é assessor de um grupo financeiro forte, que está interessado em saberse o candidato XYZ, ao governo do estado de São Paulo, tem chances de ser eleito, aindano primeiro turno, uma vez que o grupo está estudando a possibilidade de financiar suacampanha. Neste caso, novamente, você selecionará uma amostra e decidirá com base nosdados dessa amostra. Vejamos o quadro decisório neste caso:

Conceitos Notação DefiniçãoPopulação Os eleitores do estado de São PauloAmostra Os eleitores que forem sorteados para compor a amostraParâmetro Proporção populacional π Porcentagem ou proporção de eleitores do estado que

votarão no candidato XYZEstimador Proporção amostral

P barraPorcentagem ou proporção de eleitores da amostra quevotarão no candidato XYZ

Estimativa Valor da proporção daquela amostra

Tabela 13. Quadro de decisão em condição de incerteza(Postura “otimista”)

Hipótese nula Ho : π > 0,50O candidato XYZ se elege no primeiro turno

Decisão Ho : π > 0,50 ser verdadeira(o candidato se elege)

Ho : π > 0,50 ser falsa(o candidato não se elege)

Aceitar a hipótese(investir na campanha

do candidato)

Investe na campanha do candidatoXYZ e este se elegeDecisão correta

(1-α)

Investe na campanha do candidatoXYZ e este não se elegeErro de Tipo II

(β)Rejeitar a hipótese

(não investir nacampanha do

candidato)

Não investe na campanha docandidato XYZ e este se elegeErro de tipo I

(α)

Não investe na campanha docandidato XYZ e este não se elegeDecisão correta

(1-β)

Tabela 14. Quadro comparativo da formulação de hipóteses

Postura otimista Postura pessimistaHipótese nula

Hipótese alternativaHo : π = 0,50

H1 : π < 0,50Ho : π = 0,50

H1 : π > 0,50Erro de tipo I

Alfa (α)Não investe na campanha docandidato XYZ e este se elege

Investe na campanha do candidatoXYZ e este não se elege


Investe na campanha do candidatoXYZ e este não se elege

Não investe na campanha docandidato XYZ e este se elege



120

Da forma como foram formuladas as hipóteses, o pior erro seria investir na campanha e ocandidato não se eleger e, neste caso, a postura pessimista é mais adequada, posto que ocontrola.

Operacionalizando a postura pessimista:

Passo 1: Formular as hipóteses: Ho: π = 0,5 H1: π > 0,5

Passo 2: A estatística a ser utilizada será a proporção amostral, onde o cuidado deveser

trabalhar com grandes amostras. Sob a hipótese de nulidade

Passo 3: Para α=5%, determinar a região de rejeição e aceitação. O valor Zα = + 1,645 A região crítica estará formada por todos os valores maiores ou iguais a +1,645

Passo 4: Calcular a estatística da amostra. Suponha que você tenha entrevistado 900pessoas, das quais 459 eleitores afirmaram que votariam no candidato XYZ.Logo, p barra é igual a 0,51, substituindo na fórmula:

Passo 5: Tomar a decisão. Como o valor da amostra foi 0,60 (Zamostra = 0,60) é menor que ovalor crítico (Zα = + 1,645), aceita-se Ho. Ou seja, você como assessor do grupofinanceiro, recomendará não investir no candidato XYZ

-∞ 0 +∞ Zamostra=0,60 Zα = + 1,645

Não investirno candidato XYZ

RR: investir nocandidato XYZ

α=5%

p Nno

o o~ ( ,* ( )

)ππ π1−

Zp

n

o

o o

=−

−π

π π( )1

Zamostra =−

= =0 51 0 500 50 0 50

900

0 010 016667

0 6, ,, * ,

,,

,

Cuidado: para evitar confusão trabalhe tudoem tanto por um ou tudo em tanto por cento,nunca misture essas duas formas.

RA1−α=95%



121

Ou seja, apesar do candidato ter 51% dos votos, essa margem não é suficiente para decidirapoiá-lo.Agora, raciocinemos ao contrário: qual teria que ser o valor da proporção amostral tal querejeitemos Ho , ou seja, decidir apoiar o candidato, com um nível de 5%.

pc=? tal que P( p > pc ) = α

Podemos mostrar que pc > πο + Zα* πο(1−πο)/n

No nosso exemplo pc > 0,5 + 1,645* 0,5*0,5/900pc > 0,5 + 0,0274pc > 0,5274

Ou seja, em uma amostra de 900 eleitores, o candidato XYZ teria que ter pelo menos52,74% das intenções de votos, o que equivale a 475 eleitores.

A relação entre teste de hipóteses e intervalos de confiança

Você já deve ter reparado que sempre estamos usando a mesma formula, tanto para testaruma hipótese, quanto para construir intervalos de confiança, para um parâmetrodeterminado.

IC em função de média amostral IC sob a hipótese de nulidade

X-Zα/2∗σ/Vn X X-Zα/2∗σ/Vn µo-Zα/2∗σ/Vn µo µo -Zα/2∗σ/Vn

Checar se µo está contido no intervalo Checar se X está contida no intervalo

Construamos um intervalo de confiança, de 95% para o caso da lanchonete (página 115):

Ho : µ = 2000 Não construir o posto µo = 2000H1 : µ > 2000 Construir o posto

Neste caso, como a hipótese alternativa é maior, o intervalo de confiança é unicaudal, logo:

Li = -∞Ls = µo + Zα* s / n Ls = 2000 + 1.645*200 / 5,47723 Ls = 2060



122

Como o intervalo de confiança [- ∞ ; 2060] inclui o valor da média da amostra que é 2050,logo aceitamos Ho, ou seja, deixamos o dinheiro na poupança.

6.4 Teste de hipótese para a diferença de duas médias

Muitas vezes desejamos saber se um novo método de ensino é mais eficaz que o métodotradicional, ou se os homens tem desempenho e atitudes mais favoráveis frente aMatemática do que as mulheres, entre outros. Neste caso, estamos interessados emcomparar se a diferença entre duas médias é estatisticamente significativa ou se essadiferença se deve apenas ao acaso.

Por exemplo, suponha que desejamos testar se o desempenho dos alunos da escola 1 e 3podem ser considerados iguais ou não (exemplo da pág. 27, retomado nas páginas 88 e 89).

A variável em estudo X: notas dos alunos da 5ª série na prova de MatemáticaHipótese nulaHipótese alternativa

Ho: µ1 = µ 3

H1: µ1 ≠ µ 3


Dizer que existe diferença no desempenho por escola,quando na realidade não existe diferença


Dizer que não existe diferença de desempenho, quando na realidade existe diferença

Poderíamos, também, querer saber se o desempenho superior mostrado na escola 2 emrelação ao desempenho da escola 1 é estatisticamente significativa ou não, neste caso, ashipóteses serão:

Ho: µ1 = µ 2

H1: µ1 < µ 2

Suponha, ainda, que o baixo desempenho dos alunos da escola 1 se deva a influência desuas atitudes frente a Matemática, que tendem ao negativo e que uma alternativa paradesbloquear essa influência seria o uso de jogos matemáticos no ensino. Como vocêpoderia propor um estudo da eficácia da proposta? Analisemos:

No caso das escolas, cada uma se constitui em uma população e de cada uma delas foiescolhida uma amostra, logo podemos afirmar que as amostras são independentes, poisvem de populações independentes. A seleção da amostra na escola 1 não interfere naseleção das outras escolas e assim por diante.

No caso da proposta, o ensino da Matemática, via jogos, você tem dois tratamentos, um é ométodo tradicional - controle-, e o outro é a proposta de introduzir os jogos durante asaulas – experimental ou tratamento - . Observe que você tem uma única população.Você pode delinear o experimento de duas formas:

Amostras independentes: alocar aleatoriamente os alunos ao grupo controle e ao grupoexperimental.

Amostras emparelhadas: selecionar uma única amostra, fazer um pré-teste para saber onível de partida, aplica o novo método e ao final da “experiência” aplicar um pós-teste para



123

analisar se houve um ganho significativo. Neste caso, cada aluno atua como seu própriocontrole.Caso 1: amostras independentes porque vem de populações independentes

População 1 Amostra 1


Caso 2: amostras independentes de uma mesma população porque você alocaaleatoriamente os elementos ao tratamento ou ao grupo controle

Amostra 1 tratamento

População 1

Amostra 2 controle

Caso 3: amostras emparelhadas, uma única amostra de uma população, os sujeitos sãosubmetidos aos dois tratamentos, via de regra, cada sujeito é seu próprio controle:


antes depois

...

... ...

...

......

...

...

...



124

tratamento

Qual é o melhor delineamento, depende do que você está trabalhando e das condições de“experimentação”.

O problema de trabalhar com amostras independentes é que corremos o risco de que nogrupo experimental seja composto por alunos brilhantes e o grupo controle por alunos“normais”, ou vice-versa. Neste caso, você não saberá se o melhor desempenho do grupoexperimental se deve ao método ou a amostra. A aleatorização minimiza este risco, porém,nem sempre você tem condições ideais de “experimentação”, uma vez que existem fatoresalheios ao seu controle, como, por exemplo, as turmas já estão formadas desde o início doano, a influência do professor da turma, turmas com melhor desempenho que outras,enfim, inúmeros fatores que podem “contaminar” ou “confundir” o experimento.

O problema de trabalhar com amostras emparelhadas é que você nunca saberá se o melhordesempenho se deve ao novo método ou se apenas é efeito do próprio desenvolvimentocognitivo do aluno. Por essas razões existem várias modelos para o delineamentoexperimental (ver Tabela 15).

Segundo Costa Neto (1977) uma amostra é emparelhada quando os resultados estãorelacionados dois a dois segundo algum critério que introduz uma influência marcanteentre os diversos pares, que supomos, porém, influir igualmente sobre os valores de cadapar.

O exemplo dado pelo autor é muito ilustrativo: 20 cobaias foram submetidas durante umasemana a uma dieta com certo tipo de ração. Os pesos das cobaias são medidos no início eno fim do tratamento, e desejamos tirar conclusões sobre o aumento médio de pesoverificado. Se os animais forem perfeitamente idênticos, teremos duas amostras do tipo“antes e depois”, e os dados serão emparelhados, pois cada valor da primeira amostraestará perfeitamente associado ao respectivo valor da segunda amostra. O critério quegarante o emparelhamento é a identidade de cada cobaia. Note-se que é razoável esperarque a identidade de cada animal tenha influência nos valores observados de seu peso,porém essa influência deve exercer-se de forma aproximadamente igual dentro de cadapar de valores “antes e depois”; logo, ao se tomarem as diferenças entre os vários paresde valores, a influência individual de cada animal tende a desaparecer, restando apenasos efeitos produzidos pela ração. Neste exemplo, se os animais não fossem identificados,não haveria como associar os valores de duas amostras

Este exemplo é clássico dos delineamentos experimentais, onde o pesquisador podecontrolar fatores externos ao experimento, de tal forma a garantir que o ganho de peso sejaapenas fruto da ração. Observe que em teoria, as cobaias não devem alterar seucomportamento para agradar o experimentador, nem o experimentador pode influenciarnas “respostas” das cobaias. O experimentador pode escolher cobaias com peso inicial“similar”, esta variável é fácil de ser medida e de ser isolada de outros fatores, etc.

Isto não acontece na pesquisa com alunos, onde esses podem tentar agradar ou prejudicar oprofessor, o experimentador pode influenciar nas respostas dos alunos, o instrumento demedida pode não estar medindo o que se deseja, os alunos de um grupo podem interagir,



125

ou seja, uma série de elementos podem influenciar a validade interna do delineamento (verTabelas 15 e 16).

Tabela 15. Os modelos da Pesquisa Experimental: experimentação provocada12

(quando o pesquisador tem um controle muito grande sobre a variável independente)

Modelosexperimentais

Viesses podendo afetar avalidade interna

Viesses podendo afetar a validade externa

Pré-teste, pós-testecom grupo controlealeatório

R:O1 X O2 (Exp)R:O1 O2 (Cont)

4. Mortalidade experimental

Teste t - amostras emparelhadas(dentro do grupo)Teste t - amostrasindependentes(entre grupos)

9. Contaminação10. Reações compensatórias11. Desejo de agradar o examinador13. Intervenções compensatórias14. Expectativa do experimentador15. Interação entre a intervenção e a situação experimental16. Interação entre os diferentes componentes de uma intervenção17. Interação entre as observações e a intervenção18. Interação entre a seleção dos indivíduos e a intervenção

Modelo de Solomoncom quatro gruposR: O1 X O2 (Exp)R: O1 O2 (Cont)R: X O2 (Exp)R: O2 (Cont)


Teste t - amostras emparelhadas(dentro do grupo)Teste F – ANOVA(entre grupos)

Idem ao primeiro modelo, menos 17

Pós-teste somente comgrupo-controlealeatórioR: X O2 (Exp)R: O2 (Cont)


Teste t - amostrasindependentes(entre grupos)

Idem ao primeiro modelo, menos 17

R: aleatório, X: intervenção, Oi: Observação da ou das variáveis dependentes do período

Modelos quase-experimentais Viesses podendo afetar avalidade interna

Viesses podendo afetar a validadeexterna

Pré-teste, pós-teste com grupocontrole não equivalente

O1 X O2

6. Seleção7. Interação

Teste t - amostras independentes(entre grupos)

Idem ao primeiro modelo

Experimentação contra-balanceada ou quadrado latino

G1: Xa O1 Xb O2 Xc O3 Xd O4G2: Xb O1 Xd O2 Xa O3 Xc O4G3: Xc O1 Xa O2 Xd O3 Xb O4G4: Xd O1 Xc O2 Xb O3 Xa O4

Interações

Teste F – ANOVA(entre grupos)

(medidas repetidas -MANOVA)

Idem ao primeiro modelo

12 Extraído do Quadro 4.3 do Livro de Contandriopoulus e outros, página 51



126

Ciclo institucional com análisetransversal/longitudinal

G1: X O2 O3 O4 (Exp1)G2: O2 X O3 O4 (Exp2)G3: O3 O4 (Cont)

A validade do modelo para cadagrupo é fraca. A validade domodelo resulta da coerência dosresultados obtidos paradiferentes grupos.Teste F – ANOVA(entre grupos, medidasrepetidas-MANOVA)

11. Desejo de agradar o examinador14. Expectativa do experimentador15. Interação entre a intervenção e a situação experimental16. Interação entre os diferentes componentes de uma intervenção18. Interação entre a seleção dos indivíduos e a intervenção

Gi: Grupos não aleatórios, Xi: intervenção, Oi: Observação da(s) variáveis dependentes do períodoTabela 16. Os modelos da Pesquisa Experimental: experimentação invocada13

Estudos comparativosex-post

Viesses podendo afetar a validadeinterna

Viesses podendo afetar a validade externa

Somente pós-teste

X O2 (Exp)

1.História2. Maturação3. Familiarização com o teste4. Mortalidade experimental6. Seleção

Teste para uma média

12. Relação casual ambígua14. Expectativa do experimentador15. Interação entre a intervenção e a situação experimental16. Interação entre os diferentes componentes de uma intervenção18. Interação entre a seleção dos indivíduos e a intervenção

Somente pós-teste comgrupo controle nãoEquivalente

X O2 (Exp) O2 (Controle)

2. Maturação4. Mortalidade experimental6. Seleção7. Interações

Teste t - amostras independentes(entre grupos)

Idem ao modelo anterior

Estudo pré/pós

O1 X O2 (Exp)

1. História2. Maturação3. Familiarização com o teste7. Interações8. Medição dos efeitos

Teste t – amostra emparelhada(dentro do grupo)

Idem ao modelo anterior +17. Interação entre a seleção dos indivíduos e aintervenção

Pré-teste, pós-teste comgrupo controle nãoequivalente

O1 X O2 (Exp)O1 O2 (Controle)

4. Mortalidade experimental5. Regressão até a média7. Interações

Teste t - amostras emparelhadas(dentro dos grupos)Teste t - amostras independentes(entre grupos)

11. Desejo de agradar o examinador14. Expectativa do experimentador15. Interação entre a intervenção e a situação experimental16. Interação entre os diferentes componentes de uma intervenção18. Interação entre a seleção dos indivíduos e a intervenção

Grupos não aleatórios, X: intervenção, Oi: Observação da(s) variáveis dependentes do período, ___ o grupocontrole não é criado por distribuição aleatória.

13 Extraído do Quadro 4.4 do Livro de Contandriopoulus e outros, página 54. Pesquisa invocada, segundoesses autores, ocorre quando o pesquisador não pode manipular a variável independente e utiliza variaçõesnaturais ou acidentais (não organizadas por ele mesmo) desta variável, numa lógica análoga aquela dométodo experimental, para medir os efeitos sobre uma ou mais variáveis dependentes.



127

Portanto, antes de levantar os dados examinar qual é o modelo mais conveniente para suapesquisa.

O Teste F – ANOVA (Análise de variância) é utilizado quando vamos comparar três oumais médias.

Fatores a serem levados em consideração para a escolha do teste adequado para o teste dediferença de duas médias:

Emparelhadas(Paired-samples)

Amostras Desvios padrõesConhecidos: σ1, σ2

Independentes(Independent-samples)

Podem ser considera-dos iguais σ1= σ2

Desvio padrãodesconhecidosσ1=? e σ2=?

Não podem ser conside-rados iguais: σ1≠ σ2

6.4.1 Amostras emparelhadas.

Dez cobaias adultas foram submetidas ao tratamento com uma nova ração durante umasemana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, emgaiolas individuais, obtendo-se os pesos, em gramas, no princípio (X) e no fim (Y) desemana. O que desejamos saber é se a nova ração aumenta significativamente o peso dascobaias, logo podemos formular as hipóteses da seguinte forma:

Conceitos Notação DefiniçãoPopulação Cobaias

Amostra As cobaias selecionadas

Variável X, Y d = X - Y

X: Peso inicial das cobaias, Y: peso final das cobaiasd = diferença do peso final e peso inicial

Parâmetros Média Populacional

µ dµ d: média da diferença entre o peso final e inicial

Estimador d barra, média da diferença do peso final e inicial da amostra

Estimativa valor da média das diferenças daquela amostra


Formulando as hipóteses:

Ho: µx = µy Ho: µx - µy = 0H1: µx < µy H1: µx - µy < 0

Para evitar ter que trabalhar com a cauda inferior e com muitas diferenças negativas, éaconselhável fazer a diferença do peso final e o peso inicial, assim você trabalhará semprecom a cauda superior e terá menos diferenças negativas. Cuidado ao calcular a média e osdesvios, o sinal não pode ser esquecido.

Neste caso as hipóteses serão:Ho: µd = 0 onde d = Y - XH1: µd > 0

A estatística a ser utilizada será:

Onde:tands ∆

A regiãα=5%,

Operac

mostra tem uma distribuição t-student com n-1 graus de liberdade, é o número de sujeitos (pares) barra é a média da diferençad é o desvio padrão da diferença é em geral é igual a zero, mas pode tomar qualquer valor

o de rejeição será determinada por uma t-student com 9 graus de liberdade, para tα=1,833

-∞

ionalizando a estatística d

td

s na m o s t r ad

=− ∆

RR: a ração aumenta opeso das cobaias

RA: a ração não aumentao peso das cobaias


0 t5%=+1

a amostra:

α=5% α=1%
t9
Ho: µd = 0 onde H1: µd < 0 d = X - Y

t-student com n-1 gl

+∞,833 t1%=+2,821

tamostra=2,96


d barra = 6,6sd=7,043

Como tamostra cai na região de reTabela de dados:

CobaiaI

Peso antesXi

Peso deYi

1 635 6402 704 7123 662 6814 560 5585 603 6106 745 7407 698 7078 575 5859 633 635

10 669 682Soma - -

No SPSS criar um banco de dpeso depois, logo executar os s


Paired sample

Saída do SPSS:- - -

Number o Variable pairs ---------------------------- X 10 Y ---------------------------

Paired Differences Mean SD SE of --------------------------- 6,6000 7,043 2,

95% CI (1,561; 11,639)

−6 6 0,


jeição, concluímos que a ração aumenta o peso das cobaias.

pois Diferençadi=Yi-Xi

58

19-27

-59

102

1366

ados contendo apenas o número da cobaia, o peso antes e oeguintes comandos:

s T- test

t-tests for paired samples - - -

f 2-tail Corr Sig Mean SD SE of Mean---------------------------------------------- 655,0000 59,200 18,721 ,993 ,000 648,4000 58,852 18,611-----------------------------------------------

| Mean | t-value df 2-tail Sig-------|-------------------------------------227 | 2,96 9 ,016

|

2*p-valor

tamostrad

= =7 043 10

2 96,

,


Calculando o p-valor ou o nível de significância observado na amostra:

p-valor = P(t9 > 2,96) = 0,007983 (Calculado com o MINITAB, infelizmente o SPSS não disponibiliza para o usuário estas funções)

Vejamos como o SPSS calcula o 2-tail Sig:

2-tail Sig = 2*p-valor = 2*0,007983 = 0,015966 = 0,016

Logo o SPSS já fornece o valor para testar igualdade versus diferença, isso significa que sedesejarmos testar hipóteses unilaterais, devemos dividir o 2-tail Sig por dois

Observe que o SPSS nos fornece uma análise completa da relação entre as duas variáveis.Ele calcula o coeficiente de correlação corr, que mede o grau de associação entre duasvariáveis. É recomendável fazer o gráfico, pois o ganho de peso pode ser diferenciado eisso pode ser melhor apreciado pelo gráfico.

Figura 34. Relação entre o peso inicial e final das cobaias

800

Peso depois

Se o intervalo incluí-se o zero,aceitaríamos a hipótese nula de

igualdade de médias


800700600500

700

600

500

Predicted ValueX

YX

Coeficiente decorrelação:

r=0,993

Ho: ρ=0H1: ρ≠0

2-tail sig=0,000

Logo rejeita-seHo

Ou seja, existecorrelação entre

as variáveis

Peso antes


O exemplo das cobaias enfrenta um grave problema, que é a passagem do tempo. Se ascobaias estiverem em pleno processo de crescimento, o efeito crescimento natural estaráconfundindo o efeito da ração no crescimento. Nesse caso, o experimentador teria que tercuidado de trabalhar com cobaias adultas, onde esse fator é mínimo, ou usar um grupocontrole.

6.4.2 Amostras independentes

Um exemplo, muito ilustrativo, é a luta dos cientistas contra a AIDS. Até hoje não foidescoberta uma vacina capaz de prevenir a doença. A luta dos pesquisadores se centra emprolongar o tempo de vida dos pacientes (X) e, nesse sentido, o AZT é um medicamentoconhecido, suficientemente testado cuja eficácia está comprovada, porém é ummedicamento limitado. Suponha que os cientistas que descobriram o “coquetel” chegamaté você, que é o diretor do centro de pesquisas, e afirmam que “ baseado nos resultadosdos experimentos de laboratório e em alguns pacientes voluntários, o coquetel é maiseficaz do que o AZT”. Você deverá tomar a decisão de liberar ou não o “coquetel” para oconsumo pelos pacientes portadores da doença.

Este é um exemplo de amostras independentes, pois um grupo receberá o “coquetel”( rupo experimental) e o outro grupo continuará tomando AZT (grupo controle), ossmqr

A

g


ujeitos deverão ser alocados a cada grupo aleatoriamente e cada sujeito não deve saber oedicamento que está tomando, bem como os examinadores também não devem saber

ual tratamento o sujeito está recebendo. Este procedimento é chamado de duplo cego e éecomendado para evitar a interferência de fatores espúrios na experimentação.

Conceitos Notação DefiniçãoPopulação Pessoas contaminadas pelo vírus HIVAmostra As pessoas voluntárias que se dispõem a participar do experimentoVariável X Tempo de sobrevivência após a contaminação

Parâmetros Média populacional

µ C: tempo médio de sobrevivência com o coquetel (experimental)µAZT: tempo médio de sobrevivência com o AZT (controle)

Estimadores Médias amostrais e variâncias amostrais (corrigidas)Estimativa valor dos estimadores naquela amostra

nalisemos a situação usando a postura conservadora e a postura inovadora:

Postura conservadora Postura InovadoraHipótese nula

Hipótese alternativaHo: µC = µ AZT

H1: µC > µAZT

Ho: µC = µAZT

H1: µC > µ AZT


Liberar o coquetel, porém ele não eratão eficaz quanto o AZT: como o

coquetel ainda não foi suficientementetestado, não se sabe que problemascolaterais podem ser causados(*)

Não liberar o coquetel, quando ele eramais eficaz do que o AZT: poderia ter

melhorado a qualidade de vida dospacientes

Erro de tipo IINão liberar o coquetel, quando ele eramais eficaz do que o AZT: poderia ter

Liberar o coquetel, porém ele não eratão eficaz quanto o AZT: como o


ApostilaProfª Irene

132

Beta (β) melhorado a qualidade de vida dospacientes

coquetel ainda não foi suficientementetestado, não se sabe que problemas

colaterais podem ser causados(*) Devemos lembrar o caso da Talidomida que foi liberado para o uso de enxaqueca em mulheres grávidas,cujos fetos sofreram graves deformações físicas. Portanto, a liberação de remédios deve ter necessariamenteo maior tempo de maturação possível, pois muitos efeitos colaterais só podem ser percebidos no longo prazo.

Este é um caso muito sério na tomada de decisões, uma vez que, de um lado, a tomada dedecisões pode implicar na morte de pessoas, na qualidade de vidas delas e, de outro lado, adificuldade de ampliação dos testes experimentais.

Formulando as hipóteses:

Ho: µ1 = µ 2 Ho: µ1 - µ 2 = 0 em geral : Ho: µ1 - µ 2 = ∆H1: µ1 ≠ µ 2 H1: µ1 - µ 2 ≠ 0 H1: µ1 - µ 2 ≠ ∆

Caso 1: População normal e com variâncias conhecidas:

Variâncias diferentes variâncias iguais

Caso 2: População normal e com variânci

Variâncias iguais

gl = n1 + n2 - 2

Caso 3: População normal e com variânci

Variâncias diferentes

ZX X

n namostra =− −

+

( )1 2

12

1 22

2

∆

σ σ

tX X

s n na m o strap

=− −

+( )1 2

1 21 1∆

tX X

s n s na m o stra =

− −

+

( )

( )1 2

12

1 22

2

∆

as desconhecidas:

Estimativa da variância (combinada)

ZX X

n na m o stra =− −

+( )1 2

1 21 1∆

σ

2 2

d M

as

desconhecidas:

Estimativa dos graus de liberdade

sn s n s

n np =− + −

+ −( ) ( )1 1 2 2

1 2

1 12

w w+( )2

e a

Estatísticauricio Cazorla

Onde w1=s12/n1 e w1=s2

2/n2

glw n w n

=+ + −

−/ ( ) / ( )

1 2

12

1 22

21 12


Apostila de EstatísticaProfª Irene Mauricio Caz

133

Como a estatística depende da natureza das variâncias envolvidas devemos testar se asvariâncias são iguais ou não:

Formulando as hipóteses: Teste de homogeneidade de variâncias

Ho: σ12 = σ2

2 A estatística F = max (s12, s2

2) rejeitando Ho se F > Fv1,v2, α/2

H1: σ12 ≠ σ2

2 min (s12, s2

2) onde v1 é o gl do numerador e v2 é o gl do denominador

Este teste é baseado no pressuposto de normalidade da variável, o que nem sempre podeser sustentado. O SPSS calcula o Levene Test que não depende da suposição denormalidade. Este teste será apresentado junto com ANOVA – Análise de variância, nopróximo item.

Observa-se que quando à suposição de normalidade não é válida, o tamanho das amostrasdeve ser suficientemente grandes, a fim de garantir a convergência para a normalidade.

Exemplo 1:

A quantidade de um certo elemento no sangue varia segundo o sexo. Para os homens odesvio padrão é de 14,1 ppm e para as mulheres é 9,5 ppm. Amostras aleatórias de 75homens e 50 mulheres forneceram média de 28 e 33 ppm respectivamente. Pode-se afirmarque a médias de concentração do elemento no sangue é o mesma para ambos sexos?

Estatísticas Homens Mulheresn 75 50

Média 28 33variância σ1=14,1 σ2=9,5

Ho: µH = µ M Ho: µH - µ M = 0 ∆ = 0H1: µH ≠ µ M H1: µH - µ M ≠ 0

Para α=5%, Zα/2= ± 1,96

X X− −( )2 ∆

orla

Zn namostra =

+1

12

1 22

2σ σ


Figura 35. Região Crítica

-∞ Zamostra

Como

Calcul

2-tail s

Logo s

Exemp

Suponmatemsócio-edas es(certamvocê cletivo você trvocê p

Estrutu

G.ExpG.Con

CorteTransv

Os dad

α/2=2,5%

Pr

=−2,37 Zα/2=-1,96

Zamostra < -Z α/2, rejeita-se H

ando o nível de significânci

ig = 2*p-valor = 2*P(Z < -

erá rejeitado ao nível de 5%

lo 2:

ha que você está estudando ática na 5ª série, para isto vconômicas. Em cada escolacolas, sorteada aleatoriamente você deverá se cerca

omo um agente estranho) você passa um teste - pré-tabalha junto com a professassa o mesmo teste do início

ra do delineamento:

erimental pré-teste intetrole pré-teste venç

Amostrasersal independentes

os (imaginários se encontra

RA

Apostila de Estatísticaofª Irene Mauricio Cazorla

0 Z

o, ou seja as médias não p

a da amostra:

Z α/2)= 2* P(Z < - 2,37)=2

, mas não ao nível de 1%

a influência dos jogos mocê escolhe duas escolas, você escolhe a melhor

ente, você trabalha comr de todos os cuidados pe na outra não – grupo este - nos dois grupos e ora na escola experiment do ano - pós-teste -.

r- pós-teste dif ão pós-teste dif

amostras independentes

m no banco de dados ME

RR

α/2=2,5%

+∞α/2=-1,96

odem ser consideradas iguais.

*0,0089=0,0178 1,8%

atemáticos na aprendizagem da com as mesmas característicasturma em matemática. Em uma jogos – grupo experimentalara que as crianças não vejamcontrole. No início do períodoao longo do primeiro semestreal. Encerrado o semestre letivo

corte longitudinal amostra emparelhada amostra emparelhada

DIAS.SAV)



135

Grupo: 1=Experimental, 2=ControleAluno: código de identificação do alunoPos: Nota no pós-testePre: nota no pré-testeDif: é a diferença das notas no pós-teste e pre-teste, calculado com o comando computeVariacao: é a taxa de variação definido como a diferença dividido pela nota inicial e

multiplicado por 100, para expressar em porcentagem, também criado pelo comandocompute

Pre_1: é o valor predito para a reta de regressão linear, calculado pelo próprio SPSS

Deve-se ter cuidado ao criar o Banco de da Dados, uma vez que o SPSS precisa davariável a ser testada em uma colunas e os grupos em linhas. Já o MINITAB (outrosoftware estatístico) da opções para trabalhar com grupos em colunas.Estrutura do Banco de Dados MEDIAS.SAV

GRUPO ALUNO POS PRE DIF VARIACAO PRE_1

1 1 8,50 6,00 2,50 41,67 8,04167 1 2 8,00 5,00 3,00 60,00 7,70833 1 3 9,00 7,00 2,00 28,57 8,37500 1 4 8,50 5,00 3,50 70,00 7,70833 1 5 8,00 6,00 2,00 33,33 8,04167 1 6 9,00 7,50 1,50 20,00 8,54167 1 7 7,50 4,50 3,00 66,67 7,54167 1 8 8,50 7,00 1,50 21,43 8,37500 1 9 7,50 5,00 2,50 50,00 7,70833 1 10 7,00 6,00 1,00 16,67 8,04167 1 11 7,00 7,00 ,00 ,00 8,37500 1 12 6,50 2,00 4,50 225,00 6,70833 1 13 7,50 3,00 4,50 150,00 7,04167 1 14 7,00 4,00 3,00 75,00 7,37500 1 15 8,00 5,00 3,00 60,00 7,70833 1 16 6,50 2,00 4,50 225,00 6,70833 2 1 7,50 6,00 1,50 25,00 7,16745 2 2 7,00 5,00 2,00 40,00 6,37500 2 3 8,00 7,00 1,00 14,29 7,95991 2 4 7,50 5,00 2,50 50,00 6,37500 2 5 8,00 7,50 ,50 6,67 8,35613 2 6 7,00 4,50 2,50 55,56 5,97877 2 7 6,50 5,00 1,50 30,00 6,37500 2 8 6,00 6,00 ,00 ,00 7,16745 2 9 4,00 3,00 1,00 33,33 4,79009 2 10 5,00 4,00 1,00 25,00 5,58255 2 11 6,00 5,00 1,00 20,00 6,37500 2 12 4,00 2,00 2,00 100,00 3,99764

Coloquemos as principais estatísticas:

Grupo n Estatística Pré-teste Pós-teste DiferençaExperimental 16 média

desvio padrão5,131,72

7,750,82

2,631,28

Controle 12 médiadesvio padrão

5,001,55

6,381,42

1,380,77


Geral 28 médiadesvio padrão

5,071,62

7,161,29

2,091,25

Como o tamanho da amostra é relativamente pequeno, devemos checar a suposição denormalidade da nota dos alunos no pré-teste, que devem ter um desempenho similar, comoponto de partida. Assim devemos fazer uma análise exploratória dos dados (EXPLORE),incluindo o teste de normalidade e o gráfico de box-plot para ajudar nosso trabalhoexploratório.

Saída do comando Statistics Summarize Explore

PRE

Valid cases: 28,0 Missing cases: ,0 Percent missing: ,0 Mean 5,0714 Std Err ,3061 Min 2,0000 Skewness -,4334 Median 5,0000 Variance 2,6243 Max 7,5000 S E Skew ,4405 5% Trim 5,1071 Std Dev 1,6200 Range 5,5000 Kurtosis -,4404 IQR 1,8750 S E Kurt ,8583 Frequency Stem & Leaf

3,00 2 . 000 2,00 3 . 00 4,00 4 . 0055 8,00 5 . 00000000 5,00 6 . 00000 6,00 7 . 000055


Statistic df Significance

Shapiro-Wilks ,9249 28 ,0538 K-S (Lilliefors) ,1247 28 > ,2000

Uma vez que a suposição de normalidade foi aceita, agora devemos testar a igualdade noponto de partida. Neste caso estamos frente a comparação de duas médias de amostrasindependentes, fazendo isto com o SPSS:

Figura 36. Distribuição das notas no pré-teste

P 8

Ho: X tem uma distribuição NormalH1: X não tem uma distribuição normal

Podemos trabalharcom a suposição denormalidade


1216N =

GRUPO

ControleExperimental

RE

7

6

5

4

3

2

1

Test t:

Ho: µc = µ e

H1: µc ≠ µ e

Teste de Levene:

Ho: σ12 = σ2

2

H1: σ12 ≠ σ2

2



137


Independent-Samples T-testTest variable selecionar as variáveis a serem testadas (pré)

Grouping variable selecionar grupoGroup 1: 1Group 2: 2

Saída do SPSS

t-tests for independent samples of GRUPO

Number Variable of Cases Mean SD SE of Mean PRE

Experimental 16 5,1250 1,718 ,429 Controle 12 5,0000 1,552 ,448

Mean Difference = ,1250

Levene's Test for Equality of Variances: F= ,376 P= ,545

t-test for Equality of Means 95% Variances t-value df 2-Tail Sig SE of Diff CI for Diff

Equal ,20 26 ,844 ,630 (-1,170; 1,420) Aceitamos Ho Unequal ,20 25,01 ,842 ,621 (-1,153; 1,403)

Logo podemos considerar as médias das notas no pré-teste iguais. Agora estamos prontospara analisar como evoluíram os dois grupos. Se quisermos testar simultaneamente asmédias emparelhadas para os dois grupos, dividir o arquivo com o comando SPLIT:

DataSplit file

Repeat analysis for each groupGroup based on Selecionar a variável grupo


Paired-Samples T – TestPaired variables selecionar as variáveis pos e pre

Saída do SPSS:

GRUPO: 1 Experimental

- - - t-tests for paired samples - - -

Logo, podemos considerarigualdade de variâncias


Number of 2-tail Variable pairs Corr Sig Mean SD SE of Mean

POS1 7,7500 ,816 ,204 16 ,701 ,002 PRE 5,1250 1,718 ,429

Paired Differences Mean SD SE of Mean t-value df 2-tail Sig

2,6250 1,285 ,321 8,17 15 ,000 95% CI (1,940; 3,310)

Ho: µpos = µ pre Ho: µpos- pre = 0 Logo rejeitamos Ho logo são diferentesH1: µpos ≠ µ pre H1: µpos-pre ≠ 0O SPSS sempre fornece o teste bilateral, que não é o nosso caso, tendo em vista queestamos pressupondo que o trabalho com jogos aumenta o desempenho dos alunos emesmo que isso não se confirme existe o efeito do desenvolvimento cognitivo da criança.Logo, as nossas hipóteses serão:

Ho: µpos = µ pre Ho: µpos- pre = 0H1: µpos > µ pre H1: µpos-pre >0

Logo devemos dividir por dois o valor 2-tail significance, que dará um valor próximo dezero, o que nos leva a conclusão de que o desempenho no pós-teste é superior aodesempenho no pré-teste.

GRUPO: 2 Controle - - - t-tests for paired samples - - -

Number of 2-tail Variable pairs Corr Sig Mean SD SE of Mean

POS1 6,3750 1,416 ,409 12 ,868 ,000 PRE 5,0000 1,552 ,448

Paired Differences Mean SD SE of Mean t-value df 2-tail Sig

1,3750 ,772 ,223 6,17 11 ,000 95% CI (,884; 1,866)

Chegamos a mesma conclusão que no grupo experimental, ou seja, também houve umcrescimento no grupo controle. Agora, a pergunta é em qual dos dois grupos o desempenhofoi melhor, ou o ganho foi superior?

Figura 37. Distribuição da diferença das notas (pós-pré)

D 5


IF

4

3

2

1



139

Aqui devemos fazer o teste para amostras independentes trabalhando com a diferençaentre o pós-teste e pré-teste.

Variable of Cases Mean SD SE of Mean

DIF Experimental 16 2,6250 1,285 ,321 Controle 12 1,3750 ,772 ,223

Mean Difference = 1,2500

Levene's Test for Equality of Variances: F= 2,360 P= ,137

t-test for Equality of Means 95% Variances t-value df 2-Tail Sig SE of Diff CI for Diff

Equal 2,98 26 ,006 ,419 (,388; 2,112) Unequal 3,20 25,02 ,004 ,391 (,445; 2,055)

Ho: µdife = µ difc

H1: µdife > µ difc

Onde:µdife = média das diferenças entre o pós e pre do grupo experimentalµdifc = média das diferenças entre o pós e pre do grupo controle

Como as variâncias podem ser consideradas iguais, o valor a ser lido é 2-tail sig=0,006, oque significa que o p-valor é igual a 0,003, ou seja rejeitamos a hipótese nula, permitindoconcluir que o desempenho no grupo experimental foi superior ao do grupo controle.

Analisando com mais detalhe essa relação, vejamos como se relacionam as duas variáveispor grupo, utilizando a análise de correlação e regressão, que serão estudados com maiordetalhe proximamente. Aqui faremos apenas uma apresentação intuitiva dessa técnica.

Grupo Experimental ControleCoeficiente de correlação 0,701 0,868

Igualdade deVariâncias


R Square R2 49,2% 86,9%Adjusted R Square R2

a 45,5% 75,4%Signif F (p-valor) 0,0025 0,0002Intercepto (contant) / Sig (p-valor) 6,04 0,0000 2,41 0,0090Slope (Pré) / Sig (p-valor) 0,33 0,0025 0,79 0,0002

A Figura 38 mostra como se relaciona o desempenho no pré-teste e no pós-teste, porgrupo, tendo já ajustado uma função linear, com os seguintes resultados:

Grupo Experimental: Pós = 6,04 + 0,33*Pré R2 = 49,2%Grupo Controle: Pós = 2,41 + 0,79*Pré R2 = 75,4%Geral Pós = 4,52 + 0,52*Pré R2 = 42,7% (p-valor=0,0002)

Observe que as duas linhas são diferentes, enquanto que a linha do grupo experimental temuma inclinação menor e um intercepto maior, a linha do grupo controle tem uma inclinaçãomaior e um intercepto menor. Essas linhas mostram a superioridade do desempenho dogrupo experimental. A menor inclinação da linha do grupo experimental mostra que osgrandes beneficiados da introdução dos jogos no ensino de matemática foram as criançasque apresentavam maior dificuldade, no início do semestre.

Figura 38. Relação entre o desempenho nos testes, por grupo

6.5 T

e
Nota no pós-test

estando a igualdade de mais de duas médias ANOVA

87654321

10

9

8

7

6

5

4

3

Nota no pré-teste

Grupo experimental

Grupo controle



141

Muitas vezes nos deparamos com a análise de desempenho de mais de dois grupos, como,por exemplo, no caso da pesquisa de Paulínia, temos as atitudes de Matemática por gênero,série, período, turma, entre outras variáveis relevantes para entender o relacionamento dosalunos em relação a Matemática. Suponhamos que gostaríamos de saber se as atitudes emrelação à Matemática varia em relação a série, neste caso as hipóteses serão:

Variável dependente X: Atitude em relação à Matemática (quantitativa, contínua)que toma valores entre 20 e 80

Variável independente Y: série (qualitativa, ordinal)Que toma valores de 3 a 9, onde 3=5ª, 4=6ª,...

Ho: µ3 = µ4 = µ5 = µ6 = µ7 = µ8 = µ9 igualdade de médias a atitude não varia por sérieHo: µi ≠ µj, para algum i ≠j existe pelo menos duas séries diferentes

Com fins didáticos apresentaremos um exemplo pequeno e simples (JOGOS.SAV).Suponha que desejamos testar a validade da introdução dos jogos matemáticos e do uso docomputador com softwares matemáticos no ensino de matemática. Para isto delineamos oseguinte experimento: escolhemos aleatoriamente alunos de uma turma e os alocamos nostrês grupos:

Grupo controle: Somente as aulas tradicionais controle=1Grupo experimental 1: As aulas tradicionais, mais jogos matemáticos jogos =2Grupo experimental 2: As aulas tradicionais, mais o uso do computador computador=3

A variável dependente será X, nota no teste de avaliação (valores de 0 a 10), no final daintervenção.

As hipóteses:

Ho: µ1 = µ2 = µ3 Não existe diferença entre gruposH1: µ1 ≠ µ2 ou µ1 ≠ µ3 ou µ2 ≠ µ3 Existe pelo menos uma diferença

Suponha que os resultados foram:GruposAlunos (repetições)

Controle Jogos computador1 8 7 102 7 8 93 6 8 94 7 9 85 7 8 9Média 7 8 9Soma de quadrados dos desvios 2 2 2Variância sem corrigir 2/5 2/5 2/5Média geral 8Soma de quadrados dos desvios total 16Variância geral sem corrigir 16/15



142

Trabalhando com os desvios:Nota Controle Jogos Computador Geral

6 1 -1 1 -27 3 0 1 -1 4 -18 1 +1 3 0 1 -1 5 0 SQTotal9 1 +1 3 0 4 1 =1610 1 +1 1 2Média 7 8 9 8Soma dos desviosdentro de cada grupo

2 2 2 SQDentro=6

Desvio da média do grupo em relação a média total

-1 0 1

Soma dos quadrados dosdesvios entre grupos

5 0 5 SQEntre=10

É fácil mostrar que a variância total pode ser escrita como sendo a soma da variânciadentro dos grupos e a variância entre os grupos:

Variância geral = variância entre os grupos + variância dentro dos grupos (média das variâncias dos grupos)

16/15 = 2/3 + 2/5 = 10/15 + 6/15

ou ainda:

Soma dos QuadradosTotal

= Soma de QuadradosEntre Grupos

+ Soma de QuadradosDentro dos Grupos

SQTotal = SQGrupos + SQErro

Em geral, sob os seguintes pressupostos:

1. As k amostras representam amostras independentes provenientes de k populações commédias µ1, µ2 ... µk

2. Cada uma das k populações é normal3. Cada uma das k populações tem a mesma variância (homocedasticidade)

Pode-se mostrar que as somas de quadrados seguem uma distribuição chi-quadrado com osseguintes graus de liberdade:

SQTotal ~χ2n-1 = SQGrupo ~χ2

k-1 + SQErro ~χ2n-k

De outro lado sabemos que uma distribuição F é o quociente de duas distribuições qui-quadrados divididos pelos seus graus de liberdade respectivamente, logo:


A perde méGrup

Logo

Se a seja, médipróxiQME

Se HoSe Ho

A esconst

Tabe

Fonte

Entre

Dentr

Total

Fa é ok-1 gliberd

QM G rupo

Apostila de EProfª Irene Mau

gunta é como a estatística F pode ser udias? Pode-se mostrar que a esperança

o e ao Erro tem o seguinte forma:

sob a hipótese nula de igualdade de méd

hipótese nula for falsa então este valorsob a hipótese nula de igualdade de vos entre grupos e devido ao erro estejama de 1, se a hipótese for falsa esperro:

: µ1 = µ2 = µ3 (não existe diferença entre: for falsa QMGrupos > QMErro

tatística F terá apenas uma região de ruir a Tabela de Análise de Variância

la de Análise de Variância – ANOVA (u

de variação Graus deliberdade

Soma dquadrad

grupos k-1 SQGrup

o dos grupos n-k SQErro

n-1 SQTota

valor encontrado na amostra, a estatístiraus de liberdade (número de gruposade no denominador (número de sujeito

QM ErroFk n k~ ,− −1

E QMGruponi

k

( ) = + ∑σ 2

1

E QM Erro( ) = σ 2

n

k

i i

k

( )µ µ−

−

∑1

1

Onde: QMGupo = SQGrupo / (k-1) QMErro = SQErro / (n-k)

sada para testar a hipótese nula de igualdadematemática dos quadrados médios devidos ao

ki( )−−

µ µ 2

1

statísticaricio Cazorla

ias

deve ser positivo (soma de quadrados). Ouariâncias devemos esperar que os quadradosm próximos , assim a estatística F deve serramos que o QMGrupos seja maior que o

grupos) for verdadeira F entre 0 e 1 F > 1

rejeição, a cauda superior. Assim podemos

m critério de classificação – ONE WAY)

eos

Quadradosmédios

F F probp-valor

o QMGrupo Fa P(F > Fa)

QMErro

l

ca F terá uma distribuição F de Snedecor com menos um) no numerador e n-k graus des menos o número de grupos).

=

2

0



144

Analisando a estatística F:

Se tivéssemos k grupos diferentes, porém perfeitamente homogêneos dentro de si, avariância dentro dos grupos será igual a zero e a variância total estaria explicada apenaspela diferença entre os grupos - variância entre grupos -, logo a estatística F tenderia parainfinito, concluindo que a variância se devia a diferença entre grupos.

E, se ao contrário, todos os grupos tivessem exatamente a mesma média, então a variânciaentre grupos seria igual a zero, logo a estatística F tomaria o valor zero, concluindo que avariância total se devia a variação interna dos grupos e não a diferença entre grupos.

Assim a estatística F varia de zero até infinito e quanto mais próximo de zero e de um,menor a evidência de diferenças entre os grupos e quanto maior que 1, maior a evidênciada diferença entre grupos.

Calculemos a ANOVA no nosso exemplo dos três grupos:

Tabela de Análise de Variância – ANOVA (um critério de classificação – ONE WAY)

Fonte de variação Graus deliberdade

Soma dequadrados

Quadradosmédios

F F probp-valor

Entre grupos 2 10 5,0 10 0,0028

Dentro dos grupos 12 6 0,5

Total 14 16

Logo rejeitamos Ho, concluindo que existe diferença entre os grupos. Agora só falta saberentre quais grupos existe diferença, para isso temos que fazer as comparações múltiplas.

Use o Banco de Dados JOGOS.SAVStatisticis

Compare meansOne-Way ANOVA

Dependent list selecionar a variável dependente notaFactor selecionar a variável indpendente grupo(*)Define range: Minimum: 1

Maximum: 3Post Hoc Comparações multiplas Tuckey...Options Descritive

Homogeneity of variances Levene test

Saída do SPSS - - - - - - - - - - - - - - - - - - - - O N E W A Y - - - - - - - - - - - - - - - - -

Variable NOTA By Variable GRUPO

Analysis of Variance

Sum of Mean F F Source D.F. Squares Squares Ratio Prob.

Between Groups 2 10,0000 5,0000 10,0000 ,0028Within Groups 12 6,0000 ,5000Total 14 16,0000



145

Standard StandardGroup Count Mean Deviation Error Minimum Maximum 95 Pct Conf Int for Mean

Grp 1 5 7,0 ,7071 ,3162 6,0 8,0 6,1220 TO 7,8780Grp 2 5 8,0 ,7071 ,3162 7,0 9,0 7,1220 TO 8,8780Grp 3 5 9,0 ,7071 ,3162 8,0 10,0 8,1220 TO 9,8780

Total 15 8,0 1,0690 ,2760 6,0 10,0 7,4080 TO 8,5920

Levene Test for Homogeneity of Variances

Statistic df1 df2 2-tail Sig. ,0000 2 12 1,000

_____________(*) Por esta razão, que a variável dependente deve ser colocada no SPSS de forma numérica,de preferência utilizando números consecutivos.

Saída para as comparações múltiplas:

- - - - - - - - - - - - - - - - - O N E W A Y - - - - - - - - - - - - - - - - - - - - - -

Variable NOTA By Variable GRUPO

Multiple Range Tests: Tukey-HSD test with significance level ,050

The difference between two means is significant if MEAN(J)-MEAN(I) >= ,5000 * RANGE * SQRT(1/N(I) + 1/N(J)) with the following value(s) for RANGE: 3,77

(*) Indicates significant differences which are shown in the lower triangle

G G G r r r p p p

1 2 3 Mean GRUPO

7,0000 Grp 1 8,0000 Grp 2 9,0000 Grp 3 *

Homogeneous Subsets (highest and lowest means are not significantly different)

Subset 1Group Grp 1 Grp 2Mean 7,0000 8,0000- - - - - - - - - - - - - - - - -Subset 2Group Grp 2 Grp 3Mean 8,0000 9,0000- - - - - - - - - - - - - - - - -

A saída das comparações múltiplas está dada em forma de uma matriz simétrica, cujadiagonal corresponderia a comparar o grupo com ele mesmo, por tanto devemos ler apenasa diagonal inferior. Na célula onde existe um asterisco significa que existe diferença entreesses grupos, caso contrário, os grupos podem ser considerados iguais.

Média Grupo Grupo1Controle

Grupo2Jogos

Grupo3computador

7 1=Controle



146

8 2=Jogos9 3=Computador *

Neste caso, podemos afirmar que o grupo do computador teve um desempenho superior aocontrole, mas não é diferente ao grupo dos jogos, o mesmo acontece com o grupo dosjogos que não se diferencia do grupo controle.

6.5.1 Comparações Múltiplas

Existe um problema sério para detectar os grupos diferentes, uma vez que existemk*(k-1)/2 possíveis comparações, e o nível de significância aumenta a medida que aumentak o número dos tratamentos, por esta razão tomar cuidado ao se realizar estes testes.

Levene Test. Para testar homogeneidade de variâncias, o Levene Test calcula o valorabsoluto dos desvios dos valores da variável em relação a média do grupo e realiza oANOVA-One Way.



147

VII. ANÁLISE DE DADOS CATEGÓRICOS

Neste tópico estudaremos a relação entre duas variáveis categóricas (ou qualitativas), ondeas observações podem ser classificadas em uma das várias categorias (níveis ou células)mutuamente exclusivas.

O problema de mensuração do grau de associação entre dois conjuntos deescores é de caráter bem diferente do teste da simples existência de umaassociação em determinada população. Naturalmente, há interesse em avaliaro grau de associação entre dois conjuntos de escores referentes a um grupo deindivíduos. Mas é talvez de muito maior interesse podermos afirmar quedeterminada associação observada em uma amostra de escores indica, ou não,probabilidade de associação entre as variáveis na população da qual seextraiu a amostra (Siegel, 1956).

7.1 Tabelas de contingência

Segundo o dicionário Webster o termo “contingency” significa “the quality or state ofhaving a close connection or relationship”. O termo “contingency table” se refere ao fatode que as tabelas construídas são usadas para testar a existência de relações entre duasvariáveis. Observamos que infelizmente este termo em português não tem o mesmosignificado. Segundo o Aurélio, “contingência” significa qualidade do que é contingente,incerteza se uma coisa vai acontecer ou não e “contingente” significa que pode ou nãosuceder, eventual, incerto. Logo, em estatística, quando nos referimos a palavra“contingência” estamos tomando o mesmo significado da língua inglesa.

O teste chi-quadrado (χ2) pode ser usado para avaliar a relação entre duas variáveisqualitativas. Este teste é um teste não paramétrico, que é muito útil, pois não precisa dasuposição de normalidade das variáveis para analisar o grau de associação entre as duasvariáveis, porém este teste é menos poderoso que o teste paramétrico.

Dentro deste teste devemos distinguir dois tipos de testes: o de independência e o dehomogeneidade. Vejamos quando estamos tratando de um teste de independência equando estamos tratando com um teste de homogeneidade, através de um exemplo:

Teste de independência e teste de homogeneidade:

Suponha que uma educadora quer analisar se existe relação entre a participação ativa dospais dos alunos nos deveres extra-escolares e o desempenho dos alunos em Matemática.Suponha que ela categoriza o desempenho dos alunos em três grupos: baixo, médio, alto e,do mesmo modo, categoriza a participação dos pais em dois grupos: participação ativa,participação fraca. Suponha que ela deseja trabalhar com 300 crianças.



148

Neste caso a educadora pode delinear sua pesquisa de duas formas:

Caso 1. Selecionar uma amostra de crianças aleatoriamente e examinar em que célula cadauma está alocada, logo o único valor fixo será o total geral que será de 300. Mas os totaisde colunas e de linhas serão frutos da pesquisa, portanto, aleatórios, neste caso estamosfrente a um teste de independência de variáveis.

Logo a tabela de contingência será:

Participação Desempenho do aluno em Matemáticados pais Baixo Médio Alto Total

Ativa AleatórioFraca aleatórioTotal Aleatório Aleatório Aleatório 300

Porém ela pode fixar o número de alunos de acordo com seu desempenho.

Caso 2. Pegar uma amostra aleatória de tamanho 100 de cada grupo de alunos, logo ostotais das colunas serão fixos, mas os totais das linhas serão aleatórios e assim estaremosfrente a um teste de homogeneidade:

Logo a tabela de contingência será:


Ativa AleatórioFraca aleatórioTotal 100

fixo100fixo

100fixo

300

Os valores totais, das colunas e das linhas, são chamados de “totais marginais”. Quando ostotais marginais variam livremente, o teste de associação é chamado de independência, equando um dos conjuntos, linha ou coluna é fixado pelo pesquisador então é chamado deteste de homogeneidade. Isso vai depender do pesquisador. No exemplo da educadora,observemos que para ela é muito mais fácil fixar o número de alunos segundo seudesempenho, do que fixar pela participação dos pais, que, apriori será quase impossível.

7.2 Teste de Independência:

Apresentaremos a lógica do teste com um exemplo bastante simples. Suponha que 125crianças foram expostas a três tipos de comerciais de TV, sobre cereais para café damanhã. Após a exposição foi solicitado a cada criança para indicar qual dos comerciais elagostou mais. O que se deseja saber é se a escolha do comercial está relacionado ao gêneroda criança: pois suspeita-se de que o gênero pode estar influenciando na escolha docomercial. Os dados podem ser apreciados na Tabela 17.

Teste de independência

Teste dehomogeneidade


Tabela 17. Número de crianças segundo tipo de comercial escolhido e gênero

Tipo de comercialGênero

A B C Total

Meninos 30 29 16 75

Meninas 12 33 5 50

Total 42 62 21 125

Analisando atentamente a Tabela 17, composta por valores absolutos, percebemos:

• a amostra está composta por mais meninos do que meninas,• nos comerciais A e C o número de meninos é maior do que meninas, e• no comercial B essa relação se inverte.

Contudo, essa análise fica prejudicada pela composição da amostra, que tem mais meninosdo que meninas. Portanto, a primeira coisa a fazer é analisar as estruturas percentuais,mostradas na Tabela 18, ou seja retirar a influência da amostragem.

Figura 39. Porcentagem de crianças por tipo Tabela 18. Porcentagem de crianças por de comercial escolhido e gênero tipo de comercial escolhido e gênero

100

Observe cuidapreferencia daestrutura percepara as meninaexiste alguma analisando a es

A B C

71

29

47 53

76

24

0

20

40

60

80

A B C

Menino Menina Tipo de comercial

Gênero A B C Total

Meninos 71% 47% 76% 60%

Meninas 29% 53% 24% 40%

Total 100% 100% 100% 100%

Tipo de comercial


dosamente a Tabela 18, onde 60% da amostra é composta por meninos. Se as crianças pelos comerciais independe do gênero, esperaríamos que antual para cada comercial ficasse em torno de 60% para os meninos e 40%s, desvios grandes destes percentuais estariam mostrando evidências de querelação entre essas variáveis. Essa inspeção intuitiva, também, pode ser feitatrutura dentro de cada gênero como mostra a Tabela 19.



150

Figura 40. Porcentagem de crianças por gênero Tabela 19. Porcentagem de crianças por e tipo de comercial escolhido gênero e tipo de comercial escolhido

Analisando a Tabela 19 observamos que as meninas tem uma forte preferência pelocomercial B, enquanto que os meninos se dividem entre o comercial A e B.

Assim, intuitivamente percebemos que existe interferência do gênero na preferência, agoraprecisamos saber até que ponto essas diferenças se devem ao acaso, ou a existência deassociação entre as duas variáveis:

X: preferencia pelo comercial ( A, B e C) qualitativaY: gênero (meninos, meninas) qualitativa

Hipótese nula: A preferência pelo comercial independe do gênero da criançaHipótese alternativa: A preferência pelo comercial depende do gênero da criança

(ou, o gênero interfere na preferencia pelo comercial)

Ho: independência de variáveisH1: dependência de variáveis

Como deveriam ser os valores a serem observados se as variáveis fossem independentes?,ou dito de outra forma, sob a hipótese de nulidade, de independência de variáveis, comodeveriam ser os valores a serem observados? A lógica nos diz que esses valores devemestar muito próximos da estrutura percentual global. Esses valores são chamados devalores esperados.

Meninos Meninas

40 39

21 24

66

10

0

20

40

60

80

Meninos Meninas

A B C Tipo de comercial

Gênero A B C Total

Meninos 40% 39% 21% 100%

Meninas 24% 66% 10% 100%

Total 33% 50% 17% 100%

Tipo de comercial

Tipo de comercial

Gênero A B C Total

Meninos 60% 60% 60% 60%

Meninas 40% 40% 40% 40%

Total 42 62 21 150

Gênero

Meninos

Meninas

Total

Valores esperados

A B C Total

25 37 13 75

17 25 8 50

42 62 21 150



151

Observe que cada valor esperado foi calculado supondo que a estrutura percentual globalse mantém em cada coluna:

Calculando os valores esperados, sobre a suposição de independência:

Valor esperado menino, comercial A: 60% de 42 = 25,2Valor esperado menino, comercial B: 60% de 62 = 37,2Valor esperado menino, comercial C: 60% de 21 = 12,6Valor esperado menina, comercial A: 40% de 42 = 16,8Valor esperado menina, comercial B: 40% de 62 = 24,8Valor esperado menina, comercial C: 40% de 21 = 8,4

O mesmo teria acontecido se fixarmos primeiro o comercial:

Valor esperado comercial A, menino: 33,7% de 75= 25,2Valor esperado comercial A, menina: 33,7% de 50= 16,8Valor esperado comercial B, menino: 49,6% de 75= 37,2Valor esperado comercial B, menina: 49,6% de 50= 24,8Valor esperado comercial C, menino: 16,8% de 75= 12,6Valor esperado comercial C, menina: 16,8% de 50= 8,4

Tanto faz fixar a linha ou a coluna pois:

Por exemplo, calculemos o valor esperado da primeira linha e primeira coluna:

Assim calculando os valores esperados para todas as células temos:

Tipo de comercial

Gênero A B C Total

Menino 30 25,2 29 37,2 16 12,6 75

+ 4,8 - 8,2 + 3,4

Menina 12 16,8 33 24,8 5 8,4 50

- 4,8 + 8,2 - 3,4

Total 42 62 21 125

esperadototal linha total coluna

total geraltotal linha

total colunatotal geral

total colunatotal linhatotal geral

= = =_ * _

__ *

__

_ *__

esperado = = = =75 42

12575

42125

4275

12525 2

** * ,


Dentro de cada célula, no canto superior esquerdo colocamos o valor observado, no cantosuperior direito o valor esperado (sob a hipótese de independência) e, na parte inferior, adistância entre o observado e o esperado. Logo, se as variáveis fossem independentes, asdistâncias entre os valores observados e esperados deveriam ser muito pequenas, casocontrário haverá indícios de dependência. A pergunta agora é: quando a distância épequena ou grande? Para isto devemos calcular o valor chi-quadrado da amostra:

que terá uma distribuição chi-quadrado com graus de liberdade igual ao produto do númerode linhas menos um vezes o número de colunas menos um.

No noss

χ2amostra=

χ2amostra=

Para acegraus deque o vapreferên

Regi Acei (1-α)

0

No casocaso é svalor = 0

χ 22

amostraobservado esperado

esperado=

−∑ ( )

2 2 v=graus de liberdade

χamostra2 =


o exemplo:

0,914 + 1,808 + 0,917 + 1,371 + 2,711 + 1,376

9,09818 onde v = (2-1)*(3-1)=1*2=2

itar ou rejeitar a hipótese devemos procurar na tabela chi-quadrado, com dois liberdade. Para α=5%, o valor crítico é 5,991, como o valor da amostra é maiorlor crítico, logo rejeitamos a hipótese nula, concluindo que o gênero interfere nacia pelos comerciais.

ão de Região detação Rejeição=95% α=5%

χ2c=5,991

χ2amostra= 9,09818

de dispormos de um pacote estatístico, este, via de regra, calcula o p-valor, nesseó comparar esse valor com o nível de significância desejado. No nosso caso o p-,01058, ou seja, rejeitamos ao nível de 5% mas não ao nível de 1%.

χ χamostra v~ v=(nº colunas –1)*(nº linha-1)

2 2 2 2 2 24 825 2

8 237 2

3 412 6

4 816 8

8 224 8

3 48 4

++

−+

++

−+

++

−( , ),

( , ),

( , ),

( , ),

( , ),

( , ),



153

Para trabalhar esses dados com o SPSS, devemos entrar os dados como é mostrado aseguir, só que antes de pedir a tabela cruzada devemos usar o comando WEIGHT paraponderar as células.

Passos para trabalhar tabelas de contingência no SPSS, quando já se tem osvalores observados:

1- Criar um banco de dados, com a seguinte estrutura:

GENERO TIPO CRIANCAS 1 A 30 1 B 29 1 C 16 2 A 12 2 B 33 2 C 5

2- Ponderar:Data

Weight cases escolher a variável crianças

3- Solicitar a tabela cruzada:Statistics

SummarizeCross Tab

Selecionar gênero (ou tipo) na linhaSelecionar tipo (ou gênero) na coluna

Statistics Chi-square Contingency coeficient

Cell expected Row percent ( %linha) Column percent ( %coluna)

Saída do SPSSGENERO by TIPO

Count | Exp Val | TIPO Row Pct | Row Col Pct | A | B | C | TotalGENERO --------+------+------+------+ 1 | 30| 29| 16| 75 | 25,2| 37,2| 12,6| 60,0% | 40,0%| 38,7%| 21,3%| | 71,4%| 46,8%| 76,2%| +------+------+------+ 2 | 12| 33| 5| 50 | 16,8| 24,8| 8,4| 40,0% | 24,0%| 66,0%| 10,0%| | 28,6%| 53,2%| 23,8%| +------+------+------+ Column 42 62 21 125 Total 33,6% 49,6% 16,8% 100,0%

Chi-Square Value DF Significance------------- ----------- ---- ------------Pearson 9,09818 2 ,01058Likelihood Ratio 9,25354 2 ,00979Minimum Expected Frequency - 8,400ApproximateStatistic Value ASE1 Val/ASE0 SignificanceContingency Coefficient ,26047 ,01058 *1 *1 Pearson chi-square probability

p-valor



154

Limitações do teste χ2:

• Infelizmente, o teste chi-quadrado não permite concluir como se dá a relação, uma vezque ele testa apenas a hipótese geral de que as duas variáveis são independentes.Examinando a distância entre valor observado e esperado, por exemplo, observamosque as meninas tem uma maior preferência pelo comercial B, porém não podemosconcluir nada.

• Uma outra limitação do teste chi-quadrado é que o valor esperado das células não deveser menor ou igual a 5, pois isso torna vulnerável a estatística. Nesse caso, tem que seusar outra estratégia.

7.3 Teste de Homogeneidade

Quando testamos independência de variáveis, o pesquisador só controla o tamanho total daamostra, mas os totais para cada coluna e linha são aleatórios. No caso do exemploanterior, os pesquisadores selecionaram aleatoriamente 125 crianças, das quais 75 erammeninos e 50 meninas. Ele não fixou o numero de meninos e o número de meninas

Vejamos um exemplo de teste de homogeneidade. Retomemos o exemplo inicial esuponhamos que a professora fixou o tamanho dentro de cada grupo de alunos e osresultados foram os seguintes:

Tabela 20. Número de alunos segundo seu desempenho em Matemática eparticipação dos pais nas atividades extra-escolares


Ativa 5 25 70 100Fraca 95 75 30 200Total 100 100 100 300

Ho: p11=p12=p13 igualdade de proporçõesH1: p1i ≠ p1i para algum i≠j existe pelo menos uma proporção diferente

A hipótese nula esta testando que a proporção de alunos com baixo desempenho é igual aproporção de alunos médio e igual a proporção de alunos com desempenho alto quandoseus pais participam ativamente das atividades extra-escolares, contra a hipótesealternativa que indica que existe pelo menos uma proporção diferente.

O teste é idêntico ao teste de independência. Faça o teste e confira seus resultados com oSPSS. Construa um gráfico apropriado.



155

7.4 O Coeficiente de Contingência.

O coeficiente de contingência é uma medida do alcance da associação ou relação entre doisconjuntos de atributos. Ele é calculado em função do valor calculado na tabela decontingência e independe de ordenação das categorias das variáveis:

No exemplo dos comerciais de TV, o coeficiente de contingência será:

Para testar a significância deste coeficiente teríamos que recorrer a tabela própria.Felizmente, o SPSS calcula o valor p, que nos permite testar :

Ho: C=0H1: C≠0

Se o p-valor associado for menor que alfa rejeitamos Ho e concluímos de que existeassociação entre as variáveis, caso contrário não.

7.5 O Teste Exato de Fisher

A prova de Fisher é útil quando trabalhamos com variáveis categóricas e quando otamanho das amostras independentes é pequeno. É utilizado quando duas variáveis sópodem ser catalogadas em duas possíveis categorias ou níveis, logo em tabelas decontingência 2x2.

Gruposindependentes

Positivo Negativo Total

Grupo I A B A+B (Fixo)

Grupo II C D C+D (Fixo)

Total A+C B+D N (Fixo)

O método está baseado na distribuição hipergeométrica, calculando a probabilidade deobservar um determinado conjunto de frequências em uma tabela 2x2, quando seconsideram fixos os totais marginais, sob a hipótese de nulidade, ou seja independência devariáveis.

CN

=+

χχ

2

2Onde N é o tamanho

da amostra geral

C =+

=9 09818

9 09818 1250 26047

,,

,

Ho: independênciaH1: dependência



156

Essa probabilidade, na realidade é o p-valor, ou seja a probabilidade de rejeitar o hipótesenula sob a suposição de independência, em outras palavras, é a probabilidade de afirmarque são dependentes quando na realidade as variáveis são independentes. Esse valor deveser comparado com o nível de significância estipulado pelo pesquisador.

Vejamos um exemplo: Suponha que você tem dois grupos: experimental (Grupo I) econtrole (grupo II) e que esteja testando influência de jogos matemáticos na aprendizagemda multiplicação.

GRUPO by VARIAVEL

Count | Aprendizagem | Row

|Não |Sim | TotalGRUPO --------+--------+--------+Experimental I | | 10 | 10 | | | 52,6 +--------+--------+Controle II | 5 | 4 | 9 | | | 47,4 +--------+--------+ Column 5 14 19 Total 26,3 73,7 100,0

Chi-Square Value DF Significance-------------- ----------- ---- ------------Pearson 7,53968 1 ,00604Continuity Correction 4,94679 1 ,02614Likelihood Ratio 9,53539 1 ,00202Fisher's Exact Test: One-Tail ,01084 Two-Tail ,01084

Minimum Expected Frequency - 2,368Cells with Expected Frequency < 5 - 2 OF 4 ( 50,0%)

ApproximateSatistic Value ASE1 Val/ASE0 Significance--------------- --------- -------- -------- ------------Contingency Coefficient ,53300 ,00604 *1

*1 Pearson chi-square probability>Warning # 3211>On at least one case, the value of the weight variable was zero, negative,>or missing. Such cases are invisible to statistical procedures and graphs>which need positively weighted cases, but remain on the file and are>processed by non-statistical facilities such as LIST and SAVE.

p

A CA

B DB

NA B

A B C D A C B DN A B C D

=

+

+

+

=+ + + +( )!* ( )!* ( )!* ( )!

!* !* !* !* !

p-valor



157

VIII. ANÁLISE DE CORRELAÇÃO E REGRESSÃO

Conteúdo a serem trabalhados: Análise de associação linear entre variáveis. O coeficientede correlação de Pearson e de Spearman. A matriz de correlação. Teste de hipóteses.Análise de correlação parcial. O uso do SPSS, o comando Correlate e as opçõesbivariate, partial. Análise de regressão linear simples e múltipla. Pressupostos implícitos esua validade. Teste de hipótese e intervalo de confiança. Análise de variância. Qualidadedo ajuste, o coeficiente de determinação. Análise da validade das suposições implícitas, abusca do melhor ajuste. Trabalhando com outliers e pontos influentes. Determinação daimportância das variáveis. Construindo modelos, selecionando variáveis. O problema decolinearidade. Como trabalhar com modelos não lineares. Transformações lineares.Apresentação gráfica. O comando Regression e suas opções.

Neste tópico estudaremos a relação entre duas ou mais variáveis quantitativas. Segundo oudicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade decorrelativo, correspondência. Correlacionar, significa estabelecer relação ou correlaçãoentre; ter correlação. Enquanto que a palavra regressão significa: ato ou efeito deregressar, de voltar, retorno, regresso; dependência funcional entre duas ou mais variáveisaleatórias. A palavra regredir significa ir em marcha regressiva, retroceder.

Mas, onde e como surgiram os termos correlação e regressão? Foi Francis Galton (1822-1911), primo de Charles Darwin, quem usou pela primeira vez esses termos, cujo trabalhoinfluenciou a Estatística e a Psicologia. Galton publicou o livro Gênio Hereditário, em1869, onde aplicou conceitos estatísticos a problemas da hereditariedade. Galton ficouimpressionado com a distribuição normal aplicada a área de biologia por Quetelet, quemostrará no livro “O homem Médio”, que a estatura de dez mil sujeitos seguiam umadistribuição normal, ou seja a maioria dos sujeitos tinham suas estaturas em torno da médiae que um número, cada vez menor, vai sendo encontrado à medida que se afasta da média.O primeiro relato onde Galton usou o termo “co-relações” foi em 1888.

As técnicas modernas de determinação da validade e da confiabilidade detestes, bem como os métodos da análise fatorial são resultados diretos dadescoberta, por Galton, da correlação, produzida quando ele observouque as características tendem a regredir na direção da média (Scultz eSschultz, 1981).

Galton cunhou o termo regressão quando observou que filhos de homens altos, não são, emmédia, tão altos quanto os pais, enquanto que os filhos de homens muito baixos são, emmédia, mais altos do que os pais. Ele concebeu uma forma gráfica de representar aspropriedades básicas do coeficiente de correlação. Ele aplicou o seu método de correlaçãoa variações de medidas físicas, por exemplo, mostrou a correlação entre a altura do corpo eo comprimento da cabeça. Seu aluno Karl Pearson desenvolveu a formula matemática, queusamos hoje e que tem o seu nome em homenagem. O símbolo do coeficiente decorrelação r, vem da primeira letra de regressão, em reconhecimentos a Galton.

8.1 A Covariância e o Coeficiente de correlação de Pearson



158

Quando estudamos a relação entre duas variáveis X e Y devemos apreender um novoconceito que é a covariância. Se a variância é uma estatística através da qual chegamos aodesvio padrão que é uma medida de dispersão, da mesma maneira a covariância é umaestatística através da qual chegamos ao coeficiente de correlação que mede o grau deassociação “linear” entre duas variáveis aleatórias X e Y.

Apresentaremos esses conceitos através de um exemplo, simples e ilustrativo. Sejam X e Yduas variáveis aleatórias quaisquer, que tomam os seguintes valores:

Tabela 21. Cálculo do coeficiente de correlação de Pearson

X Y DESVIOX

(Xi-X)

DESVIOY

(Yi-Y)

DXDY

(Xi-X)*(Yi-Y)

DESVIOX2

(Xi-X)2

DESVIOY2

(Yi-Y)2

PRE_1

Y=a+bX

1 0 -4,50 -6,00 27,00 20,25 36,00 ,92727

2 2 -3,50 -4,00 14,00 12,25 16,00 2,05455

3 4 -2,50 -2,00 5,00 6,25 4,00 3,18182

4 5 -1,50 -1,00 1,50 2,25 1,00 4,30909

5 5 -,50 -1,00 ,50 ,25 1,00 5,43636

6 8 ,50 2,00 1,00 ,25 4,00 6,56364

7 7 1,50 1,00 1,50 2,25 1,00 7,69091

8 7 2,50 1,00 2,50 6,25 1,00 8,81818

9 11 3,50 5,00 17,50 12,25 25,00 9,94545

10 11 4,50 5,00 22,50 20,25 25,00 11,07273

55 60 0 0 93,00 82,50 114,00 60,0000

A rigor você não precisa de calcular os desvios, uma vez que o SPSS calcula todos essesvalores internamente. Aqui calculamos todos os componentes da covariância e correlaçãoapenas como forma de ilustrar. Utilizamos o comando compute para isso. A variável Pre_1é calculada pelo próprio SPSS e que devemos salvar para poder colocar a linha ajustada, nográfico da regressão.

A Figura 41 mostra a relação entre as duas variáveis X e Y, bem como a linha ajustada aesses valores pelo método de mínimos quadrados. Observe que a média de X é 5,5 e amédia de Y é 6,0, e que elas estão formadas pelas linhas paralelas ao eixo Y e ao eixo Xrespectivamente. Vejamos agora o que significa os desvios de cada ponto em relação amédia. Observe que cada ponto está formado pelo par ordenado (Xi,Yi), onde Xi indica ovalor da variável X e Yi o valor da variável Y naquele ponto.

Observe que os desvio dos pontos que caem no II quadrante (supondo X e Y os eixoscentrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, também,tomarão valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, osdois desvios tomarão valores negativos, por tanto seus produtos tomarão valores positivos.Se a maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtosdos desvios sempre será positivo, logo afirmaremos que a covariância destas duas variáveisé positiva, ou em outras palavras, a relação entre elas é direta, ou seja, a medida que umacresce, a outra, também cresce e vice-versa.



159

Figura 41. Relação entre X e Y

DesvioX=(X9-X)=( 9 -5,5) = + 3,5 e DesvioY=(Y9-Y)=(11-6,0) = + 5,0

O produto dos desvios:

DesvioX*DesvioY = (X9-X)*(Y9-Y) = (9 -5,5)*(11-6,0) = (+ 3,5)*(+5,0)=17,5

Se calcularmos esses produtos para todos os valores de X e Y e somarmos temos onumerador da covariância de X e Y:

C(X,Y)=93/10=9,3

Logo, covariância significa co-variação, como as duas variáveis variam de forma conjunta.Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, osdesvios de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos,logo os produtos tomarão valores negativos. O mesmo vai acontecer com os pontos doquadrante III, nele, os desvios de X tomarão valores negativos e os desvios de Y, valorespositivos, logo os produtos tomarão valores negativos. Assim, se a maioria dos pontos

0

1

2

3

4

5

6

7

8

9

10

11

12

0 1 2 3 4 5 6 7 8 9 10 11 X

Y (X9,Y9)

IIV

III II

C X YX X Y Y

ni i( , )

( ) * ( )=

− −∑

Y=6,0

X=5,5

DesvioX=(X9-X)(9-5,5) = + 3,5

DesvioY=(Y9-Y)(11-6,0) = + 5,0



160

caem nos quadrantes I e III a covariância tomará valores negativos, indicando que essasduas variáveis se relacionam de forma negativa ou inversa, ou seja, que quando uma crescea outra diminui e vice-versa.

Quando os pontos se distribuem nos quatro quadrantes, haverá valores positivos enegativos, logo a soma tenderá para zero, e neste caso, afirmaremos que não existe relaçãolinear entre essas variáveis. Observamos que esta estatística tenderá para zero, mesmohavendo uma relação que não for linear, por exemplo se os dados tivessem o formato deuma parábola, ou relação quadrática. Estudaremos relações não lineares mais adiante.

A pesar da covariância ser uma estatística adequada para medir relação linear entre duasvariáveis ela é complicada para comparar graus de relação entre variáveis, e isto devido àque está influenciada pelas unidades de medida de cada variável, que pode ser metros,quilometro, quilogramas, centímetros, em fim. Para evitar a influência da ordem degrandeza e unidades de cada variável, dividimos a covariância pelo desvio padrão de X ede Y, dando origem ao coeficiente de correlação de Pearson:

Notação:

Coeficiente de correlação amostral: rCoeficiente de correlação populacional: ρ

Onde: S2x= 82,5 / 10 =8,25 Sx=2,8723

S2y=114,0 / 10 =11,4 Sy=3,3764

Como o coeficiente de correlação está isento de unidades e da ordem de grandeza dasvariáveis, esta toma valores entre –1 e 1.

Quando a relação é positiva r +1, tomará o valor 1 quando a relação é perfeitaQuando a relação é negativa r -1, tomará o valor -1 quando a relação é perfeitaQuando a relação é difusa ou não linear r 0

Vejamos como solicitar esta estatística no SPSS Statistics

Correlate Bivariate Selecionar as variáveis desejadas, no caso X e Y, mas

podem ser mais do que duas. O SPSS calcula a matriz decorrelação, ou seja cruza todas as variáveis, com todas:

Saída do comando correlate:

- - - - Correlation Coefficients

X Y

A matriz de correlação calcula acorrelação entre todas as variáveis, logoé uma matriz simétrica e na diagonalsempre terá o valor 1, uma vez que setrata da correlação da variável com elamesma. O valor entre parêntesis indicao número de observações incluídas nocálculo. E o p-valor, que testa asseguintes hipóteses:

Ho: ρ = 0

rC X YS SY X

=( , )

* r = =9 3

2 8723 3 37640 95896

,, * ,

,



161

X 1,0000 ,9590 ( 10) ( 10) P= , P= ,000

Y ,9590 1,0000 ( 10) ( 10) P= ,000 P= ,

(Coefficient / (Cases) / 2-tailed Significance)" . " is printed if a coefficient cannot be computed

Se você desejar, pode solicitar o coeficiente de Spearman e de Kendall´s tau-b. é só clicarnas opções:

- - - S P E A R M A N C O R R E L A T I O N C O E F F I C I E N T S - - -

Y ,9542 N( 10) Sig ,000

X


Vejamos um exemplo fictício para analisar correlação entre variáveis:

X Y Z W V U T

1 1 0 10 11 100 6 2 2 2 9 11 81 5 3 3 4 8 7 64 3 4 4 5 7 7 49 7 5 5 5 6 8 36 2 6 6 8 5 5 36 9 7 7 7 4 5 49 3 8 8 7 3 4 64 5 9 9 11 2 2 81 7 10 10 11 1 0 100 2

Saída do SPSS, do comando correlate:

- - Correlation Coefficients - -

X Y Z W V U T

X 1,0000 1,0000 ,9590 -1,0000 -,9590 ,0000 -,1312



162

( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P= , P= ,000 P= ,000 P= ,000 P= ,000 P=1,000 P= ,718

Y 1,0000 1,0000 ,9590 -1,0000 -,9590 ,0000 -,1312 ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P= ,000 P= , P= ,000 P= ,000 P= ,000 P=1,000 P= ,718

Z ,9590 ,9590 1,0000 -,9590 -,9649 -,0614 ,0000 ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P= ,000 P= ,000 P= , P= ,000 P= ,000 P= ,866 P=1,000

W -1,0000 -1,0000 -,9590 1,0000 ,9590 ,0000 ,1312 ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P= ,000 P= ,000 P= ,000 P= , P= ,000 P=1,000 P= ,718

V -,9590 -,9590 -,9649 ,9590 1,0000 -,0614 ,0919 ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P= ,000 P= ,000 P= ,000 P= ,000 P= , P= ,866 P= ,801

U ,0000 ,0000 -,0614 ,0000 -,0614 1,0000 -,1250 ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P=1,000 P=1,000 P= ,866 P=1,000 P= ,866 P= , P= ,731

T -,1312 -,1312 ,0000 ,1312 ,0919 -,1250 1,0000 ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) ( 10) P= ,718 P= ,718 P=1,000 P= ,718 P= ,801 P= ,731 P= ,


- - - - - S P E A R M A N C O R R E L A T I O N C O E F F I C I E N T S - - - - - -

Y 1,0000 N( 10) Sig ,000

Z ,9542 ,9542 N( 10) N( 10) Sig ,000 Sig ,000

W -1,0000 -1,0000 -,9542 N( 10) N( 10) N( 10) Sig ,000 Sig ,000 Sig ,000

V -,9542 -,9542 -,9383 ,9542 N( 10) N( 10) N( 10) N( 10) Sig ,000 Sig ,000 Sig ,000 Sig ,000

U ,0000 ,0000 -,0870 ,0000 -,0870 N( 10) N( 10) N( 10) N( 10) N( 10) Sig1,000 Sig1,000 Sig ,811 Sig1,000 Sig ,811

T -,1534 -,1534 ,0557 ,1534 ,0248 -,0997 N( 10) N( 10) N( 10) N( 10) N( 10) N( 10) Sig ,672 Sig ,672 Sig ,878 Sig ,672 Sig ,946 Sig ,784

X Y Z W V U


Figura 42. Relação entre as variáveis estudadas

X

Y

Z

W

V

U

T

X

Y

Z

W

V

U

T



163

Para solicitar este gráfico, utilizar os seguintes comandos:

Graphs Scatter plot

Matrix selecionar as variáveis desejadas.

Observe que a matriz não é simétrica, porque acima da diagonal está graficado X naordenada e Y na abscissa, enquanto que, na diagonal inferior, Y está na ordenada e X naabscissa.

A análise de correlação sempre deve ser feito utilizando o coeficiente de correlação e dográfico, uma vez que o coeficiente de correlação de Pearson apenas detecta relaçõeslineares. Quando a relação não é linear podemos fazer uso de transformações quelinearizam a relação ou métodos de regressão não linear.

8.2 Análise de regressão

Uma vez que sabemos com se relacionam duas variáveis, o seguinte passo será saber qual éessa relação e estimar os parâmetros envolvidos na relação.

Y = variável dependente (aleatória)X = variável independente (não aleatória, via de regra, controlada pelo pesquisador)

Y= f (X) + erroNa relação linear:Y= a + b*X + erro* * * * M U L T I P L E R E G R E S S I O N * * * *Listwise Deletion of Missing DataEquation Number 1 Dependent Variable.. YBlock Number 1. Method: Enter XVariable(s) Entered on Step Number 1.. X

Multiple R ,95897R Square ,91962Adjusted R Square ,90957Standard Error 1,07026

Analysis of Variance DF Sum of Squares Mean Square

Regression 1 104,83636 104,83636Residual 8 9,16364 1,14545

F = 91,52381 Signif F = ,0000

R = 0,959

R2 = 92%

p-valorHo: Y ≠ a +b*XH1: Y = a +b*X



164

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

X 1,127273 ,117832 ,9589 9,567 ,0000(Constant) -0,200000 ,731126 -,274 ,7914

End Block Number 1 All requested variables entered.* * * * * * * * * * * * * * * * * * * * * * * * * * * * *Residuals Statistics: Min Max Mean Std Dev N

*PRED ,9273 11,0727 6,0000 3,4130 10*RESID -1,8182 1,4364 ,0000 1,0090 10*ZPRED -1,4863 1,4863 ,0000 1,0000 10*ZRESID -1,6988 1,3421 ,0000 ,9428 10

Total Cases = 10

From Equation 1: 1 new variables have been created. Name Contents ---- -------- PRE_1 Predicted Value Hi-Res Chart # 3:Scatter of y pre_1 x x

Reta estimada:Y= -0,20 + 1,127273*X (p>0,10) (p<0,0001)

p-valor:Ho: b=0Ho: b≠0

p-valor:Ho: a=0Ho: a≠0



165

Referências Bibliográficas

1. Referências utilizadas na Apostila e em DICAS

A seguir colocamos algumas indicações de bibliografia, utilizadas na Apostila e emDICAS, por assunto e nível de dificuldade. Esperamos que possam auxiliar na escolha datécnica a ser aplicada em seus dados.

CONE, J. D. e FOSTER, S. L. Dissertations and Theses, from start to finish. AmericanPsychological Association-APA, 1993.

Livros básicos, indicados para uma primeira leitura de estatística descritiva e algunsconteúdos de estatística inferencial:

BARBETTA, P. A. Estatística aplicada às Ciências Sociais. Florianópolis: Ed. da UFSC,1998.

LEVIN, J. Estatística Aplicada a Ciências Humanas. 2 ed. São Paulo: Harbra, 1987.VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro: Campus, 1998.VIEIRA, S. e HOFFMANN, R. Estatística Experimental. São Paulo: Atlas, 1989.

Livros indicados para uma segunda leitura dos assuntos básicos de estatística descritivae inferencial:

BUSSAB, W. O. E MORETTIN, P.A Estatística Básica. São Paulo: Atual, 1986.COSTA NETO P. L. de O. Estatística. São Paulo: Edgard Blücher Ltda, 1977.DOWNING, D. e CLARK, J. Estatística Aplicada. Tradução de Alfredo Alves Farias. São

Paulo: Saraiva, 1999.FONSECA, J. S. da e MARTINS, G. A. Curso de Estatística. 5 ed. São Paulo: Atlas, 1995.HOEL, P. G. Estatística Elementar. 4 ed. São Paulo: Atlas, 1981.PIMENTEL GOMES, F. (2000). Estatística Experimental. São Paulo: Livraria Nobel.SOARES, J. F. e SIQUEIRA, A. L. Introdução à Estatística Médica. Belo Horizonte:

UFMG, 1999.0

Livro indicado para estatística não paramétrica:

SIEGEL, S. Estatística Não-Paramétrica. Mc Graw-Hill, 1975. (Existe uma versão eminglês, mais atual).



166

Livros de metodologia científica, em português, que podem auxiliar o entendimento dealguns conceitos estatísticos.

CONTANDRIOPOULOS, A-P; CHAMPAGNE, F; DENS, J-L E BOYLE, P. Saberpreparar uma pesquisa: definição, estrutura e financiamento. Rio de Janeiro: Hucitec.1994.

MATTAR, Fauze Najib. Pesquisa de Marketing. São Paulo: Atlas, 1996, vols. 1 e 2.

Livros para uma primeira leitura sobre Estatística multivariada

HAIR, J. F., ANDERSON, R.E., TATHAM, R. L. e BLACK, W. C. Multivariate DataAnalysis with readings. Englewood Cliffs, NJ: Prentice Hall.

PEREIRA, J.C.R. Análise de Dados Qualitativos: Estratégias Metodológicas para asCiências da Saúde, Humanas e Sociais. São Paulo: EDUSP. 1999.

Manual do SPSS (apresenta uma descrição das técnicas estatísticas disponíveis,incluindo definições, pressupostos, exemplos e de como você deve proceder parautilizá-las na análise do seus dados)

Norusis, M. J. SPSS for Windows. Base System User´s Guide. Release 6.0. Chicago.SPSS Inc. 1993



167

Outras referências bibliográficas

2. Livros

Anderson, J. R. e Lebiere, C. J. (1998). The Atomic Components of Thought. Mahwah, NJ:L. Erlbaum Associates, Inc.

Anderson, J. R.; Reder, L. M. e Simon, H. A (1997). Applications and Misapplications ofcognitive psychology to Mathematics Education:

http://www.act.psi.meu.edu/ACT/papers/Anderson

Anderson, J. R. (1995). Cognitive Psychology and its implications. New York. N. H.Freeman and Company.

Anderson, J. R. (1983). The architecture of cognition. Cambridge, MA. Harvard UniversityPress.

Anderson, J. R. (1981). Cognitive skills and their acquisitions. Hillsdale, NJ. LawrenceErlbaum Associates. Inc.

Anderson, J. R. e Bower, G. H. (1973). Human associative memory. New York, NY: V. H.Winston.

American Psychological Association. (1996). Publication Manual. Washington: APA.

Barry, A. M. S. (1997). Visual Intelligence: Perception, Image, and Manipulation inVisual Communication. Albany: NY: State University of New York Press.

Batanero, M. C., Godino, J. D. e Navarro-Pelayo, V. (1994). Razonamiento combinatório.Madrid. Sintesis.

Bertin, J. (1986). A neografica e o tratamento gráfico da informação. Tradução deCecília M. Westphalen. Curitiba : PR, Ed. Da UFPR.

Bertin, J. (1967). Semiologie graphique: les diagrames, les reseaux, les cartes. TheHague: Mouton.

Besson, J-L. (1995). A ilusão das estatísticas. São Paulo: Ed. UNESP.

Burns, B. (Ed.) (1992). Percepts, concepts and categories: the representation andprocessing of information. North-Holland

Burrill, G. et. al. (1992). Data analysis and statistics across the curriculum. Reston, VA:NCTM.

Campbell, S. C. (1974). Flaws and fallacies in statistical thinking. New Jersey, Prentice-Hall, Inc.

Campbell, D. Stanley, J. C. (1979). Delineamentos experimentais e quase-experimentais depesquisa. São Paulo, Edusp.

Carraher, T. N (Org.).(1989). Aprender pensando: contribuições da psicologia cognitivapara a educação.. Petropolis, RJ: Vozes.

Coll, C., Palacios, J. Marcheise, A. (1996). Desenvolvimento psicológico e educação:Psicologia da Educação. Porto Alegre: Artes Médicas.

http://www.act.psi.meu.edu/ACT/papers/Anderson



168

Cone, J. D. e Foster, S. L. (1993). Dissertation and theses from start to finish. Washington:APA.

Crossen, C. (1994). O fundo falso das pesquisas: a ciência das verdades torcidas. Rio deJaneiro, RJ: Revan.

David, F. N. (1998). Games, Gods and Gambling: A History of Probability and StatisticalIdeas. Mineola, NY: Dover Publications, Inc.

Dewdney, A. K. (1999). 20.000 léguas matemáticas: um passeio pelo misterioso mundodos números. Rio de Janeiro, RJ: Jorge Zahar Editor.

Eysenck, M. W. e Keane, M. T. (1994). Psicologia Cognitiva: um manual introdutório.Porto Alegre: Artes Médicas

Fainguelernt, E. K. (1999). Educação Matemática: representação e construção emgeometria. Porto Alegre: Artes Médicas

Gal, I. e Garfield, J. B. (1997). The assessment challenge in Statistics Education.Amsterdan: ISI

Goldstein, W. M. e Hogarth, R. M. (Eds.) (1997). Research on Judgment and DecisionMaking: Currents, Connections, and Controversies. New York, NY: CambridgeUniversity Press.

Goldstone, R. L.; Schyns, P. G. e Medin, D. L. (Eds.) (1997). Perceptual learning. SanDiego: Academic Press.

Greenfield, P. M. e Retschitzki, J. (1998). L’enfant et les médias. Suisse: EditionsUniversitaires Fribourg Suisse.

Grimm, L. G. e Yarnold, P. R. (1995). Reading and Understanding Multivariate Statistics.Washington, APA.

Grouws, D. A. (Ed) (1992). Handbook of research on Mathematics teaching and learning.New York, Macmillan

Hair, J. F.; Anderson, R. E.; Tatham, R. L. and Black, W. C. (1995). Multivariate DataAnalysis with Readings. New Jersey, Prentice Hall.

Herrnstein, R. J. e Murray, C. (1996). The Bell Curve: Intelligence and Class Structure inAmerican Life. New York, NY: Free Press Paperbacks.

Hiebert, J. (1986). Conceptual and procedural Knowledge: the case of mathematics.Hillsdale-NJ, Lawrence Erlbaum Associates, Inc.

Hoaglin, D. C. e Moore, D. S. (Eds.) (1992). Perspectives on Contemporary Statistics(MAA Notes, No 21).

Holland, J. H., Holyoak, K. J., Nisbett, R. E. e Thagard, P. R. (1989). Induction: Processesof Inference, Learning and Discovery. Cambridge, MA: The MIT Press.

Hoffman, R. R. e Palermo, D. S. (1991). Cognition and the symbolic processes: appliedand ecological perspectives. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.

Johnson-Laird, P. N. (1983). Mental models. Cambridge, MA: Harvard University Press.

Kahneman, D., Slovic, P. e Tversky, A. (Eds.) (1982). Judgment Under Uncertainty:heuristics and biases. New York, NY: Cambridge University Press.



169

Kincheloe, J. L., Steinberg, S. R e Gresson, A. D. (Eds.) (1997). Measured Lies: The BellCurve Examined. New York, NY: St. Martin’s Press.

Klausmeier, H. J. e Goodwin, W. Manual de Psicologia Educacional: aprendizagem ecapacidades humanas. São Paulo: Harper

Kölher, W. Gestalt Psychology. New York: Liveright publishing Corporation.

Kosslyn, S. M. (1996). Image and Brain: The Resolution of the Imagery Debate.Cambridge, MA: MIT Press.

Kun, T. (1970). A estrutura das revoluções científicas. São Paulo, SP: Ed. Perspectiva

Lajoie, S. (Ed.) (1998). Reflections on Statistics : Learning, Teaching, and Assessment inGrades K-12. Mahwah, NJ: L. Erlbaum Associates, Inc.

Lindsay, P. H. e Norman, D. A. (1977). Human Information Processing: an introduction topsychology. New York: Academic Press.

Lindquist, M. M. e Shulte, A. P. (1996). Aprendendo e ensinando geometria. São Paulo:Atual.

Lohse, J. (1991). A cognitive model for the perception and understanding of graphs. In S.P. Robertson, G. M. Olson e J. S. Olson, (Eds.). Reaching Through Technology:Chi’91 Conference Proceedings. New Orleans, Louisiana.

Lynch, M. e Woolgar, S. (1990). Representation in Scientific Practice. Cambridge, MA:MIT Press.

Marr, D. (1982). Vision: a computational investigation into the human representation andprocessing of visual information. San Francisco: W. H. Freeman.

Martin, J. R. e Veel R (Eds.). (1998). Reading Science: Critical and FunctionalPerspectives on Discourses of Science. New York, NY: Routledge.

Mayer, R. E. (1992). Thinking, Problem Solving, Cognition. New York. W. H. Freemanand Company.

Meshane, J. (1991). Cognitive Development: an implications, processing approach.Oxford. Basil Blacwill (ver referência exata na ementa da disciplina da Márcia)

National Council of Teachers of Mathematics. (1995) Assessement Standars for SchoolMathematics.

Nunnally, J. C. Jr. (1970) Introduction to Psychological Measurement. New York:Mcgraw-Hill book company.

Pandey T. (1991) A Sampler of Mathematics Assessment. California.

Parâmetros Curriculares Nacionais - Matemática (3º e 4º ciclos). Brasília: MEC -Secretaria de Educação Fundamental. Versão Preliminar. Outubro/1997.

Parâmetros Curriculares Nacionais - Matemática (Ensino Médio). Brasília: MEC -Secretaria de Educação Médio? Versão Preliminar. Outubro/1997.

Pereira, J. C. R. (1999). Análise de dados qualitativos. São Paulo: Edusp

Piaget, J e Inhelder, B. (1993). A representação do espaço na criança. Porto Alegre: ArtesMédicas



170

Pinker, S. (1990). A theory of graph comprehension (p. 73-126). In Freedle, R. O. (Ed.)Artificial intelligence and the future of testing. Hillsdale, NJ: L. Erlbaum Associates.

Pinker, S. (1997). How the Mind Works. New York: NY: W.W. Norton e Cia, Inc.

Pinker, S. e Mehler, J. (1988). Connections and symbols. Cambridge: MIT Press

Planckett, R. L. (1970). The principle of the arithmetic mean, Studies in the history ofstatistics and probability (pp, 121-126). London: Griffin.

Poincaré, H. (1995). O valor da ciência. Rio de Janeiro, RJ: Contraponto.

Pozo, J. I. (1998). Teorias cognitivas da aprendizagem. Porto Alegre: Artes Médicas

Porter, T. M. (1986). The rise of statistics thinking: 1820-1900. .Princeton: PrincetonUniversity Press.

Romberg, T. A, Fennema, E. e Carpenter (Eds.). Integrating research on the graphicalrepresentation of functions. New York: Lawrence Erlbaum Association.

Salvador, C. K. (1994). Aprendizagem escolar e construção do conhecimento. PortoAlegre: Artes Médicas.

Sharma, S. 1996. Applied Multivariate Techniques. New York, John Wiley & Sons, Inc.

Shultz, D. P. e Schultz, S. E. (1992). História da Psicologia Moderna. São Paulo: Cultrix

Skemp, R. 1980. Psicologia del aprendizaje de las matemáticas. Madrid, Ed Morata.

Solso, R. L. (1991). Cognitive Psychology. Boston: Allyn and

Someron, M. W., Barnard, Y. F. e Sandberg, J. A. C. (1994). The think aloud method. NewYork: Academic Press

Steen, L. A. (Ed.) (1997). Why Numbers Count: Quantitative Literacy for Tomorrow'sAmerica. New York, NY: The College Board

Stenberg, R. (2000). Psicologia cognitiva. Porto Alegre. Artes Médicas Sul

Stenberg, R. (Ed) (1994). Thinking and Problem Solving. California: Academic Press

Stenberg, R. (1992). As capacidades intelectuais humanas: uma abordagem emprocessamento de informações. Porto Alegre. Artes Médicas

Stewart, I. (1991) Será que deus joga dados? Rio de Janeiro, RJ: Jorge Zahar Ed.

Stiff, L. e Curcio, F. R. (Eds.) (1999). Developing Mathematical Reasoning in GradesK-12 (Yearbook (National Council of Teachers of Mathematics)

Stigler; S. M. (1999). Statistics on the Table: The History of Statistical Concepts andMethods. Cambridge, MA: Harvard University Press.

Tankard, J. W. (1984). The Statistical Pioneers. Cambridge, MA: Schenkman PublishingCompany, Inc.

Tufte, E. R. (1998). Visual Explanations: Images and Quantities, Evidence and Narrative.Cheshire, CE. Graphics Press

Tufte, E. R. (1993). The visual display of quantitative information. Cheshire, CE. GraphicsPress



171

Vallecillos, A J. (1996). Inferencia estadística y ensenanza: un análisis didáctico delcontraste de hipótesis estadísticas. Granada - ES. Colección Mathema. ED. Comares.

Virilio, P. (1988). La machine dela vision. Paris: Galilée.

3. ABE: Associação Brasileira de Estatística(IMECC-UNICAMP)Título Autor(es) Volume AnoEstatística: A tecnologia da Ciência Pereira, B. de B. 37( ), 27-35 1997Estatística em medicina: p-variação Pereira, B. de B. 31(2), 30-38 1995Entrevista com Silvio Popadiuk - Presidente doCONRE e funcionário da Eletropaulo

29(3), 15-16 1994

A Escola necessária W. Borges 28(2), 19-21 1994Perfil da Estatística no Brasil E. Colosimo e C. Diniz 27(1), 31-33

25(2), 27-3324(1), 25-38

199419931993

O “Furo” do furo das camisinhas J. F. de Carvalho 25(2), 18-27 1993O futuro da estatística no âmbito Ibero – Americano P. A . Morettin 24(1), 22-25 1993Statistics and Statistical Sciences in The Americas R. Klein 20, 23-27 1991A carreira do Estatístico H. S Migon E G. Stangenhaus 19, 21-25 1991Aspectos da Vida da Obra de Sir Ronald Fisher J. M. P. Memória 18, 21-27 1990

4. American Psychologist (USP-IP: 1946-1998)The earth is round (p<.05) Cohen, J. 49, 997-1003 1994What the data really mean Smith, F. L. 47:, 1173-1192 1992Things I have Learned (so far) Cohen, J. 45: 1304-1312 1990Statistical procedures and the justification ofknowledge in Psychological Science

Rosnow, R. L. & Roshenthal, R. 44: 1276-1284 1989

Generalizability Theory Shalvelson, R. J.; Webb, N. M& Rowley, G. L.

44: 922-932 1989

5. Amstat News (IMECC: 1978-1999)On training in sampling Deming. W. E. 40-41 1995Quantitative literacy: an ASA success story Iman, R. L. 208, 1,3 e 6 1994Culture clash: change and technological evolutioncoming to the statistical classroom

Moore, D. 13-14 1993

Teaching Statistics: more data, less lecturing Cobb, G. 182, 1 e 4 1991Time to reach out beyond our boundaries Hoerl, R. 3-4 1991Center for Statistical Education Hogg, R. V. 9-15 1987

6. Arithmetic Teacher (IMECC: 1975-1988) O IME-USP tem uma coleção mais completaTítulo Autor Volume AnoData analysis Hitch, C. e Armstrong, G. 41, 242-245 1994Estimation is mathematical thinking Harte, S. W. e Glover, M. J. 40, 75-77 1993Mean or meaningless Korithoski, T e Korithoski, P 40, 194-197 1993



172

Teaching Mathematics with Technology J.Parker & C. C. Widmer 39(8) 48-52 1992Conquer mathematics concepts by developing visualthinking

Hershkowitz, R. e Markovits,Z.

39(9), 38-41 1992

Non just an average unit Paull, S. 38(4), 54-58 1991Teaching arithmetic averaging: an activity approach Goldman, P. 37(7), 38-43 1990Teaching statistics: mean, median and mode Lappan, G. e Zawojewsky, 35, 25-26 1988

7. Behavior Research Methods, Instruments & Computers (USP-IP: 1984-1999)Exactly how many p values is a picture worth? Acommentary on Loftus’s plot-plus-error-bar approach

Morrison, G. R. e Weaver, B.See replay by Loftus

27(1), 52-5357-59

1995

Data analysis as insight: reply to Morrison andWeaver

Loftus, G. R. 27(1), 57-59 1995

An introductory Statistics Class and Examinationusing SPSS/PC

E.F. Rosen & B. Feeney 26(2), 242-244 1994

Graphics in psychology: pictures, data, and especiallyconcepts

Butler, D. L. 25(2), 81-92 1993

“Sound” alternatives to visual graphics for exploratorydata analysis

Flowers, J. H. e Hauer, T. A. 25(2), 242-249 1993

A picture is worth a thousand p values: On theirrelevance of hypothesis testing in the microcomputerage

Loftus, G. R. 25(2), 250-256 1993

8. Chance (USP-IME: 1938-2000) (IMECC-UNICAMP: só tem os mais recentes)Visual revelations: like a trout in the milk Wainer, H. 10(4), 34-39 1997Visual revelations: Tom’s veggies and the americanway

Wainer, H. 10(3), 40-42 1997

Visual revelations: Graphical Birth announcements Wainer, H. 10(2), 58-60 1997Visual revelations: who was Playfair? Wainer, H. 10(1), 35-37 1997A statistical error in the Bell Curve Kaplan, J. 10(1), 20-21 1997Measuring graphicacy Wainer, H. 3,52-58 1990Double y-axis graphs Wainer, H. 4, 50-51 1991Humble pie Wainer, H. 4, 52-53 1991Plotting in the modern world Wainer, H. 1, 10-20 1988

9. Cognition (USP-IP: 1972-1999)Are humans good intuitive statisticians after all?Rethinking some conclusions from the literature onjudgment under uncertainly

Cosmedes, L E Togby, J. 58, 1-73 1996

Images and inference Lindsay, R. K. 29, 229-250 1988Visual cognition: an introduction Pinker, S. 18, 1-63 1984Parts of recognition Hoffmann, D. D. e Richards,

W. A18, 65-96 1984

Visual routines Ullman, S. 18, 97-159 1984Variants of uncertainty Kahneman, D. e Tversky, ª 11(2): 143-157 1982



173

10. Cognitive psychology (FE: 1977-1999)The representation of location in visual images Cave, K. R., Pinker, S. ,

Giorgi, Tomas, C. E., Heller,L. M., Wolfe, M. J. e Lin, H.

26, 1-32 1994

Mental rotation, mental representation, and flat slopes Cohen, D. e Kubovy 25, 351-382 1993Shape recognition inputs to figure groundorganization in three dimensional display

Peterson, M. A . e Gibson, B.S.

25(3), 383-429 1993

Common Region: a new principle of perceptualgrouping

Palmer, S. E. 24: 436-447 1992

The effects of statistical training on thinking abouteveryday Problems

Fong, G. T., Krantz, D. H. eNisbett, R. E.

18: 253-292 1986

Pragmatic reasoning schemas Cheng, P. W. e Holyoak, K. J. 17, 391-416 1986Pragmatic versus syntactic approach to trainingdeductive reasoning

Cheng, P. W. Holyoak, K. J.,Nisbett, R. E. e Oliver, L. M.

18, 293-328 1986

Subjective probability: a judgment ofrepresentativeness

Kanhemann, D. e Tversky, A. 3, 430-454 1972

11. Computers and Education (FE: 1982-1999)Students attitudes towards computers: validation of acomputer attitude scale for 16-19 Education

Selwyn, N. 28(1) 35-41 1997

Visual reasoning instructional software system Hubbard, C., Mengshoel, º J. eMoon, C.

28(4), 237-350 1997

The design and implementation of na interactivelearning for Statistical reasoning with Uncertanly

Vastola, D. A . & Walker, E. L.25(4) 193-213 1995

A workshop approach using spreadsheets for theteaching of Statistics and Probability

Hall, ª G. 25(1/2) 5-12 1995

A study of pupils’ graph concepts with a qualitativeinteractive graph sketching program

Preece, J. 8(1), 159-163 1984

12. Educação e Matemática (IME)Tecnologia gráfica no estudo de classes de funções Fernandes, J. A . 46, 33-36 1998Estatística – os perigos da interpretação Pestana, D. 42, 31-33 1997Aprender a ler, aprender estatística Pestana, D. 38, 1 1996Como alguns procedimentos de ensino estãocontribuindo para o erro e o fracasso em Matemática

David, M. M. e Machado, Mda P.

40, 25-29 1996

Aprender a não pensar Pato, H. 5, 3-4 1988

13. Educational and Psychological Measurement (FE: 1963-1998)Seminal Reading on Reliability and Validity: A “HitParade” Bibliography

B. Thompson & L. G. Daniel 56(5), 741-745 1996

Pratical Significance: A concept Whose Time HasCome

R. E. Kirk 56(5). 746-759 1996

Factor analytic Evidence for the construct validity ofscores: a historical overview and some guidelines

Thompson, B. e Daniel, L. G. 56(2), 197-208 1996

Stepwise regression and stepwise discriminantanalysis need not apply here: a guidelines editorial

Thompson, B. 55(4), 525-534 1995



174

The development and validation of the survey ofattitudes toward statistics

Schau, C., Stevens, J.,Dauphinee, T. L. e Vecchio, A

55(5), 868-875 1995

Guidelines for Autors Thompson, B. 54(4), 837-847 1994Relations Amongs Dimensions of StatisticalKnowledge

C.J. Huberty, J. Dresden & B-G Bak

53. 523-532 1993

Psychometric data on the statistics anxiety scale for asample of south african students

Pretorius, T. B. e Norman, A.M

52 933-937 1992

The development and factors of the structure of theeducational beliefs questionnaire

Silvernail, D.L. 52(3) 663-667 1992

Attitudes toward statistics: na evaluation of multiplemeasures

Waters, I. K., Martelli, T. A .,Zakrajset, T. e Popovic, P. M.

48, 513-516 1988

A comparison of Two Scales Measuring AttitudesToward Statistics

D. M. Roberts & C. M. Reese 47, 759-764 1987

A model of statistics achievement using spatialability, feminist attitudes and mathematics-relatedvariables as predictors

Elmore, P. B. e Vasu, E. S. 46, 215-222 1986

The Development and Validation of a ScaleMeasuring Attitudes Toward Statistics

S. L. Wise 45, 401-405 1985

Validity of a Statistics Attitude Survey: A Follow-upStudy

D. M. Roberts and J. E. Saxe 42, 907-912 1982

Reliability and Validity of a Statistics AttitudeSurvey

D. M. Roberts & E. W.Bilderback

40, 235-238 1980

14. Educational Researcher (FE: 1979-1999)Abilities Are Forms of Developing Expertise R. J. Sternberg 27(3): 11-20 1998Reflections on Statistical and SubstantiveSignificance, Whit a Slice of Replication

D. H. Robinson & J. R. Levin 26(5): 21-26 1997

Editorial Policies Regarding Statistical SignificanceTest; Further Comments

B. Thompson 26(5): 29-32 1997

AERA Editorial Policies Regarding StatisticalSignificance Testing: Three Suggested Reforms

B. Thompson 25(2): 26-30 1997

Understanding graphs and tables Wainer, H. 21(1): 14-23 1992

15. Educational Studies In Mathematics (IMECC: 75-99)Title Autor Vol Ano

The beginning of statistical inference: comparing twodata sets

Watson, J. M. e Moritz, J. B. 37: 145-168 1999

Studying attitude to Mathematics Ruffell, M., Mason, J. and Allen, B.

35: 1-18 1998

The effects of a preparatory mathematics programin changing prospective teachers’’ attitudes towardsmathematics

Philippou, G. N. e Christou,C.

35-189-206checar o nº

1998

Exploring the functionality of visual and non-visualstrategies in solving rotation problems

Gogorió, N. 35: 207-231 1998

Teaching probability for conceptual change Sáenz Castro, C. 35: 233-254 1998



175

Understanding periodicity as a process with aGestalt

Shama, G. 35: 255-281 1998

Schemata and intuitions in combinatorial reasoning Fischbein, E. e Grossman, A. 34: 27-47 1997 The Development of fifth-grade children’s problemsolving abilities

English, L.D. 34: 183-217 1997

Relative and Absolute Thinking in VisualEstimation Process

Z. Markovits & R.Hershkowitz

32: 29-47 1997

A Framework for Assessing and Nurturing YoungChildren ´s Thinking in Probability

G. A . Jones, C. W. Langrall,C. A Thornton & A T. Mogill

32: 101-125 1997

From Verbal Descriptions to GraphicRepresentations: Stability and Change in Students’Alternatives Conceptions

Z. R. Mevarech & B.Kramarsky

32: 229-263 1997

Uncontrolable mental imagery: graphicalconnections between ...

Aspinwall, L. Shaw, K. L. ePresmeg, N. C.

33, 301-317 1997

Mathematical connecting the visual with thesimbolic

Noss, R., Healy, L e Holyles,C.

33, 203-233 1997

On mathematical visualization and the place wherewe live

Nemirovsky, R e Noble, T. 33, 99-131 1997

Student Teachers ´ Subject Matter KnowledgeWithin the Domain of Area Measurement

A Baturo & R. Nason 31: 235-268 1996

Students’ Ability to Visualize Set Expressions: AnInitial Investigation

T. Hodgson 30: 159-178 1996

Circumventing Visual Limitations in Teaching TheGeometry of Shapes

T. A Triadafillidis 29: 225-235 1995

Visual Processing During Mathematical ProblemSolving

K. J. Campbell, K. F. Collis& J. M. Watson

28: 177-194 1995

Mathematics Achievement and Gender: ALongitudinal Study of selected Cognitive andAffective variables (Grades 6-12)

L. A Tartre & E. Fennema 28: 199-217 1995

Conceptions D’Eleves Sur la Notion de ProbabilitéConditionelle Revélées par une Méthode D´Analysedes Données: Implication-Similarité-Corrélation

R. Gras & A. Totohasina 28: 337-363 1995

Facility with Plane Shapes: a Multifaceted Skill E. Warren & L. English 28: 365-383 1995Circumventing visual limitations in teaching thegeometry of shapes

Triadafillidis, T. A. 29, 225-235 1995

Visual, Algebraic and Mixed strategies in VisuallyPresented Linear Programming Problems

G. Shama & T. Dreyfus 26: 45-70 1994

Using Peer and Self-Assessment to developModeling Skills With Students Aged 11 to 16: ASocio – constructive View

H. Tanner & S. Jones 27: 413-431 1994

Les representations graphiques dans le resolution deproblemes: une experience d’entrainementd’etudiants dans un club mathematique

Callejo, M. L. 27, 1-33 1994

The Theory of figural Concepts E. Fischbein 24: 139-162 1993Angle e Rotation: Effects of Different Types ofFeedback on the Quality of response

M. Simmons & P. Cope 24: 163-176 1993

Visual theorems Philips, D 24: 333-344 1993



176

A comparative study of two natiowideexaminations: maths with calculus and maths withstatistics

Morton, M., Reilly, B.Robinson, E. e Forbes, S.

26, 367-387 1993

Development of the process conception of function Breinbach, D. Dubinsky, E.Hawks, J. e Nichols, D.

23: 247-285 1992

Cognitive Models and problem Spaces in “PurelyRandom’ Situations

M-P Lecoutre 23: 557-568 1992

Prototypes, metaphors, metonymies andimaginative rationality in high school

Presmeg, N. C. 23, 505-610 1992

Book review “The body in the mind: the bodilybasis of meaning ...”

Presmeg, N. C. 23, 307-314 1992

On the dual nature of mathematical conceptions:reflections on processes and objects as differentsides of the same coin

Sfard, A. 22: 1-36 1991

Factors Affecting Probabilistic Judgements inChildren and Adolescents

E. Fischbein, M. S. Nello &M. S. Marino

22: 523-549 1991

Factors contributing to success in mathematicalestimation in preservice teachers: types of problemsand previous mathematical experience

Gliner, G. S. 22: 595-606 1991

The concept of chance in everyday teaching:Aspects of a social epistemology of mathematicalknowledge

Steinbring, H. 22: 503-522 1991

Young children combinatory strategies English, L. D. 22, 451-474 1991The influence of graphic calculator use ontranslation from graphic to symbolic forms

Ruthven, K. 21: 431-450 1990

Visualization and mathematical giftedness Presmeg, N. C. 17: 297-311 1986Proportional reasoning: a review of the literature Tourniaire, F e Pulos, S. 16, 181-204 1985Visualizing rectangular solids made of small cubes:analyzing and effecting students’ performance

Bem-Haim, D., Lappan, G. eHouang, R. T.

16: 389-409 1985

Children conceptions of probability – apsychological and pedagogical review

Hawkins, A. S. e Kapadia, R. 15:349-377 1984

A deep structure model of students’ statisticalmisconceptions.

Mevarech, Z. R. 14: 415-429 1983

Concept image and concept definition inmathematics with particular reference to limits andcontinuity

Tall, D. e Vinner, S. 12: 151-169 1981

Concept or computation: students’ understanding ofthe mean

Pollatsek, A., Lima, S. eWell, A. D.

12: 191-204 1981

Spatial ability, visual imagery and mathematicalperformance

Lean, G. e Clements, M. A. 12: 267-299 1981

Is it possible to measure the intuitive acceptance ofa mathematical statement?

Fischbein, E., Tirosh, D. eMelamed, U.

12: 491-512 1981

Spatial abilities and mathematics education – areview

Bishop, A. J. 11: 257-269 1980

The development of proportional reasoning and theratio concept. Part I: differentation of stages

Noelting, G. 11, 217-253 1980



177

Misconception of probability: an experiment with asmall-group, activity-based, model buildingapproach to introductory probability at the collegelevel

Shaughnessy, J. M. 8, 295-316 1977

An epistemological view on fundamental ideas Hietele, D. 6, 187-205 1975

16. Intelligence (FE: 1981-1998)Visual information processing and intelligence Deary, I. J., McCrimmon, R. J.

e Bradshaw, J.24(3), 461-479 1997

Sex differences in visual spatial ability in 9-Anos oldchildren

Vederhus, L. e Krekling, S. 23(1), 33-43 1996

The General Factor in Short-Term Memory,Intelligence, and Reaction Time

Miller, L.T & Vernon, P. ª 16(1) 5-29 1992

Numerical Cognition: on the convergence ofComponential and Psychometric Models

Geary, D.C. & Widaman, K. F. 16(1) 47-80 1992

Ability Differences and Prose Learning Ernest, C. H. 15(4) 455-77 1991

17. International Statistical Review (IMECC: 1972-1998)Title Author Vol YearProfessional development for teachers of probabilityand statistics: into an era of technology

Watson, J. M. 66(3), 271-289 1998

Software for Learning and for Doing Statistics R. Biehler 65(2): 167-189 1997New Pedagogy and New Content: The Case ofStatistics

D. S. Moore 65(2): 123-165 1997

The Current Position of statistics: A personal View D. R. Cox 65(3): 261-290 1997Characteristics of an Effective statistical System P. Fellegi 64(2): 165-197 1996Making Statistical Data More Available B. Sundgren 64(1): 23-38 1996The Coming of Age of Statistical Education D. Vere-Jones 63(1): 3-23 1995How Students Learn Statistics J. Garfield 63(1): 25-34 1995Continuous Quality Improvement in HigherEducation

R. V. Hogg & M. C. Hogg 63(1): 35-48 1995

Frank Yates, 1902-1994 – The Work of a Statistician M. J. R. Healy 63(3): 271-288 1995The Role of Statisticians S. Moriguti, P. J. Diggle, J. C.

Gower, K.K. Wallman & W SRen

60(3): 227-246 1992

18. JASA - Journal Of The American Statistical Association (IMECC: 1935-1998)Título Autor (es) Vol YearShaping for Success in the 21st Century J. R. Kettenring 97, 1229-1234 1997Statistics as a Profession J. S. Hunter 94, 1-6 1994Enhancing Statistical Literacy: Enriching Our Society K. K. Wallman 93. 1-8 1993The Newman-Pearson theories of testing hypothesis:one or two?

Lehman, E. L. 88, 1242-1249 1993

Statistics, Science and Public Policy A. Zellner 92, 1-6 1992Through a Glass Less Darkly V. P. Barabba 91, 1-8 1991



178

Statistics and Public Policy: Reflections of aChanging World

J. L. Norwood 90, 1-5 1990

How to Hope With Statistics R. V. Hogg 89, 1-5 1989Discriminating Strata in Scatterplots Lewandowsky, S. e Spence, I. 84, 682-688 1989Statistical Practice and Research: The EssentialInteractions

B. A. Bailar 88, 1-8 1988

The Importance of Statisticians D. W. Marquardt 87, 1-7 1987An information-processing analysis of graphperception

Simkim, D. e Hastie, R. 82, 454-465 1987

Research in Statistical Graphics Cleveland, W. S. 82, 419-423 1987Boundaries of Statistics-Sharp or Fuzzy J. Neter 86, 1-8 1986Statisticians, Econometricians, and AdversaryProceedings

F. M. Fisher 86,277-286 1986

Graphing and Human Information processing Kosslyn, S. M. 80, 499-512 1985Goals: Where Are We and Where Should We BeGoing?

R. L. Anderson 84, 253-258 1984

Graphical perception: theory, experimentation, andapplication to the development of graphical methods

Cleveland, W. S e McGill, R. 79, 531-554 1984

The many faces of a scatterplot Cleveland, W. S. e McGill, R. 79, 807-822 1984Preparation of manuscripts for ASA journals ASA 77, 226-229 1982The future of statistics as a discipline Bradley, R. A 77, 1-10 1982Judgments of circle sizes on statistical maps Cleveland, W. S. , Harris, C. S

e McGill R.77, 541-547 1982

Statistics as a science and as a profession Hartley, H. O 75, 1-7 1980Chance, statistics, and statisticians Kish, L. 73, 1-6 1978Science and Statistics Box, G. E. P. 71, 791-799 1976Errors of the kind in statistical consulting Kimball, A W. 52, 133-142 1957On the distinction between enumerative and analyticsurveys

Deming, W. E. 48, 244-255 1953

19. Journal For Research In Mathematics Education (IMECC: 75-99)Título Autor(es) Vol Ano

Young children’s concepts of shape Clements, D. H., Swaninathan,S. Hannibal, M. A. Z. eSarama, J.

30(2): 192-212 1999

The effects of a graphing-approach intermediatealgebra curriculum on students’ understanding offunction

Hollar, J. C. e Norwood, K. 30(2): 220-226 1999

Students’ probabilistic thinking in instruction Jones, G. A.; Langrall, C. W.;Thorton, C. A. e Mogill, A. T.

30(5), 487-519 1999

A Meta-Analysis of the Relationship BetweenAnxiety Toward Mathematics and Achievement inMathematics:

Ma, X. 30(5), 520-540 1999

The meaning of randomness for secondary schoolstudents

Batanero, C. e serrano, L. 30(5), 558-567 1999



179

Relationship between computational performanceand num-ber sense among sixth and eighth-gradestudents in Taiwan

Reys, R. E., Yang, D-C e tipei,T.

29(5): 225-237 1998

Students’ spatial structuring of 2D arrays of squares Battista, M. T., Clements, D.H. Arnoff, J., Battista, K. eBorrow, C. V. A.

29(5): 503-532 1998

Assessing the Relationship Between Attitude TowardMathematics and Achievement in Mathematics: AMeta-Analysis

X. Ma & N. Kishor 28(1): 26-47 1997

Assessing the Relationship Between Attitude TowardMathematics and Achievement in Mathematics: AMeta-Analysis

X. Ma & N. Kishor 28(1): 26-47 1997

The evolution whit age of probabilistics, intuitivelybased misconceptions

Fischbein, E. e Schnarch, D. Checar 1997

Mathematical Task and student Cognition:Classroom-Based factors That Support and InhibitHigh-Level Mathematical Thinking and Reasoning

M. Henningsen & M. K. Stein 28(5): 524-549 1997

Intuitive Strategies and Preconceptions AboutAssociation in Contingency Tables

C. Batanero, A. Estepa, J. D.Godino & D. R. Green

27(2): 151-169 1996

Gender-related Differences in Self-ReferencedCognitions in Relation to Mathematics

G. Seegers & M. Boekaerts 27(2): 215-240 1996

Students ´ Understanding of Three - DimensionalRectangular Array of Cubes

M. T. Battista & D.H.Clements

27(3): 258-292 1996

Coordinating Visual and Analytic Strategies: A studyof Students ´ Understanding of the Group D4

R. Zazkis, E. Dubinsky & J.Dautermann

27(4): 435-457 1996

Children’s concepts of average andrepresentativeness

Mokros, J. e Russell, S. J. 26(1): 20-39 1995

Motivation and Ability as Factors in MathematicsExperience and Achievement

U. Schiefele & M.Csikszentmihalyi

26(2): 163-181 1995

Factors associated with types of mathematics anxietyin college students

Bessant, K. C. 26(4), 327-345 1995

Developing number sense: an intervention study ingrade

Markovits, Z. e Sowder, J. 25(1): 4-29 1994

On Greeno’ s environmental /model view ofconceptual domains: a spatial/geometric perspective

Battista, M. T 25(1): 86-99 1994

Ratio and proportion: connecting content andchildren’s thinking

Lamon, S. J. 24(1): 41-61 1993

Cognitive Models Underlying Students ´ Formulationof simple Linear Equations

M. MacGregor & K. Stacey 24(3): 217-232 1993

Children ´s Strategies for Solving Two- and Three –Dimensional Combinatorial problems

L. D. English 24(3): 255-273 1993

Inconsistencies in Students ´ Reasoning AboutProbability

C. Konold, A. Pollatsek, ªWell, J. Lohmeier & A Lipson

24(5): 392-414 1993

Gender Differences in a Psychological Model ofMathematics Achievement

C. A. Ethington 23(2): 166-181 1992

A Process Model of Mathematics Achievement andAttitude

A. J. Reynolds & H. J.Walberg

23(4): 306-328 1992

A construstivist alternative to the representationalview of mind in mathematics education

Cobb, P., Jackel, E. e Wood, T. 23: 2-33 1992



180

Number sense as situated knowing in a conceptualdomain

Greeno, J. G. 22(3): 170-218 1991

An Alternative Paradigm to Evaluate the Acquisitionof the Van Hiele levels

A . Gutierrez, A . Jaime & J. MFortuny

22(3): 237-251 1991

Spatial Visualization and Gender Differences in HighSchool Geometry

M. T. Batista 21(1): 47-60 1990

Spatial Orientation Skill and Mathematical ProblemSolving

L. A . Tartre 21(3): 216-229 1990

Images and definitions for the concept of function Vinner, S. e Dreyfus, T. 20(4), 356-366 1989Difficulties in learning basic concepts in probabilityand statistics: implications for research

Garfield, J e Alhgren, A (1988) 19(1): 44-63 1988

The development of children’s concepts of thearithmetic average

Straus, S. e Bichler, E. 19(1): 64-80 1988

Computer experiences in learning compositions offunctions

Ayers, T. Davis, G. Dubinsky,E. e Lewin, P.

19, 243-259 1988

Comprehension of mathematical relationshipexpressed in graphs

Curcio, F. R. 18(5): 382-393 1987

Characterizing the van Hiele levels of developmentin geometry

Burger, W. F. e Shaughnessy,J. M.

17(1): 31-48 1986

Metacognition, cognitive monitoring, andmathematical performance

Garofalo, J. Lester, F. K. Jr. 16(3): 163-176 1985

The use of spatial visualization in mathematics bygirls and boys

Fennema, E. e Tartre, L. A. 16(3): 184-206 1985

Cognitive development children’s solutions to verbalarithmetic problems

Hiebert, J. Carpenter, T. D. eMosr, J. M.

13, 83-98 1982

Processes used by good computational estimators Reys, R. E., Bestgen, B. J.,Rybolt, J. F. e Wyatt, J. W.

13(3): 183-201 1982

Intuitive functional concepts: a baseline study ofintuitions

Dreyfus, T. e Einsberg, T. 13(5): 360-380 1982

The importance of spatial visualization and cognitivedevelopment for geometry learning in pre-serviceelementary teacher

Battista, M. T.; Wheatley, G.H. e Talsma, G.

13(5): 332-340 1982

Prediction of developmental stages in therepresentation of regular space figures

Mitchelmore, M. C. 11(2): 83-93 1980

A phase-ability model of mathematics problemsolving

Kulm, G e Bussmann, H. 11(3): 179-189 1980

Sex-related differences in mathematics achievementand related factors: a further study

Fennema, E. H. e Sherman, J.A.

9 (x): 189-203 1978

20. Journal of Counseling Psychology (FE: 1978-1998)Discriminant and predictive Validity of AcademicSelf - Concept, Academic Self-Efficacy, andMathematics-Specific Self-Efficacy

R. W Lent, S. D. Brown &Paul A. Gore

44(3), 307-315

1997

Measurement and Dimensionality of MathematicsAnxiety

J. B. Rounds, D. D. Hendel 27(2), 138-149

1980

Type I error in counseling research: a plea formultivariate analysis

Leary, M. R. & Altemeir 27, 611-615 1980



181

Prevalence, distribution and correlates of mathanxiety in college students

Betz, N. E. 25, 441-448 1978

Predicting math anxiety and course performance incollege women and men

Llabre, M. M. e Suarez, E. 32, 283-287 1985

21. Journal of Educational And Behavioral Statistics (IMECC: 1994-1999)Title Author Vol YearEvaluating Statistics Texts Used in Education M.R. Harwell, M. L. Herrick,

D. Curtis, D. Mundfrom & K.Gold

21(1), 3-34 1996

Identifying Impediment to Learning Probability andStatistics From an Assessment of InstructionalSoftware

S. Cohen, G. Smith, R. A .Chechile, G. Burns & F Tsai

21(1), 35-54 1996

A Meta-Analysis of gender Differences in AppliedStatistics Achievement

C. M. Schram 21(1), 55-70 1996

22. Journal of Educational and Measurement (FE: 1973-1999)Probability-Based Inference in a Domain ofProportional Reasoning Task

A. Béland & R. J. Mislevy 33(1), 3-27 1996

Cognitive Design Principles and SuccessfulPerformer: A Study on Spatial ability

S. E. Embrestson 33(1), 29-39 1996

The effects of Component Variables on Performancein Graphs Comprehension Test

Y. Attali & C. Goldschmidt 33(1), 93-105 1996

Relations among dimension of statistical knowledge Huberty, C. J., Dresden, J. eBak, B-G

53, 523-532 1993

23. Journal of Educational Psychology (FE: 1960-1998)Generaly of Academic Self-Efficacy Judgments:Evidence of Hierarchical Relations

Bong, M. 89(4): 696-709 1997

Avoiding the Demonstration of Lack of Ability: AnUnderexplored Aspect of Goal Theory

Middleton, M.J. & Midgley,C.

89(4):710-718 1997

No Pain, No Gain? The Importance of MeasuringCourse Workload in Students Ratings of Instruction

Greenwald, A. G & GillmoreM.

89(4): 743-751 1997

Discrimination of Two aspects of Cognitive-SocialIntelligence From Academic Intelligence

Jones, J. & Day. J.D 89(3): 486-497 1997

Family influences on School Achievement in Low-Income, African American Children

Halle, T.G; Kurtz-Costes, B.& Mahoney, J.L.

89(3): 527-537 1997

“Should I Ask for Help?” The role of motivation andattitudes in Adolescents ´ help seeking in Math Class

Ryan, A. M. and Pintrich, P.R.

89(2): 329-341 1997

The Shavelson Model Revisited: Testing for theStructure of academic Self-Concept Across Pre-,Early, and Late Adolescents

Byrne, B. M. & Gavin, D. A.W.

88(2):215-228 1996

The structure of abilities in Math-Precocious YoungChildren: Gender Similarities and Differences

Robinson, N.M.; Abboutt, R.DBerninger, V.W. & Busse, J.

88(2): 341-352 1996

Role of Examples in How Students Learn toCategorize Statistics Word Problems

Quilice, J. L. & Mayer, R.E. 88(1):144-161 1996

Effects of drawing on directional representation ofthe process of vision

Winer, G. A. e Cotrell, J. E. 88(4), 704-714 1996



182

Comprehension Calibration and Recall PredictionAccuracy of Texts: Reading Skill, ReadingStrategies, and Effort

Gillstrom, A. & Ronnberg, J. 87(4): 545-558 1995

Effects of Math Self-Concept, Perceived Self-Efficacy, and Attributions for failure and Success onTest Anxiety

Bandalos, D.L; Yates, K &Thorndike-Christ, T

87(4): 611-623 1995

Visual Argument: Graphic Organizers Are Superiorto Outlines in Improving Learning From Text

Robinson, D.H e Kiewra, K.A.

87(3): 455-467 1995

Effects of Teaching Statistical Laws on ReasoningAbout Everyday Problems

Kosonen, P & Winne, P. H. 87(1): 33-46 1995

Effects of a Visible Autor in Statistical Texts Nolen, S. B. 87(1), 47-65 1995A Multitrait-Multimethod Study of Academic andSocial Intelligence in College Students

Wong, C-M. T, Day, J.D.,Maxwell, S. E. e Meara, N. M.

87(1), 117-133 1995

Self-Concept in Artistic Domains: An Extension ofthe Shavelson, Hubner, and Stanton (1976) Model

Vispoel, W. P. 87(1), 134-153 1995

Determinants of learning and Performance in anAssociative Memory/Substitution Task: TaskConstraints, Individual Differences, Volition, andMotivation

Ackerman, P. L. & Woltz, D.J.

86(4), 487-515 1994

Using the National Longitudinal Study of !988 toEvaluate Theoretical Models of Self-Concept: TheSelf-description Questionnaire

Marsh, H. W. 86(3), 439-456 1994

Role of Self-Efficacy and Self-Concept Belief inMathematical Problem Solving: A Path Analysis

Pajares, F & Miller, M. D. 86(2), 195-203 1994

Gender Differences in Scholastics Aptitude Test-Mathematics problem Solving Among High-AbilityStudents

Gallagher A. M. & De Lisi,R.

86(2), 204-211 1994

Structural knowledge Assessment: Comparison ofreferent structures

Acton, W. H. , Johnson, P.J. eGoldsmith, T.E.

86, 303-311 1994

Editorial 85(1), 3-6 1993Role of Mathematics Self-efficacy in the StructuralModel of Mathematics Achievement

Randhawa, B. S., Beamer, J. Ee Lundberg, I.

85(1), 41-48 1993

Patterns of Student Growth in Reasoning AboutCorrelational Problems

Ross, J. A. e Cousins, J. B. 85(1), 49-65 1993

Development of Young Readers´ PhonologicalProcessing Abilities

Wagner, R. K., Torgesen, J.K., Laughon, P., Simmons K.eRashotte, C. A.

85(1), 83-103 1993

Training Strategies for Attaining Transfer ofProblem-Solving Skill in Statistics: A Cognitive-Load Approach

Paas, F. G. W. C. 84(4) 429-434 1992

Abilities Test, Measurement, and Markets Stemberg, R. J. 84(2) 134-140 1992Instructional Strategies to Help Learners BuildRelevant mental Models in Inferential Statistics

Hong, E. e O´Neil, H. F. 84(2) 150-159 1992

Academic Achievement in Mathematics and Scienceof Students between Ages 13 and 23: Are thereDifferences Among Students in the Top One Percentof Mathematical Ability

Benbow, C. P. 84(1), 51-61 1992

Hierarchical Ordering of Schematic KnowledgeRelating to Area-of –Rectangle Problems

Low, R e Over, R. 84(1), 62-69 1992



183

Predictors of math anxiety and its influence on youngadolescents’ course enrollments intentions andperformance in mathematics

Meece, J. L., Wigfield, A ., eEccles, J. S.

82, 60-70 1990

Effects of attitudes, strategy training, and task facetson spatial task performance

Kyllonen, P. C., Lohman, D.F. e Snow, R. E.

76(1): 130-145 1984

Usefulness of a balance model in understanding themean

Hardiman, P. Well, A. ePollatsek, A.

76, 793-801 1984

Relationship between selected variables and statisticsachievement: building a theoretical model

Elmore, P. B. & Vasu, E. S. 72(4), 457-467 1980

Mathematics anxiety rating scale: Predicting anxietyexperiences and academic performance in two groupsof students

Morris, I. W., Kellaway, D. S.& Smith, D. H.

70(4), 589-594 1978

Construct validity of test items measuring acquisitionof information from line graphs

Price, J. R., Martuza, V. R. eCrouse, J. H.

66(1), 152-156 1974

24. Journal of Experimental Psychology: Human Perception and performance (USP-IP)Decomposition visual search: evidence of multipleitem-specific skills

Hillstron, A. P. e Logan, G. D. 24(5): 1385-1398

1998

Attentional control within 3-D space Theeuwes, J., Atchley, P eKramer, F.

24(5), 1476-1485

1998

Visual structure and the integration of form and colorinformation

Khurana, B. 24(6): 1766-1785

1998

Recognizing Depth-rotated objects: evidence andconditions for three-dimensional viewpoint invariance

Biederman, I. e Gerhardstein,P. C.

19(6), 1162-1182

1993

Reversing visual search asymmetries withconjunctions of movement and orientation

Driver J. e McLeod, P. 18(1), 22-33 1992

Complex decision rules in categorization: contrastingnovice and experienced performance

Ashby, F. G. e Maddox, W. T. 18(1), 50-71 1992

Size invariance in visual object priming Biederman, I. e Cooper, E. E. 18(1), 121-133 1992Mental rotation, physical rotation, and surface media Jolicoeur, P e Cavanagh, P. 18(2), 371-384 1992Visual Psychophysics of simple graphical elements Spence, I. 16(4): 683-692 1990Principles of perceptual organization and spatialdistortion: the Gestalt illusions

Coren, S. e Girgus, J. S. 6(3), 404-412 1980

25. Journal of Experimental Psychology: Learning, Memory and Cognition (USP-IP)Priming and recognition of transformed three-dimensional objects: effects of size and reflection

Cooper, L. A ., Ballesteros, S.,Schacter, D. L. e Moore, C.

18(1), 43-57 1992

Mental representation of three-dimensional objects invisual problem solving and recognition

Cooper, L. A. 16(6): 1097-1106

1990

Spontaneous Imagery scanning in mentalextrapolation

Finke, R. A. e Pinker, S. 8(2), 142-147 1982

26. Journal of Experimental Psychology: General (USP-IP)Conceptual limitations in comprehending line graph Shah, P. e Carpenter, P. A. 124(1), 43-61 1996Inferring category characteristics from samplecharacteristics inductive reasoning and socialprojection

Krueger, T. e Clement, R. W. . 125(1),52-62 1996



184

Distributional and singular approaches to probabilityand errors in probabilistic reasoning

Reeves, T e Lockhart, R. S. 122(2), 207-226

1993

Immediate and delayed transfer of training effects instatistical reasoning

Fong, G. T. e Nisbett, R. E. 120, 34-45 1991

Perceptual and conceptual factors in distortions inmemory for graphs and maps

Tversky, B. e Schiano, D. J. 118, 387-398 1989

27. Journal of Research in Science TeachingEffect of a laboratory manual design incorporatingvisual information-processing aids on student learningand attitudes

Dechsri, P., Jones, L. L. eHeikkinen, H. W.

34(9) 891-904 1997

An investigation of the relationship between logicalthinking structures and the ability to construct andinterpreted line graph

Berg, C. A. e Philips, D. A. 31, 323-344 1994

The effect of simultaneous motion presentation andgraph generation in kinematics lab

Beichner, R. J. 27(8), 803-815 1990

Logical reasoning necessary to make line graphs Wavering, M. J. 26, 373-379 1989The impact of microcomputer-based labs onchildren’s ability to interpret graphs

Mokros, J. R. e Tinker, R. F. 24, 369-383 1987

Evaluations of science laboratory data: the role ofcomputer-presented information

Nachmias, R. e Linn, M. C. 24(5), 491-506 1987

The effect of real time laboratory graphig on learningrepresentations of distance and velocity

Brasell, H. 24(4), 385-395 1987

The construction and validation of the test of graphingin science (TOGS)

Mckenzie, D. L. e Padilla, M.J.

23, 571-579 1986

Performance of students in grade six, nine e twelve onfive logical spatial and formal task

Wavering, M., Perry, B.,Kelsey, L., e Birdd, D.

23, 321-333 1986

28. Mathematics Teacher (FE- UNICAMP e IME-USP)Título Autor Volume AnoUnderstanding connections between equations andgraphs

Knuth, E. J. 93, 48-58 2000

The coefficient of determination: understanding r2 eR2

Barret, G. B. 93, 230-234 2000

Using financial headlines and the internet to keepstatistics classes fresh

Durkin, M. B. 93, 318-323 2000

Using simulation on the internet to teach statistics Ming Ng, V. e Wong, K. Y. 92, 729-737 1999Teaching statistics using humorous anecdotes Friedman, H. H., Halpern, N. e

Salb, D.92, 305-308 1999

Random variables: simulations and surprisingconnections

Quinn, R. J. e Tomlinson, S. 92, 4-9 1999

Welcome to our focus issue on statistics Editorial 92, 658-659 1999Titanic: a statistical exploration Takis, S. L. 92,660-664 1999Mean machines Flores, A. 91(3), 266-268 1998Visualizing least-squares line and best-fit Embse, C. V. 90(5), 404-408 1997Assessing students ability to analyze data Curcio, F. L. e Artzt, A. F. ? 1996Visual representation of mean and standard deviation Vonder, E. C. 89(8), 688-692 1996



185

Analyzing Data Relating to the Challenger Disaster L. Tappin 87(6): 423-426 1994Statistics in classroom: written projects portrayingreal world situations

Summers, J. 85(4), 310-313 1992

A Brief Look at the History of Probability andStatistics

J. E. Lightner :623-630 1991

Wich mean do you mean? Lubecke, A M. 84(1), 24-28 1991Popular measures of central tendency Mogull, R. G. 83, 744-745 1990Students generated data in elemetary statistics Kundert, K. 332-325 1990Paradoxes in averages Mitchem, J. 82(4), 250-258 1989On the meaning of variable Shoenfeld, A. H e Arcavi, A. 81, 420-427 1988Realistics examples in elemtary statistics Barbella, P. 80, 740-743 1987Make up a story to explain the graphs Woodward, E. e Byrd, F. 77, 32-34 1984Understanding the central limit theorem Thomas, D. A. 77, 542-543 1984Mean, standard deviation, and stopping the stars Klinberling, C. 77, 633-636 1984

29. Memory and Cognition (USP-IP: 1973-1999)On people’s understanding of the diagnosticimplications of probabilistic data

Doherty, M. E.Chadwick, R.,Garavan, H.,Barr, D. eMynatt, C. R.

24(5), 644-654 1996

Isolated and interrelated concepts Goldstone, R. L. 24(5), 608-628 1996Information selection and use in hypothesis testing:what is a good question, and what is a good answer?

Slowiaczek, L. M., Klayman,J. , Sherman, S. J. e Skov, R.B.

20(4), 392-405 1992

Tracing the footsteps of Sherlock Holmes: cognitiverepresentations of hypothesis testing

Wallendael, L. R. V. e Hastie,R.

18(3), 240-250 1990

Individual differences in television comprehension Pezdek, K. Simon, S.Stoeckert, J. e Kiely, J.

15(5), 428-435 1987

Beliefs underlying random sampling Pollatsek, A., Konold, C.,Well, A. D. e Lima, S. D.

12(4), 395-401 1984

30. Psychological Bulletin (USP-IP)Ambiguities and unstead assumptions in probabilisticreasoning

Nickerson, 120(3), 410-433 1996

Gender differences in mathematics performance: ameta-analysis

Hyde, J. S., Fennema, E eLamon, S. J.

107(2): 139-155 1990

Construct validity: construct representation versusnomothetic span

Embretson, S. 93(1): 179-197 1983

Belief in the law of small numbers Tversky, A . e Kanhmann, D. 76, 105-110 1971

31. Psychological Reports (FE: 1977-1998)Evidence of Reliability and Validity for Wise´sattitude toward statistics Scale

Schultz, K. S and Koshino, H. 82: 27-31 1998

Male and female differences in anxiety about statisticsare not reflected in performance

Bradley, D. R. & Wygant, C.R.

82:245-246 1998



186

Motivation source inventory: development andvalidation of new scales na integrative taxonomy ofmotivation

Barbuto, J. E s Scholl, R. W. 82: 1011-1022 1998

Prediction of performance in na academic course byscores on measures of learning style and criticalthinking.

Gadzella, B. M. Ginther, D. W.& Bryant, G. W.

81: 595-602 1997

Definition and Measurement of Affective variables:Theoretical and Methodological Considerations

Lamon, S. J. 81: 864-866 1997

Using the internet in instruction a home page forStatistics.

Couch, J. V. 81: 999-1003 1997

Attitudes Toward Applied Statistics of PostgraduateStudents in Education in the Lebowa Region of ShoutAfrica

Glencross, M.J. and Cherian,V. I.

77: 315-322 1995

Metacognition and competence on statistical problems Claudette, M. e Christian, E. 75, 1403-1408 1994Attitudes Toward Applied Statistics of PostgraduateStudents in Education in Transkei

Glencross, M.J. and Cherian,V. I.

70: 67-75 1992

Measuring attitudes toward statistics in naintroductory course on statistics

Waters, L. K., Martelli, T.,Zakrajsek, T. e Popovich, P.M.

64, 113-114 1989

Analysis of the relationship between anxiety aboutmathematics and performance

Adams, N. A. & Holcomb, W.R.

59, 943-948 1986

Gender differences in performance on variablesrelated to achievement in graduate-level educationalstatistics

Worhlke, P. L. e Leitner, D. W.47, 1119-1125 1980

32. Psychological Review (USP-IP)Making sense of randomness: implicit encoding as abasis for judgment

Falk, R. e Konold, C. 104, 301-318 1997

Positive bias in the perception of covariation Kareev, Y. 102(3), 490-502 1995Sensory and cognitive components of visualinformation acquisition

Busey, T. A e Geoffrey, R. L. 101(3), 446-469 1994

A neural theory of attentive visual search: interactionsof boundary, surface, spatial, and objectrepresentations

Grossberg, S., Mingolla, E. eRoss, W. D.

101(3), 470-489 1994

How visual imagery interferes with vision Craver-Lemley, C. e Reeves, A 99(4), 633-649 1992Recognition-by-components: a theory of human imageunderstanding

Biederman, I. 94(2), 115-147 1987

Cognitive coordinate system: accounts of mentalrotation and individual differences in spatial ability

Just, M. ª e Carpenter, P. ª 92(2): 137-172 1985

The use of statistical heuristics in everyday inductivereasoning

Nisbett, R. E. e Krantz, D. H. 90(4): 339-363 1983

Extensional versus intuitive reasoning the conjunctionfallacy in problem judgment

Tversky, A . e Kahnemann, D. 1983

On the psychology of prediction Kahneman, D. e Tversky, A. 80(4): 237-251 1973

33. Recherches en didactique des mathematiques (FE : 1997-1998)



187

Conceptos activados en el contraste de hipótesisestadísticas y su comprensión por estudiantesuniversitários

Vallecillos, A e Batanero, C. 17(1), 29-48 1997

Comprension de la logica del contraste de hipóteses enestudiantes universitários

Vallecillos, A 15(3), 53-81 1996

Les obstacles espistémologiques et les problémes enmathematics

Brousseau, G. 4(2), 164-198 1983

Fondements et methodes de la didactique desmathematiques

Brousseau, G. 7(2), 33-115 1986

34. Review of Educational Research (FE: 1975-1998)Statistical pratices of educational researchers: ananalysis of their ANOVA, MANOVA and A C.analysis

Keselman, H. J., Huberty 68, 350-386 1998

The space factor in mathematics: gender differences Friedman, L. 65(1): 22-50 1995Functions, graphs, and graphing: task, learning, andteaching

Leinhart, G.,Zaslavsky, O. eStein, M. A.

60(1): 1-64 1990

Mathematics and gender gap: a meta-analysis of recentstudies on sex differences in mathematical task

Friedman, L. 59,185-213 1989

Implications of cognitive theory for instruction inproblem solving

Frederiksen, N. 54, 363,407 1984

Affect, ability, and science achievement: aquantitative synthesis of correlational research

Steinkamp, M. W. e Maehr,M. L.

53(3): 369-396 1983

Update on attitudes and affective variables in learningmathematics

Aiken, L. R. Jr. 46(2): 293-311 1976

35. School Science And Mathematics (FE: 1973-1998)Title Autor Vol Ano

Exploring Students´ Conceptual Understanding of theAveraging Algorithm

J. Cai 98(2): 93-98 1998

Exploration and Visualization: Making CriticalConnections About Linear Systems of Equations

K. B. Smith 97(1): 13-19 1997

Beliefs and Attitudes Toward Mathematics AmongThird-and Fifth-Grade Students: A Descriptive Study

M. Vanayan, N. White, P.Yuen & M. Teper

97(7): 345-351 1997

Implicit Assumptions and Communication inStatistics

L. Pereira-Mendoza 97(8): 429-434 1997

Exploring Probability and Statistics whit preserviceand inservice teachers

R. J. Quinn 96(5): 255-257 1996

Gender Differences in Mathematics Attitudes ofSecondary Students

M. Steinback & J. Gwizdala 95(1): 36-41 1995

Students Reactions to Learning About Probabilityand statistics: Evaluating the quantitative Literacyproject

J. Garfield 94(2): 89-95 1994

Measuring Beliefs About Mathematical ProblemSolving

P. Kloosterman & F. K. Stage 92(3): 109-115 1992



188

Teaching Elementary Probability and Statistics: SomeApplications in Epidemiology

H. Sahai & M. R. Reesal 92(3): 145-149 1992

A Longitudinal Study on Attitudes TowardMathematics by Department and Sex at theUniversity level

M. Aksu 91(5): 185-192 1991

An examination of the line graphing ability ofstudents in grades seven through twelve

Padilla, M. J. , McKenzie, D.L. e Shaw, E. L.

86. 20-26 1986

Ssmiles: Fulcrum and mean: algebra concept ofbalance

White, A L. e Berlece, D. 91(6), 272-275 1991

The average of 60 and 100 is not always 80: theharmonic mean in the firs Ano

Silver, E. A. 82(8), 682-686 1982

Exploration of the mean as a balance point Grades 6-9

Flores, A 89(3), 251-258 1989

Expanding students’ conceptions of arithmetic mean Meyer, R. A. 95(3), 114-117 1995

It´s not all garbage Aillo-Hatchman, J. e Durin, P.E.

91(6), 272-275 1991

Connections in proportional reasoning, levers,arithmetic means, mixtures batting averages, andspeeds

Flores. A. 95(8), 423-430 1995

36. Teaching of Psychology (USP-IP)Developing critical Thinking in Psychology Courses:Assessing Writing and Statistical Competence inProbability and Statistics

Smith, P. C. 22(1): 49-50 1995

Making Data Analysis Realistic: IncorporatingResearch into Statistics Courses

Thompson, W. B. 21(1): 41-43 1994

Strategies and resources for teaching statistics tovisually impaired students

Meehan, A M., Hoffert, D. eHoffert, L. C.

20(4), 242-244 1993

Elaborating selected statistical concepts withcommon experience

Weaver, K. A 19(3), 178-179 1992

Developing Selection Skills in Introductory Statistics Ware, M. E. & Chastain, J. D. 18(4): 219-222 1991Superiority of women in statistics achievement Brooks, C. I. 14: 45 1987More on superiority of women in statisticsachievement: A reply to Brooks

Buck. J. L 14: 45-46 1987

A failure to find differences in statistics achievement Buck, J. L. 12, 100 1985

37. Teaching Sociology (FE: 1981-1993)Teaching Quantitative Research Methods: A Quasi-Experimental Analysis

G. S. Bridges, J. L. Pershing,G. M. Gillmore & K. A. Bates

26, 14-28 1998

Assessing the Introduction of a Computer LaboratoryExperience into a behavioral Science Statistics Course

J. C. Raymondo & J. R. Garrett 26, 29-37 1998

Profits and Pitfalls: Thoughts on Using a LaptopComputer and Presentation Software to TeachIntroductory Statistics

J. Wilmoth & J. Wybraniec 26, 166-178 1998

Using and Interpreting Logistic Regression: A GuideFor Teachers and Students

I. L. Lottes, M. A. Adler & A.DeMaris

24, 284-298 1996



189

Using and Evaluating ISEE, a New Computerprogram for Teaching Sampling and StatisticalInference

G. Dimitrova, C. H. Persell &R. Maisel

21, 341-351 1993

Computers, Statistics, and the Introductory Course R. H. Anderson 18, 185-192 1990What´s funny about statistics? A Technique forReducing Student Anxiety

S. Schacht & B. J. Stewart 18, 52-56 1990

Are They Getting What they Expect? R. J. Gigliotti 15, 365-375 1987Some general goals in teaching statistics Blalock, H. M. 15, 164-172 1987

38. The American Statistician (IMECC-UNICAMP: 1956-1998)Título Autor(es) Volume AnoFirst(?) occurrence of common terms in probability andstatistics – a second list, with corrections

David, H. A . 52(1), 36-40 1998

Risk – A motivating theme for an introductory statisticscourse

Dargahi-Noubary, G. R. eGrowney, J. A . S.

52(1), 44-48 1998

Students projects on statistical literacy and the media Gelman, A e Nolan, D. 52(2), 160-166 1998How to read the Statistical Methods Literature: AGuide for students

J. R. Murphy 51(2):155-157 1997

A Concrete Strategy for Teaching Hypothesis Testing F. Loosen 51(2):158-163 1997Use of Map techniques in Teaching Applied StatisticsCourse

C. Schau and N. Mattern 51(2):171-175 1997

Independence and t Distribution G. Chen and A Adatia 51(2):176-177 1997Teaching Elementary Bayesian Statistics with RealApplications in Science

D. A Berry 51(3): 241-246 1997

Bayes for Beginners? Some Reason to Hesitate D. S. Moore 51(3):254-274 1997Increasing Student Participation in Large IntroductoryStatistics Classes

R. C. Magel 50(1): 51-56 1996

Teaching Introductory Statistics Courses So ThatNonstatistician Experience Statistical reasoning

T. E. Bradstreet 50(1): 69-78 1996

P-values: What They Are and What They Are Not M. J. Schervish 50(3):203-206 1996Multimedia for Teaching Statistics: Promises andPitfalls

P. F. Velleman & D. S Moore 50(3): 217-225 1996

Displaying Factor Relationship in Experiments W. A Bergerud 50(3): 228-233 1996A problem-Solving Approach to teaching BusinessStatistics

S. C. Hillmer 50(3):249-256 1996

Scatterplots for Unordered Pairs M. D. Ernst, R. Guerra & W.R. Schucany

50(3):260-265 1996

Teaching Survey Sampling R.S. Fecso, W. D. Kalsbeek,S. L. Lohr, R. L. Scheaffer, F.J. Scheuren & E. A Stasny

50(4):328-340 1996

Using Graphics and simulation to teach StatisticalConcepts

M.G. Marasinghe, W. Q.Meeker, D. Cook & T. Shin

50(4):342-351 1996

What Industry Needs J. R. Kettenring 49(1): 2-4 1995What Academia Needs P. J. Bickel 49(1): 5-6 1995What The Government Needs N.P. Ross 49(1): 7-9 1995A large Perspective J. C. Bailar III 49(1): 10-11 1995



190

Modernizing Statistics Ph. D. Programs J. Lehocczky 49(1): 12-17 1995First (?) Occurrence of Common Terms inMathematical Statistics

H. A David 49(2): 121-133 1995

Tem Suggestions for Effectively Teaching ShortCourses to Heterogeneous Groups

M. H. Kutner 49(2): 190-195 1995

Challenges in Teaching Short Courses by na AcademicDepartment: the University of Florida Experience

J. A Cornell, R. H. Randles &G. G. Vining

49(2): 195-200 1995

Teaching Short Courses in Biostatistics andEpidemiology

D. G. Kleinbaum 49(2): 200-203 1995

Statistics Education Fin de Siècle D. S. Moore, G. W. Cobb, J.Garfield & W. Q. Meeker

49(3): 250-260 1995

Project in Introductory Statistics Courses J. Ledolter 49(4): 364-367 1995The Journal of Statistics Education Information Serviceand Other Internet Resources for statistical Teachers

H. O Posten 49(4): 372-375 1995

Karl Pearson and R. A Fisher on Statistical Tests: A1935 Exchange From Nature

H. F. Inman 48(1): 2-11 1994

Electronic Publication in Statistics-Ready or not, HereThey Come

D. L. Solomon, J. T. Arnold,R. E. Trumbo & P. F.Velleman

48(3): 191-196 1994

A Core in Statistics for Engineering Students R. V. Hogg 48(4): 285-287 1994Embracing the “wider view” of statistics Wild, C. J. 48(2), 163-171 1994Integrating scientific writing into a statistics curricu-lum: a course of statistics based scientific writing

Samoa, G. e Oddone, E. Z. 48(2), 117-119 1994

What ´s Missing in Statistical Education? R. D. Snee 47(2): 149-154 1993The Place of Video in New Styles of Teaching andlearning Statistics

D. S. Moore 47(3): 172-175 1993

Teaching Bayesian Statistics Using Sampling Methodsand MINITAB

J. H. Albert 47(3): 182-191 1993

Skills for Industrial Statistician to Survive and Prosperin the Emerging Quality Environment

R. W. Hoerl, J. H. Hooper, P.J. Jacobs & J. M. Lucas

47(4): 280-292 1993

Interrater Reliability With SPSS for Windows 5.0 R. N. Maclennan 47(4): 292-296 1993Assumptions for Statistical Inference Hahn, G and Meekes, W 47(1), 1-11 1993A remarkable scatterplot Spence, I e Garrison, R. F. 47(1), 12-19 1993How to approximate a histogram by normal density Brown, L. D. e Hwang, J. T. 47(4), 251-255 1993Short courses as part of statistical consulting in aforeign setting

Engeman, R. M. 47(2), 122-125 1993

A cooperative learning activity on Methods ofselecting a sample

Dietz, E. J. 47(2), 104-108 1993

Biostatistics cores: improving the chances for funding Derr, J. 47(2), 99-101 1993Teaching Survey Sampling Using Simulation Chang , T, Lohr, S and

Mclaren, G46(3), 232-237 1992

Using lottery games to illustrate statistical concepts andabuses

Paulson, R. A . 46(3), 202-204 1992

Some Statistical Modeling Problems in the advertingIndustry: A look at media exposure distributions

Danaher, P. J. 46(4), 254-260 1992

Graphical insight into multiple regression concepts Franklin, L. A . 46(4), 284-290 1992



191

Preparing high school teachers to teach statistics Hayden, R. W. e Kianifard, F. 46(4), 290-295 1992Statistics consulting is scholarship, with coments Wilson, W. J. 46(4), 295-304 1992Accent on teaching materials, ICOTS Posten, H. O . 46(4), 304-306 1992Integrating quality control concepts into introductorybusiness statistics course

Bowerman, B. L. e connell, R.T.

46(2), 124-128 1992

Process Improvement Exercises for the ChemicalIndustry

Kopas, D. A., e McAllister, P.R.

46(1), 34-41 1992

Statistical Reasoning in the legal setting Gastwirth, J. L. 46(1), 55-69 1992Statistical Consulting in a University: Dealing WithPeople and other Challenges

R. E. Kirk 45(1): 28-34 1991

Increasing Public Awareness of statistics as a Scienceand a profession-Reinforcing the Message inUniversities

R. Cockerrill & B. Fried 45(3): 174-178 1991

Teaching Statistics to Engineers Soren Bisgaard 45(4): 274-283 1991Why Is Introductory Statistics Difficult to Learn? AndWhat Can We Do to Make It Easier?

Donal G. Watts 45(4): 290-291 1991

Writing As a Component of Statistics Education Norean Radke Sharpe 45(4): 292-293 1991Statistical Education: Improvements Are Badly Needed Robert V. Hogg 45(4): 342-343 1991Probability plots and distribution curves for assessingthe fit of probability models

Gan, F. F., Koehler, K. J. eThompson, J. C.

45(1), 14-21 1991

Manual Computation – A Tool for ReinforcingConcepts and Techniques

Khamis, H. J. 45(4 ), 294-299 1991

An undergraduate concentration in applied statistics formathematics majors

Gaudard, M. e Hahn, G. J. 45(2), 115-120 1991

A Statistical Computing Curriculum To Meet IndustrialNeeds

W. M. Makuch, G. J. Hanh &W. T. Tucker

44(1):42-49 1990

What Does the Future Hold for Statisticians? V. P. Barabba 44(2): 125-137 1990Improving The Teaching of Applied Statistics: Puttingthe Data Back Into Data Analysis

J. D. Singer & J. B. Willett 44(3): 223-234 1990

Statistical Computing Packages: Dare We AbandonTheir Teaching to Others?

G. E. Dallal 44(4): 265-266 1990

Toward a more quantitative literate citizenry Scheaffer, R. L. 44(1), 2-3 1990Work profiles of research statisticians Lane, J., Ray, R. e Glennon,

D.44(1), 9-13 1990

Statistical Thinking and its contribution to total quality Snee, R. D. 44(2), 116-121 1990looking ahead: cross-disciplinary opportunities forstatistics

Gnanadesikan, R 44(2),121-125 1990

The status of advisory committees to the federalstatistical agencies

Eldridge, M. D. 44(2), 154-162 1990

A hope for the future of statistics: MSOD Ehrenberg, A S. C. 44(3), 195-196 1990Visual Fits in the Teaching of Regression Concepts S. M. Bajgier, M. Atkinson &

V. R. Prybutok43(4): 229-234 1989

Concepts of relative importance in recent scientificliterature

Kruskal, W. e Majors, R. 43(1), 2-6 1989

Promoting statistics; on becoming valued and utilized Boroto, D. R. e Zahn, D. A. 43(2), 71-72 1989Statistics at liberal arts colleges Moore, T. L. e Roberts, R. A . 43(2), 80-85 1989



192

Graduate statistics service courses in pat-time off-campus programs

Belli, G. M. e Seaver, W. L. 43(2), 86-90 1989

Statistical Computing Package: Some words of caution Searle, S. R. 43(4), 189-190 1989Broadening the Scope of Statistics and StatisticalEducation

F. Mosteller 42(2): 93-99 1988

Increasing Public Awareness of statistics as a Scienceand a profession-Starting in the High Schools

S. J. Ruberg & R. L. Mason 42(3): 167-170 1988

Establishing an office of scientific and public affairs Wallman, K. K., Boardman, T.Hill, W. Sacks, J. e Tortora, R

42(4), 245-248 1988

Opening the box of a boxplot Benjamini, Y 42(4), 257-262 1988An example of the Use of Graphics in Regression L. Denby and D. Pregibon 41(1): 33-38 1987Data Analysis for Managers H. V. Roberts 41(4): 270-278 1987A bibliography on the Teaching of Probability andStatistics

S. C. Misra, H. Sahai, A P.Gore & J. K. Garret

41(4): 284-310 1987

The Role of Consulting Units in Statistics Departments R. L. Carter, R. L. Scheafferand R. G. Marks

40(4): 260-264 1986

Statistics-aided manufacturing: a look into the future Hahn, G. J. 43(2), 74-79 1986Some Notes on refereeing Glesser, L. J. 40, 310-315 1986Statistical Education for Engineers: An Initial TaskForce Report

Robert V. Hogg et al 39(3): 168-175 1985

Statistics in Latin America P. A Morettin, C. A Perez, S.C. Narula & R. P. Mentz

39(4): 274-278 1985

More intelligent statistical software and statisticalexpert systems: future directions

Hahn, G. J. 39(1), 1-16 1985

Statistics in liberal Arts Education Iveson, G. R. 39(1), 17-19 1985An expanded approach to Educating StatisticalConsultants

McMulloch, C. E., Boroto, D.R., Meeter, D., Polland, R. eZahn, D. A .

39(3), 159-167 1985

The key role of statistician in the transformation ofNorth American Industry

Joiner, B. L. 39(3), 224-227 1985

The use of investigation in the introductory course Tanner, M. A 39(4), 306-310 1985Geometry, Statistics, probability: Variations on aCommon theme

Peter Bryant 38(1): 38-48 1984

Graphics in Scientific Publications W. S. Cleveland 38(4): 261-280 1984Cooperation Between University and IndustryStatistician

Snee, R. D. 38, 15-20 1984

Statistics for quality and productivity: a new graduate-level statistics course

Vardeman, S. e David, H. T. 38(4), 235-243 1984

How to display data badly Wainer, H. 38, 137-147 1984Nonstatistical aspects of statistical consulting Zahn, D. A . e Isenberg, D. J. 37(4), 297-302 1983Statistics problems with simple numbers Read, K. L. Q. e Riley, I. S. 37(3), 229-231 1983The American Statistical association – a study andrecommendations

Corson, J. J. 37(4), 261-280 1983

The Visibility of Statistics as a discipline Minton, P. D. 37(4), 284-289 1983A color-caused optical illusion on a statistical graph Cleveland, W. S. e McGill, R. 37(2), 101-105 1983



193

Presenting Statistical Papers Freeman, D. H., Gonzáles, M.E., Hoaglin, D.C. e Kilss, B. A

37(2),106-110 1983

What Industry can do for Statistics Bradley, R.A . 37(1), 21-35 1983Writing Technical Papers or Reports Ehrenberg, A . S. C. 36(4), 326-329 1982Preparing statisticians for careers in the federalgovernment: report of the ASA section on StatisticalEducation Committee on training of statisticians forgovernment

Eldrigde, M. D et al 36(2), 69-89 1982

Quality of statistical education: Should ASA assist orassess? With comments

Tanur, J. M. 36(2), 90-102 1982

A self-supporting university statistical consultingcenter

Boen, J. R. 36(4), 321-325 1982

A case for the better graphics: the un classed chonopethmap

Gale, N. e Halpering, W. C. 36, 330-336 1982

A systematic study of the consulting literature as anintegral part of applied training in statistics

Baskerville, J. C. 35(3), 121-123 1981

Eye Fitting Straight lines Mosteller, F., Siegel, A F.,Trapido, E. e Youtz, C

35(3), 150-152* 1981

The practice of statistics: the real world is an ideawhose time has come

Hunter, W. G. 35(2), 72-76 1981

The teaching of Statistics: Content versus form Kenpthorne, O 34( 1), 17-21 1980Preparing Statisticians for Careers in Industry Snee, R. D. 34( 2), 65-80 1980The role of nonparametrics in introductory statisticscourses

Noether, G. E. 34(1), 22-23 1980

We need both exploratory and confirmatory Tukey, J. W. 34(1), 23-25 1980Na empirical inquiry concernin human understandingof two-variable color maps

Wainer, H. e Francolini, C. M. 34(1), 81-93Falta a pag. 93

1980

Statistical consulting in industry Marquardt, R. W. 33(3), 102-107 1979Graphical Methods in Statistics Fienberg, S. E. 3394),165-178 1979Some remarks on statistical education Federer, W. T. 32(4), 117-121 1978Some ideas about teaching design of experiment Hunter, W. G. 31(1),12-17 1977A framework for the development of measurement forevaluating the introductory statistics course

Chervany, N. L., Collier, R.D., Fienberg, S. e Johnson, P.

31(1), 17-23 1977

A pedagogical example of heterosedasticity andautocorrelation

Jensen, B. C. e McDonald, J.B

30(4), 192-193 1976

On probability as a Basis for Action Deming, W. E. 29(4), 146-152 1975On problem solving, motivation and statistics Brightman, H e Broida, M. 29(4), 164-166 1975The role of the statistician: scientist or shoe clerk Bross, I. D. J. 28(4). 126-127 1974

39. Statistical Science (IMECC: 1986-1998)Title Author Vol Year

Is industrial statistics out of control? Banks, D. 8(4), 356-409 1993The Impact of Sociological Methodology on StatisticalMethodology

C. C. Clogg 7(2): 183-207 1992



194

A Brief History of Statistics in Three and One halfChapters: A Review Essay

S. E. Fienberg 7(2): 208-225 1992

Cross-disciplinary research in the statistical sciences IMS 5(1), 121-146 1990Data-based graphics: visual display in the decades tocome

Tukey, J. W. 5(3), 327-339 1990

Graphical visions from William Playfair to John Tukey Wainer, H. 5(3), 340-346 1990Francis Galton´s Account of the Invention ofCorrelation

S. M Stigler 4(2): 73-86 1989

The Teaching of Statistics H. Hotelling 3(1): 63-108 1988The Interface between Statistics and Philosophy ofScience

I. J. Good 3(4): 386-412 1988

40. The Statistician (IMECC: 1966-1999)Statistics for the millenium: from statistical science Nelder, J. A. 48(2), 257-269 1999Statistics and Mathematics – Trouble or Interface Sprent, P. 47(2), 239-244 1998Breaking misconceptions- statistics and its relationshipto mathematics

Hand, D. J. 47(2), 245-250 1998

Mathematics: governess or handmaiden? Senn, S. 47(2), 251-259 1998Statistics and mathematics: the appropriate use ofmathematics within statistics

Bailey, R. A 47(2), 261-271 1998

Discussion on the papers on “statistical andmathematics”

Nelder, J. A 47(2), 273-290 1998

Sample size determination: a review Adcock, C.J. 46(2), 261-283 1997Statistical education in medicine and dentistry Smeeton, N. 46(4), 521-527 1997Statistics in a new business environment: an example Vandenbroeck, P e

Vandevyvere, P.45(3), 287-292 1996

The statistics and probability curriculum at thesecondary school level in the USA, Ireland and the UK

Boland, P. J. e Nicholson, J. 45(4), 437-446 1996

Changing the teaching of statistics Stuart, M. 44(1), 45-54 1995Discussion on the Symposium on the teaching ofstatistics in higher education in Ireland

Boland, P. J. 44(1), 55-58 1995

Some problems of teaching an introductory biostatisticscourse to graduate students in health sciences: copingwith the diversity of students aptitudes, interests andobjectives

Sahai, H. 39, 341-347 1990

Statistics in industry; a failure of communication Caulcutt, R. 36, 555-560 1987Using a microcomputer as a visual aid teaching ofstatistics

Bland, J. M. 33, 253-259 1984

Symbols or concepts? Ehrenberg, A. S. C. 25, 191-193 1976



195

41. Outras Revistas

The Alberta Journal of Educational Research (FE: 78-99)Title Autor Volume AnoSelected attitudinal factors related to students’ success inhigh school

McLean, R. (2/3), 165-168 1997

American Educational Research Journal (USP-IP)Sex differences in quantitative SAT performance: newevidence on the differential coursework hypothesis

Palla, A. M. e Alexander, K. L. 20(2): 165-182 1983

The unit of analysis: group means versus individualsobservations

Hopkins, D. D. 19, 5-18 1982

Sex related differences in Mathematics achievement, spatialvisualization and affective factor

Fenema, E & Sherman, J. 14(1):51-71 1977

American Journal of Physics (USP-FFCRP: 1985-2000)Students difficulties in connecting graphs and physics McDemortt, L. C., Rosenquist, M.

L. e Van Zee, E. H.55, 503-513 1987

American Journal of Psychology (FE: 1978-1999)Effects of Cognitive Ability and Affect on SchoolMathematics Performance and feelings of difficulty

A. Efklides, M. Papadaki, G.Papantoniou & G. Kiosseoglou

110(2): 225-258 1997

Annual Review of Psychology (FE: 1973-1998)Human habilities Sternberg, R. J. e Kaufman, J. C. 49, 479-502 1998Attitudes and attitude change Petty, R. E., Wegener, D. T. e

Fabrigar, L. R.48, 609-647 1997

Graphical data analysis Wainer, H. 32, 191-241 1981

Australian Journal of Education (FE: 1980-1998)Statistical Methods in Education and Psychology: A criticalPerspective

B. D. Haig 40(2), 191-219 1996

Scaled School Assessments: The effect of measurementerrors in scaling test

Sadler, D.R. 38(1) 30-37 1992

Australian Journal of Psychology (FE: 1980-1998)Sings of Obsolescence in Psychological Statistics:Significance versus Contemporary Theory

R. A. M. Gregson 49(2): 59-63 1997

Evidence, Inference, and the “Rejection” of the SignificanceTest

D. Grayon, P. P. Pattinson & G.Robins

49(2): 64-70 1997

Australian Mathematics Teacher (FE: 1980-1998)What´s the point? Watson, J. 52(2) 40-43 1996



196

Teaching Simple statistical Ideas Cooper, M. 51(4) 8-11 1995Process or Product? Mansfield, H. 49(4) 20-23 1993Teaching Statistics with Minitab Hubbard, R 48(4) 8-10 1992

Behavioral and Brain Sciences (IFCH: 1987-1998)Inductive reasoning: competence or skill? Jepson, C., Krantz, D. H. e

Nisbett, R. E.6, 494-501 1983

British Educational Research Journal (FE: 1981-1999)Assessing Students’ Ability to Use Computers: TheoreticalConsiderations for Practical Research

N. Selwyn 23(1): 47-59 1997

Pupil performance in graphical task and its relationship to theability to handle variables

Swatton, P. e Taylor, R. M. 20, 227-243 1994

British Journal of Psychology (USP-IP: 1920-1999)The spatial demands of graphs Bryant, P. E. e Somerville, S.C. 77. 187-197 1986Reasoning and a sense of reality Johnson-Laird, P. N., Legrenzi, P.,

e Sonino-Legrenzy, M.63,395-400 1972

Bulletin of the British Psychological Society (USP-IP: 1983-1987)Investigating psychology students conceptual problems inmathematics in relation to learning statistics

Greer, B. & Semrau, G. 37, 123-125 1984

Canadian Journal Behavioral Science (USP-IP: 1975-1999)Statistics as a Second Language? A model for PredictingPerformance in Psychology students

Lalonde, R. N. & Gardner, R. C. 25(1): 108-125 1993

Investigating a causal model of second languageacquisition: Where does personality fit?

Lalonde, R. N. & Gardner, R. C. 16: 224-237 1984

Cognitive Science (IMECC: 1979-1998)On the role of mathematics in explained the material world:mental for proportional reasoning

Schwartz, D. L. 22(4), 471-516 1998

A manipulation of images to handle indeterminacy in spatialreasoning

Ioerger, T. R. 18, 551-593 1994

A symbolic model of the nonconscious acquisition ofinformation

Ling, C. X. e Marinov, M. 18(4), 595-621 1994

The College Mathematics Journal (IME-USP)Should mathematicians teach statistics Moore, D. S. 19(1), 3-34 1988Pitfalls in graphical computation, or why a single graph isn’tenough

Demana, F. Waits, B. K. 19(2), 177-183 1988



197

Contemporary Educational Psychology (?)Cognitive Consequences of microcomputer-basedlaboratories: graphing skills development

Linn, M. C, Layman, J. W. eNachmias, R.

12, 244-253 1987

Developmental Psychology (FE: 1975-1999 / USP-IP)Children judgment of expected value Schottman, A . e Anderson, N. H. 30(1), 56-66 1994Age and skill in visual search Clancy, S. M. e Hoyer, W. J. 30(4), 45-52 1994

Educational Psychology (FE: 1982-1998)Self-concept and anxiety in University Students StudyngSocial Science Statistics Within a Co-operative LearningStructure

M. ª R. Townsend, D. W. Moore,B. F. Tuck & K. M. Wilton

18(1), 41-54 1998

On the Nature of Cognitive Style R. J. Riding 17(1/2), 29-49 1997

Educational Psychologist (FE )Recent trends in research in gender and education Meece, J. L. e Eccles, J. S. 28, 313-320 1993

Educación Matemática (FE)El papel de las Hipótesis estadísticas en los Contrastes:Concepciones y dificultades de Aprendizaje

Jimenes, A . V. 9(2) 5-20 1997

Razonamiento combinatório en alumnos de secundária Navarro-Pelayo, V., Batanero, C. yGodino, J. D.

8(1) 27-39 1996

Não tinha na pratileiraEl análises de datos como útil y como objeto en didactica dela Matemática

Batanero, C; Godino, J yVallecillos, A

4(1), 46-53 1992

Un estudio componencial de heuristicas y sesgos en elrazonamiento probabilistico de los alumnos de secundaria

Serrano, L., Batanero, C., Ortiz,J.J. e Cañizares, M. J.

10(1), 7-25 1998

Educational Research (FE: 1959-1998)The Effects of Age, Gender and Computer Experience uponComputer Attitudes

C. Comber, A.. Colly, D. J.Hargreaves & L. Dorn

39(2), 123-133 1997

Who is afraid of statistics? Correlates of statistics Anxietyamong students of educational sciences

M. Birenbaum & S. Eylath 36(2), 93-98 1994

Educational Research Quarterly (FE: 1978-1997)Personal, Beliefs, Critical Thinking Skills, and ReasoningErrors-How Illogical are we? A Literature Review

N. J. Cabrera 19(2): 3-24 1995

Comparative gender performance in business statistics Mogull, R. G. 13, 2-10 1989Answer changing and statistics Penfield, D. A. e Mercer, M. 5,50-57 1980

Estudos de Psicologia (FE)



198

Pesquisa científica e nível de significância Witter, G. P. 13(1), 22-63 1996Percepção de incomodo ao barulho ambiental: um modeloparcial e preliminar

Gouveia, V. V e Günther, H. 13(2), 17-28 1996

Fatores socioculturais e leitura: estudo da produção arroladano ASIRR (1989/1994)

Witter, G. P. 13(3), 49-56 1996

Produção e leitura de texto científico Witter, G. P. 9(1), 19-26 1992

For the Learning of Mathematics (USP-IME: 1995-1998)Visualization in high school mathematics Presmeg, N. C. 6, 42-46 1986The co-ordination of meanings for randomness Pratt, D. 18, 2-11 1998The role of statistical literacy in decisions about risk: whereto start

Watson, J.M. 18, 25-27 1998

A USP não tem esses númerosThree hungry men and strategies for the problem solving Watson, J. M. 8(3), 20-26 1988Exploring mathematics trough the analysis of errors Borassi, R. 7(3), 2-8 1987The interpretation of graphs representing situations Bell, A. e Janvier, C. 2, 34-42 1981Student’s errors in the mathematics learning: a survey Radatz, H. C. 1(1), 16-20 1980

Human Factors in Computing System: CHI’91 Conference ProceedingsA cognitive model for the perception and understanding ofgraphs

Loshe, J. 137-151 1991

International Journal of Science Education (FE: 1988-1998)Assessing pupils’ ability to generalize Donelli, J. F. e Welford, A. G. 11(2), 161-171 1989

International Journal of Mathematics Education in Science and Technology (IMECC)Errors and difficulties in understanding elementarystatistical concepts

Batanero, C, Godino, J.,Vallecillos, A, Green, D. eHolmes, P.

25(4), 527-547 1994

Journal of College Student Development (FE: 1988-1999)Effects of Teacher Organization/Preparation and TeacherSkill/Clarity on General Cognitive Skills in College

E. Pascarella, M. Edison, A. Nora,L.S. Hagedorn & J. Braxton

37(1) 7-19 1996

Journal of Counseling and Development (USP-IP: 1984-1999)Publishing you research results: some suggestions andcounsel

Thompson, B. 73, 342-345 1995

The Journal of Psychology (?)Interrelationships among Piaget’s formal operationalschemata: proportions, probability, and correlation

Wavering, M. J. 118, 57-64 1984



199

Journal of Computer Assisted Learning (USP-S. Carlos: 1995-1998 / USP-FE: 1998-1999)Young children’s active and pasive graphing Pratt, D. 11, 157-169 1995

Journal of Educational and Behavioral Statistics (IMECC: 1994-1999)Evaluating statistics texts used in education Harwell, M. R., Herrick, M. L.,

Curtis, D., Mundfrom, D. e Gold, K.21(1), 3-34 1996

Identifying impediments to learning probability and statisticsfrom as assessment of instructional software

Cohen, S., Smith, G., Chechile, R.A., Burns, G e Tsai, F.

21(1), 35-54 1996

A meta-analysis of gender differences in applied achievementSchram, C. M. 21(1), 55-70 1996

Journal of Experimental Educational (USP-IP: 1937-1981)Affective and cognitive correlates of course performance inintroductory statistics

Feinberg, L. B. 7 Halperin, S 46, 11-18 1978

A USP não tem esses anosThe effects of time constraints and statistics test anxiety ontest performance in a statistic course

Onwuegbuzie, A . J. e Seaman, M.A .

61(2), 115-124 1995

Structural components of statistical test anxiety in adults: anexploratory model

Benson, J. 57, 247-261 1989

Intuitions on functions Dreyfus, T. e Einsberg, T. 52, 77-85 1984

Journal of Personality and Social Psychology (USP-IP)The interplay of affect and cognition in attitude formationand change

Edwards, K. 59(2), 202-216 1990

Attitude change as a function of attitude type and argumenttype

Millar, M. G. e Millar, K. U. 59(2), 217-228 1990

Mathematics in SchoolInconsistencies in the presentation of statistics Feu, C. de 20-21 1996Inconsistencies in the presentation of statistics Taverner, S. 8-9 1996In mean mode Steward, D. 34 e 39 1994Statistics and the media Ernest, P. 14-15 1986Quartiles of a discrete data set Evans, I. G. 16-17 1986Graphs, gradients and intercepts Barr, G. 9(1), 5-6 1980

Mathematics TeachingSuccess e failure in mathematics: the flexible meaning ofsymbols as process and concept

Gray, E. e Tall, D. 142, 6-10 1993

Diagnostic teaching 4 graphical interpretation Bell, A.; Brekke, G. e Swan, M. 119, 56-60 1987

Organizational behavior and human decision process (FE: 1985-1999)



200

Understanding the effects of sample size on the variabilityof the mean

Well, A . D., Pollastk, A .,Boyce, S.

47, 289-311 1990

Comparing risky decision making under conditions of realand hypothetical consequences

Wiseman, D. B. e Lewin, I. P. 66(3), 241-250 1996

Perception and Psychophysics (IP-USP)Geometric illusions in reading graphs Poulton, E. C. 37, 543-548 1985

Psychological Methods (UNICAM-FOP: 1996, Piracicaba)The appropiate use of null hypothesis testing Frick, R. W. 1, 379-390 1996Statistical significance testing for cumulative knowledgepsychology: implications for the training of research

Schmidt, F. L. 1(2), 115-129 1996

Revista intercontinental de Psicologia e EducacionEstudio de las actitudes de los estudiantes universitárioshacia la matemática y la estadistica

Feijoó, N. R. 4(2), 69-83 1991

Science (FE: 1993-1998 / BC: série completa)The science of patterns Stien, L. A. 240,611-616 1988Teaching reasoning Nisbett, R. E., Fong, G. T. ,

Lehman, D. R. e Cheng, P. W.238, 625-631 1987

Graphical perception and graphical methods for analyzingscientific data

Cleveland, W e McGill, R. 229, 828-833 1985

Judgment under uncertainty: heuristics and biases Tversky, A . e Kahnemann, D. 185,1124-1131 1974

Science Education (FE: 1973-1998)The problem of terminology in the study of studentconceptions in science

Abimbola, I. O. 72(2): 175-184 1988

Graphing: cognitive ability or pratice? Roth, M. W. e McGinn, M. K. 81(1), 91-106 1997Assessing students’ abilities to construct and interpret linegraph: diparities ...

Berg, C. A. e Smith, P.. 78, 527-554 1994

Sociological methods and Research (FE)The perception of statistical graphs Lewandowsky, S e Spence, I. 18, 200-242 1989

Studies in Higher Education (FE: 1988-1998)University mathematics students’ conceptions ofmathematics

Crawford, K., Gordon, S.,Nicholas, J. e Prosser, M.

23(1), 87-94 1998

The effectiveness of scholl-type classes compared to thetraditional lecture/tutorial methods for teaching quantitativemethods to business students

Goldfinch, J. 21(2) 207-220 1996



201

Teaching Children Mathematics (FE: 1994-1998)Research into practice: what do children understandingabout average

Russel, S. J. e Mokros, J. 2(6), 360-364 1996

Pictures, tables, graphs, and questions: statistical process Isaacs, A.

Teaching Mathematics and its applications (IMECC: 1984-1998)Simple paradoxes in descriptive statistics Meyer, J. 14(2), 51-60 1995

Utilitas Mathematica (USP-IME: 1972-1999)Criteria for judging statistical graphics Kruskal, W. H. Série B: 283-

3101982

Vision Research (USP-IP)An optimal estimation approach to visual perception andlearning

Rao, R. P. N. 39: 1963-1989 1999

Download - SOCIO-ESTATÍSTICA APOSTILA

Top Related