estatística para ciências sociais
Post on 14-Apr-2017
64 Views
Preview:
TRANSCRIPT
Estatística para Ciências SociaisEpistemologia e Metodologia da Pesquisa
Vinicius Barreiro Funicelli
PUC-SP TIDD 02/05/2016
Sumário
• O que será abordado
• Por que estudar Estatística?
• O que é Estatística?
• Introdução
• Medindo e Amostrando
• Estatística Descritiva
• Distribuições Probabilísticas
• Inferência Estatística: Estimação
• Inferência Estatística: Teste de Significância
• Mais Estatística
• Referências
25/04/2016 Epistemologia e Metodologia da Pesquisa 3
O que será abordado
Definições Conceitos
Exemplos e Aplicações
Cálculos Matemáticos
Por que estudar Estatística?
Epistemologia e Metodologia da Pesquisa25/04/2016 4
Fazer uma análise quantitativa sobre os dados coletados para sua pesquisa
Lidamos com informações estatísticas a todo momento em nossa vida
Conhecer alguns conceitos estatísticos pode nos ajudar a interpretar estas informações para uma melhor tomada de decisão
25/04/2016 Epistemologia e Metodologia da Pesquisa 5
O que é Estatística?
Definição: estatística consiste em um conjunto de métodos para obter e analisar dados
Design
Planejar como obter os dados para estudos de
pesquisas
Ex.: facilita a identificação de quais as melhores
pessoas a serem entrevistadas, e quais as
melhores perguntas a serem feitas, etc.
Descrição
Sumarizar os dados
Ex.: pode ser construído um gráfico ou uma tabela que melhor representa a
informação a ser apresentada, além de
poder apresentar números médios, porcentagens, etc.
Inferência
Fazer predições baseadas nos dados
Ex.: é possível extrapolar as informações obtidas pelas amostras para toda uma
população através de cálculos estatísticos e
probabilísticos.
25/04/2016 Epistemologia e Metodologia da Pesquisa 6
Introdução
População
é o conjunto total dos dados de interesse a serem
estudados
Amostra
é um subconjunto da população no qual o estudo
irá coletar os dados
Parâmetro
é uma representação numérica da população
Estatística
é uma representação numérica da amostra
25/04/2016 Epistemologia e Metodologia da Pesquisa 7
Introdução
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 8
Introdução
Por que fazer amostragem?
Restrições financeiras
Menor tempo necessário para a pesquisa
Maior qualidade nos dados levantados
População infinita
Mais fácil e com resultados satisfatórios
25/04/2016 Epistemologia e Metodologia da Pesquisa 9
Medindo e Amostrando
Variável: uma característica que pode mudar de valor em uma amostra ou população
Variável Quantitativa
Quando sua escala de medida é numérica
Ex.: dias, meses, anos, faturamento de uma empresa, quantidade
de filhos, etc.
Variável Categórica
Quando sua escala de medida é uma seleção
de categorias
Ex.: estado civil, cidade natal, tipo de
música, etc.
Variável Discreta
Valores de um conjunto finito de
números
Ex.: valores em uma lista, tabela, etc.
Variável Contínua
Um infinito contínuo de valores de números reais
Ex.: quantidade de estrelas, etc.
25/04/2016 Epistemologia e Metodologia da Pesquisa 10
Medindo e Amostrando
Amostra Randômica Simples: de n possibilidades em uma população, é aquela na qual cada possível amostra tenha a mesma chance/probabilidade de ser selecionada
Números Randômicos: são números gerados por computador em acordo a um esquema onde cada digito é igualmente parecido com qualquer inteiro de 0 a 9 e não depende de gerador de dígitos
Erro Amostral: é o erro que ocorre quando usamos uma estatística baseada em uma amostra para predizer o valor de um parâmetro da população
Viés de Amostragem
Ocorre quando é utilizado amostras não probabilísticas
Viés Responsivo
Ocorre quando o sujeito dá uma resposta incorreta, ou
o questionário ou o entrevistador confunde as
perguntas
Viés Não Responsivo
ocorre quando alguma amostra não pode ser
encontrada ou se recusa a participar, ou se falha em
responder alguma questão
25/04/2016 Epistemologia e Metodologia da Pesquisa 11
Medindo e Amostrando
Amostra Randômica Sistemática: identifica o tamanho de amostragem como n e da população como N
Então, k = N/n (k é chamado de número de salto)
1. Seleciona randomicamente um sujeito a partir do primeiro valor k de um quadro amostral
2. Sequencialmente seleciona a cada k° um novo sujeito listado após o anterior
Exemplo:
População com 10 parâmetros (N = 10)
Tamanho de amostragem de 2 sujeitos (n = 2)
Portanto k = 10/2 = 5
População 1 2 3 4 5 6 7 8 9 10
Valores a b c d e f g h i j
1° Seleção randômica
2° Seleção com k = 5
25/04/2016 Epistemologia e Metodologia da Pesquisa 12
Medindo e Amostrando
Amostra Randômica Estratificada: divide a população em grupos separados, chamados de estrato, e então seleciona através da amostra randômica simples em cada estrato
Proporcional: caso a proporção do estrato amostrado segue a mesma proporção da população
Desproporcional: caso a proporção do estrato amostrado seja diferente da proporção da população
População 1 2 3 4 5 6 7 8 9 10
Valores a b c d e f g h i j
Estrato 1 Estrato 2
População 1 2 3 4 5 6 7 8 9 10
Valores a b c d e f g h i j
Estrato 1 Estrato 2
25/04/2016 Epistemologia e Metodologia da Pesquisa 13
Medindo e Amostrando
Amostra Randômica de Grupo (ou Conglomerado): divide a população em vários grupos, e seleciona em cada grupo através da amostra randômica simples
Ex.: Bairros de uma Cidade, Gênero em um grupo de pessoas, etc.
Amostra Estágio Múltiplo: é uma combinação da Simples, Estratificada e de Grupo
Ex.: Separa inicialmente os Estratos, e dentro dos Estratos cria Grupos específicos para serem amostrados.
25/04/2016 Epistemologia e Metodologia da Pesquisa 14
Estatística Descritiva
Centro do dado: é a observação típica
Variação do dado: o que está ao redor do centro
Frequência Relativa: é a proporção ou percentual das observações que caem na categoria
Distribuição de Frequência: é uma lista de possíveis valores para uma variável, junto com o número de observações de cada valor
Histograma: um gráfico de uma distribuição de frequência relativa para uma variável quantitativa
25/04/2016 Epistemologia e Metodologia da Pesquisa 15
Estatística Descritiva
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 16
Estatística Descritiva
Formato de uma Distribuição
Formato em U Formato em Sino
Polarização nos extremos onde há a maior concentração das
frequências
Tendência das frequências estarem mais perto do centro
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 17
Estatística Descritiva
Média
Soma das observações dividida pelo número de
observações
Pode ser altamente influenciada por
observações muito acima ou abaixo do padrão dos
dados, chamados de outliers
Mediana
Simples medida do centro, ela divide as amostras em duas partes com número
de observações iguais
Quando o número de amostras é par, uma única
observação ocorre no meioQuando o número de
amostras é ímpar, ocorrem duas observações no meio e a
mediana está entre elasPara distribuições simétricas a
Média e a Mediana são idênticas
Moda
É o valor que ocorre mais frequentemente
Uma distribuição com dois distintos valores de moda é
chamada de bimodal, normalmente quando a população é polarizada
A Média, Mediana e Moda são iguais em uma
distribuição simétrica tal como uma com formato de
sino
25/04/2016 Epistemologia e Metodologia da Pesquisa 18
Estatística Descritiva
Alcance
é a diferença entre a maior e a menor observação
Desvio
é a diferença entre uma observação e a média
Variância
é o desvio padrão ao quadrado
Outlier
uma observação que cai em uma posição maior que 1,5 vez o alcance interquartil
acima do quartil superior ou abaixo do quartil inferior
Desvio Padrão
é a raiz quadrada da soma dos desvios ao quadrado divididos
pelo número de amostras menos um
Ponto Z
é o número de desvios padrão que a observação cai a partir
da média
25/04/2016 Epistemologia e Metodologia da Pesquisa 19
Estatística Descritiva
Regra Empírica
Cerca de 68% das observações estão ente a média menos um desvio padrão e a média mais
um desvio padrão
Cerca de 95% das observações estão ente a média menos dois desvios padrão e a média mais
dois desvios padrão
Percentil
é o percentual das observações que caem
abaixo ou até este ponto e acima de cem menos
este percentual
Quartil Inferior
É o percentil 25, ou seja um quarto dos dados
caem abaixo deste ponto
Quartil Superior
É o percentil 75, ou seja um quarto dos dados
caem acima deste ponto
Alcance Interquartil
A diferença entre o quartil superior e o quartil inferior. Esta medida descreve a
metade das observações
25/04/2016 Epistemologia e Metodologia da Pesquisa 20
Estatística Descritiva
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 21
Estatística Descritiva
Gráfico Caixa: normalmente utilizado para apresentar as cinco medidas média, os quartis inferior e superior, e o menor e maior valor observados
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 22
Distribuições Probabilísticas
Probabilidade: é a proporção de vezes que um particular resultado observado irá ocorrer em uma sequência de observações muito longa
Distribuição Probabilística: lista os possíveis resultados e suas probabilidades
Distribuição Probabilística de uma Variável Discreta: determina a probabilidade de cada possível valor (um número entre 0 e 1) para a variável, e a soma de todas as probabilidades possíveis é igual a 1
Distribuição Probabilística de uma Variável Contínua: determina a probabilidade de um intervalo de números. A probabilidade que a variável cai em qualquer particular intervalo é entre 0 e 1, e a probabilidade do intervalo
contêm todos os possíveis valores iguais a 1
Média de uma Distribuição Probabilística (Valor Esperado ou Esperança): é a soma de todas as probabilidades de uma variável discreta ocorrer
25/04/2016 Epistemologia e Metodologia da Pesquisa 23
Distribuições Probabilísticas
Fonte: Barbetta (2006)
Variável Discreta Variável Contínua
25/04/2016 Epistemologia e Metodologia da Pesquisa 24
Distribuições ProbabilísticasDistribuição Probabilística Normal: ela é importante pois aproxima bem as distribuições de variáveis do mundo real, e também porque é utilizada na inferência estatística
Principais características:
• Simétrica, formato de sino, e caracterizada pela sua média e desvio padrão• A probabilidade de qualquer número particular do desvio padrão frente a média é o mesmo
para toda a distribuição normal• 1 desvio padrão possui a probabilidade igual a 0,683, 2 desvios padrão igual a 0,954, e 3 desvios
padrão igual 0,997
Distribuição Normal Padrão: é a distribuição normal com média igual a 0 e desvio padrão igual a 1
Probabilidades de Cauda Normal Tabeladas: mostra em uma tabela os valores de probabilidade de cada número z de uma distribuição normal em função de desvios padrão da média, dependendo somente do valor de z
25/04/2016 Epistemologia e Metodologia da Pesquisa 25
Distribuições ProbabilísticasDistribuição Normal
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 26
Distribuições Probabilísticas
Distribuição Amostral
é a distribuição probabilística que
especifica as probabilidades que
possíveis valores podem ter
Erro Padrão
é o desvio padrão de uma distribuição
amostral comparado à média amostral
O erro amostral tende a diminuir quando
aumenta o tamanho de amostragem
Teorema do Limite Central
para uma amostra randômica com um grande tamanho de
amostragem, a distribuição amostral da
média amostral é aproximadamente a distribuição normal
25/04/2016 Epistemologia e Metodologia da Pesquisa 27
Inferência Estatística: Estimação
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 28
Inferência Estatística: Estimação
Estimativa Pontual
é um único número que é a melhor aproximação para um
parâmetro
Estimativa de Intervalo
é um intervalo de números ao redor da estimativa pontual, no qual é acreditado cair o
valor do parâmetro
Estimador Tendencioso
se subestima ou superestima o parâmetro a ser amostrado
Estimativa de Probabilidade Máxima
é o valor do parâmetro mais consistente com os dados
observados, sendo que deverá ter a maior chance de ocorrer
Estimador Imparcial
se sua distribuição amostral está centrada ao redor do
parâmetro
Intervalo de Confiança
é um intervalo de números com o qual o parâmetro tem
maior chance de cair. A probabilidade que este
método produz é chamado de nível de confiança
25/04/2016 Epistemologia e Metodologia da Pesquisa 29
Inferência Estatística: Estimação
Margem de Erro: na pratica, normalmente a distribuição amostral é aproximadamente a normal. Então, para construir o intervalo de confiança, adicionamos e subtraímos da estimativa pontual alguns múltiplos (pontos z) de seu desvio padrão. Está é a margem de erro
Intervalo de Confiança é a Estimativa Pontual +/- a Margem de Erro
Largura do intervalo de confiança possui as seguintes características:
• Aumenta com o aumento do nível de confiança• Diminui com o aumento do tamanho de amostragem
Probabilidade de Erro: é a probabilidade que um método de estimativa de intervalo produz em um intervalo de confiança que não contém o parâmetro observado
25/04/2016 Epistemologia e Metodologia da Pesquisa 30
Inferência Estatística: Estimação
Ponto t: é um ponto um pouco maior que o z e possui um intervalo de confiança também um pouco maior
Distribuição t: é baseado nos pontos t e assim é muito parecida com a distribuição normal, porém um pouco mais espalhada
Principais características:
• Simétrica, formato de sino, e com média 0• Desvio padrão um pouco maior que 1, o valor preciso vai depender do grau de liberdade• O ponto t multiplicado pelo erro padrão estimado dá a margem de erro para o intervalo de
confiança da média
25/04/2016 Epistemologia e Metodologia da Pesquisa 31
Inferência Estatística: Estimação
Fonte: Barbetta (2006)
Distribuição t
25/04/2016 Epistemologia e Metodologia da Pesquisa 32
Inferência Estatística: EstimaçãoEscolha do tamanho de amostragem: a margem de erro para um intervalo de confiança depende do erro padrão da estimativa pontual. Desde que a amostra seja feita corretamente, bons resultados estimados vêm de relativamente pequenas amostras, independentemente do tamanho da população
• A margem de erro depende diretamente do erro padrão da distribuição amostral do estimador pontual• O erro padrão depende do tamanho de amostragem
Outras considerações sobre como determinar o tamanho de amostragem
• Depende da precisão desejada, ou seja da margem de erro• Depende da confiança desejada, ou seja da probabilidade que aquele intervalo de confiança irá conter o
parâmetro• Depende da variabilidade da população, para médias estimadas o tamanho de amostragem requerido
aumenta com o aumento do desvio padrão• A complexidade da análise planejada, pois quanto mais variáveis a analisar simultaneamente maior o número
de amostras deve ser considerado• Tempo, dinheiro e recursos também precisam ser levados em consideração, amostras maiores consomem mais
tempo e recursos
25/04/2016 Epistemologia e Metodologia da Pesquisa 33
Inferência Estatística: Estimação
Considerações sobre Pequeno tamanho de amostragem
• As vezes por diversos fatores (financeiro, ético ou outros), simplesmente não é possível ter uma larga amostragem
• Seja cauteloso com os outliers pois eles podem influenciar muito seu estudo• Uma recomendação é ter ao menos 15 observações
25/04/2016 Epistemologia e Metodologia da Pesquisa 34
Inferência Estatística: Testes de Significância
Hipótese: é uma declaração sobre a população, normalmente uma predição que um parâmetro descreve a característica de uma variável com um valor numérico particular dentro de um intervalo de valores
Teste de Significância: usa os dados para resumir as evidências sobre a hipótese. Compara as estimativas pontuais dos parâmetros com os valores preditos pela hipótese, abaixo estão as 5 etapas do teste:
Premissas
Tipo de dados
Randomização
Distribuição da população
Tamanho de amostragem
Hipótese
Hipótese nula: é uma declaração que o
parâmetro assume um valor particular
Hipótese alternativa: declara que o
parâmetro cai em alguma alternativa do intervalo de valores
Teste Estatístico
O parâmetro que a hipótese refere é a uma
estimativa pontual, normalmente
apresentado em termos de desvio padrão e
resume quão longe a estimativa está do
parâmetro com valor da hipótese nula
Valor P
Para interpretar o valor estatístico do teste, é
um resumo probabilístico da
evidência
Conclusão
Interpreta o valor psobre a questão
motivada pelo teste, as vezes é necessário
tomar uma decisão se o valor é válido ou não
25/04/2016 Epistemologia e Metodologia da Pesquisa 35
Inferência Estatística: Testes de Significância
Tipos de Erros para Decisões
• Erro Tipo I: se a hipótese nula é verdadeira e ela é rejeitada (Nível Alfa é a probabilidade deste erro)• Erro Tipo II: se a hipótese nula é falsa e ela não é rejeitada (Nível Beta é a probabilidade deste erro)
Fonte: Barbetta (2006)
25/04/2016 Epistemologia e Metodologia da Pesquisa 36
Inferência Estatística: Testes de Significância
Nível alfa: é um número o qual é rejeitado a hipótese nula para determinado valor p, também chamado de nível de significância. Na prática fica em torno de 0,05 e 0,01
Conforme o valor P do Erro Tipo I diminui, o valor P do Erro Tipo II aumenta
Limitação do Teste de Significância: o teste de significância faz inferências sobre se o parâmetro difere do valor da hipótese nula e sobre sua direção daquele valor. Na prática também queremos saber se o parâmetro é suficientemente diferente do valor da hipótese nula, o que este teste não nos mostra
• Comparação entre duas Amostras
• Correlação entre Variáveis
• Relacionamento entre Variáveis
• Regressão
25/04/2016 Epistemologia e Metodologia da Pesquisa 37
Mais Estatística
AGRESTI, Alan; FINLAY, Barbara. Statistical Methods for the Social Sciences. 4. ed. New Jersey: Pearson Prentice Hall, 2009. 609 p.
BARBETTA, Pedro Alberto. Estatística Aplicada às Ciências Sociais. 6. ed. Florianópolis: Ufsc, 2006. Disponível em: <http://www.inf.ufsc.br/~barbetta/livro1.htm>. Acesso em: 10 abr. 2016.
25/04/2016 Epistemologia e Metodologia da Pesquisa 38
Referências
top related