aula 3 - nocoes de estatistica
TRANSCRIPT
BC-0005
Bases Computacionais da Ciência
Aula 03Noções de Estatística
Profa. Cristiane Salum
2011
Introdução• Ferramentas de Estatística
Usadas para visualizar e extrair características de dados experimentais: sujeitos a erros, incertezas ouincompletos (caso sejam parte de um conjunto maior de dados).
• BrOffice CalcPrograma de planilha: permite organizar dados emtabelasPossui ferramentas de análise estatística para
fazer gráficos (vizualizar) e calcular medidas estatísticas (extraircaracterísticas).
Conceitos Básicos• Pesquisa Científica:
• processo de aprendizagem onde o cientista:• determina o objetivo de uma investigação,• coleta as informações relevantes, • analisa os dados, • tira as conclusões e • decide sobre os próximos planos com base nestas
conclusões.
• Envolve a coleta , a organização e a análise de dados com o objetivo de corroborar uma hipótese inicial.
Conceitos Básicos• População (ou Universo de Dados)
Conjunto total de dados alvo da pesquisa. • Amostra
Subconjunto (finito) da população usado na análiseestatística, por meio do qual se estabelecem ou se estimam as características desta população.
Conceitos Básicos• Estatística Descritiva:
• cuida da apresentação, organização e resumo dos dados. apresentação, organização e resumo dos dados .
• Pode incluir gráficos, tabelas e computação de várias medidas, tais como, medidas de tendência central, medidas de dispersão entre outras.
• Propósito de fazer com que os dados coletados sejam compreendidos mais facilmente
• Estatística Inferencial (ou Indutiva): • tira conclusões sobre a população a partir da amostra.
métodos estatísticos são usados para estimações, predições e generalizações sobre todo um conjunto de dados, estudando apenas parte dele
Variáveis
Independente (preditor, experimental): Valores manipulados ou selecionados pelo pesquisador e/ou percebida como “causa”
Dependente (variável resposta): Valores observados, contados, medidos, que não estejam sob controle direto do pesquisador“provocados” pela variável independente
Tipos de Dados• Categóricos (ou Qualitativos)
• Numéricos (ou Quantitativos)
– Nominais: rótulos sem ordenação; especificar característica. Ex.: sexo, idade, nacionalidade etc.
– Ordinais: definem ordem (posição) sem indicar magnitude (valor). Ex.: classe (baixa, média, alta).
– Intervalares: definem intervalo (compartimento); não especificam valor exato. Ex.: Faixa de QI: [100; 110), [110; 120) etc. Ponto zero éarbitrário.
– Razão: o ponto zero é significativo. Podemos afirmar: “O corpo A éduas vezes mais pesado do que B".
Tipos de Dados
• Contínuos: valores na reta real. Ex.: Altura = 1,65 m.– ex. grandezas físicas ou químicas: força, probabilidade,
concentração, acidez; juros, taxa de câmbio
• Discretos: conjunto discreto de valores. Ex.: Número de Nascimentos = 10.000.– ex. classe sócio-econômica (A-E ou “baixa”, “média”, “alta”), avaliação
em escala Likert (nota 1-5), {PP, P, M, G, GG}, número de acidentes
Medidas de tendência central
São estatísticas que representam de maneira quantitativa o valor ‘médio’ ou ‘típico’ de um conjunto de dados:
Média (aritmética):
Mediana
Moda
Média aritméticaSoma dos valores dividida pelo número de elementos :
1
N
ii
XX
N==∑
N
iX
é o número total de observações
é um dado valor
Aluno (i) Nota (x)
1 3,0
2 5,0
3 6,0
4 4,0
5 5,0
6 8,0
7 9,0
8 6,0
9 2,0
10 5,0
Total 53
Média 5,3
(3,0 5,0 ... 2,0 5,0) /10 5,3X = + + + + =
1 2 3 4 5 6 7 8 9
5,3 No Calc, usar a função: MÉDIA
MedianaDivide a distribuição em duas partes iguais.
Os valores devem estar ordenados
Posição da mediana ->
Procedimento “manual”:1) ordenar valores2) procurar valor “no meio”
21+
=Ni
Notas (x)
3,0
5,0
6,0
4,0
5,0
8,0
9,0
6,0
2,0
7,0
5,0
3;5;6;4;5;8;9;6;2;7;5
Valores ordenados:2;3;4;5;5;5;6;6;7; 8; 9Posição:1;2;3;4;5;6;7;8;9;10;11
1)
2)
i= (11 + 1)/2 = 6
Meio = sexta posição
Mediana = 5
2;3;4;5;5; 5 ;6;6;7;8;9
No Calc, usar a função: MED
Notas FreqüênciaSimples
FreqüênciaAcumulada
2 1 1
3 1 2
4 1 3
5 3 6
6 2 8
7 1 9
8 1 10
9 1 11
i= (11 + 1)/2 = 6 Posição 6 Xi=X6= 5
1 2 3 4 5 6 7 8 9
Mediana
Caso haja um número PAR de elementos, a mediana será dada pela média dos dois valores centrais.
1 2 3 4 5 6 7 8 9{
5,5
Ex.:Dadas as alturas: 62 54 82 49 75 64Ordene: 49 54 62 64 75 82iMediana=(6+1)/2=3,5? => terceira e quarta posição→ Mediana = (62+64)/2= 63
ModaÉ o valor que ocorre com maior frequência.Ex.:
Sujeito Nota
2 1
3 1
4 1
5 3
6 2
7 1
8 1
9 1 1 2 3 4 5 6 7 8 9
No Calc, usar a função: MODO
A moda pode não existir OU pode não ser única.
Exemplos: 1,1,3,3,5,7,7,7,11,13 moda 7 3,5,8,11,13,18 não tem moda 3,5,5,5,6,6,7,7,7,11,12 tem duas modas: 5,7 (bimodal).
Distribuição Unimodal
01234
2 3 4 5 6 7 8 9Nota
Freq
üênc
ia
Distribuição Bimodal
01234
2 3 4 5 7 8 9Nota
Freq
üênc
ia
Sujeitos Notas
2 13 34 15 17 38 19 1
Características das medidas de tendência central
Abaixo de 100100
300500
700900
10003000
5000acima de 5000
0
20000
40000
60000
80000
100000
120000
140000
160000
Renda Média Mensal (R$)
Freq
uênc
iaMédia influenciada pelas extremidades;
Mediana Valor central
Mediana e Moda ignoram extremidades
MédiaMediana
Moda
Medidas de dispersão ou variabilidade
quanto os dados numéricos dispersam-se em torno de um valor médio São estatísticas que representam de maneira quantitativa a variabilidade dos números em uma amostra ou população.
Variância
Desvio-padrão
VariânciaMédia dos quadrados dos desvios, onde desvio é a diferença entre
cada dado e a média do conjunto.É o valor quadrático médio da dispersão com respeito à média.
22 ( )
40 / 4 101
X Xs
N−
= = =−
∑
Dados)(X
Desvios)( XX −
Quadrados dos Desvios2)( XX −
0 -5 254 -1 16 1 18 3 97 2 4
5=X ∑ =− 0)( XX ∑ =− 40)( 2XX
No Calc, usar a função: VAR
Desvio Padrão
Estatística que representa de maneira quantitativa a variação (dispersão) dos dados em relação ao valor médio. Tem a vantagem de ter a mesma unidade que os dados.
Calculado pela raiz quadrada da variância
2( )² 10 3,16
1X X
s sN−
= = = =−
∑
Obs.: tem a vantagem de ter a mesma unidade que os dados. Neste exemplo, se X é dado em metros, s também será dado em metros.
No Calc, usar a função: DESVPAD
DistribuiçãoExemploPara obter uma estimativa da altura média do brasileiro adulto, foi coletada uma amostra com 5000 pessoas (N=5000).
À direita: resultados por faixa (intervalo) de altura.
Frequência relativa (em %) = freq. absoluta / freq. total * 100(%)
= proporção em 100
Gráfico da Distribuição
Média: 1,653
DesvioPadrão: 0,173
Frequência(em %)
Faixa de altura (em m)
Exemplo: Gráfico de Distribuição Assimétrica
Distribuição Assimétrica
0
1
2
3
4
5
2 3 4 7 8 9 10Nota
Fre
qü
ênci
a
Moda
Mediana
Média
Apresentação gráfica – Estrutura de um gráfico
Ordenada (eixo-Y)var dependente Título (identificação)
Abscissa (eixo-X)var independente
Série 1Série 2
Série
Legenda (se necessária)1
2
3
4
Escala
Rót
ulo
Y (i
dent
ifica
ção)
OrigemRótulo X (identificação)
Gráfico de colunas
Holmes EA, James EL, Coode-Bate T, Deeprose C 2009 Can Playing the Computer Game “Tetris” Reduce the Build-Up of Flashbacks for Trauma? A Proposal from Cognitive Science. PLoS ONE 4(1): e4153 doi:10.1371/journal.pone.0004153
Número derevivênciastraumáticas
(“flashbacks”)por semana
var. dependente:
numéricadiscreta
var. independente:
categóricaCondição Experimental
Média(Valor Central)
+/- Erro (Barra de Erro)
Depois de jogar Tetris
Semjogar Tetris
Gráfico de colunas
dependente:contínua
Área dePlantação
(ópio)
Ano independente:ordinal
Gráfico de linhas
dependente:contínua
independente:ordinal
Compare: Gráfico de linhas destaca evoluçãoGráfico de colunas destaca níveis absolutos
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1880 1900 1920 1940 1960 1980 2000
ano
varia
ção
(°C
)
Ano
Variação em temperatura relativa a uma referência
(Cº)
Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/
Histograma
Frequênciaem %
dependente:contagem
(frequência, porcentagemou proporção)
Diâmetro (nm) de nanotubo de carbono
independente:Intervalar
(contínua discretizada)
Li Y, Kim W, Zhang Y, Rolandi M, Dai H 2001 Growth of Single-Walled Carbon Nanotubes from Discrete Catalytic Nanoparticles of Various Sizes. The Journal of Physical Chemistry B, 105, 11424-11431
Gráfico de dispersão
Índice de sucesso financeiro
Razão indicador/anular independente:
contínua
dependente:contínua Pontos de dados
Linha de tendência:opcional
John M. Coates, Mark Gurnell, and Aldo RustichiniSecond-to-fourth digit ratio predicts success among high-frequency financial tradersPNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106
• Parte prática
• Cálculos e gráficos em programas de planilhas
• Todos os procedimentos apresentados aqui podem ser realizados emqualquer programa de planilha. O pacote BrOffice pode ser baixado para uso livre em casa do endereço http://broffice.org/.
• Abre (botão início) • → programas • → BrOffice.org• → BrOffice.org Calc•
Planilhas
Linhas
Colunas
Célula (A1)
Planilha
Acesso a outras planilhas
Cálculo de funções estatísticas em uma planilha
2) Digite ‘=‘ para identificar o conteúdo da célula como fórmula e não texto ou número. Ó que for digitado aparecerá na linha de entrada e na célula selecionada.
1) Clique onde quer calcular a fórmula 3) Clique no ‘assistente de funções’
(fx) para encontrar uma função específica.
4) Procure ‘média’ na lista, selecione
5) Clique em ‘Próximo’
6) Clicar em uma outra célula na entrada de uma função geraráuma referência simples. Para dar um conjunto de células adjacentes como argumento, clique na primeira célula com botão esquerdo do mouse, segure o botão enquanto arrastando o cursor até a última célula. Solte o botão. (Também é possível digitar o alcance da função no campo de texto.)
7) Clique em “OK” para calcular a função e voltar para a planilha.
Menu / “Arquivo”: salvar, abrir etc.Botão “Salvar”
Botão “Assistente de gráfico”
Botão “Salvar”
Dados (p. ex. nº de homens e mulheres em uma turma)
Representação gráfica da turma porgênero
(1) Selecione os dados
(2) Clique botão “Gráfico”
Menu e barras específicas
GráficoGráfico
Assistente degráfico
Clique em “Concluir”
Referências e funções
(1) Preencha com os dados
(3) Digite “=” para indicar que segue uma 'fórmula'
Digite “SOMA(“(4) Selecione B2:B8 (mouse)
(5) Digite Enter para 'fechar' a fórmula
(2) Selecionecélula B9
Porcentagem = Frequência / Total x 100
(1) Clique em C2, digite “=” e a fórmula
(2) Certifique-se que a referência para o total é B$9 (mude se necessário)
(3) Aperte “Enter”, selecione C2, e “arraste” sobre C2:C8
Referências relativas Referências absolutas
Referência B$9 Referência B9
Ao copiar uma fórmula, programas de planilha presumem que as referências são relativas – que referem sempre para a mesma posição relativa (x células acima/abaixo e y células esquerda/direita) de uma célula-alvo. Para deixar claro que uma linha ou coluna é constante (não relativa), use $ antes da referência.
(1) Os números em C são porcentagens
(2) Selecione A1:A8 e C1:C8(segure Ctrl para áreas separadas)
(3) Aperte botão “Assistente de gráfico”
Passo 2
Passo 3
Mude as referências para excluir linha 2 e linha 8, com freqüência 0
Várias séries podem ser incluídas.
Passo 4
150-160 160-170 170-180 180-190 190-2000
5
10
15
20
25
30
35
altura (cm)
%
Abrir a planilhaaula03_dados_doenca_coronariana.ods
Calcular MÉDIA e DESVPADPara alguns parâmetros.
Exemplo de REGRESSÃO LINEAR:determinar a reta
y = m.x + b,na qual as constantes “m” e “b” proporcionam ajuste “ótimo”.
Fazer o gráfico de dispersão dos pontos dados.
Ajustar reta aos pontos (REGRESSÃO LINEAR)
Determinar o quanto os dados se relacionam de maneira LINEAR por meio de r, COEFICIENTE DE CORRELAÇÃO (LINEAR)
( )( )( ) YX
iiXY ssn
YyXxr
1−−−
= ∑
48
Determinar ajuste dos dados à reta por meio do parâmetro R2 (COEFICIENTE DE DETERMINAÇÃO)
Atividade 1 para Casa
-Na ferramenta “Atividades” do Tidia, depositar a resolução de 3 exercícios da
Lista03_Exercicios.pdfdisponível no “Repositório”.
-Fornecer a planilha (arquivo “.ods”) usada na resolução dos seus exercícios.
Atividade 2 para Casa
- Assistir o vídeo
Noções de estatística, Correlação e Regressão no BrCalc..flv
disponível dentro da pasta da Aula 3 no “Repositório” do Tidia.