Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-1
Capítulo 1
Introdução e Coleta de Dados
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-2
Objetivos
Neste capítulo você aprenderá:
Como a estatística é usada nos negócios
As fontes de dados em negócios
Os tipos de dados utilizados
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-3
Por que estudar Estatística?
Os tomadores de decisão usam estatística para:
Apresentar e descrever apropriadamente
informações dos negócios que administram
Tirar conclusões sobre uma grande população,
usando informações de amostras
Fazer previsões sobre as atividades de forma mais
confiável
Melhorar os processos
Estatística para Ciências
Contábeis
É uma ferramenta, um método
Instrumento auxiliar na tomada de decisões
Análise de indicadores (lucratividade, rentabilidade, atividade) Evolução histórica, variabilidade, comparações com empresas
do mesmo setor. A empresa está acima ou abaixo da média do setor, acima ou abaixo da mediana? Está em que quartil?
A previsão dos indicadores pode ser insumo ao planejamento e orçamento.
Administração de estoques e caixa Como definir os níveis ótimos de estoque?
Como variam as demandas por matérias-primas e produtos acabados?
Como variam os tempos de entrega dos fornecedores?
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-4
Estatística para Ciências
Contábeis Custo de capital (próprio e de terceiros e o que os
determina) Se a empresa tem ações em bolsa, como o preço de sua ação
varia com as oscilações do mercado? Os bancos que fornecem empréstimos cobram taxas adequadas
ao risco de crédito que a empresa representa? Como avaliar se estas taxas são adequadas?
Auditorias e fiscalizações Auditorias em processos das empresas podem ser extremamente
custosas. Por exemplo, a verificação da correta contabilização de faturas significa analisar TODAS as faturas? É possível concluir com base na análise de amostras?
Como órgãos públicos planejam a fiscalização das atividades das empresas?
Pesquisas acadêmicas (modelos de previsão de falência, governança corporativa / disclosure)
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-5
Métodos Estatísticos
Teoria da Probabilidade
EstatísticaO “braço” da matemática que transforma os dados em informação útil
aos tomadores de decisão.
Estatística Descritiva
Coleta, resume e descreve os dados
Estatística Inferencial
Permite concluir e tomar decisões a respeito de uma população baseando-se em dados de amostras dessa população.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-7
Estatística Descritiva
Coletar Dados
ex. Pesquisa
Apresentar Dados
ex. Tabelas e gráficos
Caracterizar os dados
ex. Média amostral =iX
n
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-8
Estatística Inferencial
Estimação
ex. Estimar o peso médio da
população com base no peso
médio de uma amostra
Teste de hipótese
ex. Testar a afirmação de que o
peso médio da população é de
65 kg
Concluir ou tomar decisões sobre uma população com base em resultados de amostras.
Vocabulário Básico da Estatística
Variável Uma variável corresponde a uma característica de um item ou
de um indivíduo
População Uma população consiste em todos os itens ou indivíduos em
relação aos quais você deseja tirar uma conclusão
Amostra Uma amostra corresponde à parcela da população selecionada
para análise
Parâmetro Um parâmetro é uma medida numérica que descreve uma
característica de uma população
Estatística Uma estatística é uma medida numérica que descreve uma
característica de uma amostra
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-10
População x Amostra
População Amostra
Medidas usadas para descrever a
população são chamadas
parâmetros
Medidas calculadas a partir de
uma amostra são chamadas
estatísticas
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-11
Fontes de Dados
Fontes Primárias: quem coleta e quem analisa são a
mesma pessoa
Dados de uma pesquisa política
Dados coletados de um experimento
Dados de observação
Fontes Secundárias: a pessoa que realiza a análise
não é quem a coletou
Análise de dados de censo
Dados de jornais ou publicados na internet
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 1-12
Tipos de Variáveis
Tipo de
Variável
Categórica Numérica
Discreta Contínua
Exemplos:
Estado Civil
Partido político
Cor dos olhos
(Categorias definidas)Exemplos:
Número de filhos
Defeitos por hora
(Contagem)
Exemplos:
Peso
Voltagem
(Características mensuráveis)
Tipos de Variáveis
Tipo de Variável Tipos de Perguntas Respostas
Categórica
Você atualmente
possui ações ou
títulos?
( ) Sim
( ) Não
Numérica
Discreta: Quantas
revistas você assina
atualmente?
______ Número
Contínua: Qual é a
sua altura?
______ Centímetros
Níveis de mensuração – um outro meio
de classificar os dados
Dados
Quantitativo
ou numérico
Qualitativo
ou categórico
Intervalar Razão Nominais Ordinais
Níveis de mensuração – Variáveis
qualitativas
Nominais:
As observações são nomeadas, rotuladas ou classificadas.
Não há ordem ou hierarquia.
Quando há duas categorias a variável é dicotômica, quando há mais de duas
denomina-se variável categórica.
Ex: país de origem, religião.
Não é possível realizar operações aritméticas com seus valores.
As estatísticas avaliadas são as baseadas em frequência, como moda e distribuição
de frequência.
Variável Categórica Categorias
Tem computador?
Tipo de ações
Provedor Internet
Sim / Não
UOL / Globo.com
Crescimento / Valor / Outras
Níveis de mensuração – Variáveis
qualitativas Ordinais:
Há uma relação > (maior do que) válida para todos os pares de classes.
A relação > poderá incluir mais alto do que, mais difícil do que, mais
importante do que, preferível, etc.
Ex: status social, grau de escolaridade, hierarquização de um conjunto de
afirmações, atitudes em relação a determinado fato.
Categorical Variable Ordered Categories
Satisfação com o produto Satisfeito, Neutro, Insatisfeito
Cargo Instrutor, Prof. Assistente, Prof. Adjunto,
Prof. Titular
Ratings de títulos de dívidas AAA, AA, A, BBB, BB, B, CCC, CC, C,
DDD, DD, D
Notas de Provas A, B, C, D, F
Níveis de mensuração – Variáveis
quantitativas
Nível intervalar: Quando se designa arbitrariamente a uma categoria o valor
zero e, a partir desse marco, constrói-se a escala.
As categorias mantém uma relação de ordem, além de intervalos iguais de medição.
O zero (0) é arbitrário, não é real.
Ex: temperatura (o zero é uma categoria e não implica que haja temperatura igual a zero), peso, altura, volume
Nível de razão O zero (0) é absoluto, há um ponto na escala onde não existe a
propriedade.
Permite saber se um número é o dobro ou o triplo de outro.
Ex: renda, idade, quantidade produzida. Obs.: para estas variáveis é possível aplicar todas as estatísticas paramétricas
comuns.
Níveis de Manipulação – Variáveis
Dependentes e Independentes
Variável Independente: é aquela que é
observada/medida e se supõe causar algum efeito
sobre a variável dependente
Variável dependente: é aquela cuja variação se quer
explicar a partir da variação na variável
independente
Exemplo: será que a variação no preço da ação da
Petrobrás é influenciada pela variação no índice
Ibovespa?
Neste caso a variável dependente é a cotação da ação da
Petrobrás e a variável independente é a cotação do índice
Ibovespa.
Classificação das Variáveis
Qualitativa
Nominal
Qualitativa
Ordinal
Número Est. civil Instrução Filhos Salário (SM) Idade
1 1 1 0 4. 00 26
2 2 1 1 4. 56 32
3 2 1 2 5. 25 36
4 1 2 0 5. 73 20
5 1 1 0 6. 26 40
6 2 1 0 6. 66 28
7 1 1 0 6. 86 41
8 1 1 0 7. 39 43
9 2 2 1 7. 59 34
10 1 2 0 7. 44 23
Quantitativa
Razão
Quantitativa
Razão
Quantitativa
Razão
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-20
Capítulo 2
Apresentando Dados emTabelas e Gráficos
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-21
Objetivos:
Nesse capítulo, você aprenderá:
Desenvolver tabelas e gráficos para dados
categóricos
Desenvolver tabelas e gráficos para dados
numéricos
Os princípios para uma apresentação
apropriada de gráficos
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-22
Organizando Dados Categóricos:
Tabela Resumo
Uma tabela resumida indica a frequência, a quantidade ou a
percentagem de itens em um conjunto de categorias, de tal
modo que você possa verificar diferenças entre as categorias.
Como você aproveita os feriados? Percentagem
Em casa com a família 45%
Viajando para visitar a família 38%
Férias 5%
Trabalhando 5%
Outros 7%
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-23
Organizando Dados Categóricos:
Gráfico de Barras
Em um gráfico de barras, uma barra ilustra cada uma das
categorias, cujo comprimento representa a quantidade,
frequência ou a percentagem de valores que se
posicionam em uma determinada categoria.
45%
38%
5%
5%
7%
0% 10% 20% 30% 40% 50%
Em casa com a família
Viajando para visitar a família
Férias
Trabalhando
Outros
Como você aproveita os feriados?
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-24
Organizando Dados Categóricos:
Gráfico de Pizza O gráfico de pizza é um círculo desmembrado em fatias que
representam categorias. O tamanho de cada uma das fatias da
pizza varia de acordo com a percentagem em cada uma das
categorias..
45%
38%
5%
5%7%
How Do You Spend the Holiday's
Em casa com a família
Viajando para visitar a família
Férias
Trabalhando
Outros
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-25
Organizando Dados Categóricos:
Diagrama de Pareto
Utilizado para mostrar dados categóricos
Um gráfico de barras, onde as categorias são
mostradas em ordem decrescente de frequência
Uma linha correspondente aos percentuais
acumulados é mostrado no mesmo gráfico
Usado para separar os “poucos vitais” dos “muitos
triviais” (Princípio de Pareto)
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-26
Organizando Dados Categóricos:
Diagrama de Pareto%
ac
um
ula
do
em
ca
da
tipo
(linh
ad
o g
ráfic
o)
%in
ve
sti
do
em
ca
da
ca
teg
ori
a
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Stocks Bonds Savings CD
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Carteira de Investimentos
Ações Renda Fixa Poupança CDB
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-27
Organizando Dados Categóricos:
Disposição Ordenada Uma disposição ordenada consiste em uma sequência de
dados, em uma ordem de classificação, do menor valor para
o maior valor..
Idade dos
alunos da
amostra
Estudantes do turno matutino
16 17 17 18 18 18
19 19 20 20 21 22
22 25 27 32 38 42
Estudantes do turno noturno
18 18 19 19 20 21
23 28 32 33 41 45
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-28
Organizando Dados Categóricos:
Disposição Ramo e Folha Uma disposição ramo-e-folha organiza dados em grupos
(chamados de ramos) de tal modo que os valores dentro de
cada grupo (as folhas) se ramifiquem para a direita de cada
linha.
Ramo Folha
1 6778889
9
2 0012257
3 28
4 2
Idade dos Estudantes
Turno Matutino Turno Noturno
Ramo Folha
1 8899
2 0138
3 23
4 15
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-29
Organizando Dados Categóricos:
Distribuição de Frequência
A distribuição de frequência é uma tabela resumida, na qualos dados são dispostos em grupos de classe ordenadosnumericamente.
Atenção deve ser dada à seleção da quantidade apropriada de grupos de classe para a tabela, à determinação da amplitude adequada para um grupo de classe, e ao estabelecimento de limites para cada grupo de classe, visando evitar sobreposições.
Para determinar a amplitude de um intervalo de classe vocêdivide a amplitude (maior valor – menor valor) do conjunto de dados pela quantidade desejada de grupos de classe.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-30
Organizando Dados Categóricos:
Distribuição de Frequência -
Exemplo
Exemplo: Um fabricante de isolamento térmico seleciona
aleatoriamente 20 dias de inverno e registra a temperatura
média diária.
24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-31
Organizando Dados Categóricos:
Distribuição de Frequência -
Exemplo
Organize os dados em ordem crescente:12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Encontre a amplitude: 58 - 12 = 46
Selecione o no. de classes: 5 (usualmente entre 5 e 15)
Calcule a amplitude do intervalo de classe: 10 (46/5 e arredonde para cima)
Determine os limites para cada grupo de classe: 10, 20, 30, 40, 50, 60
Determine os pontos médios de cada grupo de classe: 15, 25, 35, 45, 55
Conte as observações em cada grupo de classe
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-32
Organizando Dados Categóricos:
Distribuição de Frequência -
Exemplo
Classe Frequência
10 - 20 3 .15 15
20 - 30 6 .30 30
30 - 40 5 .25 25
40 - 50 4 .20 20
50 - 60 2 .10 10
Total 20 1.00 100
FrequênciaRelativa Percentagem
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-33
Organizando Dados Categóricos:
Histograma
Um gráfico onde os dados numéricos são apresentados naforma de distribuição de frequências e chamadohistograma.
Os limites de classe (ou pontos médios de classes) sãomostrados no eixo horizontal.
O eixo vertical mostra a frequência, frequênciarelativa, ou percentagem.
Barras de alturas apropriadas são usadas para representaro no. de observações dentro de cada classe.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-34
Organizando Dados Categóricos:
Histograma
0
1
2
3
4
5
6
7
5 15 25 35 45 55 More
Fre
qu
ên
cia
Histograma: Temperatura diária
Classe Frequência
10 - 20 3 .15 15
20 - 30 6 .30 30
30 - 40 5 .25 25
40 - 50 4 .20 20
50 - 60 2 .10 10
Total 20 1.00 100
Frequência Relativa Percentagem
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-35
Organizando Dados Categóricos:
Histograma no Excel
1. Selecione:
Ferramentas /
análise de dados
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-36
Organizando Dados Categóricos:
Histograma no Excel
2. Escolha Histograma
3. Informe o intervalo de entrada e o intervalo de bloco(intervalo de bloco é o conjuntode células contendo os limitessuperiores de cada grupo de classe)
4. Marque Resultado do gráficoe clique em “OK”
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-37
Organizando Dados Categóricos:
Polígono de Percentagens
Um polígono de percentagens é formado fazendo-se com que o ponto médio de cada classe representeos dados naquela classe e, depois, interligando-se a sequência de pontos médios em suas respectivaspercentagens de classe.
O polígono de percentagens acumuladas (ogiva) exibe a variável de interesse ao longo do eixo X e a percentagem acumulada ao longo do eixo Y.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-38
Organizando Dados Categóricos:
Polígono de Percentagens
0
2
4
6
8
5 15 25 35 45 55 More
Fre
qu
ên
cia
Polígono de Frequência: temperatura diária
Classe Frequência
10 - 20 3 .15 15
20 - 30 6 .30 30
30 - 40 5 .25 25
40 - 50 4 .20 20
50 - 60 2 .10 10
Total 20 1.00 100
Frequência Relativa Percentagem
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-39
Organizando Dados Categóricos: Polígono
de Percentagens Acumuladas
0
50
100
10 20 30 40 50 60
% a
cu
mu
lad
o
Ogiva: Temperatura Diária
Classe Limite Inferior % menor que o
limite inferior
10<20 10 0
20<30 20 15
30<40 30 45
40<50 40 70
50<60 50 90
60 100
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-40
Tabulações Cruzadas:
A Tabela de Contingência
Uma tabela de contingência apresenta os resultados de duasvariáveis categóricas. As respostas combinadas sãoclassificadas de modo tal que as categorias de uma variávelfiquem localizadas nas linhas, enquanto as categorias da outravariável fiquem localizadas nas colunas.
Os valores localizados na interseção entre linhas e colunas sãochamados de células.
Uma maneira eficiente de exibir visualmente os resultados de dados com classificação cruzada é pela construção de um gráfico de barras paralelas.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-41
Tabulações Cruzadas:
A Tabela de Contingência
Importância da
marca
Masculino Feminino Total
Maior 450 300 750
Igual ou menor 3300 3450 6750
Total 3750 3750 7500
Uma pesquisa foi conduzida para estudar a importâncica damarca para consumidores em comparação com anos atrás. Os resultados, classificados por sexo, são os seguintes:
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-42
Tabulações Cruzadas:
Gráfico de Barras Paralelas
0 500 1000 1500 2000 2500 3000 3500 4000
Maior
Menor ou Igual
No. de respondentes
Resp
osta
Importância da Marca
Feminino
Maculino
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-43
Gráfico de Dispersão
Gráficos de Dispersão são utilizados para investigar
possíveis relações entre duas variáveis numéricas.
Cada observação é tomada a partir de duas variáveis
numéricas.
Uma variável é avaliada no eixo horizontal e outra
no eixo vertical.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-44
Gráfico de Dispersão - Exemplo
Volume
diário
Custo
diário
23 125
26 140
29 146
33 160
38 167
42 170
50 188
55 195
60 200
0
50
100
150
200
250
20 30 40 50 60 70
Cu
sto
diá
rio
Volume diário
Custo diário x Volume diário
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-45
Séries Temporais
Um gráfico de séries temporais é utilizado para
estudar padrões nos valores de uma variável
numérica ao longo do tempo. Cada valor é “plotado”
com um ponto em um gráfico com duas dimensões,
no eixo X fica a linha do tempo e no eixo Y os
valores da variável que se está estudando.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-46
Série Temporal - Exemplo
Frequência (em milhões) em parques de diversão e temáticos nos EUA
entre 2000-2005
Ano No. ano Frequência
2000 0 317
2001 1 319
2002 2 324
2003 3 322
2004 4 328
2005 5 335
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-47
Série Temporal - Exemplo
316
320
324
328
332
336
0 1 2 3 4 5 6
Fre
qu
ên
cia
Ano (desde 2000)
Frequência em parques temáticos nos EUA
(milhões)
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 2-48
Diretrizes para gráficos bem
elaborados
O gráfico não deve distorcer os dados
O gráfico não deve conter adornos desnecessários(sucata de gráficos)
Qualquer gráfico bidimensional deve conter umaescala para cada um dos eixos
A escala no eixo vertical deve inicial em zero
Todos os eixos devem ter legendas apropriadas
O gráfico deve conter um título
O gráfico mais simples possível deve ser utilizadopara um determinado conjunto de dados
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-49
Capítulo 3
Medidas Numéricas Descritivas
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-50
Objetivos
Neste capítulo, você aprenderá:
A descrever as propriedades de tendência central,
variação e formato, em dados numéricos
A calcular medidas descritivas resumidas para uma
população
A construir e interpretar um box-plot
A descrever a covariância e o coeficiente de
correlação
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-51
Resumo das definições
A tendência central corresponde à extensão
na qual todos os valores de dados se agrupam
em torno de um valor central típico
Variação corresponde ao montante de
dispersão, ou spread, de valores em relação a
um valor central
Formato corresponde ao padrão da
distribuição de valores do valor mais baixo
para o mais alto
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-52
Medidas de Tendência Central
A Média Aritmética
É a medida mais comum de tendência central
Para uma amostra de tamanho n:
n
XXX
n
X
X n21
n
1i
i
Tamanho da amostra Valores observados
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-53
Medidas de Tendência Central
A Média Aritmética
A medida mais comum de tendência central
Média = soma dos valores dividido pelo no. de valores
Afetada por valores extremos (outliers)
0 1 2 3 4 5 6 7 8 9 10
Media = 3
35
15
5
54321
0 1 2 3 4 5 6 7 8 9 10
Media = 4
45
20
5
104321
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-54
Medidas de Tendência Central
A Mediana
Em um conjunto de dados ordenados, a mediana é o valor no
meio da sequência (50% dos valores estão acima dela e 50%
abaixo)
Não é afetada por valores extremos
0 1 2 3 4 5 6 7 8 9 10
Median = 4
0 1 2 3 4 5 6 7 8 9 10
Median = 4
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-55
Medidas de Tendência Central
Localizando a Mediana
A mediana de um conjunto ordenado de dados estána posição de no .
Se existir uma quantidade ímpar de valores, a mediana é o valor no meio do conjunto de observações ordenadas.
Se o no. de observações é par a mediana é a médiados dois valores que estão no meio na ordem de classificação.
Observe que não é o valor da mediana, somente indica a posição em que a mediana está no conjunto ordenado de dados.
2
1n
2
1n
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-56
Medidas de Tendência Central:
Moda
Valor que ocorre com maior frequência
Não é afetado por valores extremos
Utilizado tanto para dados categóricos quanto
numéricos
Pode haver nenhuma moda
Pode haver várias modas
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
Não há moda
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-57
Medidas de Tendência Central:
Exemplo de Revisão
Preços de Casas:
$2,000,000
500,000300,000100,000100,000
Soma 3,000,000
Média: ($3,000,000/5)
= $600,000
Mediana: valor do meio nadistribuição ordenada
= $300,000
Moda: valor mais frequente= $100,000
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-58
Medidas de Tendência Central
Que medidas escolher?
A média é geralmente utilizada, a menos que
haja outliers.
Neste caso a mediana é mais frequentemente
utilizada, já que não é afetada por valores
extremos.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-59
Quartis
Os quartis dividem um conjunto de dados em quatro
partes iguais, com mesma quantidade de observações.
25% 25% 25% 25%
Q1 Q2 Q3
O primeiro quartil, Q1, é o valor para o qual 25% das observações são menores e 75% são maiores
Q2 é a mediana (50% são menores e 50% são maiores)
Somente 25% dos valores são maiores do que o terceiroquartil.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-60
Localizando os Quartis
Encontre o quartil identificando o valor, no conjunto ordenado de observações, que corresponde às seguintes posições:
Posição do 1o. quartil: Q1 = (n+1)/4 posição
Posição do 2o. quartil: Q2 = (n+1)/2 posição
Posição do 3o. quartil: Q3 = 3(n+1)/4 posição
onde n é o no. de valores observados
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-61
Quartis
Orientações
Regra 1: se o resultado é um no. inteiro, então o quartil é
igual à observação naquela posição.
Regra 2: se o resultado for uma metade fracionada(2.5,
3.5, etc), então o quartil é a média entre os valores
correspondentes na ordem classificada.
Regra 3: Se não for nenhuma das situações anteriores,
você arredonda para o inteiro mais próximo e seleciona o
valor na ordem de classificação.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-62
Quartis
Localizando o 1o. Quartil
Exemplo: encontre o 1o. quartil
Amostra de dados ordenados: 11 12 13 16 16 17 18 21 22
Primeiro, obserque que n = 9.
Q1 = está na posição (9+1)/4 = 2.5 da distribuição ordenada,
então use o valor entre as posições 2o e 3o ,
então Q1 = 12.5
Q1 e Q3 são medidas de localização não-central
Q2 = mediana, uma medida de tendência central
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-63
Medidas de Tendência Central:
Média Geométrica
Média Geométrica
Mede a taxa de variação de uma variável ao longo do tempo
Média geométrica da taxa de retorno
Mede o percentual médio de retorno de um investimento ao
longo do tempo
Onde Ri é a taxa de retorno no período i
n
nG XXXX /1
21 )(
1)]R1()R1()R1[(R n/1
n21G
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-64
Medidas de Tendência Central:
Média Geométrica
Um investimento de $100,000 cai a $50,000 no final do ano1 e retorna a $100,000 no final do ano 2:
O retorno no período todo é zero, já que o valor do início e do final do período é o mesmo.
000,100$X000,50$X000,100$X 321
50% queda 100% aumento
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-65
Medidas de Tendência Central:
Média Geométrica
Use os retornos anuais para calcular o retorno médio pelamédia aritmética e pela média geométrica:
25.2
)1()5.(
X
Taxa de retorno(médiaaritmética):
Taxa de retorno(médiageométrica): %0111)]2()50[(.
1))]1(1())5.(1[(
1)]1()1()1[(
2/12/1
2/1
/1
21
n
nG RRRR
Resultado equivocado
Resultadocorreto
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-66
Medidas de Tendência Central:
Resumo
Tendência Central
MédiaAritmética
Mediana Moda MédiaGeométrica
n
X
X
n
i
i 1
n/1
n21G )XXX(X
Valor do meionumasequênciaordenada
Valor maisfrequente no conjunto de observações
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-67
Medidas de Variação
A variação mede o spread ou dispersão, dos
valores em um conjunto de dados.
Amplitude
Amplitude Interquartil
Variância
Desvio Padrão
Coeficiente de Variação
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-68
Medidas de Variação
Amplitude
É a medida mais simples de variação
Diferença entro o valor máximo e o mínimo no conjunto de
observações:
Amplitude = Xmaior – Xmenor
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Amplitude = 13 - 1 = 12
Exemplo:
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-69
Medidas de Variação
Desvantagens da Amplitude Não leva em consideração o modo como os dados estão
distribuídos
Sensível a outliers
7 8 9 10 11 12
Range = 12 - 7 = 5
7 8 9 10 11 12
Range = 12 - 7 = 5
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Amplitude = 5 - 1 = 4
Amplitude = 120 - 1 = 119
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-70
Medidas de Variação
Amplitude Interquartil
Os problemas causados pelos outliers podem ser eliminados utilizando-se a amplitude interquartil.
A amplitude interquartil pode eliminar algunsvalores altos e baixos e calcula a amplitude entre osremanescentes.
Amplitude Interquartil = 3o quartil – 1o quartil
= Q3 – Q1
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-71
Medidas de Variação
Amplitude Interquartil
Mediana
(Q2)X
maximoXminimo Q1 Q3
Exemplo:
25% 25% 25% 25%
12 30 45 57 70
Amplitude Interquartil
= 57 – 30 = 27
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-72
Medidas de Variação
Variância
A variância da amostra é a soma das diferenças em torno da
média aritmética elevadas ao quadrado, dividida pelo tamanho
da amostra menos 1.
Variância da amostra:
Onde: = média aritmética
n = tamanho da amostra
Xi = ij valor da variável X
X
1-n
)X(X
S
n
1i
2
i2
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-73
Medidas de Variação
Desvio Padrão
Medida mais utilizada de variação
Mostra a variação em torno da média
Tem a mesma unidade dos dados originais
Desvio Padrão da Amostra:1-n
)X(X
S
n
1i
2
i
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-74
Medidas de Variação
Desvio Padrão
Etapas para o cálculo do Desvio Padrão:
1. Calcule a diferença entre cada valor e a média
aritmética.
2. Eleve ao quadrado cada diferença.
3. Some as diferenças elevadas ao quadrado.
4. Divida esse total por n-1 para obter a variância da
amostra.
5. Calcule a raiz quadrada da variância da amostra
para obter o desvio-padrão da amostra.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-75
Medidas de Variação
Desvio PadrãoAmostraDados (Xi) : 10 12 14 15 17 18 18 24
n = 8 Media = X = 16
4,24267
126
18
16)(2416)(1416)(1216)(10
1n
)X(24)X(14)X(12)X(10S
2222
2222
Uma medida da dispersão“média” em torno da média
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-76
Medidas de Variação
Comparando Desvios Padrão
Media = 15.5
S = 3,33811 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Dados B
Dados A
Media = 15.5
S = 0,926
11 12 13 14 15 16 17 18 19 20 21
Media = 15.5
S = 4,570
Dados C
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-77
Medidas de Variação
Comparando Desvios Padrão
Desvio Padrão pequeno
Desvio Padrão grande
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-78
Medidas de Variação
Resumo das Características
Quanto mais dispersos os dados, maior a amplitude, a amplitude interquartil, a variância e o desvio-padrão.
Quanto mais os dados são concentrados, menor a a amplitude, a amplitude interquartil, a variância e o desvio-padrão.
Se os valores são todos iguais (nenhumavariação), todas essas medidas serão zero.
Nenhuma dessas medidas pode ser nuncanegativa.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-79
Coeficiente de Variação
O coeficiente de variação é o desvio padrão divididopela média, multiplicado por 100.
É sempre expresso na forma percentual (%).
Mostra a variação em relação à média.
O CV pode ser usado para comparar dois ou maisconjuntos de dados que estão em unidadesdiferentes.
100%X
SCV
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-80
Coeficiente de Variação
Ação A:
Preço médio no último ano = $50
Desvio Padrão = $5
Ação B:
Preço médio no último ano = $100
Desvio Padrão = $5
10%100%$50
$5100%
X
SCVA
5%100%$100
$5100%
X
SCVB
Ambas açõestêm o mesmodesvio padrão, mas o preçoda ação B é menosvariávelrelativamentea seu preçomédio
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-81
Localizando Outliers Extremos
Z-Score
Para calcular o Z-score de um determinado valor, subtraia a média e divida pelo desvio-padrão.
O Z-score é a distância, em desvios-padrão, queaquela observação está da média do conjunto de dados.
Um valor é considerado outlier extremo se o seu Z-score é menor que -3.0 ou maior que +3.0.
Quanto maior o valor absoluto do Z-score, maisdistante o valor está da média.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-82
Localizando Outliers Extremos
Z-Score
onde X representa o valor observado
X é a média da amostra
S é o desvio-padrão da amostra
S
XXZ
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-83
Localizando Outliers Extremos
Z-Score
Suponha que a média do teste ANPAD seja
300 com desvio-padrão de 100.
Calcule o z-score para uma nota de 450.
5,1100
150
100
300450
S
XXZ
Uma pontuação de 450 está 1,5 desvios padrão acimada média e não seria considerado um outlier.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-84
Formato da Distribuição
Descreve como os dados estão distribuídos
Medidas de Formato
Simetria ou Assimetria
Media = MedianaMedia < Mediana Mediana < Media
Assimetria à direitaAssimetria à esquerda Simétrica
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-85
Medidas numéricas descritivas
para uma população
As estatísticas descritivas apresentadas
anteriormente descrevem uma amostra, não a
população.
Medidas descritivas que descrevem a população são
denominadas parâmetros, e representadas por letras
gregas.
Os mais importantes parâmetros da população são a
média, a variância e o desvio padrão.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-86
Média populacional
A média populacional é a soma dos valores da
população dividido pelo tamanho da população, N.
N
XXX
N
XN
N
i
i
211
μ = média populacional
N = tamanho da população
Xi = ij valor da variável X
Onde:
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-87
Variância Populacional
N
XN
1i
2
i2
μ)(
σ
A variância populacional é a média dos desvios emrelação a média populacional ao quadrado.
Onde: μ = média populacional
N = tamanho da população
Xi = ij valor da variável X
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-88
Desvio Padrão da População
O desvio padrão da população é a medida mais
comum de variação.
Tem as mesmas unidades de medida dos dados
originais.
N
XN
1i
2
i μ)(
σ
Onde: μ = média populacional
N = tamanho da população
Xi = ij valor da variável X
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-89
Estatísticas Amostrais x
Parâmetros Populacionais
Medida Parâmetro
Populacional
Estatística
Amostral
Média
Variância
Desvio Padrão
X
2S
S
2
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-90
Regra Empírica
A regra empírica aproxima a variação dos dados a
uma distribuição com formato de sino.
Aproximadamente 68% dos dados, em uma distribuiçãoem forma de sino, estão contidos dentro de umadistância de ±1 desvio padrão da média aritmética, ou
1σμ
μ
68%
1σμ
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-91
The Empirical Rule
2σμ
3σμ
Aproximadamente 95% dos dados, em uma distribuiçãoem forma de sino, estão contidos dentro de uma distância de ±2 desvio padrão da média aritmética, ou
Aproximadamente 99,7% dos dados, em uma distribuiçãoem forma de sino, estão contidos dentro de uma distância de ±3 desvio padrão da média aritmética, ou
3σμ
99.7%95%
2σμ
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-92
Usando a regra empírica
Suponha que a variável notas no TOEFL tenha uma
distribuição em forma de sino com média 500 e
desvio padrão de 90. Então, :
68% de todos os scores ficaram entre 410 e 590
(500 +/- 90).
95% de todos os scores ficaram entre 320 e 680
(500 +/- 180).
99.7% de todos os scores ficaram entre 230 e 770
(500 +/- 270).
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-93
Regra de Chebyshev
Independentemente de como os dados sãodistribuídos (simétricos ou assimétricos), pelomenos (1 - 1/k2) dos valores estarão dentro de um intervalo de k desvios padrão da média (parak > 1)
Examples:
k=2 (1 - 1/22) = 75% ……..... (μ ± 2σ)
k=3 (1 - 1/32) = 89% ………. (μ ± 3σ)
entrePelo menos
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-94
Análise Exploratória de Dados
Resumo dos cinco números
Os cinco números que descrevem a dispersão
dos dados são:
Mínimo
Primeiro Quartil(Q1)
Mediana (Q2)
Terceiro Quartil (Q3)
Máximo
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-95
Análise Exploratória de Dados
O Box-Plot
O Box-Plot é uma representação gráfica dos cinco
números anteriores.
25% 25% 25% 25%
Mínimo 1º. Q 3º. Q MáximoMediana
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-96
Análise Exploratória de Dados
O Box-Plot
O Box e a linha central ficam centralizadas entre osextremos se os dados são distribuídos de forma simétrica em torno da mediana.
Mínimo 1º. Q 3º. Q MáximoMediana
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-97
Análise Exploratória de Dados
O Box-Plot
Assimetria à direitaAssimetria à esquerda Simétrico
Q1 Q2Q3 Q1Q2Q3 Q1 Q2 Q3
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-98
Covariância da amostra
1n
)YY)(XX(
)Y,X(cov
n
1i
ii
A covariância mede a força de uma relação linear entre duas variáveis numéricas.
A covariância da amostra:
A covariância indica apenas a força daquela relação linear.
Não significa que há uma relação de causa e efeito entre as variáveis.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-99
Covariância da amostra
Covariância entre duas variáveis aleatórias:
cov(X,Y) > 0 X e Y tendem a se mover na mesma
direção
cov(X,Y) < 0 X e Y tendem a se mover em
direções opostas
cov(X,Y) = 0 X e Y são independentes
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-100
O Coeficiente de Correlação
O coeficiente de correlação mede a força relativa de uma relação linear entre duas variáveis numéricas.
Coeficiente de correlação da amostra:
YXn
1i
2
i
n
1i
2
i
n
1i
ii
SS
)Y,X(cov
)YY()XX(
)YY)(XX(
r
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-101
O Coeficiente de Correlação
Adimensional
Varia entre –1 e 1
Quanto mais perto de –1, mais forte é a relação
linear negativa
Quanto mais perto de 1, mais forte é a relação
linear positiva
Quanto mais perto de 0, mais fraca é qualquer
relação linear
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-102
O Coeficiente de Correlação
Y
X
Y
X
Y
Xr = -1 r = -.6 r = 0
Y
Xr = +1
X
Y
Xr = +.3
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-103
Armadilhas em medidas
descritivas numéricas
Análise de dados é objetiva
Devem ser relatadas as medidas numéricas descritivasmais apropriadas para um determinado conjunto de dados.
A interpretação dos dados é subjetiva
A interpretação deve ser feita de maneira correta, neutrae clara.
Statistics for Managers Using Microsoft Excel, 5e © 2008 Pearson Prentice-Hall, Inc. Chap 3-104
Questões Éticas
Medidas descritivas numéricas:
Tanto resultados favoráveis como desfavoráveis devemser reportados
Os resultados devem ser apresentados de maneiracorreta, objetiva e neutra
Não deve usar uma medida resumida inapropriada com objetivo de distorcer os fatos favorecendo um ponto de vista.