estatística aplicada a ti - aula 1
TRANSCRIPT
2
Estatística Aplicada
• Porque estudar Estatística em um curso de Gestão de TI?
� TI trabalha com dados
� Geralmente grandes bases de dados
� Com grande variabilidade
� Difícil manipulação, avaliação e interpretação
4
Estatística Aplicada
• A estatística subdivide-se em:
� Estatística Descritiva a qual direciona-se a coletar, organizar e descrever dados
� Estatística Inferencial a qual a partir de dados de uma amostra propõe suposições sobre a população em estudo
5
Estatística Aplicada• Programa
� Fundamentos de estatística descritiva� Dados Estatísticos� Tipos de dados� Estimativa do tamanho da amostra� Intervalos de confiança� Análise Exploratória dos Dados� Distribuições de Freqüências� Gráficos� Medidas Resumo
• Medidas de Posição• Medidas de Dispersão
� Análise Bidimensional � Variáveis Quantitativas
• Associação entre Variáveis Quantitativas – Coeficiente de correlação
• Método de mínimos quadrados para ajustar uma reta de regressão
� Testes de Hipóteses
Parte 1 – Estatística Aplicada1. Universo estatístico: definições e conceitos – experimentos,
população e tipos de variáveis. 2. Os dados: fontes, tipos e formas de coleta. 3. Tabelas e gráficos.4. Distribuições de freqüências: elementos, tipos e
representação gráfica5. Medidas de tendência central: média, moda e mediana. 6. Medidas de dispersão: variância, desvio padrão e
coeficiente de variação.
7
Estatística Descritiva
• A estatística descritiva direciona-se principalmente a obtenção, organização e descrição dos dados coletados
• Na área de gestão e gestão estratégica auxilia principalmente na chamada Tomada de Decisão
• Na gestão de TI esses conceitos podem ser perfeitamente aplicados
8
Estatística Aplicada• Aplicações relacionadas ao apoio no processo de tomada
de decisão e que podem ser obtidos através de sistemas de TI:
• Em Marketing� Segmentação de consumidores para definição da abordagem de
comunicação.� Pesquisa de mercado para avaliação de novo produto.
• Em Finanças� Previsão de vendas.� Cálculo do risco de inadimplência de um cliente.� Definição do perfil de investidores de acordo com dados bancários
• Em Recursos Humanos� Pesquisa para elaboração de plano de cargos e salários.� Análise de satisfação e motivação dos funcionários/clientes.
• Em TI� Organização e interpretação geral de dados
• Outros...
9
Estatística Aplicada
• População: conjunto formado por todos os elementos observáveis
Exemplo: Todos os usuários do hotmail.com
• Amostra: conjunto formado por parte do todo, ou seja, um subconjunto de elementos
Exemplo: Usuários do hotmail.com com idade abaixo de 15 anos
10
Estatística Aplicada
• Problemas de amostragem
� Tipo de amostragem
� Erros
� Tamanho da amostra
� Inconsistência nos dados
� Falhas de planejamento descritivo
� Duplicidade de informação
� Etc.
11
Estatística Aplicada
• Tipos de amostragem
� Amostra aleatória
� Amostra estratificada
� Amostra sistemática
� Amostra por conglomerado
� Amostra por conveniência
12
Estatística Aplicada
• Variáveis estatísticas são os diferentes tipos de elementos observáveis referentes ao estudo
Exemplo: Peso, idade, sexo, nível de instrução, cor,
Exemplo em TI: faixa salarial, tempo de uso de internet, preferência por sistemas (Windows, Linux, Unix, etc), números de acesso, volume de R$ gastos em compras pela WEB, etc.
13
Estatística Aplicada• Tipos de Variáveis
Variáveis Estatísticas
Qualitativos Quantitativos
Ordinais Nominais Discretos Contínuo
Estatura•Alta•Média•Baixa
Sexo•Masculino•Feminino
No. de filhos•0•1•etc
Peso•1,345 Kg•0,075 Kg•etc
14
Estatística Aplicada
• Os dados coletados podem serclassificados quanto a forma de suacoleta de duas formas:� Observacionais
Exemplo: Um levantamento sobre aquantidade de acessos a um servidor nomês de julho/2011
� Experimentais
Exemplo: Teste de um sistema de acesso aambientes controlados via identificaçãobiométrica
15
Estatística Aplicada
• Os dados coletados podem ser classificadosquanto a sua origem como:
� Primários
Exemplo: Você obtém através de um questionário (google Docs), dados sobre o preço de IPads na rede varejista de shoppings centers do estado de São Paulo
� Secundários
Exemplo: Você obtém através de um relatório publicado pela câmara de comércio do estado de São Paulo (ou alguma associação competente)
17
Estatística Aplicada
• Buscando uma simplificação, os dados estatísticos podem ser representados através de Tabelas e Gráficos
• Os dados podem ser agrupados por intervalos ou classes (categorias) tornando a sua interpretação mais simples e rápida
19
Estatística Aplicada
• Dados Qualitativos – Representação Tabular
� Tabela de Frequências
Tabela 1: Distribuição de frequência da variável Sexo
Sexo Freq. (fi)
Freq.
Relativa
(fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
M 19 0,6129 61,29 19
F 12 0,3871 38,71 31
Total 31 1 100
20
Estatística Aplicada
• Dados Qualitativos – Representação Gráfica
� Gráfico de barrasDistribuição da Variável Sexo
19
12
0 5 10 15 20
M
F
Sexo
Frequência absoluta
21
Estatística Aplicada
• Dados Qualitativos – Representação Gráfica
� Gráfico de setores (pizza)
Distribuição da Variável Sexo
61%
39%M
F
Distribuição da Variável Sexo
61%
39%M
F
22
Estatística Aplicada
• Dados Quantitativos – Representação Tabular
� Tabela de Frequências de dados absolutos
Tabela 2: Distribuição de frequência da variável n. de dependentes
n. de
dependentes Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
0 8 0,2581 25,81 8
1 12 0,3871 38,71 20
2 6 0,1935 19,35 26
3 4 0,1290 12,90 30
4 1 0,0323 3,23 31
Total 31 1 100
23
Estatística Aplicada
• Dados Quantitativos – Representação Tabular
� Tabela de Frequências em classes
� Construção:• Identificar o maior M e o menor m valor observado
• Identificar o número k de classes (máximo de 10)
onde n é o número total de elementos
• Calcular a amplitude das classes
• Identificar os limites e os pontos médios das classes
k n≅
( )M mh
k
−=
24
Estatística Aplicada
• Dados Quantitativos – Representação Tabular
� Tabela de Frequências por intervalos de classe
Tabela 3: Distribuição de frequência da variável Salários
n. de Salários
Ponto médio
da classe Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq.
Acumulada (fac)
450 < x <= 1445 947,5 23 0,7419 74,19 23
1445 < x <= 2440 1942,5 5 0,1613 16,13 28
2440 < x <= 3435 2937,5 1 0,0323 3,23 29
3435 < x <= 4430 3932,5 0 0,0000 0,00 29
4430 < x <= 5425 4927,5 0 0,0000 0,00 29
5425 < x <= 6420 5922,5 2 0,0645 6,45 31
Total 31 1,0000 100,0000
25
Estatística Aplicada
• Dados Quantitativos – Representação Gráfica
� Gráfico de colunasDistribuição de Frequências do no. de Dependentes
0
2
4
6
8
10
12
14
0 1 2 3 4
n. de dependentes
Fre
. A
bso
luta
26
Estatística Aplicada
• Dados Quantitativos – Representação Gráfica
� Gráfico de linhas
Gráfico do no. de Dependentes
0
2
4
6
8
10
12
14
0 1 2 3 4
no. de dependentes
Fre
q
27
Estatística Aplicada
• Dados Quantitativos – Representação Gráfica
� Histograma
Histograma da variável Salários
0
5
10
15
20
25
450 < x <= 1445 1445 < x <= 2440 2440 < x <= 3435 3435 < x <= 4430 4430 < x <= 5425 5425 < x <= 6420
Fre
q
29
Estatística Aplicada
• As medidas de posição nos auxiliam na análise quantitativa de algumas estatísticas amostrais
• Servem também para algumas análises inferenciais
• São ferramentas quantitativas de análise
30
Estatística Aplicada
• Medidas de posição central� Média aritmética
Exemplo: Consideremos as idades do exemplo da planilha 1. Temos como média: 31,29
__1
n
i
i
x
xn
==
∑
31
Estatística Aplicada
• Medidas de posição central� Mediana: é a posição central dos dados ordenados (crescente ou decrescente)
Exemplo: Consideremos as idades do exemplo da planilha 1. Ordenando: 30
32
Estatística Aplicada
• Medidas de posição central� Moda: é (são) a(s) frequência(s) que mais estão presentes na amostra
Exemplo: Consideremos as idades do exemplo da planilha 1. A distribuição possui três modas 25, 27 e 30. (trimodal)
OBS: As amostras modem ser bimodais (2 modas), trimodais (3 modas), multimodais (mais de 3 modas) e amodais (não possuem modas)
33
Estatística Aplicada
• Medidas de dispersão ou variação são valores que possibilitam a verificação de uma maior ou menor diversificação dos valores da variável em torno de um valor de tendência central tomado como ponto de comparação.
• Essas medidas são úteis na análise da variação que os dados possuem
34
Estatística Aplicada
• Medidas de dispersão para dados não agrupados� Variância
onde
= média aritmética;= valores das variáveis; e
n = número total de elementos.
2__
2 1
1
n
i
i
x x
sn
=
−
=
−
∑
__
x
ix
Observação: Quando os dados utilizados são referentes a população, convém efetuaruma modificação, que consiste em usar o divisor n no lugar de n - 1.
35
Estatística Aplicada
• Medidas de variação�Variância
Exemplo: Consideremos as idades do exemplo daplanilha 1. A distribuição possui variância de 85,8 anos
OBS: A variância pode apresentar valoresincompatíveis com a variável em estudo, ou seja,valores muito acima ou abaixo dos valores da amostra.
Dessa forma, utiliza-se mais o desvio padrão comoforma mais apropriada (normalizada) na análise.
36
Estatística Aplicada
• Medidas de dispersão para dados não agrupados� Desvio padrão:
onde= média aritmética;= valores das variáveis; e
n = número total de elementos.
2__
2 1
1
n
i
i
x x
sn
=
−
=
−
∑
__
x
ix
Observação: Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variação. O uso de uma ou de outra dependerá da finalidade que se tenha em vista.
37
Estatística Aplicada
• Medidas de variação� Desvio Padrão
Exemplo: Consideremos as idades do exemplo daplanilha 1. A distribuição possui desvio padrão de 9,26anos
OBS: Nesse exemplo as idades se distanciam damédia em 9,26 anos o que poderia ser consideradobastante variável.
39
• Medidas de posição para Dados Agrupados: Média
onde
representa a frequência absoluta da variável;
representa os valores de cada categoria (ou o ponto médio da classe); e
n é o número de elementos da amostra.
( )__
1
n
i i
i
f x
xn
=
⋅
=
∑
if
ix
Estatística Aplicada
40
� EXEMPLO 1: Calculemos a média distribuição defrequência da variável no. de dependentes tabeladoabaixo:
temos
Tabela 2: Distribuição de frequência da variável n. de dependentes
n. de
dependentes Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
0 8 0,2581 25,81 8
1 12 0,3871 38,71 20
2 6 0,1935 19,35 26
3 4 0,1290 12,90 30 4 1 0,0323 3,23 31
Total 31 1 100
( )( ) ( ) ( ) ( ) ( )__
18 0 12 1 6 2 4 3 1 4
1,2931
n
i
i
f x
xn
=
⋅⋅ + ⋅ + ⋅ + ⋅ + ⋅
= = =
∑
Estatística Aplicada
41
� EXEMPLO 2: Calculemos a média distribuição de frequência da variável Salário tabelado abaixo:
Salário Ponto Médio
fi fr f% fac
450├ 1445 947,50 23 0,7419 74,19 23
1445├ 2440 1942,50 5 0,1613 16,13 28
2440├ 3435 2937,50 1 0,0323 3,23 29
3435├ 4430 3932,50 0 0 0 29
4430├ 5425 4927,50 0 0 0 29
5425├ 6420 5922,50 2 0,0645 6,45 31
TOTAL 31 1 100
Estatística Aplicada
42
( )( ) ( ) ( )
( ) ( ) ( )__1
947,5 23 1942,5 5 2937,5 1
3932,5 0 4927,5 0 5922,5 21493,15
31
n
i i
i
f x
xn
=
⋅ + ⋅ + ⋅ +
⋅⋅ + ⋅ + ⋅
= = =
∑
� Temos:
� Ou seja, o salário médio é de R$ 1.493,15
Estatística Aplicada
43
� Medidas de posição para DadosAgrupados: Mediana (sem intervalo declasse)1. Primeiramente tomamos a frequência absoluta
total e dividimos por 2 (encontrar os 50%!)
2. Identificamos a frequência acumuladaimediatamente superior a metade da soma dasfrequências.
3. A mediana será o valor da variável quecorresponde a essa frequência acumulada.
Estatística Aplicada
44
� EXEMPLO 1: Calculemos a mediana da distribuição defrequência da variável no. de dependentes tabeladoabaixo:
temos
Tabela 2: Distribuição de frequência da variável n. de dependentes
n. de
dependentes Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
0 8 0,2581 25,81 8
1 12 0,3871 38,71 20
2 6 0,1935 19,35 26
3 4 0,1290 12,90 30 4 1 0,0323 3,23 31
Total 31 1 100
fi 3115,5
2 2= =
∑fac = 20 Md = 1
Estatística Aplicada
45
� Medidas de posição para Dados Agrupados: Mediana(com intervalo de classe)
onde
li é limite inferior da classe mediana;
fac ant é freqüência acumulada anterior a da classe mediana;
h é amplitude da classe mediana; e
fi é freqüência da classe mediana.
( )2
i
i
fac ant hMd = l +
if
f
∑−
Estatística Aplicada
46
� EXEMPLO 2: Calculemos a mediana da distribuição de frequência da variável Salário tabelado abaixo:
li = 450
fac ant = 0
h = 995; e
fi = 23
Classemediana
50%!
Salário Ponto Médio
fi fr f% fac
450├ 1445 947,50 23 0,7419 74,19 23
1445├ 2440 1942,50 5 0,1613 16,13 28
2440├ 3435 2937,50 1 0,0323 3,23 29
3435├ 4430 3932,50 0 0 0 29
4430├ 5425 4927,50 0 0 0 29
5425├ 6420 5922,50 2 0,0645 6,45 31
TOTAL 31 1 100
( )31
20 995
Md = 450 + 1120,5423
−=
Estatística Aplicada
47
� Medidas de posição para Dados Agrupados: Moda
� Por definição é a maior frequência e, dessa forma, podemos tomar esse valor pela observação direta na tabela
Estatística Aplicada
48
� EXEMPLO 1: Definamos a moda da distribuição defrequência da variável no. de dependentes tabeladoabaixo:
Tabela 2: Distribuição de frequência da variável n. de dependentes
n. de
dependentes Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
0 8 0,2581 25,81 8
1 12 0,3871 38,71 20
2 6 0,1935 19,35 26
3 4 0,1290 12,90 30 4 1 0,0323 3,23 31
Total 31 1 100
Maior frequência, portanto Mo=1
Estatística Aplicada
49
� EXEMPLO 2: Calculemos a mediana da distribuição de frequência da variável no. de dependentes tabelado abaixo:
Salário Ponto Médio
fi fr f% fac
450├ 1445 947,50 23 0,7419 74,19 23
1445├ 2440 1942,50 5 0,1613 16,13 28
2440├ 3435 2937,50 1 0,0323 3,23 29
3435├ 4430 3932,50 0 0 0 29
4430├ 5425 4927,50 0 0 0 29
5425├ 6420 5922,50 2 0,0645 6,45 31
TOTAL 31 1 100
Maior frequência, portanto Mo=947,50, ou seja, o ponto médio da classe
Estatística Aplicada
50
Estatística Aplicada
• Medidas de dispersão para dados agrupados�Variância:
onde
= média aritmética;
= valores das variáveis;
n = número total de elementos; e
= é a frequência relativa dos elementos da amostra.
2__
2 1
1
n
i i
i
x x f
sn
=
− ⋅
=
−
∑
__
x
ix
if
51
Estatística Aplicada
• Calculemos a variância a distribuição de frequência abaixo:
temos
Tabela 2: Distribuição de frequência da variável n. de dependentes
n. de
dependentes Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
0 8 0,2581 25,81 8
1 12 0,3871 38,71 20
2 6 0,1935 19,35 26
3 4 0,1290 12,90 30
4 1 0,0323 3,23 31
Total 31 1 100
( ) ( ) ( ) ( ) ( )
2__
2 2 2 2 2
2 10 1, 29 8 1 1,29 12 2 1,29 6 3 1, 29 4 4 1, 29 1
1 31 1
1, 21
n
i i
i
x x f
sn
=
− ⋅ − ⋅ + − ⋅ + − ⋅ + − ⋅ + − ⋅
= = =− −
=
∑
52
Estatística Aplicada
• Medidas de dispersão para dados agrupados�Desvio Padrão:
onde
= média aritmética;
= valores das variáveis;
n = número total de elementos; e
= é a frequência relativa dos elementos da amostra.
2__
2 1
1
n
i i
i
x x f
sn
=
− ⋅
=
−
∑
__
x
ix
if
53
Estatística Aplicada
• Calculemos o desvio padrão a distribuição de frequência abaixo:
temos
Tabela 2: Distribuição de frequência da variável n. de dependentes
n. de
dependentes Freq. (fi)
Freq.
Relativa (fri)
Freq.
Percentual
(f%i)
Freq. Acumulada
(fac)
0 8 0,2581 25,81 8
1 12 0,3871 38,71 20
2 6 0,1935 19,35 26
3 4 0,1290 12,90 30
4 1 0,0323 3,23 31
Total 31 1 100
( ) ( ) ( ) ( ) ( )2 2 2 2 2
20 1,29 8 1 1, 29 12 2 1, 29 6 3 1,29 4 4 1, 29 1
1,131 1
s− ⋅ + − ⋅ + − ⋅ + − ⋅ + − ⋅
= =−
54
Estatística Aplicada
• Atividade 1 – Em sala de aula� A partir dos dados tabelados na planilha 2 (Exames
de Saúde), determinar:• As Tabelas de frequência da variável (por classes) das variáveis Idade, Altura e Peso.• Supondo que de acordo com IMC temos as seguintes categorias:
Determine o histograma dessa variável e um gráfico de setores considerando como variável qualitativa a situação dos pacientes amostrados
55
Estatística Aplicada
• Atividade 2 – Em sala de aula
� A partir dos dados tabelados na planilha 2 (Exames de Saúde), determinar as medidas de posição central e de dispersão para as variáveis:
•Idade
•Peso
•Altura
•IMC (dados originais)
56
Estatística Aplicada
• Atividade 3 – Em casa para entregar no próximo encontro� Obtenha dados para um estudo os quais tenham pelo menos 2 variáveis qualitativas e 2 quantitativas. Faça um estudo descritivo através de tabelas de distribuição de frequência e/ou gráficos
� Para as variáveis quantitativas determinar as medidas de posição e de dispersão nas formas:
• Dados originais
• Dados em distribuição de frequência
OBS: Os dados obtidos podem ser primários ou secundários
Enviar para: [email protected]
57
Referências Bibliográficas
[1] ANDERSON, D.R.; SWEENEY, D.J.; WILLIAMS, T.A. Estatística aplicada à administração e economia, 2a. Ed., Editora Pioneira Thomson Learning, 2000.
[2] Bussab, W.O., Morettin, P.A., Estatística básica, ed. Saraiva, edição.
[3] CRESPO, A.A. Estatística fácil, 18a. Ed., Editora Saraiva, 2002.
[4] Moore, D., A estatística básica e sua prática, ed. S.A
[5] Silva, E.M., et al., Estatística para os cursos de Economia, Administração e Ciências Contábeis, vol. 1, ed. Atlas.
[6] Silva, E.M., et al., Estatística para os cursos de Economia, Administração e Ciências Contábeis, vol. 2, ed. Atlas.
[7] Triola, M. F., Introdução à Estatística, ed. LTC, 2008.