curso de biomedicina - uel.br · elementos da população enumeradas de 1 a n, têm a mesma...
TRANSCRIPT
Curso de Biomedicina
Disciplina 5EMA080: Biostatística E
APLICAÇÕES NO SOFTWARE R
10 BIMESTRE
Profa. Dra. Ana Verginia Libos Messetti
LONDRINA
2016
1
CAPÍTULO 1 – Análise Exploratória de Dados
Aula 1 - Introdução
1.1 Estatísticas - Informação numérica (Ex: taxa de inflação, Número de habitantes de certa
cidade, Taxa de nascimento no Brasil, Índice da inflação mensal, Número de óbitos numa certa
região...)
Estatística - Envolve técnicas para coletar, organizar, descrever, analisar e interpretar
dados, ou provenientes de experimentos, ou estudos observacionais (Barbetta, 2008).
“Estatística é um conjunto de métodos que possibilita a tomada de decisões acertadas, face às
incertezas”(Wallis).
1.2 Classificação da estatística
Estatística Descritiva ou estatística dedutiva - Tem por objetivo descrever, analisar e interpretar
os dados de um conjunto, seja uma população ou amostra, inferindo os resultados somente para
o conjunto observado.
Probabilidade - É a base da teoria da matemática utilizada para estudar fenômenos de caráter
aleatório. A teoria das probabilidades é um importante instrumento para a análise de situações
que envolvem um elemento de incerteza. A estatística indutiva não poderia ter-se desenvolvido
sem as noções fundamentais da teoria das probabilidades.
Estatística Indutiva ou inferência estatística - Tem por objetivo descrever, analisar e interpretar
os dados de uma amostra para inferir propriedades à respectiva população. A estatística
indutiva pode ser separada em duas áreas principais: estimação por ponto e por intervalo de
confiança; testes de hipótese paramétrico e não paramétrico.
“A essência de uma análise estatística é tirar conclusões sobre uma população, com base em
uma amostra de observações”
Estatística Indutiva ou inferência estatística
Figura 1 - Esquema de Aplicação da Estatística Descritiva e Inferencial
1.3 Metodologia Estatística e Etapas da pesquisa
No planejamento da pesquisa, cada etapa deve ser bem determinada, pois o
trabalho científico é bom ou não pelo planejamento e não pelos resultados. E não há análise
estatística que conserte um mau planejamento.
ESTATÍSTICA
DESCRITIVA
INFERÊNCIA
ESTATÍSTICA
2
Etapas de uma pesquisa e da metodologia estatística:
1. Definição do problema e objetivos da pesquisa;
2. Planejamento da pesquisa;
3. Execução da pesquisa;
4. Dados;
5. Análise de dados - Aplicações métodos estatísticos apropriados;
6. Análise dos resultados;
7. Conclusões com a significância estatística e significância prática.
Pesquisa é uma indagação ou exame crítico e exaustivo na procura de fatos e princípios, uma
diligente busca para averiguar algo. “É descobrir respostas para questões, mediante a aplicação
de métodos científicos”.
Existem dois tipos de pesquisa empíricas:
Pesquisas observacionais: As características da população são observadas ou
medidas sem manipulação;
Pesquisas experimentais: Grupo de indivíduos são manipulados para avaliar o efeito de
diferentes tratamentos.
1.4 Conceitos Básicos
População é um conjunto de todos os objetos, indivíduos ou informações que interessam para
pesquisa.
Amostra é parte da população, onde os elementos devem ter as mesmas características da
população. Isto é, espera-se que a amostra seja uma representação em miniatura da população e
que produza estimativas razoáveis de suas características.
Geralmente o número de elementos existente na população é representado por N e da amostra
por n.
Parâmetro - Medidas que descrevem certa característica dos elementos da população.
Estatística - Medidas que descrevem certa característica dos elementos da amostra.
Estimativa - Valor resultante do cálculo de uma estatística.
ESTATÍSTICA (amostra) PARÂMETRO (população)
Média amostral n
xx
i
n
i 1
Média populacional
N
xi
N
i 1
Variância amostral
1
2
12
n
xx
s
n
i
i
Variância populacional
N
xN
i
i
2
12
1.5 Natureza dos Dados Estatísticos
Os dados estatísticos constituem a matéria–prima das pesquisas estatísticas – eles
surgem sempre que se fazem mensurações ou se registram observações. Os dados referem-se a
variáveis. Alguns conjuntos de dados (como peso) consistem em números, enquanto outros são
não numéricos (como religião). Podemos distinguir os dois tipos de variáveis:
POPULAÇÃO
1,2.....................N
AMOSTRA
1,2,.........n
3
Variável Qualitativa - Quando a variável é não numérica:
ORDINAL a variável tem uma ordenação natural indicando intensidades crescentes de
realizações. Exemplos: grau de escolaridade ( 10, 2
0, 3
0 ); classe social (baixa, média, alta);
tamanho ( pequeno, médio, grande )
NOMINAL a variável não pode ser ordenada, isto é, não é possível estabelecer uma ordem
natural entre seus valores. Exemplos: religião, naturalidade, sexo.
Observação: Podemos atribuir números a categorias, mas tais números não têm qualquer
significado para efeito de cálculo, e a média calculada com base neles em geral não têm sentido.
Variável Quantitativa - Quando pode ser expressa numericamente.
DISCRETAS a variável discreta pode assumir um número finito ou infinito enumerável de
valores. Geralmente são as contagens, como por exemplo, a quantidade de estudante s em uma
disciplina, quantidade de empregados da empresa, número de filhos de um casal.
CONTÍNUAS a variável contínua pode assumir qualquer valor em certo intervalo, isto é, pode
assumir um conjunto infinito e não enumerável de valores. Exemplos: tempo de estudo,
distância entre duas cidades e peso de uma pessoa.
1.6 Amostragem
Censo: é o estudo de “todos” os elementos da população.
Amostragem: é a parte da estatística que ensina obter amostras representativas de uma
população. A finalidade da amostragem é fazer generalização sobre todo o grupo sem precisar
examinar cada um de seus elementos.
Técnicas de amostragem probabilística
Amostragem Simples ao Acaso - ASA: Este tipo de amostragem deve ser usado sempre que, se
tratar de uma população homogênea. A característica dessa amostragem é que todos os
elementos da população enumeradas de 1 a N, têm a mesma probabilidade de serem sorteados.
Deve enumerar os elementos da população e através de sorteio ou usando a “tabela de números
aleatórios” retirar os elementos da população sem reposição até completar a amostra.
Exemplo1.1 Selecionar aleatoriamente uma amostra de tamanho 10 de uma população que
consiste de 60 farmácias da cidade de Arapongas - PR. Utilize a primeira linha tabela de
números aleatórios. As farmácias associadas a estes números constituem nossa amostra aleatória
que são: [38, 20, 10, 07, 59, 45, 01, 40, 32, 13]
Amostragem sistemática - Este tipo de amostragem é utilizada quando os itens de uma
população se apresentam numa ordem determinada (ordenação). O processo de formação da
amostra consiste em:
Calcular o intervalo de seleção (I). O valor de I obtém-se dividindo o tamanho da
população (N) pelo tamanho da amostra (n), tal que:
I = n
N (inteiro mais próximo)
Sorteia-se um número x entre {1, 2, 3.....I} e forme a amostra correspondente aos
números tal que: A ={x; x + I; x+ 2I; ...; x + (n - 1)I }
Exemplo 1.2 Seja uma população 200 fichas de pacientes de uma clínica de imunização em
Cambé - PR. Retire uma amostra aleatória de 40 fichas para compor sua amostra.
Intervalo de seleção: I =
Será escolhido um item em cada sequência de 5 fichas.
4
Sortear entre 1 e 5.
Se utilizarmos a primeira linha da tabela, x = 3 logo a amostra:
Número da ficha: A = [3, 8, 13, 18, 23,......198]
Amostragem estratificada uniforme - Quando a população apresenta-se muito heterogênea, a
amostragem simples ao acaso torna-se pouco representativa da população. Neste caso deve-se
utilizar a amostragem estratificada, a qual consiste em dividir a população em subgrupos
(estratos) mais ou menos homogêneos, e de cada um deles retirar uma amostra simples ao acaso.
E a amostragem estratificada Uniforme quando selecionamos o mesmo número de elementos
em cada estrato.
Exemplo 1.3 Deve-se extrair uma amostra de tamanho 80 indivíduos de uma população de
tamanho N = 2000, que consiste de 4 estratos de tamanhos N1 = 500, N2 = 1200, N3 = 200 e
N4 = 100. Se a alocação não for proporcional qual o tamanho da amostra a ser extraída de cada
um dos quatro estratos?
R: 20 elementos de cada estrato e sortea os elementos da tabela de números aleatórios.
Amostragem estratificada proporcional – Difere da amostragem estratificada uniforme quando
selecionamos o número de elementos proporcional ao número de elementos total em cada
estrato.
Calcular a fração de amostragem dada por: f =
Calcular o número de elementos a serem sorteados em cada estrato:
n1 = N1f; n2 = N2f; ........... nL = NLf
⇒ N (número de elementos da população); ⇒ L (número de estratos)
⇒ Ni (número de elementos do estrato i); ⇒ n (tamanho da amostra a ser selecionada)
Exemplo 1.4 Do exemplo 3, retire uma amostra de 80 indivíduos utilizando a amostragem
estratificada proporcional.
Fração de amostragem dada por: f = =
Número de elementos a serem sorteados em cada estrato:
n1 = N1 f = 500 . 0,04 = 20; n2 = N2 f = 1200 . 0,04 = 48
n3 = N3 f = 200 . 0,04 = 8; n4 = N4 f = 100 . 0,04 = 4
Formar sua amostra utilizando a tabela de Números aleatórios.
Atividade 1
1) Pesquise e escreva a definição de Estatística. Dê a referência bibliográfica.
2) Diferenciar Parâmetro e Estatística.
3) Retire de um artigo da sua área e apresente no mínimo 2 variáveis observadas e classifique o
tipo de variável. Apresente o título e autores do artigo (ou o link do endereço do artigo).
4) Um hematologista deseja fazer uma nova verificação de uma amostra de tamanho 10 dos 854
espécimes de sangue analisados por um laboratório médico em determinado mês. Para isto, ele
cria uma estrutura amostral numerando a população [001, 002,..., 854]. Use a tabela de números
aleatórios para escolher que espécimes de sangue serão selecionados? (10 coluna da tabela N.A).
5) Organize uma lista com 12 nomes de pessoas em ordem alfabética. Descreva uma forma de
obter uma amostra sistemática de 6 nomes.
6) Deve-se retirar uma amostra estratificada de tamanho n = 60 de uma população de tamanho
4000, que consiste de 3 estratos de tamanhos N1 = 2000, N2 = 1200, N3 = 800. Para que a
alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?
5
7) No software R, selecione 3 variáveis da pesquisa realizada em sala de aula (sexo, irmãos e
altura) e construir as tabelas de distribuição de frequência, com título e fonte.
Parte da Tabela de números aleatórios (Barbetta P., 2008)
3820 1007 5964 8990 8845 9584 0145 4074 8632 1386 3002 8021 6960 2715 9040
2450 0455 0324 1641 2196 0171 2850 3431 5536 3573 2913 8021 7889 6759 7553
3718 3556 9102 4660 4261 3039 9756 8066 9911 2562 8503 5570 8730 4410 2177
9516 0534 7050 8164 9724 4663 3002 7501 3514 7756 3297 0860 9768 2855 5343
0743 1984 0641 3583 4870 5112 3734 9858 0407 2307 5745 7060 4014 1110 8973
0050 9261 1003 2537 7756 6796 8090 7243 0850 1323 6568 2584 7651 7002 8587
7561 6265 1736 4048 5523 7114 5551 1811 9702 6869 9120 9542 5943 5576 9681
5287 7966 8056 2622 1779 8667 1148 0595 7615 7383 6680 9268 4517 1681 0619
9862 9255 9038 5449 5007 6749 4898 1458 0380 7962 6018 9300 5339 1320 0823
AULA 2 – Tabelas de distribuição de frequências
O papel da estatística descritiva é organizar, resumir e apresentar os dados de
forma correta. A análise exploratória de dados, além de descrever os dados, identifica algumas
características do processo, com base nos dados. Construindo-se tabelas e gráficos apropriados
e gerando algumas medidas descritivas, podemos extrair aspectos importantes para os dados
(mineração dos dados = data mining).
2.1 Tabelas Uma tabela pode ser classificada em tabela simples ou de dupla entrada.
Tabela simples é composta de uma coluna indicadora, onde são escritos os valores ou
modalidades da ordem de classificação e de outra coluna, em que aparecem os valores que
representam as ocorrências do fenômeno.
Tabela de dupla entrada é composta de dois atributos, qualitativos ou quantitativos, em que
existem duas ordens de classificação: uma horizontal e outra em coluna indicadora.
Elementos de uma Tabela
Os elementos essenciais são: título, cabeçalho, corpo e coluna indicadora.
Título: precede a tabela e contém a designação do fato observado, o local e a época em que o
assunto foi registrado;
Cabeçalho: é a parte superior da tabela que específica o conteúdo das colunas;
Corpo: É o conjunto de linhas e colunas que contém as informações referentes ao fato
observado.
Coluna Indicadora: Ë a parte da tabela que especifica o conteúdo das linhas.
Os elementos complementares são: Fonte, notas e chamadas.
Fonte: é situada no rodapé da tabela e específica a entidade responsável pelo fornecimento dos
dados ou pela elaboração da tabela;
Notas: situadas abaixo da tabela dão informações gerais sobre a tabela ou indica a metodologia
utilizada no levantamento ou na elaboração dos dados;
Chamadas: são informações mais específicas sobre determinadas partes da tabela, com o
objetivo de fazer algum esclarecimento sobre os dados apresentados. Devem ser feitas através
de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna.
6
Considerações para construções de tabelas Na construção de tabela, recomenda-se:
O título precede a tabela e deve ser apresentado após a palavra tabela, identificada por
um algarismo arábico;
O título com auxílio do cabeçalho, deverão responder as seguintes perguntas:
O quê? Onde? Quando?
Não deixar casas (cruzamento de uma linha com uma coluna) em branco. Pode-se usar
traço ou sinal convencional;
As linhas horizontais superior e inferior, que limitam a tabela, devem ser mais
acentuadas;
As tabelas não devem ser fechadas lateralmente;
2.2 Apresentação de variáveis qualitativas
Para construir a tabela de distribuição de frequência, basta contar a quantidade de
resultados observados em cada categoria.
Distribuição de frequências: Consistem na organização dos dados de acordo com as
ocorrências dos diferentes resultados observados.
Para variável qualitativa a contagem de quantos indivíduos pertence em cada categoria
forma uma distribuição de freqüências. As freqüências podem ser de forma absoluta,
relativa(%) ou ambas. Seja a tabela 2, dados de uma pesquisa realizada numa clínica de
dependentes do alcool.
Dados brutos de 40 indivíduos em tratamento contra o alcoolismo. As variáveis observadas
foram “grau de alcoolismo” em escores (A: leve; B: moderado; C: severo; D: muito severo) e o
“sexo”. Clínica dos Amigos” – Londrina PR – 2013
Ind grau sexo Ind grau sexo Ind grau sexo Ind grau sexo
1 C F 11 C F 21 B M 31 A F
2 A F 12 A F 22 A M 32 A F
3 B F 13 B M 23 A F 33 B M
4 B F 14 D M 24 B F 34 C M
5 C M 15 A F 25 A M 35 B F
6 B M 16 B F 26 A M 36 D F
7 D F 17 B M 27 B F 37 B M
8 B F 18 C M 28 D F 38 B M
9 B M 19 D F 29 D M 39 B F
10 A M 20 B F 30 C M 40 C F
Exemplo 2.1 Tabela para Variáveis qualitativas nominais.
Tabela 1 - Distribuição de frequências dos alcoólotras por sexo.
“Clínica dos Amigos” - Londrina – PR. 2013 Jair
Fonte: Clínica dos Amigos
Grau de
alcoolismo
Frequência
Frequência
Relativa
Porcentagem
(%)
Feminino 22 0.55 55
Masculino 18 0.45 45
Total n = 40 1.00 100
7
Exemplo 2.2 Tabela para Variáveis qualitativas ordinais.
Tabela 2 - Distribuição de frequências do grau de alcoolismo – Clínica dos amigos
Londrina PR - 2013 Jair
Fonte: Clínica dos Amigos
Apresentação de Tabelas de contingência
Muitas vezes os elementos da amostra ou da população são classificados de acordo com
duas variáveis qualitativas. Os dados devem então ser apresentados em tabelas de contingência,
isto é, em tabelas de dupla entrada, cada entrada relativa a uma das variáveis.
Exemplo 2.3 Tabelas de contingência.
Tabela 3 - Distribuição de frequências de 40 indivíduos segundo
às variáveis sexo e grau de alcoolismo - Clínica dos Amigos
Sexo Total
Grau Feminino Masculino
A 6 4 10
B 9 8 17
C 3 4 07
D 4 2 06
Total 22 18 40 Fonte: Clínica dos Amigos
2.3 Apresentações de variáveis quantitativas
Se os dados são discretos, para organizar a tabela de distribuição de frequências:
Escreva os dados em ordem crescente;
Conte quantas vezes cada valor se repete;
Organize a tabela como já foi feito para dados qualitativos, colocando
no lugar das categorias, os valores numéricos em ordem natura. Jair
Três informações importantes das variáveis quantitativas: faixa em que os valores
ocorrem com maior frequência; Detectar valores discrepantes e a forma da distribuição, para
comparar com modelos probabilísticos.
2.3.1 Variáveis quantitativas discretas
Tabela de frequências – A tabela de distribuição de freqüência pode ser feita de forma análoga à
distribuição de freqüência de variáveis qualitativas. No lugar das categorias estarão
representados os valores numéricos da variável. Agrupa os dados conforme os valores distintos
da variável com a sua respectiva frequência absoluta (simples).
Exemplo 2.4 As faltas ao trabalho de 30 empregados de uma clínica em determinado semestre
estão na Tabela 4. A partir dela, faça uma tabela de distribuição de frequências.
Grau de
alcoolismo
Frequência
absoluta
Frequência
Relativa
Porcentagem
(%)
A - leve 10 0.250 25.0
B - moderado 17 0.425 42.5
C - severo 07 0.175 17.5 D – muito severo 06 0.150 15.0
Total n = 40 1.00 100
8
Tabela 4: Número de faltas de 30 empregados
de uma clínica no 1o semestre - 2015
______________________________________
1 3 1 1 0 1 0 1 1 0
2 2 0 0 0 1 2 1 2 0
0 1 6 4 3 3 1 2 4 0
________________________________________ Fonte: VIEIRA, S. Introdução à Bioestatística.
Realizando as contagens e construindo a tabela de distribuição de frequências do exemplo 4:
Tabela 5 – Distribuição de frequências do número de faltas de 30 empregados de
uma clínica no 1o semestre - 2015
Número de faltas frequência Porcentagem (%)
0 9 30.0
1 10 33.3
2 5 16.7
3 3 10.0
4 2 6.7
6 1 3.3
30 100.0 Fonte: VIEIRA, S. Introdução à Bioestatística.
2.3.2 Variáveis quantitativas contínuas
Tabela de frequências – Quando a variável é contínua, geralmente com muitos valores distintos
é adequado construir uma distribuição de freqüência em classes. Os dados são agrupados em
classes e a cada classe i, ( i =1,2,...,h ) associa-se as frequências absolutas dos valores
observados nas respectivas classes.
A construção segue basicamente as seguintes etapas:
Construção do Rol (valores em ordem crescente) dos dados
Amplitude total dos dados At
É a diferença entre o maior e o menor valor: At = Xmáx – Xmín
Cálculo do Número de Classes. O número de classes (k) necessário para agrupar n
elementos em uma distribuição de freqüência é dado por:
nk ou
Cálculo da Amplitude das classes (h ou c). É dado por: k
Ath
Na apresentação de uma tabela de freqüência, é comum apresentar no cabeçalho:
fi ou ni - Frequência absoluta (simples) é a quantidade de elementos na i-ésima classe;
xi - Ponto médio da classe, é a média dos limites da classe;
Fac – Frequência absoluta acumulada crescente;
fri - Frequência relativa dada por fri = n
f i ;
Fri – Frequência relativa acumulada crescente (somatório da freqüência absoluta relativa da
classe com as frequências das classes anteriores).
L: limites de Classes – Denominam limites de classe os extremos dos intervalos de classe. O
menor número é o limite inferior (Li) e o maior é o limite superior (Ls).
k= 1+ 3,3 log.n
9
Exemplo 2.5 Variável contínua – Seja um experimento realizado na UNESP - Botucatu (2005),
onde a variável observada foi a altura de 40 pés de eucaliptos (metros) de certa espécie.
Tabela 6 - Rol da altura de 40 pés de eucaliptos (metros) de certa espécie
2.2 2.3 2.5 2.6 3.0 3.5 3.5 3.8 3.8 3.9 4.1 4.1 4.1 4.1 4.1 4.2 4.3 4.3 4.4 4.4 4.6
4.9 5.0 5.0 5.3 5.8 6.0 6.0 6.0 6.0 6.0 6.5 6.9 7.1 7.2 7.7 8.3 8.5 11.3 13.8.
Amplitude total: At = 13.8 – 2.2 = 11.6
Intervalo de classes: k = √ = 6.32
Amplitude de classes: c ou h =
= 2.0
Tabela 7 - Distribuição de frequências da altura de 40 pés de eucaliptos – Botucatu 2005
Classes frequência
absoluta
(fi ou ni)
Ponto
Médio xi
frequência
acumulada
crescente Fac
frequência
relativa (fri)
frequência
relativa
acumalada (Fri)
2.0 |-- 4.0
4.0 |-- 6.0
6.0 |-- 8.0
8.0 |-- 10.0
10.0 |-- 12.0
12.0 |-- 14.0
10
16
10
02
01
01
3
5
7
9
11
13
10
26
36
38
39
40
0,25
0,40
0,25
0,05
0,025
0,025
0,25
0,65
0,90
0,95
0,975
1
40 1,00 1,00 Fonte: UNESP – Botucatu 2005
Atividade 2 – Tabelas de distribuição de frequências
1) Os tipos de sangue de 40 doadores do sexo masculino, que se apresentaram no mês de Março
de 2015 no banco de sangue do HU, foram: Variável “Tipo de sangue”: {B, A, O, A, A, A, B,
O, A, AB, O, O, A, O, O, A, A, A, A, O, O, O, A, O,O, A, O, AB, O, O, A, AB, B, A, A, B, A,
O, B, B}. Coloque os dados em uma tabela de distribuição de frequências (frequência absoluta,
frequência relativa e porcentagem).
2) Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram
examinados 22 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado,
moderado, moderado, moderado, leve, leve, leve, severo, leve, moderado, moderado, leve,
severo, moderado, moderado, moderado, leve. Com base nestes dados:
a) determine a frequência de cada categoria; b) calcule a frequência relativa de cada categoria.
3) Agrupe os dados numa tabela de frequência, observado no número de acidentes por dia na
Rodovia (PR-274) observado num determinado mês de férias. Construa uma tabela de
frequência (frequência absoluta; frequência relativa e porcentagem) para representar a variável
discreta “Número de Acidentes por dia”.
N. Acidentes ={ 0,1,2,1,3,4,0,2,0,0,3,0,1,0,3,0,2,4,0,0,0, 5,1,2,1,3,5,1,1,3,4}
4) Os dados abaixo representam as concentrações de chumbo no sangue ( em 50
adolescentes do sexo feminino observadas no Hospital Universitário – Londrina 2009.
Tabela 8- Concentrações de chumbo no sangue ( em 50 adolescentes do sexo feminino - H.U.2009
74.8 74.0 74.7 74.4 75.9 76.8 74.3 74.9 77.0 75.1
73.8 74.4 74.8 76.8 73.6 72.9 72.5 74.6 75.0 75.1
75.3 73.4 74.7 73.4 74.2 74.9 74.5 77.1 74.6 74.8
76.4 73.2 76.5 75.6 73.5 76.2 74.7 76.0 75.8 77.3
76.3 74.1 75.0 76.0 74.7 75.2 77.5 74.7 73.3 74.3
10
a) A tabela de distribuição de frequência completa adequada aos dados;
b) Apresente a distribuição num Histograma;
c) O valor da amplitude total, número de classes e o intervalo de classe?
d) Qual a frequência relativa da 30 classe? E o limite inferior da 5
0 classe?
e) Qual a frequência acumulada crescente da 40 classe?
f) O valor do ponto médio da terceira classe?
g) Qual a frequência acumulada crescente da última classe?
h) Construa um diagrama ramo-e-folhas e boxplot. Há outliers no conjunto?
5) Preencha a tabela de distribuição de frequência, referente as idades de 40 clientes da clínica
de Fisioterapia “Ortofis” – Londrina / 2008.
Tabela 9 - Idade de 40 clientes da clínica “Ortofis” – Londrina 2008
Classes fi fri Fac xi
30 |-- 40
|-- 50 6
50 |-- 60 8
60 |-- 70 13
70 |-- 9
n=40
6) No software R, selecione três variáveis da pesquisa realizada em sala de aula (sexo, número
de irmãos e altura) e construir as tabelas de distribuição de frequência, com título e fonte.
7) A amplitude total de um conjunto de números é 500. Se a distribuição de frequências
apresentam 20 classes, qual deverá ser o limite inferior e o ponto médio da 5ª classe, se o limite
superior da 1ª classe é igual a 35?
AULA 3 – Gráficos
É a representação de dados ou informações através de desenhos, figuras ou imagens.
Existem diversas formas de apresentação gráfica, ficando a escolha condicionada à natureza do
fenômeno a representar e ao critério do analista. A finalidade principal de apresentar os dados
graficamente é proporcionar ao interessado uma visão rápida do comportamento do fenômeno,
poupando tempo e esforço na compreensão dos dados.
A opção do gráfico fica vinculado ao tipo de variáveis: Qualitativa ou quantitativa.
Variáveis qualitativas - Gráficos de Barras; Gráficos de Colunas; Gráficos de Setores ..
Gráficos de colunas - São aqueles em que as variações quantitativas de uma ou mais variáveis
são representadas por colunas sucessivas, todas com bases iguais, mas com diferentes alturas, as
quais são proporcionais às frequências das variáveis confrontadas, dispostos verticalmente.
Figura 3.1 – Alcoólatras em tratamento por sexo
F M
F
M
Sexo
frequen
cia
05
1015
2025
30
11
Gráficos de barras - São semelhantes ao de colunas, onde os retângulos são dispostos
horizontalmente.
Gráficos em linhas - Este gráfico representa alterações quantitativas sob a forma de uma
linha poligonal ou curva estatística, que torna mais visível o andamento do fenômeno (exemplo:
o estudo da variável no decorrer do tempo)
Gráficos em setores - São gráficos que descrevem o fato através de setores em uma
circunferência, cuja finalidade é representar um fato juntamente com todas as partes que o
mesmo se subdivide. O total é representado pelo círculo, que fica dividido em tantos setores
quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos
dados da série. Obtemos cada setor por meio de uma regra de três simples e direta, lembrando
que o total da série corresponde a 3600.
Gráficos de colunas múltiplas - São gráficos que permitem comparar diversas variáveis
simultaneamente. Caracteriza-se por apresentar duas ou três colunas representativas de variáveis
num mesmo período de tempo, sem espaço entre si, formando conjuntos de colunas, existindo
espaço entre os conjuntos. O objetivo é fazer comparação.
Figura 3.2 – Alcoólatras em tratamento por sexo
Variáveis quantitativas – Histogramas; Polígonos de Frequências; Box-plot; Diagrama de
Ramos e folhas.
Histograma - É um recurso gráfico de colunas ligadas umas nas outras, cuja base (eixo das
abscissas) corresponde às classes e às alturas (eixo das ordenadas) proporcionais às frequências
absolutas ou relativas.
Figura 3.3 – Altura de 40 eucaliptos –Botucatu 2005
A B C D
F
M
Grau
frequência
02
46
8
Diâmetros
frequência
s
2 4 6 8 10 12 14
05
1015
20
10
16
10
21 1
12
Boxplot O Box-plot mais simples tem base no resumo dos 5 números. (Mínimo, Primeiro
quartil, Mediana, Terceiro quartil e Máximo).
Figura 3.4 – Box-plot das alturas de 40 eucaliptos
Diagrama de pontos - Uma forma simples de observar como poucos dados se distribuem, onde
cada valor representa um ponto na reta real. Torna-se inadequado quando o número de
observações for grande.
Diagrama de ramo-e-folhas - Consiste em apresentar os dados separando os primeiros dígitos,
os quais formarão o ramo e os demais dígitos formarão as folhas.
Figura 3.5 – Ramos e folhas das alturas de 40 eucaliptos
2 | 2356055889
4 | 1111123344690038
6 | 0000059127
8 | 35
10 | 3
12 | 8
Atividade 3 - Gráficos
1) Retire um gráfico de um artigo e apresente nesta atividade. Defina a variável utilizada na
construção do gráfico.
2) Faça um gráfico de linha para apresentar a distribuição de frequências relativas dos números
de casos pediátricos de Aids com problemas cardiorrespiratório pós-nascimento por sexo.
Chicago - Estados Unidos entre 2001 a 2009.
Tabela 10 – Porcentagens dos números de casos pediátricos de Aids com problemas
cardiorrespiratório - Chicago - 2009
Ano 2001 2002 2003 2004 2005 2006 2007 2008 2009
Masculino 72.8 66.2 69.2 65.9 62.4 67.8 61.3 68.5 70.4
Feminino 60.6 53.7 55.3 56.7 56.4 57.8 57.5 59.8 63.3
3) A tabela de frequência apresenta os casos de Sarcoma de Kaposi para os primeiros 112
pacientes de Aids registrados nos Centros de Controle de Doenças em Atlanta – Geórgia 2013.
Construir um gráfico de colunas para representar os indivíduos com casos de Sarcoma de
kaposi. Tabela 11 - Sarcoma de Kaposi para pacientes Aidéticos
Sarcoma
Kaposi
Número de
indivíduos
Sim 69
Não 43
Total 112
24
68
1012
14
13
4) Variáveis quantitativas contínuas - Do exercício 4 da atividade 2 (tabelas de distribuição de
frequências), construa os gráficos abaixo para representar as concentrações de chumbo no
sangue ( em 50 adolescentes do sexo feminino observadas no Hospital Universitário de
Londrina 2009.
a. Diagrama de Ramos e folhas
b. Histograma
c. Boxplot
5) No software R, selecione algumas variáveis da pesquisa realizada em sala de aula (aula 1) e a
partir do data frame, construir os seguintes gráficos.
a) variável sexo: gráfico de setores; b) variável estado: gráfico de colunas
c) variável altura: histograma e box-plot d) Variável altura: Diagrama de Ramos e folhas
6) Construir o Boxplot dos pesos, em kg, de 40 alunos (20 homens e 20mulheres), obtendo os
dados brutos:
Homens = [40,49,55,70,40,50,57,75,43,50,60,83,45,52, 65,92,47,55,67,105]
Mulheres = [32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65]
a. Construir o boxplot para comparar as duas distribuições.
b. Há outliers? Quantos outliers e em que grupo?
c. Visualizando o gráfico, qual distribuição é mais simétrica?
d. Qual distribuição apresenta menor dispersão?
e. Apresente o diagrama de Ramos e folhas para cada distribuição.
Aula 4 - MEDIDAS DESCRITIVAS - Medidas de Posição ou Tendência Central
MEDIDAS DE TENDÊNCIA CENTRAL OU MEDIDAS DE POSIÇÃO
(média, moda e mediana)
São medidas de posição que resumem ou descrevem informações numéricas de um
conjunto, pois uma maneira conveniente de descrever um conjunto de dados é encontrar um
número único que represente o que é típico, mediano ou médio.
4.1 Média
Média aritmética para dados não agrupados (dados brutos)- média aritmética é a medida de
tendência central mais utilizada, pois considera todos os valores do conjunto. É um valor em
torno da qual, os dados se distribuem, é o centro da distribuição. Pode ser calculada de duas
formas: média aritmética simples e média aritmética ponderada.
Média aritmética simples. ( X ) - Sejam nxxx ,...,, 21 , n valores que a variável X
assume em uma amostra. A média aritmética simples é definida por:
n
xx
i
n
i 1
Utiliza-se o símbolo para a média de população, e N para o número de elementos da
população. N
xi
N
i 1
Nxxx ,...,, 21
14
Exemplo 4.1 Em um hospital foram registrados os pesos, em kg, de 10 recém-nascidos em um
determinado dia, considere a amostra de pesos:{3.2; 3.2; 2.8; 2.1; 2.9; 3.1; 3.2; 3.0; 3.5; 4.0}
Para calcular o peso médio da amostra: kgn
xx
ii 1.3
10
31
10
0.4....2.32.3
10
1
Média aritmética para dados agrupados numa tabela de distribuição de frequências –
Variável discreta
A média aritmética ponderada é utilizada quando atribuímos um peso (ou
ponderação) aos valores possíveis da variável. Quando os dados aparecem na forma de uma
distribuição de freqüências, os ponderadores serão as freqüências absolutas (fi). Sejam
nxxx ,...,, 21 , n valores que a variável X assume e f1, f2, ......., fi os respectivos pesos (ou
ponderadores). A média aritmética ponderada é definida como:
fi
fx
x
n
i
ii
1
Média aritmética para dados agrupados numa tabela de distribuição de frequências –
Variável contínua
Com os dados agrupados em classes, é necessário, calcular xi - os pontos médios das
classes e adotar a mesma fórmula:
fi
fx
x
n
i
ii
1
Propriedades da média aritmética.
P1 - A soma dos desvios em relação a média é nula.
P2 - A soma dos quadrados dos desvios de um conjunto de dados, em relação a uma
constante k, é mínima quando k = ̅.
P3 - Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos
elementos de um conjunto de dados, a média aritmética fica adicionada (ou
subtraída) dessa constante.
P4 - Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos
elementos de um conjunto de dados, a média aritmética fica multiplicada (ou
dividida) por essa constante.
Emprego da média
Quando os resultados se distribuem simetricamente em torno de um ponto central.
Quando se deseja uma medida de posição com maior estabilidade (sempre apresentar
a média acompanhada de uma medida de dispersão)
Para se calcular outras medidas que se baseiam na média
4.2 Moda
Moda para dados não agrupados ( Mo ) - A moda é o valor que ocorre com maior freqüência
na distribuição. Uma distribuição pode ser classificada:
Amodal: quando os dados não apresentam moda;
Modal: apresenta uma moda;
Bimodal: quando os dados apresentam duas modas;
Multimodal: quando os dados apresentam mais de duas modas.
15
A moda comparada com a média e a mediana, é a menos útil das medidas para representar
os dados. A moda é útil quando um ou dois valores, ou um grupo de valores, ocorrem com
freqüência muito maior que os outros valores.
Exemplo 4.2 Encontre a moda nos seguintes conjuntos:
a) X = {3, 4, 4, 4, 7, 10, 12, 15} Mo = 4
b) Y = {12, 15, 20, 22, 30} Não existe moda. ( amostra amodal ).
c) W = {8, 10, 10, 10, 15, 15, 15, 18, 19, 20, 20}
A amostra apresenta dois valores modais: Mo = 10 e Mo = 15 ( amostra bimodal ).
d) Z = { 2, 5, 5, 5, 5, 8, 8, 8, 8, 10, 12, 20, 20, 20, 20 } A amostra apresenta mais de dois
valores modais: Mo = 5, Mo = 8, Mo = 20 ( amostra multimodal ).
Moda para dados agrupados numa tabela de distribuição de frequências - (Variável discreta)
Os valores da variável dispostos em uma tabela de frequências podem apresentar-se
individualmente ou agrupados em classes. No primeiro caso, a determinação da moda é
imediata, bastando, para isso, consultar a tabela, localizando o valor que apresenta a maior
frequência. Esse valor será a moda.
Moda para dados agrupados numa tabela de distribuição de frequências - (variável contínua)
O segundo caso, os valores da variável dispostos em uma tabela de frequências em
classes (variável contínua), devemos identificar a classe modal (classe em que observamos a
maior frequência).
Fórmula de Czuber Mo = Li + (
21
1
).h
Li : limite inferior da classe modal,
1 : Diferença entre a fi da classe modal e a fi anterior a classe modal,
2 : Diferença entre a fi da classe modal e a fi posterior a classe modal.
h: amplitude das classes
Emprego da moda
Quando se deseja obter uma medida rápida e aproximada da tendência central
Quando a outliers que afetam o valor da média
4.3 Mediana
Mediana para dados não agrupados (Md) - A mediana é o valor que ocupa a posição central
da amostra ordenada (crescente ou decrescente). Isto é, divide a amostra em duas partes iguais
de modo que 50% dos valores ficam à sua esquerda e 50% à sua direita.
A ordem da mediana, indicada pela letra O, será:
a) Se n for ímpar:
2
1nO e Md = X (o)
b) Se n for par, calculam-se duas ordens: 122
21
nOe
nO e md =
16
Exemplo 4.3: Calcular a mediana para os seguintes conjuntos de dados.
Para n par - X: {20, 25, 25, 30, 32, 45, 46, 52}
51
2
84
2
821
OeO
Md =
=
= 31
Para n ímpar - Y: {20, 25, 25, 30, 45, 46, 50} 42
17
O
Md = X4 = 30
Mediana para dados agrupados numa distribuição de frequências – (Variável discreta)
A mediana é o valor que ocupa a posição central da amostra ordenada (rol). Verificar se o
valor de n é par ou ímpar, localizar a(s) ordem (ns) e verificar o valor mediano na tabela de
distribuição de frequências.
Mediana para dados agrupados numa distribuição de frequências – (Variável contínua)
Quando os valores da variável estiverem agrupados em classes, admite-se que os valores
da variável na distribuição de frequências distribuam-se continuamente. A mediana será, neste
caso, o valor da variável, para o qual 50% da frequência total (n/2) fica situada abaixo e outra
metade acima dele. O elemento mediano para dados agrupados em classes será n/2 (não importa
se é par ou ímpar).
hf
FacELMd
i
antmdi
. , onde
Emd é o Elemento Mediano dado por n/2 (localiza-se na Fac);
Li é o limite inferior da classe que contém a mediana;
Facant é a frequência acumulada crescente anterior à da classe mediana;
fi é a frequência absoluta da classe que contém a mediana;
h é a amplitude das classes.
Emprego da mediana
Quando se deseja obter o ponto médio exato da distribuição
Quando a outliers que afetam o valor da média
Os exemplos abaixo se referem variáveis agrupadas às tabelas de distribuição de
frequências que se apresentam individualmente (variável discreta) ou agrupados em classes
(variável contínua). Determinar as medidas de tendência central ou medidas de posição.
Exemplo 4.4 Variável discreta - As faltas ao trabalho (dias) de 30 empregados de uma clínica
em determinado semestre estão na Tabela 12. Tabela 12 – Distribuição de frequências do número de faltas de 30 empregados
de uma clínica no 1o semestre - 2015
Número de faltas (xi) fi xi.fi
0 9 0
1 10 10
2 5 10
3 3 9
4 2 8
6 1 6
n =30 43 Fonte: VIEIRA, S. Introdução à Bioestatística.
Determine as medidas de posição: Média, moda e mediana.
17
Exemplo 4.5 Variável contínua – Seja um experimento realizado na UNESP - Botucatu (2005),
onde a variável observada foi a altura de 40 pés de eucaliptos (metros) de certa espécie.
Determine as medidas de posição.
Tabela13- Distribuição de frequências das alturas 40 pés de eucaliptos - Botucatu 2005
Classes frequência
fi
Ponto
Médio xi
xifi Fac
2.0 |-- 4.0
4.0 |-- 6.0
6.0 |-- 8.0
8.0 |-- 10.0
10.0 |-- 12.0
12.0 |-- 14.0
10
16
10
02
01
01
3
5
7
9
11
13
30
80
70
18
11
13
10
26
36
38
39
40
n=40 Fonte: UNESP – Botucatu 2005
Determine as medidas de posição: Média, moda e mediana
Atividade 4 – Medidas de posição (Tendência central)
1) Propriedades da média:
a) Seja um conjunto de dados W= { 17, 18, 24, 47, 50}.
Prove as 4 propriedades da média: P1; P2 e (P3 e P4 utilizando uma constante k = 2)
b) Utilizando a série de dados do conjunto T= {2, 7, 8, 15}
P1: Prove numericamente que a soma dos desvios em torno da média é zero.
Utilize k=2 o valor constante e prove P3.
Utilize k=3 o valor constante para provar a P4.
2) Dados não agrupados - Calcule as medidas de tendência central (posição), do seguinte
conjunto de dados não agrupados. O estudo se refere ao efeito da inalação de ozônio e dióxido
de enxofre por adolescentes que sofrem de asma. As medidas são do volume expiratório forçado
em segundo para 13 indivíduos. FEV: é o volume de ar expelido dos pulmões depois de um
segundo de esforço constante. Pagano & Gauvreau (2004)
FEV (litros) = { 2.3, 2.15, 3.50, 2.60, 2.75, 2.82, 4.05, 2.25, 2.68, 3.0, 4.02, 2.85, 3.38}
Determine as medidas de posição para os dados não agrupados.
Dados agrupados – Variável discreta
3) Calcule as medidas de posição dos valores da tabela de distribuição de frequências, referente
ao número de galhas de nematoídes observadas em 72 raízes de plantas - UFLA Lavras - MG
Tabela 14 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA - MG
Número de galhas fi 0 30 1 25 2 10 3 5 4 2 n = 72
Dados agrupados – Variável contínua
4) A tabela de distribuição de frequência para variável contínua representa um resumo das
pressões diastólicas em repouso pra uma amostra de 70 pacientes com doenças de isquêmia do
coração ou supressão do fluxo de sangue para o coração. Determine as medidas de posição.
18
Tabela 15 – Distribuição de frequências das pressões diastólicas
de 70 pacientes com isquêmia do coração.
classes fi xi
2.0 |-- 4.0 5 3.0
4.0 |-- 6.0 40 5.0
6.0 |-- 8.0 14 7.0
8.0 |-- 10.0 8 9.0
10.0 |-- 12.0 3 11.0
n = 70
5) Demonstre que ∑ ̅ é igual a zero.
Aula 5 – Medidas de Dispersão (Variabilidade)
Medidas de Dispersão - (amplitude total, desvio médio, variância, desvio padrão e coeficiente
de variação)
Analisar um conjunto de observações com base em uma única medida de
tendência central não nos fornece informações suficientes. É necessário ter uma medida de
dispersão que diga algo sobre a dispersão dos valores em torno dessa medida de tendência
central.
As medidas de dispersão servem para avaliar o grau de variabilidade ou
dispersão dos valores de um conjunto de dados. Estas medidas permitem estabelecer
comparações entre fenômenos de mesma natureza ou de natureza distinta e, em geral, essa
variabilidade é observada em torno de uma medida de tendência central. As medidas de
dispersão podem ser absolutas ou relativas. São elas:
i) Absolutas: medidas de dispersão que são expressas na mesma unidade de medida da variável
em estudo: Amplitude total, Variância e Desvio padrão.
ii) Relativas: medidas que independem da unidade de medida da variável observada. Servem
para estudar comparativamente duas ou mais distribuições com natureza distinta ou com
unidades de medida diferentes: Coeficiente de variação.
5.1 Amplitude Total para dados não agrupados - É a diferença entre os valores extremos da
distribuição
1ª) A amplitude total é a medida mais simples de dispersão.
2ª) A desvantagem desta medida de dispersão é que considera apenas os valores mínimo e
máximo do conjunto. Se ocorrer qualquer variação no interior do conjunto de dados, a
amplitude total não nos dá qualquer indicação dessa mudança.
3ª) A amplitude total também sofre a influência de um valor "atípico" na distribuição (um valor
muito elevado ou muito baixo em relação ao conjunto).
Exemplo 5.1 Em um hospital foram registrados os pesos, em kg, de 10 recém-nascidos em
um determinado dia: pesos: {3.2; 3.2; 2.8; 2.1; 2.9; 3.1; 3.2; 3.0; 3.5; 4.0} Rol: { 2.1, 2.8, 2.9, 3.0, 3.1, 3.2, 3.2, 3.2, 3.5, 4.0}
At = Xmax – Xmin = 4.0 – 2.1 = 1.9 kg
Amplitude total para dados agrupados – Quando a distribuição de freqüências é organizada
por classes de valores, costuma-se tomar como amplitude total à diferença entre o limite
superior da última classe e o limite inferior da primeira classe. Não é possível definir a
amplitude total, para dados agrupados em classes de frequências, quando a última classe for
aberta.
19
Emprego da amplitude total
Quando os dados são raros ou demasiado esparsos para justificar o cálculo de uma medida
mais precisa.
Quando apenas o conhecimento dos valores extremos ou da distribuição total for necessário.
5.2 Variância e desvio padrão
Variância e desvio padrão para dados não agrupados - Sejam Nxxx ,...,, 21 , N valores que a
variável X assume. Se os valores tem média x , as diferenças (xi- x ), i=1, 2,...,N, são chamadas
de desvios a contar da média, o que sugere que se pode tomar a média desses desvios como
medida de variação.
A média dos valores é: N
xx
i
N
i 1
Os desvios dos valores são dados por: xxd ii
Considere os seguintes números: {1,2,3}. Calcule a média e média dos desvios. Solução: x =2
xxd ii
211 d = -1
222 d = 0
233 d = +1; mas como 01
xxi
N
i, e sempre será
zero, pois é uma das propriedades da média. Para se calcular a média dos desvios, têm-se duas
soluções:
1) Considerar a soma dos desvios em módulo, os valores negativos ficam positivos e, dividindo
o total por N, se obtém o Desvio Médio populacional: DM = N
xxi
N
i
1 .
2) Considerar os quadrados dos desvios a contar da média, isto também elimina o efeito dos
sinais. Tomando então a média dos quadrados dos desvios:
N
xx
d
n
i
i
2
1
.
A média dos desvios ao quadrado denominada variância populacional e representada por 2 .
N
xxn
i
i
2
12
, desenvolvendo o produto notável 2xxi
N
N
x
xi
N
i
i
N
i
2
12
12
-
Variância Populacional
Quando o estudo é feito sobre os dados de uma amostra, para se fazer inferência sobre uma
população de interesse, a variância amostral é definida por:
20
1
-
2
12
12
n
n
x
x
s
i
n
i
i
n
i Variância Amostral
Desvio-padrão - O desvio-padrão é a raiz quadrada positiva da variância.
N
N
x
x
i
N
ii
N
i
2
12
1-
Desvio-Padrão Populacional
1-
-
2
12
1
n
n
x
x
s
i
n
i
i
n
i
Desvio-Padrão Amostral
É expresso na mesma unidade da variável, sendo, por isso, de maior interesse que a
variância nas aplicações práticas. O desvio-padrão não reflete a magnitude dos dados, reflete
apenas a dispersão em torno da média.
Um significado prático e importante do desvio padrão decorre da afirmativa de que,
para dados com distribuição normal, quase a totalidade dos valores deverão estar contidos no
intervalo que dista de três desvios padrão à esquerda e à direita da média.
Exemplo 5.2 Em um hospital foram registrados os pesos, em kg, de 10 recém-nascidos em um
determinado dia - Variável peso: {3.2; 3.2; 2.8; 2.1; 2.9; 3.1; 3.2; 3.0; 3.5; 4.0}
Determine vari6ancia e desvio padrão.
Tabela 16 - Cálculos intermediários para obtenção da variância
Dados (xi) Desvios
(xi - ̅
Quadrados dos desvios
(xi - ̅
2.1 2.1 - 3.1 = -1.0 1.00
2.8 2.8 - 3.1 = -0.3 0.09
2.9 2.9 – 3.1= -0.2 0.04
3.0 3.0 – 3.1= -0.1 0.01
3.1 3.1 – 3.1 = 0 0.00
3.2 3.2 – 3.1 = 0.1 0.01
3.2 3.2 – 3.1 = 0.1 0.01
3.2 3.2 – 3.1 = 0.1 0.01
3.5 3.5 – 3.1 = 0.4 0.16
4.0 4.0 – 3.1 = 0.9 0.81
∑ ̅ = 0 2.14
Variância:
23.0
9
14.2
1
210
12
n
xx
s i
i
kg2
Desvio padrão: s = √ = 0.48 kg
Propriedades da variância e do desvio padrão.
P1) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada elemento de um
conjunto de dados a variância e o desvio padrão não se alteram.
21
P2) Multiplicando-se (ou dividindo-se) por um valor constante e arbitrário cada elemento de um
conjunto de dados, a variância fica multiplicada (ou dividida) pela constante elevada ao
quadrado. E o desvio padrão fica multiplicado (ou dividido) por essa constante.
Propriedades: Sejam os conjuntos X e Y (onde os valores de Y são os do conjunto X
multiplicado por k=2) e, ambos com n = 5 elementos:
X = {2, 4, 6, 8, 10} => x = 6 ; s2 = 10 e s = 3,16
Y = {4, 8, 12, 16, 20} => y = 12 ; s2 = 4x10 = 40
e s = 2 x 3,16 = 6,32
Variância e desvio padrão para dados agrupados na tabela de distribuição de frequências
Quando os valores vierem dispostos em uma tabela de frequências, o cálculo da variância
se fará através de uma das seguintes fórmulas:
1
-f
2
1
i
2
12
n
n
fx
x
s
ii
n
i
i
n
i onde algebricamente desenvolvendo o produto notável obtemos:
1
.)(1
2
2
n
fxxi
s
n
i
i
A variância do ponto de vista prático tem o inconveniente de se expressar numa unidade
quadrática em relação à variável em questão. Esse inconveniente é sanado com a definição do
desvio padrão (é a raiz quadrada e positiva da variância)
Desvio padrão: s = + √
5.3 Coeficiente de Variação - O coeficiente de variação é definido como o quociente entre o
desvio padrão e a média. È frequentemente expresso em porcentagem, para valores amostrais:
%100x
sCV
Esse coeficiente é adimensional e permite comparar a variabilidade de duas ou mais
distribuições, mesmo quando esse, se refere a diferentes fenômenos e seja expresso em unidades
de medida distintas.
Classificação: CV 15% (Baixo); 15% < CV < 30% (Médio); CV ≥ 30% (Muito alto)
Exemplo 5.3 Variável discreta - As faltas ao trabalho de 30 empregados de uma clínica em
determinado semestre estão na Tabela 17. Determine as medidas de dispersão.
Tabela 17 – Distribuição de frequências do número de faltas de 30 empregados
de uma clínica no 1o semestre - 2015.
Número de faltas (xi) fi
0 9
1 10
2 5
3 3
4 2
6 1
n =30 Fonte: VIEIRA, S. Introdução à Bioestatística.
22
Exemplo 5.4 - Variável contínua – Seja um experimento realizado na UNESP - Botucatu
(2005), onde a variável observada foi à altura de 40 pés de eucaliptos (metros) de certa espécie.
Determine as medidas de dispersão.
Tabela18 - Alturas de 40 pés de eucaliptos - UNESP
Classes frequência
absoluta
(fi)
Ponto
Médio xi
2.0 |-- 4.0
4.0 |-- 6.0
6.0 |-- 8.0
8.0 |-- 10.0
10.0 |-- 12.0
12.0 |-- 14.0
10
16
10
02
01
01
3
5
7
9
11
13
n=40 Fonte: UNESP – Botucatu 2005
Atividade 5 – Medidas de Dispersão (ou Variabilidade)
1) Prove a igualdade das duas fórmulas para encontrar a variância de uma distribuição.
1
-
1
)(
2
12
11
2
2
n
n
x
x
n
xxi
s
i
n
i
i
n
i
n
i
2) Propriedades do desvio padrão :
a) Seja um conjunto de dados W= { 17, 18, 24, 47, 50}.
Prove as 2 propriedades da variância e desvio padrão (P1 e P2) utilizando uma constante k = 2
Prove as 2 propriedades da variância e desvio padrão (P1 e P2) utilizando uma constante k = 10
3) Demonstre numericamente que a variância de uma série constante é nula.
exemplo: Seja o conjunto A: {5,5,5,5,5,5,5,5,5,5]. Calcule a variância.
4) A seguir têm-se um conjunto de dados não agrupados: As notas da segunda chamada de três
Cursos da UEL. Determine as medidas abaixo e responda qual turma teve melhor desempenho?
Tabela 19 - Notas da prova de segunda chamada de três Cursos da UEL - 2009
Turma Notas Média Desvio
padrão
Coef. de
Variação
Biomedicina 4, 5, 5, 6, 6, 7, 7, 8
Fisioterapia 1, 2, 4, 6, 6, 9, 10, 10
Biologia 0, 6, 7, 7, 7; 7,5; 7,5
5) Dados agrupados – Variável discreta. Calcule as medidas de dispersão da tabela de
distribuição de frequências, se refere ao número de galhas de nematoídes observadas em 72
raízes de plantas – 2012 - UFLA Lavras - MG
Tabela 20 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA – MG
Número de galhas fi
0 30
1 25
2 10
3 5
4 2
23
6) Dados agrupados - Variável Contínua. A tabela de distribuição de frequência para variável
contínua representa um resumo das pressões diastólicas em repouso pra uma amostra de 70
pacientes com doenças de isquêmia do coração ou supressão do fluxo de sangue para o coração.
H.U - Londrina 2015. Determine as medidas de dispersão.
Tabela 21 – Distribuição de frequências das pressões diastólicas
de 70 pacientes com isquêmia do coração. H.U. 2015
classes fi xi
2.0 |-- 4.0 5 3.0
4.0 |-- 6.0 40 5.0
6.0 |-- 8.0 14 7.0
8.0 |-- 10.0 8 9.0
10.0 |-- 12.0 3 11.0
n = 70
Aula 6 - (Separatrizes: Quartis, Decis e Percentis)
Separatrizes - As separatrizes são medidas de localização não centrais, que são
empregadas particularmente para dividirem em partes iguais, grandes conjunto de dados
numéricos. As separatrizes são: a mediana (que é também uma medida de tendência central); os
quartis; os decis e os percentis.
6.1 Quartis para dados não agrupados - São medidas descritivas que dividem os dados em
quatro partes iguais.
25% 25% 25% 25%
_________Q1_________Q2_________Q3_________
O primeiro quartil, Q1, é o valor que faz com que 25% das observações sejam menores e 75%
maiores.
O segundo quartil, Q2, é o valor que faz com que 50% das observações sejam menores e 50%
maiores.
O terceiro quartil, Q3, é o valor que faz com que 75% das observações sejam menores e 25%
maiores.
Para n ímpar - A ordem do quartil “i” (i=1, 2 ou 3)é dada por 4
)1.( ni e o valor é localizado
no rol.
Para n par - O quartil será a média dos dois elementos de ordens: 4
.ni e 1
4
.
ni.
Quartis para dados agrupados
qi : 4
in localizar classe qi na Fac; qi = Li +
fi
Facin
ant4 .h
Li: Limite inferior da classe do quartil “i”
Facant: Frequência acumulada anterior a classe do quartil “i”
n: número de elementos da amostra
h: amplitude ou intervalo de classe
fi: frequência absoluta ou simples da classe do quartil “i”.
24
6.2 Decis para dados não agrupados - São medidas descritivas que dividem os dados em dez
partes iguais.
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
___D1___D2___D3___D4___D5___D6___D7___D8___D9___
O primeiro decil, D1, é o valor que faz com que 10% das observações sejam menores e 90%
maiores.
O segundo decil, D2, é o valor que faz com que 20% das observações sejam menores e 80%
maiores, e assim sucessivamente.
Para n ímpar - A ordem do decil “i” ( i= 1, 2, ....,9) é dada por 10
)1.( ni e o valor é localizado
no rol .
Para n par - O decil será a média dos dois elementos de ordens: 10
.ni e 1
10
.
ni.
Decis para dados agrupados
di : 10
in localizar classe di na Fac di = Li +
fi
Facin
ant10 .h
6.3 Percentis para dados não agrupados - São medidas descritivas que dividem os dados em
cem partes iguais.
1% 1% 1% 1% ..................... .. 1% 1% 1%
___P1___P2___P3___.……………...___P97___P98___P99___
O primeiro percentil, P1, é o valor que faz com que 1% das observações sejam menores e 99%
maiores.
O segundo percentil, P2, é o valor que faz com que 2% das observações sejam menores e 98%
maiores, e assim sucessivamente.
Para n ímpar- A ordem do percentil “i”( i= 1, 2, ....,99) é dada por 100
)1.( ni e o valor é
localizado no rol.
Para n par- O percentil será a média dos dois elementos de ordens: 100
.ni e 1
100
.
ni.
Percentis para dados não agrupados
pi : 100
in localizar classe pi na Fac pi = Li +
fi
Fin
ac 1100 .h
Amplitude Semi-interquartílico: é a distância média entre os quartis, dada pela expressão:
Intervalo ou Amplitude interquartílico (Dq)
25
Emprego da amplitude interquartílico ou intervalo interquartílico
Quando a mediana for a medida de tendência central
Quando houver valores discrepantes capazes de influenciar desproporcionalmente o
desvio padrão.
Quando a concentração em torno da mediana for primordial.
Exemplo 6.1 Seja o conjunto Y os dados não agrupados, determine os quartis.
Variável Y = [7.5, 8, 3.5, 6, 2.5, 2, 5.5, 4]
Exemplo 6.2: Dados não agrupados determine os quartis. verificar interpolação
Calcule todos quartis da distribuição: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12.
Calcule todos quartis da distribuição: 15, 18, 5, 7, 9, 11, 3, 5, 6, 7, 8, 10, 12, 15.
Algumas Aplicações utilizando as Medidas Descritivas
DESIGUALDADE DE CHEBYCHEV
Uma vez que a média e o desvio padrão de um conjunto de dados tenham sido calculados,
esses dois números podem ser usados para resumir o todo das características da distribuição de
valores. Juntos, podem ser usados para se construir um intervalo que contenha uma proporção
especificada de observações no conjunto de dados. Quando os dados são simétricos e
unimodais, podemos dizer que aproximadamente 67% das observações se encontram no
intervalo ( ̅ ), cerca de 95% no intervalo ( ̅ e quase todas as observações no
intervalo ( ̅ ). Essa afirmação é conhecida como regra empírica.
Jair Se os dados não são simétricos e unimodais pode-se usar a desigualdade de Chebychev
para resumir a distribuição de valores. A desigualdade de Chebychev é verdadeira para qualquer
conjunto de observações, independente de qual seja a sua forma. Ela nos permite dizer que para
qualquer numero k maior que 1, pelo menos [1 - ].
Exemplo 6.2 Desigualdade de Chebychev – Realizou uma pesquisa a fim de avaliar certa
operação manual em uma clínica de idosos. Esse tempo é medido para cada uma de 40
mulheres. A média e o desvio-padrão obtidos foram 12,8 e 1,7, respectivamente. Para
descrever os dados, obtêm-se os intervalos:
• x ± 2s = 12,8 ± 2(1,7) = [9,4 a 16,2] Para k=2
• x ±3s = 12,8 ± 3(1,7) = [7,7 a 17,9] Para k=3
Embora não se possua qualquer informação a respeito da distribuição desses dados,
é muito provável que eles tenham distribuição afilada e que a regra empírica permita uma
boa descrição dos dados. Então, aproximadamente 75% das medidas estarão contidas no
intervalo de 9,4 e 16,2 e pelo menos 88.9%, no intervalo de 7,7 a 17,9.
GRÁFICO BOX-PLOT – O Box-plot mais simples tem base no resumo dos 5 números.
(Mínimo, Primeiro quartil, Mediana, Terceiro quartil e Máximo). A amplitude interquartílica
(dq) é encontrada pela diferença do terceiro e primeiro quartil. A distribuição terá outlier se
verificar valores acima (ou abaixo) de 1,5 dq; e outlier extremo se verificar valores acima (ou
abaixo) de 3dq). Encontre a amplitude interquartil dq= Q3 – Q1. Os limites LI , LIE, LS LSE
Exemplo 6.3- Livro: Estatística aplicada a administração e economia. Seja a distribuição de
dados referente a salários do departamento de uma empresa. Construa o Box-plot.
2710, 2755, 2850, 2880, 2880, 2890, 2920, 2940, 2950, 3050, 3130, 3325
26
Outliers Extremos
3405 ------------------------------------------------------ Lim Superior Extremo Q3+ 3,0 dq
OUTLIERS Max = 3325
3202 --------------------------------------------------------- Lim. Superior Q3 + 1,5 dq
Q3 = 3000 30 Quartil
Q2 = med = 2905 20 Quartil = Mediana
10 Quartil
Q1 = 2865
2800
Mínimo=2710
2662,5 --------------------------------------------------------------------------------
OUTLIERS Lim. Inferior
Q1 - 1,5 dq
Lim.Inferior Extremo
2460 -------------------------------------------------------------------------------- Q1 - 3,0 dq
Outiliers Extremos
27
Exemplo 6.4 Variável discreta - As faltas ao trabalho de 30 empregados de uma clínica em
determinado semestre estão na Tabela 17. Determine as medidas de dispersão.
Tabela 17 – Distribuição de frequências do número de faltas de 30 empregados
de uma clínica no 1o semestre - 2015.
Número de faltas (xi) fi
0 9
1 10
2 5
3 3
4 2
6 1
n =30 Fonte: VIEIRA, S. Introdução à Bioestatística.
Exemplo 6.5 - Variável contínua – Seja um experimento realizado na UNESP - Botucatu
(2005), onde a variável observada foi à altura de 40 pés de eucaliptos (metros) de certa espécie.
Determine as medidas de dispersão.
Tabela18 - Alturas de 40 pés de eucaliptos - UNESP
Classes frequência
absoluta
(fi)
Ponto
Médio xi
2.0 |-- 4.0
4.0 |-- 6.0
6.0 |-- 8.0
8.0 |-- 10.0
10.0 |-- 12.0
12.0 |-- 14.0
10
16
10
02
01
01
3
5
7
9
11
13
n=40 Fonte: UNESP – Botucatu 2005
Atividade 6 – Separatrizes
1) Calcule os quartis, das duas distribuições, se refere ao peso, em kg, de 40 alunos (20 homens
e 20 mulheres), dos dados brutos e não agrupados.
Homens = [40, 49, 55, 70, 40, 50, 57, 75, 43, 50, 60, 83, 45, 52, 65, 92, 47, 55, 67, 105]
Mulheres = [32, 40, 47, 57, 33, 40, 48, 58, 35, 42, 50, 60, 36, 43, 52, 63, 38, 45, 53, 65]
a. Apresente o rol de cada distribuição.
b. Qual o intervalo interquartílico?
c. Apresente o resumo dos cinco números (valor mínimo, primeiro quartil, mediana, terceiro
quartil e o valor máximo) para cada distribuição.
d. Compare a dispersão entre as distribuições. Qual distribuição apresenta menor dispersão?
e. Qual a melhor medida de dispersão para comparar duas distribuições?
f. Acima de qual peso (kg) estão 30% das mulheres?
2) Dados agrupados – Variável discreta
Calcule os quartis e o décimo e nonagésimo percentil da tabela 20 de Distribuição de
frequências, se refere ao número de galhas de nematoídes observadas em 72 raízes de plantas –
2012 - UFLA Lavras - MG
28
Tabela 20 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA - MG
Número de galhas fi
0 30
1 25
2 10
3 5
4 2
n = 72
3) Dados agrupados - Variável Contínua
A tabela de distribuição de frequência para variável contínua representa um resumo das pressões
diastólicas em repouso pra uma amostra de 70 pacientes com doenças de isquêmia do coração
ou supressão do fluxo de sangue para o coração – H.U. 2015. Determine o quartis e mediana,
quinto decil; décimo e nonagésimo percentil.
Tabela 21 – Distribuição de frequências das pressões diastólicas
de 70 pacientes com isquêmia do coração.
classes fi xi
2.0 |-- 4.0 5 3.0
4.0 |-- 6.0 40 5.0
6.0 |-- 8.0 14 7.0
8.0 |-- 10.0 8 9.0
10.0 |-- 12.0 3 11.0
n = 70
Aula 7 – Medidas de assimetria e curtose
7.1 Assimetria - Assimetria é o grau de afastamento de uma distribuição em relação ao eixo
simétrico. Uma distribuição pode ser:
- simétrica;
- assimétrica positiva ou à direita;
- assimétrica negativa ou à esquerda.
Comparação entre as medidas de posição-Em uma distribuição simétrica, a média, a mediana
e a moda são iguais, isto é, x = Med = Mo. Em um gráfico de distribuição essas medidas se
coincidem.
Em uma distribuição assimétrica positiva ou assimétrica à direita, a média é maior
que a mediana, e esta por sua vez, é maior que a moda, isto é, Mo < Med < x . Em um
gráfico de distribuição essas medidas ficam:
29
Em uma distribuição assimétrica negativa ou assimétrica à esquerda, a média é
menor que a mediana, e esta por sua vez, é menor que a moda, isto é, x <Med < Mo. Em um
gráfico de distribuição essas medidas ficam:
Coeficiente de assimetria de Pearson - O coeficiente de assimetria de Pearson pode ser
determinado através das seguintes equações:
a) 1o coeficiente de Pearson
s
MoxAs
)(
b) 2o coeficiente de Pearson
s
MdxAs
)(3
c) 3o coeficiente de Pearson
13
31 2
MdqqAs
As = 0 a distribuição é simétrica
As > 0 a distribuição é assimétrica positiva (à direita)
As < 0 a distribuição é assimétrica negativa (à esquerda).
7.2 Curtose - Curtose é o grau de achatamento de uma distribuição em relação a uma
distribuição padrão, denominada curva normal.
Uma distribuição que não é nem chata e nem delgada é denominada de mesocúrtica. A
curva normal, por exemplo, que é a nossa base referencial, recebe o nome de mesocúrtica.
Quando a distribuição apresenta uma curva de frequência mais fechada que a normal
(ou mais aguda em sua parte superior) ela recebe o nome de leptocúrtica. Quando a distribuição
apresenta uma curva de frequência mais aberta que a normal (ou mais achatada na sua parte
superior), ela é chamada de platicúrtica.
Forma abstrata ou adimensional do momento – Coeficiente momento de assimetria
Dada pela razão entre o momento de ordem qualquer centrado na média e o desvio
padrão elevado à ordem deste momento ou dado pelo momento de 30 ordem na forma abstrata.:
√
ou a3 =
√ se a3 > 0 (A. positiva); a3 = 0 (Simetria) e a3 < 0 (A. negativa).
Coeficiente momento de curtose – É dado pelo quarto momento centrado na média,
expresso na forma adimensional. cm ou a4 =
√
.
Se a4 < 3 (Dist. platicúrtica); a4 = 3 (Dist.mesocúrtica) e a4 > 3 (Dist.leptocúrtica).
30
O momento de ordem r centrado na média de uma série é dada pelas relações:
Dados não agrupados: n
xxm
r
i
r
)( e dados agrupados:
n
fxxm
i
r
i
r
.)(
Observamos que o segundo momento da variável centrado em sua média (m2), é a variância da
série em análise.
os gráficos abaixo mostram essas distribuições:
Coeficiente de curtose: )(2 1090
13
pp
qqC
; onde: p10 e p90 são os percentis 10 e 90.
C = 0,263 curva mesocúrtica
C < 0,263 curva leptocúrtica
C > 0,263 curva platicúrtica
Exemplo 7.1 As duas distribuições, se refere ao peso, em kg, de 40 alunos (20 homens e 20
mulheres), dos dados brutos e não agrupados.
Homens = [40, 49, 55, 70, 40, 50, 57, 75, 43, 50, 60, 83, 45, 52, 65, 92, 47, 55, 67, 105]
Mulheres = [32, 40, 47, 57, 33, 40, 48, 58, 35, 42, 50, 60, 36, 43, 52, 63, 38, 45, 53, 65]
Determine o coeficiente de assimetria e curtose e classifique a distribuição.
Exemplo 7.2 Dados agrupados – Variável discreta
A tabela 20 de Distribuição de frequências, se refere ao número de galhas de nematoídes
observadas em 72 raízes de plantas – 2012 - UFLA Lavras – MG.
Determine o coeficiente de assimetria e curtose e classifique a distribuição.
Tabela 20 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA - MG
Número de galhas fi
0 30
1 25
2 10
3 5
4 2
n = 72
Exemplo 7.3 Dados agrupados - Variável Contínua
A tabela de distribuição de frequência para variável contínua representa um resumo das pressões
diastólicas em repouso pra uma amostra de 70 pacientes com doenças de isquêmia do coração
Mesocúrtica Leptocúrtica Platicúrtica
31
ou supressão do fluxo de sangue para o coração – H.U. 2015. Determine o coeficiente de
assimetria e curtose e classifique a distribuição .
Tabela 21 – Distribuição de frequências das pressões diastólicas
de 70 pacientes com isquêmia do coração.
classes fi xi
2.0 |-- 4.0 5 3.0
4.0 |-- 6.0 40 5.0
6.0 |-- 8.0 14 7.0
8.0 |-- 10.0 8 9.0
10.0 |-- 12.0 3 11.0
n = 70
Exemplo 7.4 – Seja uma série de números igual a X = { 1,2,3,3}. Determine o coeficiente de
momento de assimetria e o coeficiente momento de curtose. Classifique quanto a distribuição.
Atividade 7 – Medidas de Assimetria e Curtose
1) Pesquise uma definição do coeficiente de assimetria e curtose e apresente a literatura.
2) Dados agrupados – Variável discreta
Determine o coeficiente de assimetria e curtose e classifique a distribuição dos dados da tabela
20 referente à distribuição de frequências do número de galhas de nematoides observadas em 72
raízes de plantas – 2012 - UFLA Lavras - MG
Tabela 20 - Número de galhas de nematoides em 72 raízes de plantas – UFLA - MG
Número de galhas fi
0 30
1 25
2 10
3 5
4 2
n = 72
3) Dados agrupados - Variável Contínua
A tabela de distribuição de frequência para variável contínua representa um resumo das pressões
diastólicas em repouso de uma amostra de 70 pacientes com doenças de isquemia do coração ou
supressão do fluxo de sangue para o coração – H.U. Londrina 2015.
Determine o coeficiente de assimetria e curtose e classifique a distribuição.
Tabela 21 – Distribuição de frequências das pressões diastólicas
de 70 pacientes com isquemia do coração.
classes fi xi
2.0 |-- 4.0 5 3.0
4.0 |-- 6.0 40 5.0
6.0 |-- 8.0 14 7.0
8.0 |-- 10.0 8 9.0
10.0 |-- 12.0 3 11.0
n = 70