análise exploratória e estimaçãoet586cc/download/monitoria_04.pdf · a medida da variação é...

31
Análise Exploratória e Estimação MONITORIA DE ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

Upload: others

Post on 02-Nov-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Análise Exploratória e Estimação MONITORIA DE ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Médias Média Aritmética (valor médio de uma distribuição)

    𝑥 =1

    𝑛 𝑥𝑖

    𝑛

    𝑖=1

    =1

    𝑛𝑥1 +⋯+ 𝑥𝑛

    Média Aritmética (dados agrupados)

    𝑋 =𝑓1𝑋1 +⋯+ 𝑓𝑘𝑋𝑘𝑓1 +⋯+ 𝑓𝑘

    = 𝑓𝑖𝑋𝑖𝑘𝑖=1

    𝑓𝑖𝑘𝑖=1

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 2

  • Exemplo

    𝑋 =3 ⋅ 13 + 8 ⋅ 14 + 15 ⋅ 15 + 13 ⋅ 16 + 9 ⋅ 17 + 2 ⋅ 18

    30= 15,46

    Intervalos de classes Frequência absoluta

    12,51 a 13,50 3

    13,51 a 14,50 8

    14,51 a 15,50 15

    15,51 a 16,50 13

    16,51 a 17,50 9

    17,51 a 18,50 2

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 3

  • Médias Média Ponderada: 𝑋 =

    𝑤𝑖𝑥𝑖𝑛𝑖=1

    𝑤𝑖𝑛𝑖=1

    =𝑤1𝑥1+𝑤2𝑥2+⋯+𝑤𝑛𝑥𝑛

    𝑤1+𝑤2+⋯+𝑤𝑛

    Média Harmônica: 𝐻 =𝑛

    1

    𝑥𝑖

    𝑛𝑖=1

    =𝑛

    1

    𝑥1+1

    𝑥2+⋯+

    1

    𝑥𝑛

    Média Geométrica: 𝐺 = 𝑥𝑖𝑛𝑖=1

    1

    𝑛 = 𝑥1 ⋅ 𝑥2 ⋅ … ⋅ 𝑥𝑛𝑛

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 4

  • Mediana Para valores ordenados crescentemente, dois modos de calcular:

    • Se n é ímpar, mediana é o valor central: ◦ Na amostra 30 32 35 48 76 a mediana é 35

    • Se n é par, mediana é a média simples entre os dois valores centrais: ◦ Na amostra 30 32 35 48 76 81 a mediana é

    34+48

    2= 41,5

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 5

  • Mediana para dados agrupados 1. Calcula-se n/2;

    2. Achar qual das classes esse valor se encontra a partir das frequências absolutas;

    3. Usar a fórmula

    𝑀𝑑 = 𝑙𝑀𝑑 +

    𝑛2− 𝑓 ⋅ ℎ

    𝑓𝑀𝑑

    Aonde: 𝑙𝑀𝑑 é o limite inferior da classe;

    𝑓𝑀𝑑 é a frequência da classe da mediana;

    𝑓 é a Soma das frequências anteriores a classe da mediana;

    ℎ é a amplitude da classe da mediana.

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 6

  • Moda Valor que ocorre com maior frequência.

    • 2 6 2 9 8 4 3 2 4 5

    2 2 2 3 4 4 5 6 8 9

    Mo = 2

    • 45 46 49 52 52 60 60 76 79

    Mo = 52 e 60

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 7

  • Moda para Dados Agrupados Utiliza-se a fórmula de King:

    𝑀𝑜 = 𝑙 +Δ1Δ1 + Δ2

    ⋅ ℎ

    Aonde:

    • 𝑙 - limite inferior da classe modal = 40

    • Δ1 - diferença entre a frequência da classe e a anterior = 16

    • Δ2 - diferença entre a frequência da classe e a posterior = 7

    • ℎ - amplitude da classe modal = 20

    Notas Número de Alunos

    0 |- 20 2

    20 |- 40 7

    40 |- 60 23

    60 |- 80 16

    80 |- 100 3

    Total 51

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 8

  • Amplitude Total É a diferença entre o maior e menor valor de um conjunto de dados.

    Amplitude = (maior valor) - (menor valor)

    Exemplo:

    30,4 34,7 39,8 40,45 47,9 49,5 51,9 69,7

    69,7-30,4 = 39,3

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 9

  • Desvio Padrão Variação dos valores em torno de uma média dado um conjunto de

    valores amostrais.

    Para uma população de N indivíduos:

    𝜎 =1

    𝑁 𝑥𝑖 − 𝜇

    2𝑁𝑖=1 ;

    Para uma amostra de n observações, x1, ..., xn:

    𝑆 =1

    𝑛−1 𝑥𝑖 − 𝑥

    2𝑛𝑖=1

    Aonde:

    ◦ 𝑥𝑖 é o valor de cada variável;

    ◦ 𝑥 é a média amostral e 𝜇 é a média populacional.

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 10

  • Coeficiente de Variação Percentual do desvio padrão com relação à média.

    ◦ Para população

    𝑐𝑣 =𝜎

    𝜇

    ◦ Para amostra

    𝑐𝑣 =𝑠

    𝑥

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 11

  • Variância A medida da variação é o quadrado do desvio padrão.

    Para a população: 𝜎2 =1

    𝑁 𝑥𝑖 − 𝜇

    2𝑁𝑖=1

    Para a amostra: s2 =1

    𝑛−1 𝑥𝑖 − 𝑥

    2𝑛𝑖=1

    Aonde:

    ◦ 𝑥𝑖 é o valor de cada variável;

    ◦ 𝑥 é a média amostral e 𝜇 é a populacional.

    Obs.: Dado um desvio padrão de unidade “u” a variância do mesmo terá unidade “u²”.

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 12

  • Amplitude Inter-quartílica É a amplitude do intervalo entre o primeiro e o terceiro quartil.

    Representada por Q.

    𝑄 = 𝑄3 − 𝑄1

    Obs: Às vezes também é usada a semi-amplitude inter-quartílica, que é a metade da anterior.

    Obs2: Q é aproximadamente igual a 4

    3𝜎

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 13

  • Medida de Posição - Quartil 1. Quartil é qualquer um dos três valorres que divide o conjunto em

    quatro partes iguais.

    2. Para dados agrupados.

    𝑄1 = 𝑙𝑄1 +

    𝑛4− 𝑓 ⋅ ℎ

    𝐹𝑄1

    Obs: Se fosse para calcularmos o Q3, o fariamos na razão de 3n/4 !

    14 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Percentil Valores que dividem o conjunto em partes iguais que representam

    1/100 da amostra ou população!

    Seja N igual ao tamanho amostral, temos:

    𝑃𝑘 =𝑁 ⋅ 𝑘

    100

    (arredondar para o inteiro mais próximo)

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 15

  • Percentil para dados agrupados

    𝑃𝑖 = 𝑙𝑃𝑖 +

    𝑖𝑛100− 𝑓 ⋅ ℎ

    𝐹𝑃𝑖

    𝑖 ∈ {1,2,3,4, … , 96,97,98,99,100}

    Aonde:

    𝑙𝑃𝑖 é o limite inferior de 𝑃𝑖

    𝑓 é a soma das frequências anteriores de 𝑃𝑖

    ℎ é a amplitude da classe de 𝑃𝑖

    𝐹𝑃𝑖 é a frequência da classe 𝑃𝑖

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 16

  • Medida de Assimetria O calculo da Assimetria resultará em valores sempre entre -1 e 1 e

    para tal utilizamos a equação de Pearson:

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 17

    𝑆𝑘 =𝑋 −𝑀𝑜

    𝑆

  • Construção de tabelas de distribuição de frequência Objetivo: construir tabelas de distribuição de frequência a partir de

    dados brutos (n observações).

    1º Passo: determinar a amplitude total;

    2º Passo: estimar o número de intervalos;

    • Pode-se utilizar 𝐾 = 𝑛 , para 𝑛 > 25 e 𝐾 = 5 para 𝑛 < 25

    • Ou a fórmula de Sturges: 𝐾 = 1 + 3,22 log 𝑛

    3º Passo: estimar a amplitude dos intervalos: ℎ =𝑅

    𝐾;

    4º Passo: esquematizar a tabela de acordo com as informações dos passos anteriores.

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 18

  • Estimação Estimativa pontual: ◦ 𝑥 é uma estimativa pontual para 𝜇, onde (𝑥1, … , 𝑥𝑛) é uma amostra.

    𝑥 =1

    𝑛 𝑥𝑖

    𝑛

    𝑖=1

    =1

    𝑛𝑥1 +⋯+ 𝑥𝑛

    Estimativa intervalar (intervalo de confiança): ◦ Intervalo de valores que contém a média da população com uma

    determinada probabilidade de acerto

    ◦ É necessário calcular a margem de erro do intervalo (𝑥 − E e 𝑥 + E) de acordo com o nível de confiança pedido, e dependendo se a variância é conhecida ou não.

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 19

  • Intervalo de confiança Variância conhecida

    O erro é dado por: 𝐸 = 𝑍𝛼2 ⋅𝜎

    𝑛

    Logo, o intervalo de confiança para média 𝜇 é: 𝑥 − E ≤ 𝜇 ≤ 𝑥 + 𝐸

    Variância desconhecida

    É necessário calcular a variância da amostra por:

    𝑠2 =1

    𝑛−1 𝑥𝑖 − 𝑥

    2𝑛𝑖=1

    Então, o erro é dado por: 𝐸 = 𝑡𝛼2 ⋅𝑠

    𝑛 aonde 𝑡𝛼

    2 é o valor

    correspondente a 𝛼 2 com n – 1 graus de liberdade.

    O intervalo de confiança para média 𝜇 é: 𝑥 − E ≤ 𝜇 ≤ 𝑥 + 𝐸

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 20

  • Exercícios 1. Para a distribuição abaixo responda:

    a) Qual a amplitude total?

    b) Ponto médio do terceiro intervalo.

    c) Qual(is) o comprimento dos intervalos?

    d) Qual a porcentagem de internautas que gastam acima de 42 minutos na internet?

    e) Qual o valor: modal, mediano e médio? O que eles representam na distribuição?

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 21

    Tempo (minutos)

    Internautas

    7 |-- 18 18 |-- 31 31 |-- 42 42 |-- 54 54 |-- 66 66 |-- 78 78 |-- 90

    6 10 13 8 5 6 2

    Recife - 2009 Fonte: Fictícia.

  • Resolução a) Amplitude total = 90 – 7 = 83

    b) Ponto Médio 3º classe = 42+31/2 = 66,5

    c) Comprimento dos intervalos = Amplitude de cada intervalo. Exemplo: 1º 18 – 7 = 11; 2º 31 – 18 = 13 [...]

    d) Porcentagem de users para > 42min, a partir da 4ª classe: 8+5+6+2

    50= 0,42

    e) Moda, Mo = 31—42| , pois aparece com maior frequência.

    Média, 𝑓𝑖𝑋𝑖𝑘𝑖=1

    𝑓𝑖𝑘𝑖=1

    = (12,5∗6+24,5∗10+36,5∗13+48∗8+60∗5+72∗6+84∗2

    50= 2082,5

    50=

    4,65 Mediana, n/2 = soma das frequencias/2 = 50/2 = 25. Se fizermos a tabela de frequências acumuladas esse valor vai referenciar a 3ª classe. Então:

    Md = 31 +25 −16 ⋅ 11

    13= 38,61

    22 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Exercícios 2. Considere a seguinte distribuição de frequências.

    a) Calcule a média, a variância e o desvio padrão, a mediana e a moda.

    b) Qual das medidas de tendência central descreve melhor os dados? Justifique

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 23

    Xi -4 -3 -2 -1 0 1 2 3 4

    fi 60 120 180 200 240 190 160 90 30

  • Resolução a)

    24 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Continuação...

    25

    𝑴𝒆𝒅𝒊𝒂𝒏𝒂 = 𝟎 +

    𝟏𝟐𝟕𝟎𝟐 − 𝟓𝟔𝟎 𝒙𝟏

    𝟖𝟎𝟎

    Obs: O limite inferior da classe é o próprio valor.

    Obs2: A amplitude da classe é 1, pois só existe

    um elemento.

    𝑴𝒆𝒅𝒊𝒂𝒏𝒂 = 𝟎, 𝟎𝟗𝟑𝟕𝟓

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Continução...

    26 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Exercícios 3. Seguidamente apresentam-se algumas estimativas para a

    velocidade da luz, determinadas por Michelson em 1882 (Statistics and Data Analysis, Siegel):

    299.88, 299.90, 299.94, 299.88, 299.96, 299.85, 299.94, 299.80, 299.84

    a) Determine a média

    b) Determine o desvio padrão, utilizando a expressão da definição.

    c) Subtraia 299 de cada um dos dados e determine o desvio padrão, dos resultados obtidos, utilizando a fórmula utilizada na alínea anterior. Comente os resultados obtidos.

    d) Calcule a média dos valores com que trabalhou na alínea anterior. Adicione à média obtida 299.

    ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO 27

  • Resolução a) 𝑥 =

    1

    9(299.88 + 299.90 + 299.94 + 299.88 + 299.96 + 299.85 + 299.94 + 299.80 +

    299.84) = 299.8878

    b) 𝑆2 =1

    8299.88 − 299.877 2 +

    1

    8299.90 − 299.877 2 +

    1

    8299.94 − 299.877 2 +

    1

    8299.88 − 299.877 2 +

    1

    8299.96 − 299.877 2 +

    1

    8299.85 − 299.877 2 +

    1

    8299.94 − 299.877 2 +

    1

    8299.80 − 299.877 2 +

    1

    8299.84 − 299.877 2 = 0,0028

    (observe que para uma amostra utiliza-se n-1)

    28 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Resolução b) Com a variância, calculamos o desvio padrão:

    𝑆 = 0,0028 = 0,0528

    c) Precisamos da nova média para calcular o desvio padrão (isso já responde

    a letra d):

    𝑥 =1

    90.88 + 0.90 + 0.94 + 0.88 + 0.96 + 0.85 + 0.94 + 0.80 + 0.84

    = 0.8878

    Calculando a variância...

    29 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Resolução

    c) 𝑆2 =1

    80.88 − 0.877 2 +

    1

    80.90 − 0.877 2 +

    1

    80.94 − 0.877 2 +

    1

    80.88 − 0.877 2 +

    1

    80.96 − 0.877 2 +

    1

    80.85 − 0.877 2 +

    1

    80.94 − 0.877 2 +

    1

    80.80 − 0.877 2 +

    1

    80.84 − 0.877 2 = 0,0028

    Desvio padrão...

    𝑆 = 0,0028 = 0,0528

    30 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO

  • Resolução c) Comentário:

    O desvio padrão foi o mesmo da amostra anterior. Isso significa que a

    amostra está variando da mesma maneira, apesar de cada valor ter sido

    diminuído em 299. Observe que, consequentemente, a média também

    diminuiu 299 quando cada valor da amostra foi diminuído em 299.

    31 ESTATÍSTICA E PROBABILIDADE PARA COMPUTAÇÃO