exemplo1

91
Universidade do Minho – Campus Azurém – Portugal www.uminho.pt Análise Exploratória de Dados Chamadas Telefónicas Trabalho elaborado por: Autor X Autor Y

Upload: pedro-pimenta

Post on 10-Jun-2015

8.896 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: exemplo1

Universidade do Minho – Campus Azurém – Portugalwww.uminho.pt

Análise Exploratória de DadosChamadas Telefónicas

Trabalho elaborado por:

Autor X

Autor Y

no âmbito da disciplina de Oficina I (http://www3.dsi.uminho.pt/pimenta/eaoficina-i/) do 1º ano do

curso de Estatística Aplicada (http://www.mct.uminho.pt/leap/).

Page 2: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Guimarães, 04 de Fevereiro de 2008

2

Page 3: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Sumário

Este trabalho foi proposto no âmbito da Unidade Curricular de Oficina I do 1º ano do

curso de Estatística Aplicada, conjuntamente pelos docentes Arminda Manuela

Gonçalves e Pedro Pimenta, e com o objectivo de proceder a uma análise exploratória

de dados recorrendo a diferentes ferramentas de cálculo.

Para efectuarmos a implementação das estratégias de análise exploratória dos dados

facultados utilizamos três ferramentas de cálculo distintas – o Excel, o SPSS e a

calculadora gráfica Texas (modelo TI-83). Quando não foi possível efectuar os cálculos

recorrendo às ferramentas indicadas, efectuámo-los com papel e lápis e transcrevemo-

los para o presente relatório. Em simultâneo fizemos uma leitura e interpretação dos

resultados obtidos.

A análise dos dados permitiu-nos, principalmente, adquirir competências para

manipular com mais à vontade as três ferramentas de cálculo acima apontadas.

Este relatório está organizado da seguinte forma: optamos, inicialmente, por dividir a

análise exploratória dos dados em duas partes – a análise dos dados em bruto e a análise

dos dados agrupados – em que em cada uma delas se apresenta o estudo dos dados

recorrendo às três ferramentas de cálculo. Posteriormente formamos outras duas partes –

uma para apresentar os dados através da caixa com 5 letras – resumo, já que esta não

pode ser efectuada recorrendo a nenhuma das ferramentas de cálculo utilizadas; outra

parte para realizar uma análise aos dados sem os valores que viemos a constatar serem

discordantes. Por fim criamos outra parte para fazer a discussão dos resultados.

Relativamente ao estudo efectuado, os dados facultados dizem respeito a custos de

chamadas telefónicas regionais, efectuadas por um departamento de uma faculdade ao

longo de três anos. Como principais resultados obtivemos, por exemplo, o cálculo da

média e a determinação da assimetria da amostra (que revelou ser enviesada à esquerda)

e que portanto mostrou que, tirando alguns meses excepcionais, os custos com as

chamadas telefónicas se concentraram em volta de um valor. Dado que o objectivo de

qualquer estudo estatístico envolvendo custos é sempre a tomada de decisões para a

diminuição e controlo dos mesmos, recomendamos por exemplo, que se criem limites

máximos mensais para os gastos com essas chamadas telefónicas, limite a partir do qual

essas chamadas terão de ser justificadas. Sugerimos que esse limite máximo seja o valor

do 3º quartil determinado à frente neste relatório.

iii

Page 4: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Summary

This essay was proposed concerning the curricular unit Oficina I of the first year

colleage certificate of Applicated Statistics, by the group of teachers Arminda Manuela

Gonçalves and Pedro Pimenta, and with the purpose of proceeding to an exploratory

analysis of data, using different calculation tools.

To make the exploratory analysis of strategies implementation of the given data, it was

used three distinct calculation tools – Excel, SPSS and Texas graphic calculators (TI-83

model). When the calculations were not possible to do using the referred tools, they

were made using paper and pencil, and enclosed in the present report. Simultaneously a

reading and interpretation of the obtained results was made.

The data analysis allowed us to, mainly, acquire the skills to manipulate easily the three

calculation tools mentioned previously.

This report is organised as follows: initially we chose to divide the exploratory data

analysis in two parts – the rough data analysis and the grouped data analysis – in each of

them a data study is presented using the here calculation tools. Later, another two parts

were formed, one to present the data through a five letter box – summary, as this one

cannot be made using none of the calculation tools; the other part to perform a non

valued data analysis that we realised being non-agreeable. Finally we created another

part to discuss the results.

According to this investigation, the provided data concerns costs of regional phone

calls, made by an academic department for three years. As main results we got, for

example, the arithmetical mean estimate and the asymmetry resolution of the sample

(that showed to be inclined to the left), therefore, revealed that, except for some unusual

months, the costs of the phone calls were focussed on one value. As the goal of any

statistic study, implying costs, is to reduce and to control them, it is recommended, for

instance, that maximum monthly limits should be established as far as expenses are

concerned, a limit through which those calls must be justified. We suggest that the limit

should be the value of the 3rd quartil which will subsequently be determined in this

report.

iv

Page 5: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Índice de Conteúdos

Sumário.............................................................................................................................iiSummary..........................................................................................................................iiiÍndice de Conteúdos.........................................................................................................ivEnunciado..........................................................................................................................1Análise Exploratória dos Dados........................................................................................2

Dados em Bruto.............................................................................................................3Introdução dos Dados................................................................................................3Ordenação dos Dados................................................................................................5Limpeza e Análise dos Dados...................................................................................8Tabelas de Frequências..............................................................................................8Representações gráficas...........................................................................................14Medidas de Localização..........................................................................................15Medidas de Dispersão..............................................................................................19Coeficiente de Variação..........................................................................................22Coeficiente de Assimetria........................................................................................22Coeficiente de Achatamento....................................................................................23Diagrama de Caule – e – Folhas..............................................................................24Caixa com Bigodes..................................................................................................26

Dados Agrupados........................................................................................................30Tabelas de Frequências............................................................................................32Representações gráficas...........................................................................................33Medidas de Localização..........................................................................................39Medidas de Dispersão..............................................................................................41Coeficiente de Variação..........................................................................................42Coeficiente de Assimetria........................................................................................42Coeficiente de Achatamento....................................................................................43

Caixa com 5 Letras – Resumo.........................................................................................44Análise de Valores Discordantes (Outliers)....................................................................46Discussão dos resultados.................................................................................................47

Comparação das ferramentas de cálculo utilizadas.....................................................47Facilidade de resolução...........................................................................................47Comparação dos resultados obtidos........................................................................47Outros aspectos........................................................................................................47

Recomendações...........................................................................................................48Conclusões.......................................................................................................................49

Reflexão sobre o trabalho de grupo.............................................................................49Reflexão do Grupo..................................................................................................49Reflexões Individuais..............................................................................................49

Índice Remissivo.............................................................................................................51Anexos.............................................................................................................................52

Anexo I – Análise dos dados sem outliers (Excel e SPSS).........................................53Anexo II – Definições.................................................................................................60

v

Page 6: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Enunciado

Considere os seguintes dados correspondentes aos gastos com chamadas telefónicas

regionais de um departamento de uma faculdade ao longo de três anos (1996/1998):

Tabela 1. Dados Originais

4,0 3,7 3,8 3,4 9,0 4,6 4,3 5,5 3,8 4,4 3,6 5,4

3,9 3,9 3,5 3,9 4,6 3,5 3,8 7,7 3,9 5,1 5,2 5,1

5,4 6,3 5,1 4,0 3,8 3,9 3,8 4,9 7,7 4,2 3,8 3,5

Proceda ao tratamento exploratório dos dados, com o objectivo de “ganhar”

sensibilidade à forma da população subjacente. Organize e analise os dados, começando

por pensar nas estratégias que deve adoptar. Explique as suas opções e o modo como

proceder.

Apenas com recurso a técnicas exploratórias que utilizou, teça comentários que lhe

pareçam apropriados acerca das metodologias e “ferramentas de cálculo” utilizados.

1

Page 7: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Análise Exploratória dos Dados

A informação estatística que foi facultada é constituída por dados numéricos (dados

estatísticos) que representam custos de chamadas telefónicas regionais numa moeda que

é desconhecida e que portanto passaremos a denominar por “<unidades>”. Também é

desconhecida a forma como os dados foram obtidos.

Os custos das chamadas telefónicas regionais definem uma variável estatística, que

passaremos a denominar por . Essa variável estatística pode classificar-se de

quantitativa contínua pois além de tomar valores numéricos esses valores podem situar-

se dentro de um qualquer intervalo de números reais.

2

Page 8: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Dados em Bruto

Apesar da nossa variável ser quantitativa continua fizemos a análise dos dados em bruto

como se de uma variável discreta se tratasse.

Introdução dos Dados

Excel

No Excel os dados podem ser introduzidos de formas diferentes. Uma das formas, e a

que utilizamos, foi escrevê-los directamente numa coluna (coluna C no nosso caso -ver

tabela 3). No entanto também o poderíamos ter feito numa linha ou então, caso

tivéssemos os dados guardados num outro tipo de ficheiro de texto (na Web ou no

Word) seria possível importá-los.

Em simultâneo foi criada outra coluna (B) para a contagem dos dados. Nesta coluna

bastou escrever alguns números, seleccioná-los e arrastar a alça de preenchimento

(pequeno quadrado preto no canto inferior direito da selecção) – procedimento adoptado

em todos os passos de copia de fórmulas em Excel apresentados doravante.

Podemos então concluir que tínhamos em mãos um total de 36 dados ( ) –

correspondendo, certamente, a cada um dos 36 meses dos anos de 1996, 1997 e 1998

sobre os quais incide a nossa análise.

SPSS

Em SPSS podem ser introduzidos os dados em bruto na primeira coluna da janela Data

View (note-se que cada coluna desta janela representa uma variável em estudo e onde

cada célula desta coluna contém um valor da variável, ou seja, cada linha representa um

caso). No entanto não foi assim que o fizemos já que possuíamos os dados em Excel e o

SPSS permite importar dados de diversos formatos. Bastou para tal fazer um

copy/paste.

3

Page 9: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Tabela 2. Dados em Bruto (SPSS)

De seguida, na janela Variable View, podemos observar e/ou modificar a descrição da

nossa variável (ver Figura 1), passo importante para a prossecução da análise dos dados.

Desta forma, introduzimos em name “Custos” e em Label “Custos das chamadas

telefónicas” já que neste último é possível a introdução de um nome mais extenso e que

inclua espaços entre palavras. Em Measure, optamos por “Scale” já que se trata de uma

variável quantitativa. Em Decimal, alteramos para 1 já que os nossos dados originais

têm uma casa decimal. Nas restantes descrições mantivemos as que foram determinadas

de forma automática.

(…)

Figura 1. Janela Variable View (SPSS)

4

Page 10: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Calculadora

Para introduzir dados na calculadora adoptamos os seguir passos:

- Digitamos

- Digitamos para escolher 1: EDIT

Figura 2. Menu STAT (Calculadora).

De seguida:

- Digitamos 4 Enter

3.9 Enter

5.4 Enter

...

Os números digitados (os nossos dados originais) aparecem em L1.

Figura 3. Visualização dos dados na lista L1

Ordenação dos Dados

Depois de introduzir os dados estes devem ser ordenados (fizemo-lo por ordem

ascendente). Esta organização não é mais do que uma análise inicial dos mesmos e que

auxilia o esclarecimento de modelos e aspectos de regularidade. Torna os dados mais

facilmente assimiláveis e foca características úteis e importantes. Também pensamos

que os nossos dados, representando custos de chamadas telefónicas, não têm uma

estrutura sequencial e/ou lógica que possa ficar destruída com essa ordenação e que

possa comprometer a sua análise exploratória. O rank inicial apenas nos indica o mês no

qual se obteve o respectivo custo das chamadas telefónicas regionais.

5

Page 11: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Excel

Em Excel a ordenação foi feita seleccionando os dados (previamente copiados para uma

outra coluna D) e utilizando o comando Ordenar do menu Dados.

Tabela 3. Dados em Bruto/Ordenados (SPSS)

6

Page 12: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

No entanto, caso alteremos algum dos dados iniciais o Excel não actualiza a ordenação

dos dados! Para que isso não aconteça seriam necessários conceitos de programação,

conceitos esses que pensamos saírem fora do propósito deste trabalho.

Após esta ordenação podemos concluir que o menor valor dos dados – o mínimo – é 3,4

e o maior valor – o máximo – é 9. A sua interpretação é simples: durante os três anos

em análise o menor custo em chamadas telefónicas regionais no departamento da

Universidade foi de 3,4 <unidades> e o maior custo foi de 9 <unidades>.

SPSS

Com a opção Sort Cases do menu Data podemos ordenar os dados por ordem

ascendente (ou descendente), obtendo:

Tabela 4. Dados Ordenados (SPSS)

7

Page 13: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Calculadora

Para ordenar os dados na calculadora seguimos os passos seguintes:

- Digitamos e obtivemos, no ecrã principal, SortA(

- Digitamos L1 e obtivemos:

Figura 4. Ordenação dos Dados (Calculadora)

Ao acedermos novamente às listas verificamos que os dados foram ordenados por

ordem crescente.

Figura 5. Dados Ordenados (Calculadora)

Limpeza e Análise dos Dados

Após a ordenação dos dados é mais simples proceder a uma inspecção e limpeza dos

mesmos, ou seja, analisar cuidadosamente os dados de forma a detectar eventuais erros

ou enganos. Esta fase é de extrema importância já que toda a análise posterior poderá

ficar comprometida por dados incorrectos.

No nosso caso não nos pareceu existir dados fora de contexto. Parecem-nos estar todos

dentro de um padrão de normalidade.

Tabelas de Frequências

No caso das chamadas telefónicas, e como na maioria das amostras estatísticas, alguns

(muitos!) dos dados são repetidos, o que torna fastidiosa a nossa análise. Para que tal

não aconteça reunimos toda a informação inicial numa tabela de frequências.

Excel

8

Page 14: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Para fazer a contagem dos elementos repetidos criamos uma coluna na tabela para aí

colocar as frequências absolutas (coluna E –ni – ver Figura 5). Para tal, introduzimos a

seguinte fórmula na célula relativa à frequência absoluta do valor mínimo, que foi

posteriormente copiada para a restante coluna:

=CONTAR.SE($C$14:$C$49;D55)

Ou seja, fomos contar todos os valores iguais a um certo valor nos nossos dados iniciais

e fizemos a apresentação dessa contagem na célula pretendida.

No final dessa coluna acrescentamos uma célula com o total para, por um lado controlar

se a contagem tinha sido feita correctamente e por outro lado para ter uma célula com o

total de observações. Bastou portanto fazer um somatório de todos os valores dessa

coluna:

=SOMA(E55:E73)

Constatamos que apesar de termos inicialmente um total de 36 casos, esses na sua

maioria são diferentes. Ou seja, temos 19 valores diferentes num universo de 36 o que

reforça ainda mais a ideia de que estes dados têm mais lógica ser analisados agrupados

em classes (não esqueçamos que estamos na presença de uma variável quantitativa

contínua!).

No entanto, apenas com esta informação não poderíamos afirmar se um certo valor era

ou não muito frequente no conjunto de dados inicial. Fizemos então uso das frequências

relativas (coluna G - fi). Para tal, bastou dividir a primeira frequência absoluta pelo total

de observações, introduzindo a seguinte fórmula na primeira célula da coluna da

frequência relativa:

=E55/$E$74

e copiá-la para a restante coluna. Da mesma forma no final dessa coluna acrescentamos

uma célula com o total para controlar se as frequências relativas tinham sido feitas

correctamente. Bastou portanto fazer:

=SOMA(G55:G73)

Para além das frequências absolutas e das frequências relativas muitas vezes temos

interesse considerar a frequência absoluta acumulada (coluna F - Ni) e a frequência

relativa acumulada (coluna H -Fi), isto se estivermos interessados em saber o número de

observações inferiores ou iguais a um certo valor (para o primeiro caso) e a

percentagem de observações inferiores ou iguais a um certo valor (para o segundo caso).

Para tal, e no que diz respeito à coluna das frequências absolutas acumuladas, a primeira

célula é copiada da primeira célula das frequências absolutas. A restante coluna basta

9

Page 15: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

fazer a soma da célula adjacente superior com a célula adjacente esquerda. Por exemplo

para a frequência absoluta da segunda observação, foi calculada através da seguinte

fórmula:

=F55+E56

A construção da coluna das frequências relativas acumuladas é feita de forma análoga à

coluna das frequências relativas.

Tabela 5. Tabela de Frequências (Excel)

Note-se que caso tivéssemos efectuado os cálculos manualmente, estes não teriam sido

exactamente iguais – torna-se mais difícil manualmente o cálculo exacto de todas as

estatísticas mantendo todas as casas decimais.

Assim, através de uma leitura atenta da tabela 5 podemos concluir, por exemplo, que

durante os 3 anos da nossa análise, houve um registo em 6 meses de um custo de 3,8

<unidades> (ver linha 5 coluna ni); que em 29 meses o custo das chamadas telefónicas

regionais não ultrapassou as 5,2 <unidades> (ver linha 14 coluna Ni); que em 13,9%

dos meses houve registo de um custo, em chamadas telefónicas regionais, de 3,9

10

Page 16: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

<unidades> (ver linha 6 coluna fi) e que nos 97,2% dos meses o custo das chamadas não

ultrapassou as 7,7 <unidades> (ver linha 18 coluna Fi).

SPSS

Para criar a tabela de frequências foi necessário aceder ao menu Analyse, seleccionar a

opção Descriptive Statistics e dentro desta, Frequencies. Na janela que surge, por

defeito, aparece seleccionado a opção “Display frequency tables” pelo que bastará fazer

OK. Desta forma é aberta uma janela de resultados – janela Output – dos comandos

efectuados pelo SPSS na forma de uma tabela que foi posteriormente editada de forma a

ficar como a seguinte:

Tabela 6. Tabela de Frequências Completa (SPSS)

Custos das Chamadas Telefónicas

1 2,8 2,8 2,8

3 8,3 8,3 11,1

1 2,8 2,8 13,9

1 2,8 2,8 16,7

6 16,7 16,7 33,3

5 13,9 13,9 47,2

2 5,6 5,6 52,8

1 2,8 2,8 55,6

1 2,8 2,8 58,3

1 2,8 2,8 61,1

2 5,6 5,6 66,7

1 2,8 2,8 69,4

3 8,3 8,3 77,8

1 2,8 2,8 80,6

2 5,6 5,6 86,1

1 2,8 2,8 88,9

1 2,8 2,8 91,7

2 5,6 5,6 97,2

1 2,8 2,8 100,0

36 100,0 100,0

3,4

3,5

3,6

3,7

3,8

3,9

4,0

4,2

4,3

4,4

4,6

4,9

5,1

5,2

5,4

5,5

6,3

7,7

9,0

Total

Válidos

Frequência Absoluta Percentagem

Percentagemde Válidos

PercentagemAcumulada

Note-se que esta tabela não traz incluída qualquer coluna com as frequências absolutas

acumuladas.

Por outro lado, esta tabela inclui uma estatística “Válidos” (e noutras ocasiões

“Desconhecidos”) que é usada com o seguinte fim: caso estivéssemos na presença dados

recolhidos por um inquérito em que alguns deles, no que respeita a esta variável, tinham

sido deixados em branco, o SPSS determina as estatísticas com e sem esses casos.

11

Page 17: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Como neste trabalho, isso não acontece, o cálculo coincide para os casos válidos e para

a totalidade dos casos. Assim, podemos eliminar a coluna “Percentagem de Válidos”, já

que é igual à anterior, obtendo:

Tabela 7. Tabela de Frequências (SPSS)

Custos das Chamadas Telefónicas

1 2,8 2,8

3 8,3 11,1

1 2,8 13,9

1 2,8 16,7

6 16,7 33,3

5 13,9 47,2

2 5,6 52,8

1 2,8 55,6

1 2,8 58,3

1 2,8 61,1

2 5,6 66,7

1 2,8 69,4

3 8,3 77,8

1 2,8 80,6

2 5,6 86,1

1 2,8 88,9

1 2,8 91,7

2 5,6 97,2

1 2,8 100,0

36 100,0

3,4

3,5

3,6

3,7

3,8

3,9

4,0

4,2

4,3

4,4

4,6

4,9

5,1

5,2

5,4

5,5

6,3

7,7

9,0

Total

Válidos

Frequência Absoluta Percentagem

PercentagemAcumulada

Calculadora

Para obter as frequências absolutas:

Para fazer uma coluna de frequências absolutas, tivemos de previamente ter o cuidado

de não repetir dados na primeira lista, introduzindo, então, na coluna seguinte, as

frequências absolutas correspondentes a cada valor da variável – na lista L2.

Para construirmos a coluna das frequências absolutas acumuladas, com o cursor em

cima do nome da lista teclamos List para OPS e em seguida 6:ComSum(.

Figura 6. Menu Opções das Listas (Calculadora)

12

Page 18: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Digitamos, a seguir, LIST e seleccionamos L2. Obtivemos:

Figura 7. Frequências Absolutas (Calculadora)

Digitamos , e obtivemos:

Figura 8. Frequências Absolutas Acumuladas (Calculadora)

Para obter as frequências relativas:

Colocamos o cursor sobre uma nova lista, L4. Em baixo, a seguir a L4= teclamos

LIST L2 36 e obtivemos os valores das frequências relativas.

Figura 9. Frequências Relativas (Calculadora)

Obtivemos também uma coluna de frequências relativas acumuladas adoptando desta

vez um procedimento idêntico ao que permitiu obter as frequências absolutas

acumuladas. Neste caso, começamos por usar uma nova lista L5. Com o cursor em cima

do nome da lista L5, teclamos LIST OPS 6:ComSum( e, em seguida, ComSum(

LIST L5 e .

13

Page 19: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 10. Frequências Relativas Acumuladas (Calculadora)

Representações gráficas

Dado que a nossa variável em estudo é quantitativa contínua, a representação mais

adequada não é o gráfico de barras mas sim o histograma. No entanto, dada a sua

simplicidade também o construímos fazendo uso da frequência absoluta das

observações.

Excel

A Construção deste tipo de gráfico recorrendo ao Excel foi bastante simples. Bastou

fazer Inserir, depois Gráfico e seleccionar o tipo de gráfico (Colunas). Seguidamente

bastou inserir no intervalo de dados as colunas contendo os dados e as respectivas

frequências absolutas:

=Resolução!$D$55:$E$73

Fazendo umas alterações às legendas o resultado foi:

Gráfico de Barras

0

1

2

3

4

5

6

7

3,4 3,5 3,6 3,7 3,8 3,9 4 4,2 4,3 4,4 4,6 4,9 5,1 5,2 5,4 5,5 6,3 7,7 9

Custos das Chamadas Telefónicas

ni

Figura 11. Gráfico de Barras (Excel)

14

Page 20: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Mais uma vez podemos concluir que esta não é a melhor forma de representar os dados

pois o gráfico apresenta-se muito extenso e com muitas barras todas da mesma altura.

Pela observação do gráfico também podemos concluir, por exemplo, que houve um

registo em 6 meses de um custo, de chamadas telefónicas regionais, de 3,8 <unidades>.

SPSS

Para obter o gráfico de barras recorrendo ao SPSS foi necessário aceder novamente ao

menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta, Frequencies.

Na janela que surge, devemos aceder a Charts e de seguida seleccionar Bar Charts.

Novamente surge uma janela Output com o gráfico pretendido, que também foi editado

para ficar como o seguinte:

Figura 12. Gráfico de Barras (SPSS)

Calculadora

Não é possível fazer a representação deste gráfico recorrendo a esta ferramenta de

cálculo.

Medidas de Localização

É usual haver vantagem em determinar valores numéricos que possam “representar” a

diversidade dos valores que constituem uma distribuição com uma variável quantitativa,

dando, por si só uma indicação sugestiva da ordem de grandeza daqueles valores. É esse

o papel das medidas de localização central que calculamos e apresentamos de seguida: a

15

Page 21: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

média, a moda e a mediana. Das três medidas a média é a mais usual – pois tem um

significado muito importante – ela funciona para a distribuição de dados um ponto de

equilíbrio. No entanto a média tem uma grande desvantagem – a sua grande

sensibilidade a valores extremos. Diz-se que é pouco resistente.

Quanto a medidas de localização extremal temos o máximo e o mínimo, já destacados

anteriormente neste relatório.

Outras medidas de localização com bastante interesse para o conhecimento da

distribuição são os quantis. Assim como a mediana separa a distribuição ordenada em

duas partes com igual efectivo também se pode considerar a distribuição subdividida em

quatro partes – com os quartis, ou em dez partes – com os décis, ou em cem partes –

com os percentis, ou nas partes que entendermos e julgamos ser necessário.

Excel

Para determinar a média, bastou utilizar a função MEDIA do Excel, que não é mais do

que uma fórmula predefinida que executa o cálculo pretendido. No nosso caso foi

suficiente introduzir a seguinte fórmula fazendo referência aos dados originais:

=MÉDIA(C14:C49)

Para determinar a mediana bastou fazer uso da função MED do Excel:

=MED(C14:C49)

Para determinar a moda bastou fazer uso da função MODA do Excel:

=MODA(C14:C49)

No que concerne ao máximo e ao mínimo dos dados, já os destacamos anteriormente.

No entanto podemos fazer uso das funções MÁXIMO e MÍNIMO do Excel,

respectivamente:

=MÁXIMO(C14:C49)

e

=MÍNIMO(C14:C49)

Quanto ao quartis, sabe-se que o 2º coincide com a mediana. Quanto aos 1º e 3º

calculam-se no Excel recorrendo à função QUARTIL. Para o primeiro bastou fazer:

=QUARTIL(C14:C49;1)

e para o terceiro:

=QUARTIL(C14:C49;3)

Note-se que a diferença é o algarismo assinalado a vermelho que indica se se trata de

um ou de outro.

16

Page 22: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Dado que o cálculo de todos os décis e de todos os percentis seria muito enfadonho,

calculamos apenas, a título de exemplo, os 2º e 6º décis e os 26º e 77º percentis. Em

ambos os casos foi utilizada a função PERCENTIL e mais uma vez o algarismo

colocado em último lugar (agora necessariamente compreendido entre 0 e 1) é que

diferenciou a medida a calcular:

Para o 2º décil:· =PERCENTIL (C14:C49;0,2)

Para o 6º décil:· =PERCENTIL (C14:C49;0,6)

Para o 26º percentil:· =PERCENTIL (C14:C49;0,26)

Para o 77º percentil:· =PERCENTIL (C14:C49;0,77)

Por fim para determinar a amplitude interquartil (AIQ) bastou calcular a diferença entre

o 1º e o 3º quartis:

=E119-E118

Todas estas estatísticas estão determinadas na seguinte tabela:

Tabela 8. Estatísticas (Excel)

Assim podemos interpretar os resultados da seguinte forma: no departamento da

faculdade são gastos em média 4,61 <unidades> com chamadas telefónicas regionais

por mês; o mais usual é haver um custo de 3,8 <unidades>; em 50% dos meses em

estudo houve um gasto inferior ou igual a 4 <unidades>; por exemplo em 20% dos

17

Page 23: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

meses em estudo houve um gasto inferior a 3,8 <unidades> e em 77% dos meses houve

um custo inferior ou igual a 5,1 <unidades>.

SPSS

Para determinar as medidas de tendência central recorrendo ao SPSS foi necessário

aceder, mais uma vez ao menu Analyse, seleccionar a opção Descriptive Statistics e

dentro desta, Frequencies. Na janela que surgiu, devemos acedemos a Statistics e na

janela que aparece posteriormente seleccionamos as medidas que pretendíamos

determinar. Neste caso Mean (para a média), Median (para a mediana) e Mode (para a

moda) do grupo Central Tendency; e Quartiles (para os quartis) do grupo Percentiles

Group.

Novamente surge uma janela Output com a tabela pretendida, que também foi editada

para ficar como a seguinte:

Tabela 9. Medidas de Localização (SPSS)

Custos das Chamadas Telefónicas36

0

4,611

4,000

3,8

3,800

4,000

5,100

Válidos

Desconhecidos

N

Média

Mediana

Moda

25

50

75

Quartis

Para calcular os percentis, na janela referida acima seleccionamos Percentiles e de

seguida inserimos os desejados; no nosso caso, o 26º e o 77º. Refira-se ainda que caso

quiséssemos calcular os 2º e 6º décis (por exemplo), estes coincidem com os percentis

20º e 60º respectivamente. Obteríamos então, da mesma forma:

Tabela 10. Percentis (SPSS)

Custos das Chamadas Telefónicas36

0

3,800

3,800

4,440

5,149

Válidos

Desconhecidos

N

20

26

60

77

Percentis

Calculadora

Introduzidos os dados nas colunas, vamos “informar” a calculadora do tipo de

distribuição a considerar.

18

Page 24: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Digitamos e, em seguida, para seleccionar CALC.

Figura 13. Menu Cálculo de Estatísticas (Calculadora)

Digitamos para escolher 1:1 – Var Stats – a calculadora copia esta instrução para o

ecrã principal. Teclamos LIST L1, LIST L2

Figura 14. Instrução Cálculo das Estatísticas (Calculadora)

e confirmamos com .

Obtivemos, de uma vez só, todas as medidas pretendidas:

Figura 15. Estatísticas (Calculadora)

Teclando obtivemos mais informações:

Figura 16. Estatísticas – continuação (Calculadora)

Medidas de Dispersão

Verifica-se que, sendo a média uma medida que se utiliza para representar toda uma

distribuição, não é por vezes, suficiente para a caracterizar. Desta forma, para avaliar o

grau de variabilidade ou de dispersão dos valores de uma distribuição, usam-se outras

19

Page 25: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

medidas que nos proporcionam melhor conhecimento da amostra e que permitem até

fazer comparações entre amostras da mesma natureza – a amplitude, a variância e o

desvio padrão (esta última é a mais utilizada). No entanto a amplitude, apesar de ser a

mais simples, há forte restrição ao seu uso por apenas considerar apenas os valores

extremos, não atendendo aos valores intermédios.

Excel

Para determinar a amplitude bastou fazer a diferença entre os valores máximo e mínimo

encontrados:

=E105-E104

Em Excel a variância foi calculada através da função VAR, à semelhança das medidas

anteriores:

=VAR(C14:C49)

Quanto ao desvio padrão amostral este foi calculado de forma idêntica recorrendo à

função DESVPAD:

=DESVPAD(C14:C49)

Podemos observar os valores das medidas de dispersão através da visualização da tabela

8.

Podemos desta forma concluir que a amplitude total dos custos das chamadas

telefónicas regionais verificada foi de 5,6 <unidades>;

SPSS

Para determinar as medidas de dispersão recorrendo ao SPSS foi suficiente aceder,

novamente ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta,

Frequencies. Na janela que surgiu, devemos aceder a Statistics e na janela que aparece

seleccionamos as medidas que pretendíamos determinar. Neste caso, Std deviation (para

o desvio padrão), Variance (para a variância), Range (para a amplitude), Minimum

(para mínimo) e Maximum (para máximo) do grupo Disperson.

Novamente surge uma janela Output com a tabela pretendida, que também foi editada

para ficar como a seguinte:

20

Page 26: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Tabela 11. Medidas de Dispersão (SPSS)

Custos das Chamadas Telefónicas36

0

1,2976

1,684

5,6

3,4

9,0

Válidos

Desconhecidos

N

Desvio Padrão

Variância

Amplitude

Mínimo

Máximo

Refira-se ainda o seguinte: todas as medidas de tendência central bem como as medidas

de dispersão (e outros coeficientes que iremos focar de seguida) poderiam ter sido

calculadas de uma só vez, caso seleccionássemos ao mesmo tempo todas as opções

expostas. Só não o fizemos para simplificar a sua explicação no presente relatório. No

entanto, parece-nos mais simples adoptar o processo singular para obter, num único

passo o seguinte:

Tabela 12. Estatísticas (SPSS)Estatísticas

Custos das Chamadas Telefónicas36

0

4,611

4,000

3,8

1,2976

1,684

5,6

3,4

9,0

3,800

3,800

3,800

4,000

4,440

5,100

5,149

Válidos

Desconhecidos

N

Média

Mediana

Moda

Desvio Padrão

Variância

Amplitude

Mínimo

Máximo

20

25

26

50

60

75

77

Quantis

Calculadora

As medidas de dispersão determinadas na calculadora foram já incluídas na exposição

do cálculo das medidas de localização.

21

Page 27: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Coeficiente de Variação

Para solucionar o problema da comparação de duas amostras diferentes com grandezas

também diferentes aplica-se o conceito de Coeficiente de Variação, que não é mais do

que uma medida adimensional.

Excel

Dado que desconhecemos a existência de uma função predefinida no Excel que calcule

esta medida, recorremos à sua definição (ver anexo II) e aplicámo-la directamente na

célula pretendida, ou seja, fizemos:

=E112/E107

formatando a respectiva célula como número em percentagem e fazendo referência às

células contendo o desvio padrão e a média.

Dado que estamos apenas a analisar uma única amostra não faz qualquer sentido

interpretar isoladamente esta medida.

SPSS

Não é determinado recorrendo a esta ferramenta de cálculo.

Calculadora

Não é determinado recorrendo a esta ferramenta de cálculo.

Coeficiente de Assimetria

O Coeficiente de Assimetria ou Skewness, como o próprio nome indica, avalia a

simetria da amostra. É uma medida muito trabalhosa se tiver de ser calculada sem

recurso a ferramentas de cálculo e indica-nos uma de três situações: se der um número

negativo a distribuição é enviesada à direita; se der zero, a distribuição é simétrica; se

der um número positivo a distribuição é enviesada à esquerda.

Excel

Com esta ferramenta de cálculo bastou-nos usar a função DISTORÇÃO para

rapidamente ter a informação desejada:

=DISTORÇÃO(C14:C49)

22

Page 28: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Dado que o resultado foi 1,9 (ver tabela 8) podemos concluir que estamos na presença

de uma distribuição enviesada à esquerda. Também se pode constatar este facto através

da observação do histograma (que se apresenta mais à frente – Figura 30) ou então

através da comparação das medidas de localização central:

Isto quer dizer que, durante os 3 anos em estudo, houve uma tendência nos gastos em

chamadas telefónicas regionais abaixo das 4 <unidades>.

SPSS

Para determinar o coeficiente de assimetria recorrendo ao SPSS foi suficiente aceder,

mais uma vez ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro

desta, Frequencies. Na janela que surgiu, acedemos a Statistics e depois seleccionamos

Skewness. Novamente surge uma janela Output com a tabela pretendida, que também

foi editada para ficar como a seguinte:

Tabela 13. Skewness (SPSS)

Custos das Chamadas Telefónicas36

0

1,901

,393

Válidos

Desconhecidos

N

Coeficiente de Assimetria(Enviesamento)

Erro padrão do Enviesamento

Calculadora

Não é determinado recorrendo a esta ferramenta de cálculo.

Coeficiente de Achatamento

O Coeficiente de Achatamento ou Curtose avalia o achatamento da distribuição ou a

intensidade das observações em torno de valores centrais. No entanto, só tem

importância ser calculada quando previamente se concluiu, através do coeficiente de

assimetria, que a distribuição é simétrica (devido ao termo de comparação ser a curva da

Distribuição Normal e esta ser simétrica).

23

Pedro Pimenta, 21-02-2008,
Esta palavra deveria estar em itálico ?
Page 29: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Como concluímos anteriormente que a distribuição em estudo é enviesada à esquerda,

não faz qualquer sentido calcular esta medida.

Diagrama de Caule – e – Folhas

Para além da tabela de frequências existe este diagrama – em inglês Stem and Leaf –

que é outra forma de organizar os dados estatísticos muito útil e de fácil construção

quando não temos apoio computacional. Este diagrama permite ao observador uma

percepção do aspecto global da distribuição dos dados sem que, ao mesmo tempo, se

perca a informação contida na colecção inicial dos dados. Permite salientar aspectos

como a simetria, a dispersão, a coexistência de valores muito diferentes, a concentração

de dados em torno de um valor e a existência de lacunas entre os diferentes valores dos

dados.

Excel

Esta ferramenta não permite a construção deste diagrama.

SPSS

Para representar o diagrama de caule – e – folhas recorrendo ao SPSS foi necessário

aceder ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta,

Explore. Na janela que surgiu, em Display seleccionamos Plots e de seguida acedemos

a Plots (do lado direito). Na janela que aparece seleccionamos unicamente Stem and

Leaf. Novamente surge uma janela Output com a representação pretendida:

Custos das Chamadas Telefónicas Stem-and-Leaf Plot

Frequência Caule & Folhas

1,00 3 . 416,00 3 . 55567888888999995,00 4 . 002343,00 4 . 6696,00 5 . 1112441,00 5 . 51,00 6 . 3

3,00 Outliers (>=7,7)

Tamanho do Caule: 1,0Casos por folha: 1 caso

Figura 17. Diagrama Caule – e – Folhas (SPSS)

24

Page 30: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Repare-se que apesar do objectivo inicial ser a organização dos dados, obtivemos

também uma representação gráfica. Através de uma observação atenta do diagrama

podemos concluir que a distribuição é assimétrica à esquerda (ver curva a vermelho da

Figura 17).

Esta representação gráfica apresenta algumas diferenças comparativamente com a

mesma efectuada com papel e lápis e que se transcreve seguidamente:

Figura 18. Diagrama Caule – e – Folhas

Ou seja, manualmente é usual completar a informação indicando por cima a dimensão

amostra (neste caso ) e a potência de 10 por que deve ser multiplicado o caule

para reconstruir a observação da amostra (neste caso , indicando por exemplo que o

primeiro valor representa ). Já o valor significa que

consideramos semi-caules de amplitude 0,5. O símbolo * indica-nos o segundo semi-

caule.

Também é usual escrever-se a profundidade das linhas do diagrama à esquerda de cada

linha com a excepção da linha mediana na qual se regista, dentro de parêntesis, o

número de elementos dessa linha (neste caso 5).

No diagrama de caule e folhas, acima representado em SPSS, apresenta à esquerda de

cada linha não as profundidades mas sim o número de elementos dessa linha (a

frequência); em baixo indica-nos o tamanho do caule (neste caso ) e o número

de casos por folha.

25

Page 31: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

No caso das chamadas telefónicas, basta olharmos para o diagrama de caule – e – folhas

para concluirmos, por exemplo, que apesar de temos muitos meses com custos

diferentes, estes se concentram em torno dos valores 3,5 e 3,9 <unidades>.

Calculadora

Não é possível fazer a representação deste diagrama recorrendo a esta ferramenta de

cálculo.

Caixa com Bigodes

Dispondo os valores da mediana e dos quartis ordenados sobre um segmento de recta

cujos extremos são o mínimo e o máximo obtém-se um diagrama a que se chama caixa

de bigodes (BoxPlot). Este diagrama fornece informações sobre a distribuição dos

valores da variável no seu domínio.

Esta representação é particularmente útil quando se pretende comparar amostras.

Excel

Esta ferramenta não permite a construção desta caixa.

SPSS

Para representar a caixa com bigodes recorrendo ao SPSS acedemos novamente ao

menu Analyse, seleccionamos a opção Descriptive Statistics e dentro desta, Explore.

Na janela que surgiu, em Display seleccionamos Plots e de seguida acedemos a Plots

(do lado direito). Na janela que apareceu seleccionamos unicamente Boxplots.

Novamente surge uma janela Output com a representação pretendida, que depois de

editada ficou como a seguinte:

26

Page 32: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 19. Caixa de Bigodes (SPSS)

Através de uma leitura atenta desta representação podemos concluir várias coisas.

Destacamos os círculos à direita do diagrama que representam valores aberrantes da

maioria – os Outliers. Conseguimos perceber que um desses valores é 9 <unidades>

enquanto que os outros dois se situam perto dos 7,5 <unidades> (na realidade sabemos

que são custos iguais a 7,7 <unidades>). Estes três valores podem interpretar-se da

seguinte forma: durante os três anos de sobre os quais incide o nosso estudo, existiram

três meses cujos gastos em chamadas telefónicas foram muito acima/diferentes dos

restantes meses chegando mesmo a atingir um valor de 9 <unidades>.

Calculadora

A calculadora também faz a caixa de bigodes. Depois de introduzirmos os dados (as

observações em L1 e as frequências absolutas em L2):

27

Page 33: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 20. Observações e respectivas frequências absolutas (Calculadora)

seguimos os seguintes passos:

- Digitamos STATPLOT

- Digitamos para escolher 1:PLOT 1

- Digitamos para confirmar ON

- Digitamos para escolher a Caixa de Bigodes ()

- Digitamos LIST e seleccionamos a lista L1

- Digitamos LIST e seleccionamos a lista L2

Figura 21. Menu Gráficos Estatísticos (Calculadora)

- Digitamos e seleccionamos 9:ZOOM STAT

Figura 22. Janela Zoom (Calculadora)

A calculadora traçou a caixa de bigodes no cimo do ecrã.

Figura 23. Caixa de bigodes (Calculadora)

28

Page 34: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Ao digitarmos e deslocarmos o cursor vimos aparecer no ecrã o valor mínimo da

distribuição, o valor máximo, a mediana, o 1º e o 3º quartis. A título de exemplo

apresentamos o mínimo e a mediana:

Figura 24. Determinação do mínimo através da Caixa de bigodes (Calculadora)

Figura 25. Determinação da mediana através da Caixa de bigodes (Calculadora)

29

Page 35: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Dados Agrupados

Como foi referido anteriormente, por várias vezes, faz mais sentido, no caso dos nossos

dados das chamadas telefónicas, trabalhar com os dados agrupados em classes pois além

da nossa variável ser quantitativa contínua, esta assume um grande número de valores

diferentes. A organização feita de seguida permite sintetizar os dados, no entanto todo o

processo é um pouco mais trabalhoso dado que é necessário proceder à definição de

classes de valores e a uma nova contagem/cálculo das frequências.

Este é pois o procedimento característico a realizar no caso das variáveis em estudo

serem quantitativas contínuas, no entanto não quer dizer que não possa ser aplicado ao

caso de variáveis quantitativas discretas quando estas são em grande número e quando

nos deparamos com problemas idênticos aos apontados anteriormente.

Excel

Para determinar o número de classes utilizamos a Regra de Surges (ver anexo II).

Inserimos a sua fórmula num célula qualquer, fazendo referência à célula que contém a

totalidade dos dados ( ):

=INT(LN(E74)/LN(2))+1

Obtivemos 6.

Para determinar a amplitude das classes também utilizamos a fórmula que a define (ver

anexo II). Inserimos então a fórmula numa célula qualquer:

=ARRED.PARA.CIMA((E105-E104)/D129;2)

Obtivemos 0,94.

A utilização da função “ARRED.PARA.CIMA” do Excel na fórmula anterior deve-se

ao facto de que, caso seja necessário proceder a uma aproximação do valor da amplitude

da classe, esta deve ser feita por excesso, sendo este excesso – ε – redistribuído

uniformemente por todas as classes e calculado da seguinte forma (ver anexo II):

=D129*D130-(E105-E104)

Obtivemos 0,04.

Por convenção a primeira classe deverá começar em:

enquanto que a última classe deverá terminar em:

30

Page 36: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Fazendo referência de novo às classes que contêm os valores máximos e mínimos e

utilizando as fórmulas anteriores obtêm-se os valores pretendidos.

No primeiro caso utilizamos a fórmula:

=E104-D131/2

enquanto que no segundo caso:

=E105+D131/2

Com todos estes dados foi fácil o cálculo dos limites inferiores e superiores das classes.

Destaca-se também o zero que aparece na célula E137. Estes foi propositadamente lá

colocado a fim de auxiliar a construção do histograma que se apresentará mais à frente e

o seu objectivo será explicado mais adiante.

Tabela 14. Agrupamento dos Dados (Excel)

Existem outros valores muito importantes que são os pontos médios de cada classe.

Estes são a média aritmética dos limites superior e inferior respectivamente de cada

classe. São os representantes lógicos de cada classe. Para os calcular bastou portanto

inserir, por exemplo, a seguinte fórmula para a primeira classe:

=(B138+E138)/2

SPSS

Esta ferramenta de cálculo não agrupa os dados em classes.

Calculadora

Esta ferramenta de cálculo não agrupa os dados em classes.

31

Page 37: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Tabelas de Frequências

Excel

Uma vez definidas as classes, o cálculo das frequências é análogo ao anteriormente

exposto para os dados em bruto. Apenas destacamos uma diferença. Para

determinarmos agora a frequência absoluta de cada classe, utilizamos a função

Frequência do Excel pois esta calcula a frequência que os valores ocorrem dentro de

um intervalo de valores e devolve uma matriz vertical de números. Esta função é da

forma:

Frequência (matriz_dados ; matriz_bin)

onde em matriz_dados inserimos todos os nossos dados originais e em matriz_bin

inserimos os limites superiores das classes. Ou seja formulamos:

=FREQUÊNCIA($C$14:$C$49;E138:E144)

No entanto, para que toda a coluna aparecesse preenchida, depois de a seleccionar

colocamos o cursor em frente da fórmula anterior e fizemos CTRL+SHIFT+ENTER.

Tabela 15. Tabela de frequências com dados agrupados (Excel)

Salientamos ainda o seguinte: durante a realização de toda a análise dos dados em Excel

tivemos a preocupação de o fazer com o cuidado de que se fosse necessário alterar um

dado inicial, todo o trabalho feito até então sofresse uma actualização automática. Para

tal, a coluna construída com os intervalos foi elaborada fazendo referência às colunas

anteriormente calculadas com os limites superiores e os limites inferiores. Assim, por

exemplo para a primeira classe foi introduzida na célula a seguinte fórmula:

="]"&B138&";"&E138&"]"

que foi seguidamente copiada para a restante coluna.

Outro aspecto a realçar são os zeros que aparecem em algumas células, ou o valor 2,44

que aparece na célula C153. Mais uma vez, estes foram propositadamente lá colocados

a fim de auxiliarem a construção do histograma que se apresentará mais à frente.

32

Page 38: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

SPSS

Esta ferramenta de cálculo não constrói tabelas com os dados agrupados em classes.

Calculadora

Esta ferramenta de cálculo não constrói tabelas com os dados agrupados em classes.

Representações gráficas

Como foi referido anteriormente, quando estamos na presença de dados agrupados, a

representação gráfica mais usual é o histograma que pode construído através da tabela

de frequências anterior.

Excel

Para fazermos a construção do histograma no Excel foi necessário proceder, em

primeiro lugar, à activação do suplemento da “Análise de Dados”, que por defeito não

se encontra instalado. Para isso, acedemos ao comando Suplementos do menu

Ferramentas e seleccionamos a opção Analysis ToolPack.

A construção do histograma através deste suplemento foi bastante morosa e

trabalhosa.

Para começar acedemos ao menu Ferramentas, seleccionamos a opção activa

Análise de Dados e seguidamente Histograma.

Figura 26. Janela “Analisar dados” (Excel)

Aparece uma janela como a seguinte:

33

Page 39: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 27. Janela “Histograma” (Excel)

No intervalo de entrada devemos colocar os nossos dados originais, no intervalo de

bloco os limites superiores das classes (aqui é necessário seleccionar um zero em

primeiro lugar – célula E137 – para que a primeira barra não apareça encostada ao eixo

das ordenadas), no intervalo de saída colocamos a célula onde queremos que o

histograma seja apresentado, e não nos podemos esquecer de activar “Resultado de

Gráfico” (caso contrário só aparece uma tabela). Isto é:

Figura 28. Preenchimento da janela “Histograma” (Excel)

No entanto o resultado é:

34

Page 40: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Histograma

02040

04,

325,

26 6,2

7,14

8,08

9,02

Mais

BlocoF

req

uên

cia

Frequência

Figura 29. Histograma por editar (Excel)

Ou seja, há uma série de procedimentos a seguir para corrigir o histograma construído.

As incorrecções mais graves prendem-se com as barras aparecer separadas e as classes

estarem omissas.

Para colocar as barras juntas, basta clicar no meio de uma barra (aparecem uns

quadradinhos) e com o botão direito do rato seleccionar “Formatar Série de Dados”.

Em “Opções” alterar a largura do intervalo para zero.

De seguida acedemos ao botão “Assistente de Gráficos” ( ), fazer “seguinte” e no

separador “Séries” inserir o intervalo das classes nos rótulos do eixo dos xx’s. Nesta

fase é necessário seleccionar também o valor 2,44 que aparece antes da primeira classe

(célula C153) para que uma posterior construção do polígono de frequências e da ogiva

seja facilitada:

=Resolução!$C$153:$C$159

Para o histograma ficar com o aspecto da figura seguinte bastou editá-lo com algumas

alterações simples, tais como alterar a legenda (intervalos de 3 em três), alterar os

nomes dos títulos, diminuir a letra das legendas dos eixos, activar as linhas principais no

eixo dos yy’s e mudar o alinhamento das legenda. Tudo isto foi efectuado recorrendo ao

botão “Assistente de Gráficos”.

35

Page 41: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Histograma/Polígono de frequências/Ogiva

0369

12151821242730333639

2,44 ]3,38;4,32] ]4,32;5,26] ]5,26;6,2] ]6,2;7,14] ]7,14;8,08] ]8,08;9,02]

Custos das Chamadas

ni

Figura 30. Histograma/ Polígono de Frequências/ Ogiva (Excel)

No entanto, nesta última figura estão também incluídos o Polígono de Frequências e a

Ogiva. Para os construir foi necessário, mais uma vez, recorrer ao “Assistente de

Gráficos” depois de seleccionar o histograma, fazer “Seguinte” e no separador “Série”

adicionar uma 2ª série cujos valores são as frequências absolutas para construir o

polígono de frequências (na figura a cor de rosa) e uma 3ª série cujos valores são as

frequências absolutas acumuladas para construir a ogiva (na figura a amarelo). Foi

também necessário mudar o tipo de gráfico do polígono de frequências já que aparecia

em forma de colunas e não uma linha como o que se pretende.

Nesta fase foi também crucial a presença dos zeros das células E153 e E160 para que o

polígono de frequências começasse e terminasse no eixo dos xx’s. Da mesma forma,

para a construção da ogiva foi necessário o zero da célula F153.

Voltando ao nosso estudo dos custos das chamadas telefónicas regionais, através da

visualização do histograma concluímos que, por exemplo, em 21 dos 36 meses os custos

com as chamadas telefónicas estiveram compreendidos entre 3,38 e 4,42 <unidades>.

SPSS

Para efectuar a construção deste gráfico em SPSS seleccionamos do menu Analyse, a

opção Descriptive Statistics e dentro desta, Explore. Na janela que surgiu, em Display

seleccionamos Plots e de seguida acedemos a Plots (do lado direito). Na janela que

apareceu seleccionamos unicamente Histogram. Novamente surge uma janela Output

com a representação pretendida, que depois de editada ficou como a seguinte:

36

Page 42: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 31. Histograma (SPSS)

Calculadora

A calculadora também faz a representação do histograma. Depois de introduzirmos os

dados (as observações em L1 e as frequências absolutas em L2):

Figura 32. Introdução dos dados (Calculadora)

seguimos os seguintes passos:

- Digitamos STATPLOT

- Digitamos para escolher 1:PLOT 1

- Digitamos para confirmar ON

- Digitamos para escolher o histograma ()

37

Page 43: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

- Digitamos LIST e seleccionamos a lista L1

- Digitamos LIST e seleccionamos a lista L2

Figura 33. Menu Gráficos Estatísticos (Calculadora)

- Digitamos e seleccionamos 9:ZOOM STAT

Figura 34. Menu ZOOM (Calculadora)

A calculadora traçou a seguinte representação no ecrã.

Figura 35. Histograma (Calculadora)

Ao digitarmos obtivemos relativamente a cada coluna, o número de dados, o limite

superior e o limite inferior. A título de exemplo apresentamos aqui a visualização para a

3ª coluna:

Figura 36. Determinação de Estatísticas usando o Histograma (Calculadora)

38

Page 44: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Medidas de Localização

Para determinar as medidas de localização procede-se de forma idêntica à que referimos

no caso dos dados estarem em bruto (com os dados não agrupados), tomando o ponto

médio de cada classe ( ) como representante de todos os valores pertencentes à

classe.

Excel

Para determinar a média dos dados, utilizamos a função SOMARPRODUTO do Excel

pois este não tem funções predefinidas para calcular medidas de localização com os

dados agrupados em classes. Desta forma fizemos referência aos pontos médios de cada

classe bem como às respectivas frequências relativas, ou seja:

=SOMARPRODUTO(D154:D159;G154:G159)

Para determinar a mediana, começamos por identificar em primeiro lugar a classe que a

contém. Para tal bastou observar a tabela de frequências(ver tabela 15) e localizar a

primeira classe cuja frequência absoluta acumulada seja maior ou igual a 50%. De

seguida, para localizar a mediana dentro dessa classe utilizou-se a sua definição (ver

anexo II) que teve de ser formulada em Excel.

Ou seja:

=B138+((0,5-H153)/G154)*D130

Para determinar a moda procedeu-se de forma idêntica à mediana, começando por

identificar a classe modal – classe com maior frequência – e aplicando a sua definição

(ver anexo II).

Ou seja, em Excel:

=B138+((G154-G153)/((G154-G153)+(G154-G155)))*D130

Quanto ao quantis, estes foram calculados de forma idêntica à mediana sendo que

variava conforme a estatística a calcular.

Para o primeiro quartil ( ) foi formulado:

=B138+((0,25-H153)/G154)*D130

Para o terceiro quartil ( ):

=B139+((0,75-H154)/G155)*D130

Para o 2º décil ( ):

=B138+(0,2/G154)*D130

Para o 6º décil ( ):

39

Page 45: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

=B139+((0,6-H154)/G155)*D130

Para o 26º percentil ( ):

=B138+(0,26/G154)*D130

Para o 77º percentil ( ):

=B139+((0,77-H154)/G155)*D130

Por fim para determinar a amplitude interquartil (AIQ) bastou calcular a diferença entre

o 1º e o 3º quartis:

=E206-E205

Tabela 16. Estatísticas com dados agrupados (Excel)

SPSS

Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em

classes.

Calculadora

Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em

classes.

40

Page 46: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Medidas de Dispersão

Mais uma vez, para determinar as medidas de dispersão procede-se de forma idêntica à

que referimos no caso dos dados estarem em bruto tomando o ponto médio de cada

classe ( ) como representante de todos os valores pertencentes à classe.

Excel

Para determinar a amplitude bastou fazer a diferença entre o ponto central da classe com

o valor máximo e o ponto central da classe com o valor mínimo:

=D159-D154

Para determinar a variância foi necessário, em primeiro lugar, criar uma coluna auxiliar

com os quadrados das diferenças entre os pontos médios das classes e a média amostral:

Tabela 17. Coluna auxiliar ao cálculo da variância (Excel)

e em seguida formular:

=SOMARPRODUTO(E154:E159;H195:H200)/(SOMA(E154:E159)-1)

Quanto ao desvio padrão amostral bastou aplicar a raiz quadrada ao resultado anterior,

ou seja:

=RAIZQ(D199)

SPSS

Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em

classes.

Calculadora

Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em

classes.

41

Page 47: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Coeficiente de Variação

Excel

Para calcular o Coeficiente de Variação, tal como fizemos com os dados em bruto,

recorreremos à sua definição (ver anexo II), formulando:

=D200/C193

utilizando agora o desvio padrão e a média calculadas anteriormente com os dados

agrupados.

SPSS

Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em

classes.

Calculadora

Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em

classes.

Coeficiente de Assimetria

Excel

Infelizmente e mais uma vez o Excel não possui uma fórmula predefinida para o cálculo

deste coeficiente e é com certeza uma das medidas mais trabalhosas de determinar pois

a sua enunciação recorre a um outro conceito que é o de momento empírico centrado de

ordem 2 e 3.

O momento empírico centrado de ordem 2 coincide com a variância sendo que já se

encontra calculado. Quanto ao momento empírico centrado de ordem 3 teve de ser

totalmente formulado por um processo análogo ao do cálculo da variância e também

recorrendo a uma coluna auxiliar:

Tabela 18. Coluna auxiliar ao cálculo do momento empírico centrado de ordem 3

(Excel)

42

Page 48: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

e a respectiva formulação foi:

=SOMARPRODUTO(J195:J200;E154:E159)/SOMA(E154:E159)

Finalmente para o cálculo do coeficiente de assimetria ou Skewness pretendido

recorremos à sua definição (ver anexo II), sendo que foi formulado da seguinte forma:

=((E161^2)/((E161-1)*(E161-2)))*(E209/RAIZQ(D199^3))

Dado que o resultado foi 1,82 podemos reafirmar que estamos na presença de uma

distribuição enviesada à esquerda, ou pelo facto de que:

SPSS

Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em

classes.

Calculadora

Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em

classes.

Coeficiente de Achatamento

Não se aplica.

Antes de terminarmos esta análise dos dados em classes queremos apenas lembrar que

os cálculos destas últimas estatísticas foram muito próximos dos dados trabalhados em

bruto pelo que pensamos que o agrupamento dos dados foi realizado com boa qualidade.

43

Page 49: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Caixa com 5 Letras – Resumo

Esta caixa é quase sempre satisfatória para dar uma primeira ideia sobre a forma de

onde a população foi extraída. E mais: indica-nos a amplitude da amostra, a amplitude

dos 50% valores centrais, o intervalo onde se situam os primeiros 25% e os últimos

25% e dá-nos uma ideia da simetria.

Excel, SPSS, Calculadora

Estas ferramentas não permitem a construção desta caixa.

Uma vez que nenhuma das ferramentas utilizadas neste trabalho permite a construção

desta caixa, apresentamos de seguida uma transcrição da mesma, efectuada com papel e

lápis, bem como uma sucinta explicação da sua construção.

Uma caixa com 5 letras – resumo (Caixa com 5 L-R) é da forma:

Figura 37. Forma da caixa com 5 L-R

onde é a dimensão da amostra, é a mediana, e são respectivamente o 1º e

o 3º quartis (em inglês “Lower Fourth” e “Upper Fourth”), e são

respectivamente o mínimo e o máximo da amostra, e as

profundidades da mediana e dos quartis, respectivamente. Quanto a representa a

dispersão quartal que é a diferença entre os 3º e 1º quartis e que fornece a amplitude de

metade da amostra. Relativamente às barreiras (periféricas) estas tomam os seguintes

valores e . Podem ainda ser calculadas as barreiras exteriores

que tomam os valores e . Estas barreiras servem para determinar

os outliers da amostra, ou seja os elementos que se afastam do padrão dos dados e que

44

Page 50: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

já os tínhamos referido na representação da caixa de bigodes. Caso certos valores da

amostra estejam fora das barreiras periféricas são considerados outliers “normais” no

entanto se estiverem fora das barreiras exteriores são considerados outliers severos.

No nosso caso começamos por calcular o seguinte, tendo em conta que o 1º quartil

calculado com os dados em bruto é 3,8 e o 3º quartil determinado da mesma forma é

5,1:

Seguidamente, calculamos as barreiras. Para as periféricas obtivemos:

e

pelo que concluímos o seguinte: dado que o mínimo da amostra é 3,4 e o máximo é 9, a

amostra tem três outliers (7,7; 7,7 e 9).

Quanto às barreiras exteriores, obtivemos:

e

pelo que não existem outliers severos (apesar do máximo estar no limite!).

Desta forma a caixa com 5 L-R tomou a forma seguinte:

Figura 38. Caixa com 5 L-R

45

Page 51: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Análise de Valores Discordantes (Outliers)

A análise dos outliers foi efectuada recorrendo ao Excel e ao SPSS. Em anexo (anexo 1)

apresenta-se toda a nova análise efectuada nessas ferramentas, que foi realizada da

mesma forma anteriormente apresentada com os outliers inclusos, e que, portanto,

dispensamos de a explicitar.

Obviamente que, retirando os outliers da amostra (recorde-se que são os últimos três

dados), ficamos com uma amostra de dimensão mais pequena e portanto já estávamos à

espera que a amplitude sofresse modificações. Na verdade, a amplitude sofreu uma

diminuição para cerca de metade do seu valor! Quanto às medidas de localização estas

permaneceram sensivelmente iguais, apesar de por exemplo a média, como já o

referimos, ser uma medida muito sensível a valores extremos. Destacamos também que,

como consequência do valor dos quartis não ter sofrido alterações significativas,

continuamos a ter uma amplitude inter-quartil semelhante e como resultado os 50% dos

valores centrais continuam no mesmo intervalo.

Quanto às medidas de dispersão estas também foram alteradas por força da diminuição

da amplitude da amostra (obviamente a dispersão dos dados diminuiu).

Uma diferença a nosso ver mais significativa tem a ver com o cálculo do coeficiente de

assimetria. Neste novo estudo revelou-se bastante mais pequeno (diminui de cerca de

1,91 para cerca de 0,97), num valor mais próximo de zero, pelo que, apesar da

distribuição continuar enviesada à esquerda, este enviesamento já não é tão notório. A

distribuição ficou mais próxima de uma distribuição simétrica.

Por fim, saliente-se que o novo agrupamento dos dados também não trouxe muitas

surpresas já que esse agrupamento foi efectuado com o mesmo número de classes

(apesar de ter diminuído significativamente as suas amplitudes!). Quanto às estatísticas

determinadas com os dados classificados, as diferenças são em tudo iguais à análise dos

dados em bruto.

Em conclusão pensamos que neste caso não é conveniente tirar os outliers, já que eles

não influenciam de forma significativa o cálculo das estatísticas e portanto a

interpretação dos resultados não sofre mudanças significantes.

46

Page 52: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Discussão dos resultados

Iremos de seguida apontar alguns aspectos relativamente às ferramentas de cálculo

utilizadas.

Comparação das ferramentas de cálculo utilizadas

Comparativamente, podemos destacar os seguintes aspectos:

Facilidade de resolução

No que diz respeito à facilidade de resolução, elegemos o SPSS. Nesta ferramenta basta

introduzir os dados, seleccionar as estatísticas/representações pretendidas e, no mesmo

instante, obter tudo. No entanto, reconhecemos que todas as ferramentas são de fácil

manipulação, com a excepção de algumas etapas em Excel que têm de ser,

necessariamente formuladas e/ou pensadas ao pormenor (como é o caso da construção

do histograma).

Comparação dos resultados obtidos

No que respeita aos resultados obtidos estes foram todos muito semelhantes em todas as

ferramentas de cálculo utilizadas. As diferenças sentidas foram ao nível dos

arredondamentos e das casas decimais utilizadas, que obviamente, são mantidas nas

ferramentas de cálculo utilizadas e que manualmente se torna difícil (às vezes

impossível!) de fazer.

Podemos ainda afirmar que teoricamente o estudo efectuado em Excel é o melhor já que

é o mais parecido com o efectuado manualmente (veja-se por exemplo o caso da

construção dos histogramas).

Outros aspectos

Por fim vamos apontar vantagens e desvantagens (a nosso ver) das ferramentas

utilizadas.

Quanto ao Excel pensamos ter, como grande vantagem, ser uma ferramenta de fácil

acesso, capaz de importar/exportar dados de/para ficheiros de texto da/para web e

do/para o Word. Em contrapartida é uma ferramenta, não específica para estudos

47

Page 53: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

estatísticos, que exige mais tempo para efectuar análises como a deste trabalho já que é

necessário, por exemplo, formular todas as colunas das tabelas de frequências e (pior do

que isso!) que não tem fórmulas predefinidas para calcular estatísticas com os dados

agrupados em classes. Uma outra grande desvantagem é a não permissão para efectuar

representações como a caixa de bigodes ou o diagrama de caule e folhas.

Relativamente ao SPSS, este tem como grande vantagem ser uma ferramenta pensada

para este tipo de estudos e ser uma ferramenta muito mais rápida a efectuar cálculos de

estatísticas e/ou representações gráficas. Em contrapartida apresenta algumas diferenças

comparativamente com os cálculos/representações efectuadas com papel e lápis. São

exemplo disso as classes que aparecem de forma automática no histograma ou a

ausência das frequências absolutas acumuladas nas tabelas de frequência. Outra

desvantagem é a impossibilidade do SPSS não agrupar os dados em classes.

No tocante à calculadora gráfica, a principal vantagem é a de permitir efectuar grande

parte da análise com um instrumento de porte simples, facilmente transportável para

qualquer aula. A desvantagem é não efectuar a classificação dos dados bem como não

produzir o diagrama de caule-e-folhas nem determina os coeficiente de

assimetria/achatamento e de variação.

Uma desvantagem de todas as ferramentas utilizadas é a impossibilidade de calcular de

forma automática as barreiras bem como de representar a caixa com 5 L-R.

Recomendações

A discussão dos aspectos mais críticos deste trabalho conduziu à elaboração de

recomendações que procuram apontar caminhos para que, futuramente, trabalhos deste

género sejam elaborados de outra forma, nomeadamente:

A análise dos dados deverá ser feita nas diferentes ferramentas antes do início da

narração do relatório, para simplificar a comparação dos resultados e para dar

uma ideia geral da população em estudo.

A construção do índice remissivo pareceu-nos mais fácil se fosse efectuada ao

mesmo tempo do relatório, o que não aconteceu (foi elaborado no final);

Idem para o numerar e legendar das figuras e tabelas;

48

Page 54: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Conclusões

A realização deste trabalho teve uma dupla motivação: por um lado efectuar uma

análise de dados e mais concretamente lidar com as ferramentas de cálculo e por outro

dinamizar a reflexão e a discussão em grupo.

No respeitante ao estudo efectuado, qualquer pessoa diria que os dados facultados

inicialmente são normais e que não escondem nada de especial. No entanto, depois de

toda a análise feita aos mesmos e recorrendo às variadíssimas técnicas exploratórias e às

diferentes ferramentas de cálculo podemos concluir que afinal até escondiam alguns

valores aberrantes (outliers). Isto porque os dados ainda não tinham sido lidos por

“olhos estatísticos”.

Em termos pessoais, foi muito bom termos aprendido a trabalhar com diferentes

ferramentas de cálculo pois em qualquer sítio temos acesso a pelo menos uma delas e

agora sabemos manipulá-las, com menos ou mais dificuldade.

Reflexão sobre o trabalho de grupo

Reflexão do Grupo

Relativamente ao desafio do trabalho de grupo é sempre bom conhecermos pessoas

diferentes de nós e aprendermos a lidar com opiniões diferentes – faz-nos crescer,

alargar os horizontes e pensar de maneira diferente. Pensamos ter sido uma experiência

muito positiva já que pudemos trocar impressões e aprender uma com a outra. Pensamos

que os trabalhos de grupo são bons no sentido que nos ajudam a perspectivar um futuro

ingresso num ambiente de trabalho mais específico.

Reflexões Individuais

“Este trabalho ilustrou-me de uma forma mais aprofundada o que realmente é a

estatística, os seus métodos (ferramentas de cálculo), e os seus objectivos. Penso que o

grau de exigência formulada pelos professores era muito acentuada visto os poucos

conhecimentos que tinha em estatística e nas suas ferramentas de cálculo.

Acho que o balanço foi positivo apesar de ser muito trabalhoso e ocupar muito tempo,

principalmente da minha colega de grupo que é trabalhadora – estudante e que ajudou

49

Page 55: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

muito a facilitar o trabalho graças aos seus conhecimentos e muita disponibilidade para

ajudar.

As aulas de Oficina foram fulcrais para acertar pormenores importantes e agradeço a

disposição dos professores.

Houve maior dificuldade em utilizar algumas funções dos programas utilizados que

desconhecia por completo e que eram exigidas para a resolução do trabalho. Contudo o

trabalho está feito e espero atenciosamente a sua avaliação.”

Autor X

“Faço um balanço muito positivo deste trabalho pois conseguimos alcançar os

objectivos a que nos propusemos. Penso ter sido uma experiência bastante positiva pois

fui obrigada a trabalhar, para o mesmo fim, com uma pessoa bastante mais nova, o que

não tenho memória de ter acontecido! Pelo menos aprendemos a ter mais paciência e a

ver as coisas debaixo de outra perspectiva.

No entanto penso que o trabalho demorou muito a ser iniciado. Isto deve-se a uma

panóplia de motivos que passo a descrever sucintamente.

O maior desses entraves foi a inclusão no grupo de mais dois elementos que se veio a

constatar, muito posteriormente, não estarem interessados em efectuar o trabalho – e

nunca nos terem dado uma satisfação a esse respeito. Isso veio sobrecarregar o trabalho

a efectuar – o que deveria ser feito, em auto-ajuda, por quatro elementos, foi realizado

por dois – e mais grave ainda porque nunca sabíamos com o que contávamos.

Depois confrontamo-nos com o ponto de partida do relatório. Andamos um bocadinho

“perdidas” porque não tínhamos percebido os verdadeiros objectivos do trabalho.

Outra dificuldade teve que ver com o tempo para realizar o trabalho: o tempo facultado

nas aulas apresentava-se sempre insuficiente com a agravante de que sou trabalhadora

estudante e, portanto, o tempo durante a semana era quase nenhum.”

Autor Y

50

Page 56: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Índice Remissivo

AAmplitude, 20, 41, 44, 46Amplitude de Classes, 30, 60Amplitude InterQuartil, 17, 40, 46

BBarreiras Exteriores, 44, 45Barreiras Periféricas, 44, 45BoxPlot, 26, 28

CCaixa com 5 L-R, 44, 45, 48Caixa de bigodes, 26, 27, 28, 29, 48, 59Classe Mediana, 39Classe Modal, 39Coeficiente de Achatamento, 23, 43Coeficiente de Assimetria, 22, 23, 42, 43, 46, 48, 61Coeficiente de Variação, 22, 42, 60Curtose, 23

DDados Estatísticos, 2Décis, 16, 17, 39Desvio Padrão, 20, 22, 41, 42Diagrama de Caule – e – Folhas, 24, 25, 48, 58Dispersão Quartal, 44Distorção, 22Distribuição, 19, 25, 26, 29, 46

EEnviesamento, 22, 23, 46Excesso, 30, 60

FFrequência Absoluta, 9, 12, 14, 32Frequência Absoluta Acumulada, 9, 10, 12, 13, 39,

48Frequência Relativa, 9, 13Frequência Relativa Acumulada, 9, 10, 13, 14

GGráfico de Barras, 14, 15, 53, 57

HHistograma, 14, 23, 33, 34, 35, 36, 37, 38, 47, 48, 55,

58

LLower Fourth, 44

MMáximo, 7, 16, 20, 26, 29, 44Média, 16, 18, 19, 22, 39, 41, 42, 46Mediana, 39Mediana, 16, 18, 25, 26, 29Mediana, 39Mediana, 44Mediana, 60Medidas, 21Medidas de Dispersão, 19, 21, 41, 46Medidas de Localização, 15, 16, 39, 46Medidas de Tendência Central, 15, 18, 21Mínimo, 7, 16, 20, 26, 29, 44Moda, 16, 18, 39, 61Momento, 42

OOgiva, 36Outliers, 27, 44, 45, 46Outliers Severos, 45

PPercentis, 16, 17, 18, 40Polígono de frequências, 36Pontos Médios, 31Profundidade, 44

QQuantis, 16, 39Quartis, 16, 18, 26, 29, 39, 44, 45, 46

RRegra de Sturges, 30, 60

SSkewness, 22, 23, 43, 61Stem-and-Leaf, 24

TTabela de Frequências, 8, 10, 11, 24, 32, 39, 48

UUpper Fourth, 44

VVariabilidade, 19Variância, 20, 41, 42Variáveis Discretas, 30Variável Contínua, 2, 3, 9, 14, 30Variável Discreta, 3Variável Estatística, 2Variável Quantitativa, 3, 4, 9, 14, 30

51

Page 57: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Anexos

52

Page 58: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Anexo I – Análise dos dados sem outliers (Excel e SPSS)

Excel

Análise dos dados em bruto:

Tabela 19. Tabela de Frequências sem Outliers (Excel)

Gráfico de Barras

0

1

2

3

4

5

6

7

3,4 3,5 3,6 3,7 3,8 3,9 4 4,2 4,3 4,4 4,6 4,9 5,1 5,2 5,4 5,5 6,3

Custos das Chamadas Telefónicas

ni

Figura 39. Gráfico de Barras sem Outliers (Excel)

53

Page 59: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Tabela 20. Estatísticas sem Outliers (Excel)

Análise dos dados agrupados:

Tabela 21. Agrupamento dos dados sem Outliers (Excel)

Tabela 22. Tabela de Frequências com os dados agrupados e sem Outliers (Excel)

54

Page 60: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Histograma

0369

121518212427303336

2,89 ]3,38;3,87] ]3,87;4,36] ]4,36;4,85] ]4,85;5,34] ]5,34;5,83] ]5,83;6,32]

Custos das Chamadas Telefónicas

ni

Figura 40. Histograma/ Polígono de Frequências/ Ogiva sem Outliers (Excel)

Tabela 23. Estatísticas com os dados agrupados e sem Outliers (Excel)

55

Page 61: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

SPSS

Tabela 24. Estatísticas sem Outliers (SPSS)Estatísticas

Custos das Chamadas Telefónicas (Sem Outliers)33

0

4,291

3,900

3,8

,7333

,538

,966

,409

2,9

3,4

6,3

3,780

3,800

3,800

3,900

4,240

5,000

Válidos

Desconhecidos

N

Média

Mediana

Moda

Desvio Padrão

Variância

Coeficiente de Assimetria (Skewness)

Erro Padrão da Skewness

Amplitude

Mínimo

Máximo

20

25

26

50

60

75

Percentis

56

Page 62: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Tabela 25. Tabela de Frequências sem Outliers (SPSS)

Custos das Chamadas Telefónicas (Sem Outliers)

1 3,0 3,0

3 9,1 12,1

1 3,0 15,2

1 3,0 18,2

6 18,2 36,4

5 15,2 51,5

2 6,1 57,6

1 3,0 60,6

1 3,0 63,6

1 3,0 66,7

2 6,1 72,7

1 3,0 75,8

3 9,1 84,8

1 3,0 87,9

2 6,1 93,9

1 3,0 97,0

1 3,0 100,0

33 100,0

3,4

3,5

3,6

3,7

3,8

3,9

4,0

4,2

4,3

4,4

4,6

4,9

5,1

5,2

5,4

5,5

6,3

Total

Válidos

FrequênciaAbsoluta

FrequênciaRelativa

FrequênciaRelativa

Acumulada

Figura 41. Gráfico de Barras sem Outliers (SPSS)

57

Page 63: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 42. Histograma/ Polígono de Frequências sem Outliers (SPSS)

Frequência Caule & Folhas

1,00 3 . 4 16,00 3 . 5556788888899999 5,00 4 . 00234 3,00 4 . 669 6,00 5 . 111244 1,00 5 . 5 1,00 6 . 3

Tamanho do Caule: 1,0Casos por Folha: 1 caso

Figura 43. Diagrama de Caule - e – Folhas sem Outliers (SPSS)

58

Page 64: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Figura 44. Caixa de Bigodes sem Outliers (SPSS)

59

Page 65: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Anexo II – Definições

Coeficiente de variação:

Regra de Surges

onde a função representa a parte inteira de x e n representa a dimensão da amostra.

Amplitude de Classes

onde é o máximo da amostra e é o mínimo.

Excesso – ε –

Mediana para dados agrupados:

onde: (por se tratar da mediana)

é o limite inferior da classe mediana

é a frequência relativa acumulada da classe anterior à classe mediana

é a frequência relativa da classe mediana

é a amplitude da classe mediana

60

Page 66: exemplo1

Análise Exploratória de Dados – Chamadas Telefónicas

Moda para dados agrupados:

onde: é o limite inferior da classe modal

é a diferença entre a frequência relativa da classe modal e a frequência

relativa da classe anterior

é a diferença entre a frequência relativa da classe modal e a frequência

relativa da classe seguinte

é a amplitude da classe modal

Coeficiente de assimetria ou Skewness

onde: é a dimensão da amostra

é o momento empírico centrado de ordem 2

é o momento empírico centrado de ordem 3

61