boletim de anÁlise estatÍstico · fernanda cardoso romão freitas 1º semestre de 2017 são paulo...

15
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL ATLAS BRASIL CLASSIFICAÇÃO: Da Visão Não Supervisionada a Supervisionada, Utilizando 18 variáveis selecionadas do Atlas Brasil. DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS EM ADMINISTRAÇÃO PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA Fernanda Cardoso Romão Freitas 1º SEMESTRE DE 2017 São Paulo – SP 2017

Upload: lamtruc

Post on 11-Dec-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Programas de Pós Graduação em

Economia e

Administração da

PUC-SP

BOLETIM DE ANÁLISE ESTATÍSTICOBASTA 2017

Vol. 1

IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL ATLAS BRASIL

CLASSIFICAÇÃO: Da Visão Não Supervisionada a Supervisionada,

Utilizando 18 variáveis selecionadas do Atlas Brasil.

DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS EM ADMINISTRAÇÃO PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA

Fernanda Cardoso Romão Freitas

1º SEMESTRE DE 2017

São Paulo – SP

2017

2

SUMÁRIO

INTRODUÇÃO ........................................................................................................................... 3

CAPÍTULO I. ENTENDENDO OS DADOS .............................................................................. 3

1.1. Os Indivíduos ........................................................................................................................ 3

1.2. As Variáveis .......................................................................................................................... 3

1.3 A tabela de Dados .................................................................................................................. 6

1.4 Variáveis Categóricas ............................................................................................................. 7

1.5 Variável “Município” ............................................................................................................. 7

CAPÍTULO II. ANÁLISE DE CLUSTERS E DENDOGRAMA ................................................ 7

2.1 Mapa do Brasil com 7 Clusters ............................................................................................ 10

CAPÍTULO III. DENDOGRAMA COM 4 CLUSTERS – CLASSIFICAÇÃO

SUPERVISIONADA ................................................................................................................ 10

3.1 Mapa do Brasil com 4 Clusters ............................................................................................ 12

CAPÍTULO IV. ANOVA por região das variáveis ESPVIDA, MORT1, T_ANALF11á14 e

T_ANALF15M .......................................................................................................................... 12

CONSIDERAÇÕES FINAIS ..................................................................................................... 14

REFERÊNCIA............................... ............................................................................................15

3

INTRODUÇÃO

O Atlas Brasil do Desenvolvimento Humano é uma plataforma de consulta ao

Índice do Desenvolvimento Humano Municipal (IDHM). O Atlas traz o IDHM e mais

200 indicadores de desenvolvimento nas dimensões de demografia,

educação,renda,trabalho,habitação e vulnerabilidade através dos dados extraídos dos

censos demográficos.

Este trabalho tem por objetivo realizar uma análise exploratória na dimensão do

IDHM dos dados disponibilizados na plataforma Atlas. A Base de dados do Atlas Brasil

apresenta o Índice de Desenvolvimento Humano Municipal de 5.565 municípios, 27

unidades de Federação (UF) e 20 Regiões Metropolitanas.

Para iniciar a compreensão dos dados faremos a apresentação das variáveis

escolhidas incluindo suas definições, significados, unidade de medida e faremos a

apresentação da tabela de dados. Em seguida será apresentada a análise de cada uma das

variáveis. Para a análise contaremos com a o auxílio de gráficos e dados numéricos como

histograma, Box-plot, curva de densidade, teste de normalidade de Anderson

Darling,média,mediana,quartis,desvio padrão, variância e intervalo de confiança.

Por fim faremos uma análise sobre todas as variáveis estudadas. O Software

estatístico utilizado neste trabalho foi o MINITAB 17.

CAPÍTULO I. ENTENDENDO OS DADOS

1.1 Os Indivíduos

Os indivíduos estudados neste trabalho são os 5.565 municípios brasileiros que

serão analisados pela dimensão do Desenvolvimento Humano e seus indicadores,

presentes no relatório do Atlas Brasil 2013. Os dados analisados são do ano de 2010.

Quando a dimensão do Desenvolvimento Humano Municipal Brasileiro, este

considera as mesmas três dimensões do IDH- Global que são longevidade, educação e

renda.

A importância do IDHM se dá, pois sintetiza uma realidade complexa em um

único número e viabiliza a comparação entre os municípios ao longo do tempo. Ele

também populariza a visão do desenvolvimento voltado para pessoas e não apenas para o

progresso econômico. O Crescimento econômico seja transformado em outras conquistas

além da renda e da riqueza e que alcance a qualidade de vida de cada indivíduo.

1.2 As Variáveis

São 18 as variáveis desta pesquisa. As mesmas são melhores explicadas na tabela 1.

Ressalta-se que todos os dados desta pesquisa são referentes ao ano de 2010.

Tabela 1. As Variáveis

Variável Significado Tipo

Unidade

de

Medida

ESPVIDA

Número médio de anos que as

pessoas deverão viver a partir do

nascimento, se permanecerem

constantes ao longo da vida o nível

e o padrão de mortalidade por

idade prevalecentes no ano do

Censo.

Variável

Quantitativa Índice

4

MORT1

Número de crianças que não

deverão sobreviver ao primeiro ano

de vida em cada 1000 crianças

nascidas vivas.

Variável

Quantitativa Índice

T_ANALF11A14

Razão entre a população de 11 a 14

anos de idade que não sabe ler nem

escrever um bilhete simples e o

total de pessoas nesta faixa etária

multiplicado por 100.

Variável

Quantitativa Índice

T_ANALF15M

Razão entre a população de 15

anos ou mais de idade que não sabe

ler nem escrever um bilhete

simples e o total de pessoas nesta

faixa etária multiplicado por 100.

Variável

Quantitativa Índice

PIND

Proporção dos indivíduos com

renda domiciliar per capita igual

ou inferior a R$ 70,00 mensais, em

reais de agosto de 2010. O

universo de indivíduos é limitado

àqueles que vivem em domicílios

particulares permanentes.

Variável

Quantitativa Percentual

RIND

Média da renda domiciliar per

capita das pessoas com renda

domiciliar per capita igual ou

inferior a R$ 70,00 mensais, a

preços de agosto de 2010. O

universo de indivíduos é limitado

àqueles que vivem em domicílios

particulares permanentes.

Variável

Quantitativa Índice

REN3

Razão entre o número de pessoas

de 18 anos ou mais de idade

ocupadas e com rendimento

mensal de todos os trabalhos

inferior a 3 salários mínimos de

julho de 2010 e o número total de

pessoas ocupadas nessa faixa etária

multiplicado por 100.

Variável

Quantitativa Percentual

RENOCUP

Média dos rendimentos de todos os

trabalhos das pessoas ocupadas de

18 anos ou mais de idade. Valores

em reais de agosto de 2010.

Variável

Quantitativa Índice

5

T_AGUA

Razão entre a população que vive

em domicílios particulares

permanentes com água canalizada

para um ou mais cômodos e a

população total residente em

domicílios particulares

permanentes multiplicado por 100.

A água pode ser proveniente de

rede geral, de poço, de nascente ou

de reservatório abastecido por água

das chuvas ou carro-pipa.

Variável

Quantitativa Percentual

T_LIXO

Razão entre a população que vive

em domicílios com coleta de lixo e

a população total residente em

domicílios particulares

permanentes multiplicado por 100.

Estão incluídas as situações em que

a coleta de lixo realizada

diretamente por empresa pública

ou privada, ou o lixo é depositado

em caçamba, tanque ou depósito

fora do domicílio, para posterior

coleta pela prestadora do serviço.

São considerados apenas os

domicílios particulares

permanentes localizados em área

urbana.

Variável

Quantitativa Percentual

T_FORA6A14

Razão entre as crianças de 6 a 14

anos que não frequenta a escola e o

total de crianças nesta faixa etária

multiplicado por 100.

Variável

Quantitativa Percentual

T_M10A14CF

Razão entre as mulheres de 10 a 14

anos de idade que tiveram filhos e

o total de mulheres nesta faixa

etária multiplicado por 100.

Variável

Quantitativa Percentual

PESORUR População residente na área rural Variável

Quantitativa Índice

PESOURB População residente na área urbana Variável

Quantitativa Índice

IDHM

Índice de Desenvolvimento

Humano Municipal. Média

geométrica dos índices das

dimensões Renda, Educação e

Longevidade, com pesos iguais.

Variável

Quantitativa Índice

6

Fonte: Atlas Brasil 2013

1.3 A Tabela de Dados

Estatísticas Descritivas: ANO; UF; Codmun6; Codmun7; ESPVIDA; MORT1;

T_ANALF11A14; ... Variável N N* Média EP Média DesvPad Mínimo Q1 Mediana

Q3

ANO 5565 10 2010,0 0,000000 0,000000 2010,0 2010,0 2010,0

2010,0

UF 5565 10 32,372 0,132 9,830 11,000 25,000 31,000

41,000

Codmun6 5565 10 325305 1320 98452 110001 251209 314620

411905

Codmun7 5565 10 3253053 13198 984521 1100015 2512089 3146206

4119054

ESPVIDA 5575 0 72,968 0,0525 3,920 1,000 71,140 73,470

75,160

MORT1 5575 0 19,293 0,0966 7,213 8,490 13,800 17,000

23,900

T_ANALF11A14 5565 10 3,6888 0,0508 3,7925 0,0000 1,1900 2,0200

5,2400

T_ANALF15M 5565 10 16,159 0,132 9,840 0,950 8,080 13,120

24,320

PIND 5565 10 11,341 0,158 11,764 0,000 1,640 6,240

19,065

IDHM_ E

Índice sintético da dimensão

Educação que é um dos 3

componentes do IDHM. É obtido

através da média geométrica do

subíndice de frequência de crianças

e jovens à escola, com peso de 2/3,

e do subíndice de escolaridade da

população adulta, com peso de 1/3.

Variável

Quantitativa Índice

IDHM_L

Índice da dimensão Longevidade

que é um dos 3 componentes do

IDHM. É obtido a partir do

indicador Esperança de vida ao

nascer, através da fórmula: [(valor

observado do indicador) - (valor

mínimo)] / [(valor máximo) -

(valor mínimo)], onde os valores

mínimo e máximo são 25 e 85

anos, respectivamente.

Variável

Quantitativa Índice

IDHM_R

Índice da dimensão Renda que é

um dos 3 componentes do IDHM.

É obtido a partir do indicador

Renda per capita, através da

fórmula: [ln (valor observado do

indicador) - ln (valor mínimo)] /

[ln (valor máximo) - ln (valor

mínimo)], onde os valores mínimo

e máximo são R$ 8,00 e R$

4.033,00 (a preços de agosto de

2010).

Variável

Quantitativa Índice

7

RIND 5565 10 32,036 0,129 9,603 0,000 27,435 32,510

37,090

REN3 5565 10 90,932 0,0789 5,889 51,450 87,275 91,940

95,840

RENOCUP 5565 10 780,11 4,58 341,68 136,42 488,59 761,72

1008,08

T_AGUA 5565 10 85,598 0,197 14,721 0,150 79,635 90,280

96,260

T_LIXO 5565 10 94,047 0,148 11,050 0,000 93,720 98,030

99,490

T_FORA6A14 5565 10 2,8632 0,0357 2,6653 0,0000 1,5200 2,3800

3,4350

T_M10A14CF 5565 10 0,39929 0,00927 0,69120 0,00000 0,00000 0,00000

0,67000

pesoRUR 5565 10 5360 89,0 6642 0,0 1599 3233

6769

pesourb 5565 10 28917 2702 201551 174 2838 6263

15492

IDHM 5565 10 0,65916 0,000965 0,07200 0,41800 0,59900 0,66500

0,71800

IDHM_E 5565 10 0,55909 0,00125 0,09333 0,20700 0,49000 0,56000

0,63100

IDHM_L 5565 10 0,80156 0,000599 0,04468 0,67200 0,76900 0,80800

0,83600

IDHM_R 5565 10 0,64287 0,00108 0,08066 0,40000 0,57200 0,65400

0,70700

Para esta análise usaremos apenas as varáveis, ESPVIDA, MORT1,

T_ANALF15M e T_ANALF11A14.

1.4 Variáveis Categóricas

Este tipo de variável indica que o foco de concentração deve ser a análise de

gráficos do tipo pie chart e barras.

1.5 Variável: “Município”

A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no

território nacional de acordo com a região no gráfico 1.

Gráfico 1- Distribuição dos Municípios pelas Unidades Federativas do Brasil.

Fonte: Elaborado pelo autor, 2017 ( Atlas Brasil)

O Gráfico 1 traz uma análise mais analítica sobre a distribuição dos municípios pelas

Unidades Federativas do Brasil.

Rio Grande do Sul

Sergipe

Espírito Santo

Ceará

Paraíba

Tocantins

Mato Grosso

Piauí

Alagoas

Pará

Rio de Janeiro

Maranhão

Rondônia

Mato Grosso do Sul

Amapá

Amazonas

Roraima

São Paulo

Bahia

Santa Catarina

Minas Gerais

Paraná

Pernambuco

Rio Grande do Norte

Goiás

Categoria

53264210806256390057245572145

27544928

7191

2363

5575

4232

24962100

21328

12792

40084810 16359

26443

12306

12093

22575

3036

Unidades Federativas

8

Podemos observar que as Unidades Federativas com maior concentração de Municípios

são Minas Gerais, com 26443 municípios, seguido por São Paulo com 22575 municípios

e Rio Grande do Sul com 21328 Municípios.

CAPÍTULO II. ANÁLISE DE CLUSTER E DENDOGRAMA

A análise de variância (ANOVA) testa a hipótese de que as médias de duas ou

mais populações são iguais. Análises ANOVA testam a importância de um ou mais

fatores comparando as médias das variáveis de resposta em diferentes níveis dos fatores.

A hipótese nula afirma que todas as médias das populações (médias dos níveis dos

fatores) são iguais, enquanto a hipótese alternativa afirma que pelo menos uma é

diferente.

O objetivo do presente trabalho é através da ANOVA obter as médias por estado

de cada uma das quatro variáveis ESPVIDA, MORT1, T_ANALF11A14 e

T_ANALF15M para que posteriormente pudéssemos realizar uma análise de cluster das

médias por estado a fim de agrupar os munícipios e sintetizar os dados. Neste trabalho

faremos o agrupamento dos estados com maior similaridade em clusters.A princípio foi

realizada uma classificação não supervisionada com a formação de 7 clusters,

posteriormente fizemos uma classificação supervisionada com o propósito de reagrupar

os grupos de acordo com as distâncias centroides de cada grupo e chegamos a um novo

agrupamento de 4 clusters.

Dendograma com 7 clusters - Classificação não supervisionada

Análise de Agrupamentos de Observações: ESP VIDA M; MORT 1 M;

T_ANALF11á14 M; T_ANALF15M M

Distância Euclideana, Ligação Completa

Passos de Amalgamação

Número de

obs. no

Número de Nível de Nível de Agrupados Novo novo

Passo agrupados similaridade distância reunidos agrupado agrupado

1 25 97,4715 0,024019 7 8 7 2

2 24 96,8539 0,029885 22 23 22 2

3 23 95,9615 0,038362 15 24 15 2

4 22 94,3665 0,053513 10 12 10 2

5 21 93,5533 0,061238 7 17 7 3

6 20 92,8399 0,068014 6 19 6 2

7 19 92,2765 0,073366 22 25 22 3

8 18 92,1685 0,074392 14 16 14 2

9 17 91,8375 0,077536 6 15 6 4

10 16 90,7920 0,087468 10 11 10 3

11 15 89,9409 0,095552 5 6 5 5

12 14 89,7477 0,097387 4 20 4 2

13 13 88,2976 0,111162 3 13 3 2

14 12 86,1785 0,131292 7 18 7 4

15 11 85,4686 0,138035 2 9 2 2

16 10 85,1159 0,141385 7 10 7 7

17 9 83,9018 0,152918 1 5 1 6

18 8 83,4348 0,157354 4 26 4 3

19 7 79,1887 0,197688 1 14 1 8

20 6 77,9190 0,209749 3 21 3 3

21 5 75,3522 0,234131 7 22 7 10

22 4 68,8182 0,296198 1 2 1 10

23 3 65,0913 0,331600 3 4 3 6

24 2 36,8568 0,599802 3 7 3 16

25 1 0,0000 0,949907 1 3 1 26

9

Partição Final

Número de agrupados: 7

Dentro da

soma de

quadrados Distância Distância

Número de do média do máxima do

observações agrupado centróide centróide

Agrupado1 8 0,0453447 0,0679041 0,116947

Agrupado2 2 0,0095268 0,0690173 0,069017

Agrupado3 2 0,0061785 0,0555810 0,055581

Agrupado4 3 0,0175359 0,0752035 0,092354

Agrupado5 7 0,0279480 0,0604621 0,088042

Agrupado6 1 0,0000000 0,0000000 0,000000

Agrupado7 3 0,0033089 0,0318070 0,043683

Centróides do grupo

Variável Agrupado1 Agrupado2 Agrupado3 Agrupado4 Agrupado5

Agrupado6 Agrupado7

ESP VIDA M 0,389658 0,307295 0,441870 0,520600 0,673411

0,5685 0,761793

MORT 1 M 0,540655 0,394535 0,622795 0,703467 0,808444

0,7608 0,878320

T_ANALF11á14 M 0,815547 0,750175 0,757450 0,914383 0,954614

0,7615 0,968061

T_ANALF15M M 0,404392 0,337950 0,605750 0,695510 0,758554

0,5976 0,860750

Centróide

Variável global

ESP VIDA M 0,528660

MORT 1 M 0,674045

T_ANALF11á14 M 0,870414

T_ANALF15M M 0,603800

Distâncias Entre Centróides do Grupo

Agrupado1 Agrupado2 Agrupado3 Agrupado4 Agrupado5 Agrupado6

Agrupado7

Agrupado1 0,000000 0,191893 0,231070 0,371714 0,544975 0,347417

0,695719

Agrupado2 0,191893 0,000000 0,376806 0,543830 0,723924 0,519543

0,872589

Agrupado3 0,231070 0,376806 0,000000 0,213052 0,387685 0,187519

0,526333

Agrupado4 0,371714 0,543830 0,213052 0,000000 0,199912 0,196319

0,344867

Agrupado5 0,544975 0,723924 0,387685 0,199912 0,000000 0,276542

0,152705

Agrupado6 0,347417 0,519543 0,187519 0,196319 0,276542 0,000000

0,403842

Agrupado7 0,695719 0,872589 0,526333 0,344867 0,152705 0,403842

0,000000

10

Figura 1: Média por estados.

Notamos analisando o dendograma que podemos separar o Brasil em 7 grandes

grupos de estados com mesma similaridade de média destas variáveis. Os grupos cujos

estados são mais similares entre si são Grupo 5, sendo os estados mais similares ES e GO

e grupo 7 composto por RS, SC e SP, sendo os estados mais similares RS e SC.

Observamos através do relatório o que foi posteriormente confirmado pelo

dendograma que o grupo 6 , onde contém o estado RR , o grupo 2 com AL e MA e o

grupo com AM e PA por conta das distâncias entre os centroides do grupo , podem ser

reagrupados em um dos outros grupos já existentes como veremos na próxima etapa.

2.1 Mapa do Brasil com 7 clusters

SPSCRS

MS

MT

MGRJPRG

OESTOROAPRRPAA

MM

AALPIPBSEP

ERNC

EBAA

C

0,00

33,33

66,67

100,00

Observações

Sim

ilari

dad

e

Média por estados

11

CAPÍTULO III. DENDROGRAMA COM 4 CLUSTERS - CLASSIFICAÇÃO

SUPERVISIONADA

De acordo com a análise da distância dos centroides podemos extinguir 3 clusters

que por sua proximidade com outros clusters puderam ser agrupados a estes.

A classificação supervisionada foi realizada da seguinte forma: Número de

observações

Agrupado1 8

Agrupado2 2 ------------------------ foi para o grupo 1

Agrupado3 2 --------------------------- foi para o grupo 4

Agrupado4 3

Agrupado5 7

Agrupado6 1 -----------------------------foi para o grupo 4

Agrupado7 3

Recodificar

Sumário

Número

Valor Valor de

Original registrado Linhas

2 1 2

3 4 2

6 4 1

Coluna de dados de origem CLUSTER OBS 7

Coluna de dados registrada Recodificado CLUSTER OBS 7

Número de linhas inalteradas: 21

Análise Discriminante: Recodificado CLU versus ESP VIDA M; MORT 1 M; ...

Método Linear para Resposta: Recodificado CLUSTER OBS 7

Preditores: ESP VIDA M; MORT 1 M; T_ANALF11á14 M; T_ANALF15M M

Grupo 1 4 5 7

Contagem 10 6 7 3

Sumário de classificações

Alocado no Grupo Verdadeiro

Grupo 1 4 5 7

1 10 0 0 0

4 0 6 0 0

5 0 0 7 0

7 0 0 0 3

Total de N 10 6 7 3

N correto 10 6 7 3

Proporção 1,000 1,000 1,000 1,000

N = 26 N Correto = 26 Proporção Correta = 1,000

Distância Quadrática Entre Grupos

1 4 5 7

1 0,000 28,753 93,396 164,945

4 28,753 0,000 30,151 71,862

5 93,396 30,151 0,000 10,602

7 164,945 71,862 10,602 0,000

Função Discriminante Linear para Grupos

1 4 5 7

Constante -118,48 -151,50 -228,79 -275,09

ESP VIDA M 84,26 179,43 415,68 542,74

MORT 1 M 37,14 20,71 -81,35 -135,34

T_ANALF11á14 M 245,86 195,58 198,35 169,98

T_ANALF15M M -27,56 53,97 71,27 105,78

12

Figura 2: Média por estados.

Neste segundo os dados dos estados foram divididos em quatro grandes grupos, o

que é perfeitamente possível de acordo com a similaridade dos dados.

Abaixo vemos a distribuição dos estados de acordo com a similaridade.

3.1 Mapa do Brasil com 4 clusters

CAPÍTULO IV. ANOVA por região das variáveis ESPVIDA, MORT1,

T_ANALF11á14 e T_ANALF15M

ANOVA com um fator: ESP VIDA M versus Recodificado CLUSTER OBS 7 Método

SPSCRSRJPRM

TM

SM

GGOESRRPATOROA

PPIM

AALSEP

EPBRNC

EBA

AMA

C

0,00

33,33

66,67

100,00

Observações

Sim

ilari

dad

eMédia por estados

13

Hipótese nula Todas as médias são iguais

Hipótese alternativa No mínimo uma média é diferente

Nível de significância α = 0,05

Assumiu-se igualdade de variâncias para a análise

Informações dos Fatores

Fator Níveis Valores

Recodificado CLUSTER OBS 7 4 1; 2; 3; 4

Análise de Variância

Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P

Recodificado CLUSTER OBS 7 3 0,55785 0,185950 138,81 0,000

Erro 22 0,02947 0,001340

Total 25 0,58732

Sumário do Modelo

S R2 R2(aj) R2(pred)

0,0366011 94,98% 94,30% 93,22%

Médias

Recodificado

CLUSTER OBS 7 N Média DesvPad IC de 95%

1 8 0,39860 0,01987 (0,37177; 0,42544)

2 3 0,3215 0,0248 ( 0,2777; 0,3654)

3 5 0,5185 0,0390 ( 0,4845; 0,5524)

4 10 0,6999 0,0464 ( 0,6759; 0,7239)

DesvPad Combinado = 0,0366011

ANOVA com um fator: MORT 1 M versus Recodificado CLUSTER OBS 7 Método

Hipótese nula Todas as médias são iguais

Hipótese alternativa No mínimo uma média é diferente

Nível de significância α = 0,05

Assumiu-se igualdade de variâncias para a análise

Informações dos Fatores

Fator Níveis Valores

Recodificado CLUSTER OBS 7 4 1; 2; 3; 4

Análise de Variância

Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P

Recodificado CLUSTER OBS 7 3 0,53977 0,179923 80,62 0,000

Erro 22 0,04910 0,002232

Total 25 0,58887

Sumário do Modelo

S R2 R2(aj) R2(pred)

0,0472425 91,66% 90,52% 88,13%

Médias

Recodificado

CLUSTER OBS 7 N Média DesvPad IC de 95%

1 8 0,5576 0,0335 (0,5230; 0,5922)

2 3 0,4246 0,0523 (0,3680; 0,4811)

3 5 0,6993 0,0492 (0,6555; 0,7431)

4 10 0,8294 0,0538 (0,7984; 0,8604)

DesvPad Combinado = 0,0472425

14

ANOVA com um fator: T_ANALF11á14 M versus Recodificado CLUSTER

OBS 7 Método

Hipótese nula Todas as médias são iguais

Hipótese alternativa No mínimo uma média é diferente

Nível de significância α = 0,05

Assumiu-se igualdade de variâncias para a análise

Informações dos Fatores

Fator Níveis Valores

Recodificado CLUSTER OBS 7 4 1; 2; 3; 4

Análise de Variância

Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P

Recodificado CLUSTER OBS 7 3 0,14569 0,048562 20,93 0,000

Erro 22 0,05106 0,002321

Total 25 0,19674

Sumário do Modelo

S R2 R2(aj) R2(pred)

0,0481741 74,05% 70,51% 61,78%

Médias

Recodificado

CLUSTER OBS 7 N Média DesvPad IC de 95%

1 8 0,8060 0,0560 ( 0,7707; 0,8413)

2 3 0,7637 0,0315 ( 0,7060; 0,8214)

3 5 0,8611 0,0809 ( 0,8164; 0,9058)

4 10 0,95865 0,01043 (0,92705; 0,99024)

DesvPad Combinado = 0,0481741

ANOVA com um fator: T_ANALF15M M versus Recodificado CLUSTER OBS

7 Método

Hipótese nula Todas as médias são iguais

Hipótese alternativa No mínimo uma média é diferente

Nível de significância α = 0,05

Assumiu-se igualdade de variâncias para a análise

Informações dos Fatores

Fator Níveis Valores

Recodificado CLUSTER OBS 7 4 1; 2; 3; 4

Análise de Variância

Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P

Recodificado CLUSTER OBS 7 3 0,80729 0,269098 59,66 0,000

Erro 22 0,09923 0,004510

Total 25 0,90652

Sumário do Modelo

S R2 R2(aj) R2(pred)

0,0671586 89,05% 87,56% 84,46%

Médias

Recodificado

CLUSTER OBS 7 N Média DesvPad IC de 95%

1 8 0,4368 0,0714 (0,3875; 0,4860)

15

2 3 0,3315 0,0664 (0,2511; 0,4119)

3 5 0,6636 0,0723 (0,6013; 0,7259)

4 10 0,7892 0,0613 (0,7452; 0,8333)

DesvPad Combinado = 0,0671586

ESPVIDA MORT1 T_ANALF11A14 T_ANALF15M

1 0,39860 0,5576 0,8060 0,4368

2 0,3215 0,4246 0,7637 0,3315

3 0,5185 0,6993 0,8611 0,6636

4 0,6999 0,8294 0,95865 0,7892

Valor de F 138,81 80,62 20,93 59,66 Fonte: Elaborado pela autora

CONSIDERAÇÕES FINAIS

Dada a similaridade dos dados entre alguns estados foi possível realizar o

agrupamento das vinte e seis unidades federativas do Brasil a princípio em 7 grandes

grupos. Posteriormente, analisando o cluster com 7grupos foi possível sintetizar ainda

mais os dados dividindo o país em quatro grupos com alto grau de similaridade conforme

demonstrado no segundo mapa acima através da classificação supervisionada.

Através da formação destes clusters foi possível a sintetização dos dados de 5.565

municípios em estados e grupos mostrando a grande diferença de realidade nos diferentes

estados e regiões do Brasil conforme demonstramos através do mapa acima. Esta análise

apenas corroborou a ideia de termos “mais de um Brasil” já antes mencionadas em

trabalhos anteriores.

Por último realizamos a ANOVA que possibilita a comparação das variáveis entre

os 4 novos grupos criados e como cada variável contribui em cada nova região.

REFERÊNCIA

ANDERSON, David R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A. Estatística aplicada à administração e economia. 2. ed. São Paulo: Thomson Learning, 2007.

ATLAS DO DESENVOLVIMENTO HUMANO NO BRASIL. Disponível em: <http://www.atlasbrasil.org.br/2013/>. Acessado em: 17 mar. 2017.

IBGE, Instituto Brasileiro de Geografia e Estatística. Séries Históricas e Estatísticas. Disponível em: <http://seriesestatisticas.ibge.gov.br/apresentacao.aspx>. Acessado em: 30 mar. 2017.

LAS CASAS A., DE HOYOS A. Pesquisa de Marketing