atlas brasil 2013 dimensÃo …...pontÍficia universidade catÓlica de sÃo paulo faculdade de...
Post on 17-Jan-2020
6 Views
Preview:
TRANSCRIPT
PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
Faculdade de Economia, Administração, Contabilidade e Atuariais.
ATLAS BRASIL 2013
DIMENSÃO DESVULNERABILIDADE E OUTRAS
VARIÁVEIS
Disciplina: Métodos Quantitativos
Professor: Dr. Arnoldo Jose de Hoyos
Sandra Rocío Parada Castiblanco
1º Semestre 2014
INDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL ATLAS BRASIL
Sumário 1. INTRODUÇÃO. ............................................................................................................................................. 4 2. ENTENDENDO OS DADOS ....................................................................................................................... 4
2.1. Os Indivíduos. ......................................................................................................................................... 4 2.2 As Variáveis. ............................................................................................................................................ 4 2.3 A Tabela de Dados ................................................................................................................................. 6
3. ANÁLISE DAS VARIÁVEIS ........................................................................................................................ 6 3.1 Variáveis Categóricas. ......................................................................................................................... 6
3.1.1 Variável: “Região” ............................................................................................................................ 7 3.1.2 Variável: “Munícipio” ........................................................................................................................ 8
3.2 Variáveis Quantitativas. ...................................................................................................................... 8 3.2.1. Análise Exploratório de Dados. ................................................................................................ 8 3.2.1.1. Variável MORT1_np. “% de mulheres de 10 a 14 anos que tiveram filhos”. ..................... 8 3.2.1.2. Variável: PINDCRI_np. “índice de crianças fora de pobreza”. ........................................... 10 3.2.1.3. Variável: NESTUDA_np “Indicador de pessoas de 15 a 24 anos que estudam e ou trabalham e que não são vulneráveis à pobreza”............................................................................... 12 3.2.1.4. Variável: FUNDI_TODOS_M_np “Indicador de pessoas em domicílios não vulneráveis à pobreza e em que tem fundamental completo” ................................................................................... 13 3.2.1.5. Variável: MAXIDOSO_np “Indicador de pessoas em domicílios não vulneráveis à pobreza e dependentes de idosos” ....................................................................................................... 15 3.2.1.6. Variável: SOBRE40_np “Indicador probabilidade de sobrevivência até 40 anos”. ......... 17 3.2.1.7. Variável: SOBRE60_np “Índice de probabilidade de sobrevivência até 60 ano” ............ 18 3.2.1.8. Variável: BANAGUA_np “Índice da população que vive em domicílios com banheiro e água encanada” ....................................................................................................................................... 20 3.2.1.9. Variável: DENS_np. “Índice da população que vive em domicílios com densidade inferior a 2 pessoas por dormitório”. ..................................................................................................... 21 3.2.1.10 Variável: ESPVIDA_np “Esperança de vida ao nascer”. .................................................... 23 3.2.1.11. Variável: IDHM_np “Índice de Desenvolvimento Humano Municipal” ............................. 25 3.2.1.12. Variável: ALF11A14_np “Índice de alfabetismo da população de 11 a 14 anos de idade” ......................................................................................................................................................... 26 3.2.1.13. Variável: ALF15A17_np “Alfabetismo da população entre 15 a 17 anos de idade” ..... 28 3.2.1.14. Variável: ALF18M_np “alfabetismo da população de 18 anos ou mais de idade” ........ 30 3.2.1.15. Variável: RENOCUP “Rendimento médio dos ocupados”. ............................................... 32 3.2.1.16. Variável: PRENTRAB “Percentual da renda proveniente de rendimentos do trabalho” .................................................................................................................................................................... 33 3.2.1.17. Variável: P_FORMAL “Grau de formalização do trabalho das pessoas ocupadas” ..... 35 3.2.1.18. Variável: DES2529_np “Índice de desocupação da população de 25 a 29 anos de idade” ......................................................................................................................................................... 37
3.2.2. Relação entre variáveis: Correlação e Regressão. ................................................................ 42 3.2.2.1. Correlação. ..................................................................................................................................... 42 É uma técnica que permite estabelecer uma forma de estimação dos dados. “A correlação mede a forca ou o grau de relacionamento entre duas variáveis”. .................................................................... 42 A tabela número 3 relaciona as variáveis com maior grau de correlação: ......................................... 42 3.2.2.2. Gráficos de Dispersão. ................................................................................................................. 43 3.2.2.3. Linhas de Tendência..................................................................................................................... 44 3.2.2.4. Correlação Linear. ......................................................................................................................... 45 3.2.2.5. Dendrograma. ................................................................................................................................ 47 3.2.3. Regressão Multivariada & Stepwise .......................................................................................... 48 3.2.4. Análise de Tendências e Projeções (IBGE Series Estadísticas & Series Históricas) ... 55
3.2.4.1. Entendendo os dados ............................................................................................................... 55 3.2.4.1.1. Os Indivíduos .......................................................................................................................... 55 3.2.4.1.2. As Variáveis ............................................................................................................................ 55 3.2.4.1.3. A fonte e o tamanho da série de dados .............................................................................. 56 3.2.4.2. Análise das Variáveis................................................................................................................ 57 3.2.4.2.1. Variável: Mortalidade ............................................................................................................. 57 3.2.4.2.2. Variável: TaxtFreEsCr06. Taxa de frequência a escola ou creche de crianças de 0 a 6 anos de idade ........................................................................................................................................... 59
3.2.4.2.3. Variável: InstaSan. Existência de Instalação Sanitária no domicilio. ............................. 62 3.2.5. Comparações. ................................................................................................................................. 65
3.2.5.1. Variável: MORTI_np.................................................................................................................. 65 3.2.5.2. Variável: PINDCRI_np .............................................................................................................. 66 3.2.5.3. Variável: NESTUDA_np ........................................................................................................... 68 3.2.5.4. Variável: FUNDIN_TODOS_Mnp ............................................................................................ 70 3.2.5.5. Variável: MAXIDOSO ................................................................................................................ 72 3.2.5.7. Variável: SOBRE60(n) .............................................................................................................. 76 3.2.5.7. Variável: BANAGUA(n) .......................................................................................................... 77 3.2.5.8. Variável: DENSn ........................................................................................................................ 79 3.2.5.9. Variável: ESPVIDA .................................................................................................................... 81 3.2.5.11. Variável: ALFAB11A14 ........................................................................................................... 85 3.2.5.12. Variável: ALFA15A17 ............................................................................................................. 87 3.2.5.13. Variável: ALFAB18M .............................................................................................................. 89 3.2.5.14. Variável: RENOCUPn ............................................................................................................. 91 3.2.5.15. Variável: PRENTRABn ........................................................................................................... 93 3.2.5.16. Variável: FORMAn .................................................................................................................. 95 3.2.5.17. Variável: DES2529np ............................................................................................................. 97
3.2.6. Pesquisa por Amostragem ........................................................................................................ 100 3.2.6.1. Variável: MORTI_np Supervivência Infantil até um ano. ................................................... 100 3.2.6.1.1. Amostragem: 25 Municípios. .............................................................................................. 100 3.2.6.1.2. Amostragem: 100 Municípios. ............................................................................................ 101 3.2.6.1.3. Amostragem: 400 Municípios. ............................................................................................ 102 3.2.6.2. Variável: ALFA18 ..................................................................................................................... 104 3.2.6.2.1. Amostragem: 25 municípios ............................................................................................... 104 3.2.6.2.2. Amostragem: 100 municípios ............................................................................................. 105 3.2.6.2.3. Amostragem: 400 municípios ............................................................................................. 106 3.2.6.3. Variável: ESPVIDA .................................................................................................................. 108 3.2.6.3.1. Amostragem: 25 municípios ............................................................................................... 108 3.2.6.3.2. Amostragem: 100 municípios ............................................................................................. 109 3.2.6.3.3. Amostragem: 400 municípios. ............................................................................................ 110
3.2.7. Analise Multivariada - Componentes Principais. ................................................................. 114 3.2.7.1. Principais Componentes. ........................................................................................................... 117 3.2.8. Análise de Conglomerado .......................................................................................................... 119
3.2.8.1. Dendrograma dos dados agrupados pelo resultado das médias MORTI_np x ALFAB18 x ESPVIDA_np POR ESTADO (-DF) ................................................................................................. 119 3.2.8.2. Dendrograma dos dados agrupados pelo resultado do Desvio Padrão para MORTI_np x ALFAB18 x ESPIVIDA por Estados do Brasil. .................................................................................. 121 3.2.8.3. Análise das variâncias das variáveis por Estado ............................................................... 123 3.2.8.4 Análise das variâncias da variável Morti_np por estado .................................................... 123 3.2.8.5 Análise das variâncias da variável Alfa18 por estado. ........................................................ 124 3.2.8.6 Análise das variâncias da variável Espvida por estado. ..................................................... 125
3.2.9. Análise Discriminante ................................................................................................................ 126 3.2.9.1. Análise Discriminante Linear por Região ............................................................................. 126 3.2.9.3. Análise Discriminante Quadrática por “4 Brasis” ................................................................ 128 3.2.9.4. Análise Discriminante Linear para dados agrupados ........................................................ 130
3.2.10 Regressão logística. ................................................................................................................... 131 3.2.10.1. ANOVA das variáveis. .......................................................................................................... 131 3.2.10.2. Regressão Logistica Ordinal. .............................................................................................. 133
3.2.11. Arvores de Classificação. ........................................................................................................ 135 3.2.12. Análise de correspondências. ................................................................................................ 137 4. CONSIDERAÇÕES FINAIS. ............................................................................................................... 143
4
1. INTRODUÇÃO. O bem-estar de uma sociedade não pode ser calculado só medindo a riqueza ou os recursos de um país através do PIB, é assim como o Programa das Nações Unidas para o Desenvolvimento Humano criou em 1990 o Indicador IDH “Índice de Desenvolvimento Humano”. Este indicador resume em um só dado às três dimensões mais importantes para o desenvolvimento das pessoas em um país.
a) Oportunidade de vida longa e saudável b) Acesso ao conhecimento c) Padrão de vida digno.
Além da renda, são estudadas as condições de Saúde e Educação para medir o progresso da sociedade. No Brasil foi criado o indicador IDHM “Índice de Desenvolvimento Humano Municipal” o qual tem sete dimensões: Desenvolvimento Humano, Demografia, Educação, Trabalho, Renda, Habitação e Vulnerabilidade. O presente trabalho tem por objetivo efetuar uma análise exploratória1 para algumas das variáveis do Atlas Brasil, para poder efetuar a análise iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades de medida. Na sequência, analisamos cada uma das variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). No final, buscamos comparar as análises efetuadas para cada variável. O software estatístico utilizado é o MINITAB 16. 2. ENTENDENDO OS DADOS 2.1. Os Indivíduos.
Os indivíduos desta análise são 5564 Municípios já que foi desconsiderado o DF. Foram involucradas as cinco regiões do país, (Centro Oeste, Nordeste, Norte, Sudeste, Sul) considerando como fonte os dados do Atlas de Desenvolvimento Humano Brasil 2013, dados 2010. http://www.atlasbrasil.org.br/2013/
2.2 As Variáveis. 1 “A análise Exploratória de dados utiliza gráficos e resumos numéricos para descrever as variáveis de um
conjunto de dados e as relações entre elas” Introdução a Pratica da Estadística pag. 32
São apresentadas 18 variáveis numéricas tomadas de diferentes dimensões do Atlas do Brasil, mais duas variáveis categóricas que descrevemos a seguir para um total de 19 variáveis, as quais são detalhadas na tabela 1.
Tabela 1. Variáveis.
SIGLA NOME LONGO Tipo
UFCódigo da Unidade da Federação
variável Categorica
UFNNome da Unidade da Federação
variável Categorica
ESPVIDAEsperança de vida ao nascer
variável Numérica
MORT1_npSupervivência Infantil até um ano de idade
variável Numérica
SOBRE40Índice de probabilidade de sobrevivência até 40 anos
variável Numérica
SOBRE60Índice de probabilidade de sobrevivência até 60 anos
variável Numérica
ALF11A14Índice Alfabetismo da população de 11 a 14 anos de idade
variável Numérica
ALF15A17Índice Alfabetismo da população de 15 a 17 anos de idade
variável Numérica
ALF18MÍndice Alfabetismo da população de 18 anos ou mais de idade
variável Numérica
PINDCRI_npÍndice de crianças fora da condição de ser extremamente pobres
variável Numérica
PRENTRABÍndice da renda proveniente de rendimentos do trabalho
variável Numérica
P_FORMALÍndice do Grau de formalização do trabalho das pessoas ocupadas
variável Numérica
RENOCUPÍndice do rendimento médio dos ocupados
variável Numérica
DES2529Índice de ocupação da população de 25 a 29 anos de idade
variável Numérica
BANAGUAÍndice da população que vive em domicílios com banheiro e água encanada
variável Numérica
DENS_npÍndice da população que vive em domicílios com densidade superior a 2 pessoas
por dormitóriovariável Numérica
T_FUNDIN_TODOS_MMEIO_npIndice de pessoas em domicílios não vulneráveis à pobreza e em que pelo menos
alguem tem fundamental completo.variável Numérica
IDHMÍndice de Desenvolvimento Humano Municipal
variável Numérica
MAXIDOSO_npÍndice de pessoas em domicílios vulneráveis à pobreza e dependentes de idosos
variável Numérica
NESTUDA_NTRAB_npìndice de pessoas de 15 a 24 anos que estudam e ou trabalham e não são
vulneráveis à pobreza.variável Numérica
NOTA IMPORTANTE. Todas estas variáveis foram normalizadas e positivadas, mas por facilidade e manejo foi conservada a abreviatura do nome original, por exemplo. MORTI1 que originalmente era Mortalidade Infantil, torna-se normalizada e positivada como MORTI_np, é dizer, Supervivência Infantil de até um ano.
2.3 A Tabela de Dados
Descriptive Statistics: MORT1_np. PINDCRI_np. T_NESTUDA_NT. T_FUNDIN_TOD. ... Variable N N* Mean StDev Minimum Q1 Q3 Maximum
MORT1_np 5564 0 0,71919 0,18629 0 0,60037 0,86139 1
PINDCRI_np 5564 0 0,7786 0,21198 0 0,62381 0,9583 1
T_NESTUDA_NTRAB_MMEIO_np 5564 0 0,73254 0,15839 0 0,60905 0,86787 1
T_FUNDIN_TODOS_MMEIO_np 5564 0 0,72383 0,17138 0 0,59277 0,87271 1
T_RMAXIDOSOnp 5564 0 0,80654 0,13701 0 0,70721 0,9213 1
SOBRE40(n) 5564 0 0,59935 0,15206 0 0,49879 0,70823 1
SOBRE60(n) 5564 0 0,57219 0,14626 0 0,48115 0,66968 1
T_BANAGUA(n) 5564 0 0,80224 0,22445 0 0,66679 0,97933 1
T_DENS(n) 5564 0 0,27818 0,14774 0 0,16775 0,36288 1
ESPVIDAn 5564 0 0,58383 0,20093 0 0,43853 0,73913 1
IDHMn 5564 0 0,54308 0,16209 0 0,40766 0,67568 1
ALFAB_11A14n 5564 0 0,09465 0,0973 0 0,03053 0,13443 1
AFALB_15A17n 5564 0 0,07936 0,07697 0 0,02863 0,11095 1
ALFAB_18Mn 5564 0 0,3522 0,22923 0 0,16333 0,54205 1
RENOCUPn 5564 0 0,21158 0,11209 0 0,11579 0,2866 1
PRENTRABn 5564 0 0,60539 0,15923 0 0,49583 0,72508 1
P_FORMAn 5564 0 0,47052 0,22374 0 0,27107 0,65933 1
T_DES2529np 5564 0 0,82568 0,1138 0 0,76663 0,90755 1
3. ANÁLISE DAS VARIÁVEIS
3.1 Variáveis Categóricas. São variáveis de tipo qualitativo que podem ser classificadas como de Nominais ou Ordinais. Estes tipos de variáveis indicam que o foco de concentração deve ser a análise de gráficos do tipo pie chart e barras.
3.1.1 Variável: “Região”
Nossa amostra totaliza 5 regiões, onde segundo o Gráfico # 1 apresenta que a maior concentração de municípios do Brasil esta em o Nordeste (NE) com 32,2%, e em o Sudeste (SE) com 30% e no Sul (S) com 21,3%.
Gráfico 1. Distribuição dos municípios por regiões
CO
N
NE
S
SE
Category
SE30,0%
S21,3%
NE32,2%
N8,1%
CO8,4%
Pie Chart of Região
Fonte. Informações tiradas do Atlas de Desenvolvimento humano. Cálculos Minitab
3.1.2 Variável: “Munícipio” Esta variável tem 5564 dados representados em Unidades Federais, o DF foi desconsiderado. As UFN mais representativas são Mina Gerais 15,3%, São Paulo 11,6% e Rio Grande do Sul 8,9%.
Gráfico 2. Distribuição dos Municípios pelas UFN
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
AC
RO
RR
RS
SC
SE
SP
TO
Other
AL
AM
AP
BA
CE
ES
GO
MA
Category
Other0,0%TO
2,5%SP
11,6%SE
1,3%
SC5,3%
RS8,9%
RR0,3%
RO0,9%
RN3,0%
RJ1,7% PR
7,2%PI
4,0% PE3,3%
PB4,0%
PA2,6%
MT2,5%
MS1,4%
MG15,3%
MA3,9%
GO4,4%
ES1,4%
CE3,3%
BA7,5%
AP0,3%
AM1,1%
AL1,8%
AC0,4%
Pie Chart of UFN
Fonte. Informações tiradas do Atlas de Desenvolvimento humano. Cálculos Minitab
3.2 Variáveis Quantitativas. Os gráficos abaixo nos ajudam a entender melhor o comportamento desta variável. 3.2.1. Análise Exploratório de Dados. 3.2.1.1. Variável MORT1_np. “% de mulheres de 10 a 14 anos que tiveram filhos”.
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “MORT1_np” Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa de uma taxa entre 0,80 a 1 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a direita da referida faixa.
Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com menores índices de Supervivência Infantil de até um ano. Os municípios são ROTEIRO com índice de 0,0000 (AL) no Norte, OLHO D'ÁGUA GRANDE com 0,0104 (AL) no Nordeste, BREJO DE AREIA com 0,0392 (MA) no Nordeste.
0,980,840,700,560,420,280,140,00
Median
Mean
0,7950,7800,7650,7500,7350,720
1st Quartile 0,60037
Median 0,78034
3rd Quartile 0,86139
Maximum 1,00000
0,71429 0,72408
0,77296 0,78570
0,18290 0,18982
A-Squared 158,73
P-Value < 0,005
Mean 0,71919
StDev 0,18629
Variance 0,03471
Skewness -1,00602
Kurtosis 0,43190
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for MORT1_np
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,80 a 0,97
0,980,840,700,560,420,280,140,00
MORT1_np
Dotplot of MORT1_np
Each symbol represents up to 10 observations.
3.2.1.2. Variável: PINDCRI_np. “índice de crianças fora de pobreza”. Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “PINDCRI_np” Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,92 a 0,98. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a direita da referida faixa.
Valores Atípicos: Não há um número expressivo de valores atípicos, mais se podem citar os 3 indicadores mais representativos para a variável crianças fora de pobreza: SANTA ROSA DO PURUS com 0,0039 (AC) no Norte, AMAJARI com 0,0475 (RR) no Norte, e MARAJÁ DO SENA (MA) no Nordeste com 0,0715
0,980,840,700,560,420,280,140,00
Median
Mean
0,880,860,840,820,800,780,76
1st Quartile 0,62381
Median 0,86263
3rd Quartile 0,95830
Maximum 1,00000
0,77303 0,78417
0,85332 0,87141
0,20811 0,21599
A-Squared 251,80
P-Value < 0,005
Mean 0,77860
StDev 0,21198
Variance 0,04494
Skewness -0,895147
Kurtosis -0,244816
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for PINDCRI_np
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,94 a 0,97
0,980,840,700,560,420,280,140,00
PINDCRI_np
Dotplot of PINDCRI_np
Each symbol represents up to 17 observations.
3.2.1.3. Variável: NESTUDA_np “Indicador de pessoas de 15 a 24 anos que estudam e ou trabalham e que não são vulneráveis à pobreza”. egue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “NESTUDA_np” Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,55 a 0,63 e mais uma entre 0,84 e 0,96 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,7600,7550,7500,7450,7400,7350,730
1st Quartile 0,60905
Median 0,75258
3rd Quartile 0,86787
Maximum 1,00000
0,72837 0,73670
0,74045 0,75920
0,15551 0,16139
A-Squared 61,29
P-Value < 0,005
Mean 0,73254
StDev 0,15839
Variance 0,02509
Skewness -0,387856
Kurtosis -0,679669
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for T_NESTUDA_NTRAB_MMEIO_np
Valores Atípicos: Há 4 valores atípicos onde podemos ressaltar os três municípios com menores índices para a variável “pessoas de 15 a 24 anos que estudam e ou trabalham e que não são vulneráveis à pobreza”. Os municípios são Amajari com 0,0000 (RR) no Norte, São João Batista com 0,1602 (MA) no Nordeste e Recursolândia com 0,1946 (TO) no Nordeste.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,56 e 0,60 e mais uma entre 0,84 e 0,93
0,980,840,700,560,420,280,140,00
T_NESTUDA_NTRAB_MMEIO_np
Dotplot of T_NESTUDA_NTRAB_MMEIO_np
Each symbol represents up to 9 observations.
3.2.1.4. Variável: FUNDI_TODOS_M_np “Indicador de pessoas em domicílios não vulneráveis à pobreza e em que tem fundamental completo” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável FUNDI_TODOS_M_np Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,56 a 0,83 e mais uma entre 0,85 e 0,97 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,760,750,740,730,72
1st Quartile 0,59277
Median 0,75027
3rd Quartile 0,87271
Maximum 1,00000
0,71933 0,72834
0,74278 0,75762
0,16826 0,17463
A-Squared 78,16
P-Value < 0,005
Mean 0,72383
StDev 0,17138
Variance 0,02937
Skewness -0,518668
Kurtosis -0,562850
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for T_FUNDIN_TODOS_MMEIO_np
Valores Atípicos: Há poucos valores atípicos onde podemos ressaltar os três municípios com menores índices de “pessoas em domicílios não vulneráveis à pobreza e que tem fundamental completo” Os municípios são: Melgaço (PA) no Norte com 0,0000, Itamarati (AM) com 0,0870 no Norte e Marajá do Sena (MA) com 0,0997 no Nordeste.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,56 e 0,84 e mais uma entre 0,85 e 0,97
0,980,840,700,560,420,280,140,00
T_FUNDIN_TODOS_MMEIO_np
Dotplot of T_FUNDIN_TODOS_MMEIO_np
Each symbol represents up to 9 observations.
3.2.1.5. Variável: MAXIDOSO_np “Indicador de pessoas em domicílios não vulneráveis à pobreza e dependentes de idosos” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável : MAXIDOSO_np Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,85 a 0,97 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à direita da referida faixa.
Valores Atípicos: Há poucos valores atípicos onde podemos ressaltar os três municípios com menores indicadores de “pessoas em domicílios não vulneráveis à pobreza e dependentes de idosos” Os municípios são: GAÚCHA DO NORTE (MT) com 0,000 no Centro este, BACURITUBA (MA) com 0,1629 no Nordeste e SERRANO DO MARANHÃO (MA) com 0,2895 no Nordeste.
0,980,840,700,560,420,280,140,00
Median
Mean
0,850,840,830,820,810,80
1st Quartile 0,70721
Median 0,84287
3rd Quartile 0,92130
Maximum 1,00000
0,80294 0,81014
0,83599 0,84810
0,13451 0,13961
A-Squared 116,61
P-Value < 0,005
Mean 0,80654
StDev 0,13701
Variance 0,01877
Skewness -0,756424
Kurtosis -0,031299
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for T_RMAXIDOSOnp
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,87 e 0,97
0,980,840,700,560,420,280,140,00
T_RMAXIDOSOnp
Dotplot of T_RMAXIDOSOnp
Each symbol represents up to 13 observations.
3.2.1.6. Variável: SOBRE40_np “Indicador probabilidade de sobrevivência até 40 anos”. Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável SOBRE40_np Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,56 a 0,75 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada ao centro da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,6200,6150,6100,6050,6000,595
1st Quartile 0,49879
Median 0,61259
3rd Quartile 0,70823
Maximum 1,00000
0,59535 0,60335
0,60775 0,61743
0,14929 0,15494
A-Squared 13,71
P-Value < 0,005
Mean 0,59935
StDev 0,15206
Variance 0,02312
Skewness -0,392852
Kurtosis 0,025091
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for SOBRE40(n)
Valores Atípicos: Há alguns valores atípicos onde podemos ressaltar os três municípios com menores valores para o “Indicador probabilidade de sobrevivência até 40 anos”. Os municípios são: Santa Helena de Minas (MG) com 0,000 no Sudeste, ROTEIRO (AL) com 0,0630 no Nordeste e OLHO D'ÁGUA GRANDE (AL) com 0,0738 no Nordeste.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,56 e 0,72
0,980,840,700,560,420,280,140,00
SOBRE40(n)
Dotplot of SOBRE40(n)
Each symbol represents up to 9 observations.
3.2.1.7. Variável: SOBRE60_np “Índice de probabilidade de sobrevivência até 60 ano” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável SOBRE60_np Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,42 a 0,76. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,5850,5800,5750,570
1st Quartile 0,48115
Median 0,58099
3rd Quartile 0,66968
Maximum 1,00000
0,56834 0,57603
0,57621 0,58630
0,14359 0,14903
A-Squared 8,07
P-Value < 0,005
Mean 0,57219
StDev 0,14626
Variance 0,02139
Skewness -0,334111
Kurtosis 0,228310
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for SOBRE60(n)
Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com menores índices para “probabilidade de sobrevivência até 60 anos” Os municípios são: Divisa Alegre (MG) com 0,0016 no Nordeste, CACIMBAS (PB) com 0,0733 no Nordeste e Palmópolis (MG) com 0,0813 no Sudeste.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,44 a 0,70
0,980,840,700,560,420,280,140,00
SOBRE60(n)
Dotplot of SOBRE60(n)
Each symbol represents up to 9 observations.
3.2.1.8. Variável: BANAGUA_np “Índice da população que vive em domicílios com banheiro e água encanada” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T_BANAGUA. Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,97 a 0,98 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a direita da referida faixa.
Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com menores valores para o índice população que vive em domicílios com banheiro e água encanada. Os municípios são: SANTA CECÍLIA (PB) com 0,000 no Nordeste, PEDRO DO ROSÁRIO com 0,0173 (MA) no Nordeste, e CACHOEIRA DO PIRIÁ (PA) com 0,0354no Norte.
0,980,840,700,560,420,280,140,00
Median
Mean
0,920,900,880,860,840,820,80
1st Quartile 0,66679
Median 0,90950
3rd Quartile 0,97933
Maximum 1,00000
0,79634 0,80814
0,90122 0,91654
0,22036 0,22870
A-Squared 358,52
P-Value < 0,005
Mean 0,80224
StDev 0,22445
Variance 0,05038
Skewness -1,21301
Kurtosis 0,55632
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for T_BANAGUA(n)
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,97 e 0,98.
0,980,840,700,560,420,280,140,00
T_BANAGUA(n)
Dotplot of T_BANAGUA(n)
Each symbol represents up to 24 observations.
3.2.1.9. Variável: DENS_np. “Índice da população que vive em domicílios com densidade inferior a 2 pessoas por dormitório”. Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável DENS_np Observações.
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,14 a 0,42 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada a esquerda da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,2800,2750,2700,2650,2600,2550,250
1st Quartile 0,16775
Median 0,25474
3rd Quartile 0,36288
Maximum 1,00000
0,27430 0,28206
0,25042 0,26032
0,14505 0,15054
A-Squared 60,82
P-Value < 0,005
Mean 0,27818
StDev 0,14774
Variance 0,02183
Skewness 1,04488
Kurtosis 1,63321
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for T_DENS(n)
Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com maiores índices ‘população que vive em domicílios com densidade inferior a 2 pessoas por dormitório’. Os municípios são: UIRAMUTÃ com 1,000 (RR) no Norte, SANTA ISABEL DO RIO NEGRO com 0,9881 (AM) no Norte, e MELGAÇO com 0,9749 (PA) no Norte.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,14 e 0,42
0,980,840,700,560,420,280,140,00
T_DENS(n)
Dotplot of T_DENS(n)
Each symbol represents up to 9 observations.
3.2.1.10 Variável: ESPVIDA_np “Esperança de vida ao nascer”. Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ESPVIDA_np Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,42 a 0,44 e mais uma entre 0,57 e 0,82. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,620,610,600,590,58
1st Quartile 0,43853
Median 0,61244
3rd Quartile 0,73913
Maximum 1,00000
0,57854 0,58911
0,60570 0,61844
0,19726 0,20473
A-Squared 34,97
P-Value < 0,005
Mean 0,58383
StDev 0,20093
Variance 0,04037
Skewness -0,409423
Kurtosis -0,486571
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for ESPVIDAn
Valores atípicos: Não tem pontos atípicos. O Dot-plot abaixo confirma a assimetria e a concentração os valores assim: entre 0,42 a 0,44 e mais uma entre 0,57 e 0,82.
0,980,840,700,560,420,280,140,00
ESPVIDAn
Dotplot of ESPVIDAn
Each symbol represents up to 6 observations.
3.2.1.11. Variável: IDHM_np “Índice de Desenvolvimento Humano Municipal” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IDHM_np Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,30 a 0,44 e mais uma entre 0,57 e 0,82. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,5650,5600,5550,5500,5450,540
1st Quartile 0,40766
Median 0,55631
3rd Quartile 0,67568
Maximum 1,00000
0,53882 0,54734
0,54955 0,56532
0,15914 0,16516
A-Squared 40,64
P-Value < 0,005
Mean 0,54308
StDev 0,16209
Variance 0,02627
Skewness -0,156737
Kurtosis -0,846019
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for IDHMn
Valores Atípicos: Há um só valor atípico no município de MELGAÇO apontando um índice de Desenvolvimento Humano Municipal de 0,0000 (PA) localizado no Norte do país para .
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,30 e 0,42 e mais uma entre 0,68 e 0,82
0,980,840,700,560,420,280,140,00
IDHMn
Dotplot of IDHMn
Each symbol represents up to 7 observations.
3.2.1.12. Variável: ALF11A14_np “Índice de alfabetismo da população de 11 a 14 anos de idade” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ALF11A14_np Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,01 a 0,14 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à esquerda da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,100,090,080,070,060,05
1st Quartile 0,03053
Median 0,05195
3rd Quartile 0,13443
Maximum 1,00000
0,09209 0,09720
0,05003 0,05362
0,09552 0,09914
A-Squared 372,45
P-Value < 0,005
Mean 0,09465
StDev 0,09730
Variance 0,00947
Skewness 2,16651
Kurtosis 7,33493
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for ALFAB 11A14n
Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com maiores índices de alfabetismo da população entre 11 a 14 anos de idade. Os municípios são: ALTO ALEGRE com 1,000 no Município RR localizado no Norte, SANTA ISABEL DO RIO NEGRO com 0,8894 em o município (AM) localizado no Norte, ATALAIA DO NORTE com 0,7966 em AM, município localizado no Norte do país.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,01 e 0,12
0,980,840,700,560,420,280,140,00
ALFAB 11A14n
Dotplot of ALFAB 11A14n
Each symbol represents up to 35 observations.
3.2.1.13. Variável: ALF15A17_np “Alfabetismo da população entre 15 a 17 anos de idade” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ALF15A17_np Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,01 a 0,14 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à esquerda da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,0800,0750,0700,0650,0600,0550,050
1st Quartile 0,02863
Median 0,05100
3rd Quartile 0,11095
Maximum 1,00000
0,07734 0,08138
0,04921 0,05279
0,07557 0,07843
A-Squared 298,31
P-Value < 0,005
Mean 0,07936
StDev 0,07697
Variance 0,00592
Skewness 2,6772
Kurtosis 15,1646
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for AFALB 15A17n
“Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com maiores índices de ‘Alfabetismo da população entre 15 a 17 anos de idade”. Os municípios são: ALTO ALEGRE com 1,000 no município de RR localizado no Norte, SANTA ISABEL DO RIO NEGRO com 0,9153 no município de AM localizado no Norte, e AMAJARI com 0,9016 no município RR localizado no Norte também.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,001 e 0,12
0,980,840,700,560,420,280,140,00
AFALB 15A17n
Dotplot of AFALB 15A17n
Each symbol represents up to 32 observations.
3.2.1.14. Variável: ALF18M_np “alfabetismo da população de 18 anos ou mais de idade” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ALF18M_np. Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,03 a 0,28 e mais uma entre 0,56 e 0,72. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada ao centro das duas faixas referidas.
0,980,840,700,560,420,280,140,00
Median
Mean
0,360,340,320,300,28
1st Quartile 0,16333
Median 0,28155
3rd Quartile 0,54205
Maximum 1,00000
0,34617 0,35822
0,27427 0,29012
0,22505 0,23357
A-Squared 142,07
P-Value < 0,005
Mean 0,35220
StDev 0,22923
Variance 0,05255
Skewness 0,597951
Kurtosis -0,784988
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for ALFAB 18Mn
Valores atípicos. Não tem pontos atípicos. O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,03 e 0,28 e mais uma entre 0,56 e 0,70.
0,980,840,700,560,420,280,140,00
ALFAB 18Mn
Dotplot of ALFAB 18Mn
Each symbol represents up to 7 observations.
3.2.1.15. Variável: RENOCUP “Rendimento médio dos ocupados”. Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável RENOCUP
0,980,840,700,560,420,280,140,00
Median
Mean
0,21500,21250,21000,20750,20500,20250,2000
1st Quartile 0,11579
Median 0,20561
3rd Quartile 0,28660
Maximum 1,00000
0,20863 0,21452
0,20019 0,21051
0,11005 0,11422
A-Squared 35,54
P-Value < 0,005
Mean 0,21158
StDev 0,11209
Variance 0,01257
Skewness 0,70531
Kurtosis 1,17887
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for RENOCUPn
Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,02 a 0,43 O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à esquerda da referida faixa.
Valores Atípicos: Há um número expressivo de valores atípicos onde podemos ressaltar os três municípios com maiores índices para “Rendimento médio dos ocupados”. Os municípios são: SANTANA DE PARNAÍBA com 1,000 no estado de SP localizado no Sudeste, SÃO CAETANO DO SUL com 0,9306 no estado de SP localizado no Sudeste e o munícipio NITERÓI com 0,8512 localizado no estado de RJ no Sudeste do país.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,02 e 0,40
0,980,840,700,560,420,280,140,00
RENOCUPn
Dotplot of RENOCUPn
Each symbol represents up to 11 observations.
3.2.1.16. Variável: PRENTRAB “Percentual da renda proveniente de rendimentos do trabalho” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável PRENTRAB Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,42 a 0,84. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,640,630,620,610,60
1st Quartile 0,49583
Median 0,63626
3rd Quartile 0,72508
Maximum 1,00000
0,60121 0,60958
0,63065 0,64114
0,15632 0,16224
A-Squared 56,59
P-Value < 0,005
Mean 0,60539
StDev 0,15923
Variance 0,02535
Skewness -0,540203
Kurtosis -0,306711
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for PRENTRABn
Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os três municípios com menores indicadores para “Renda proveniente de rendimentos do trabalho”. Os municípios são: Jequitibá com 0,0000, localizado no estado MG no Sudeste, São José dos Cordeiros com 0,0587 no estado de PB localizado no Nordeste, e Aroeiras do Itaim com 0,0736 no estado de PI localizado no Nordeste.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,56 e 0,84
0,980,840,700,560,420,280,140,00
PRENTRABn
Dotplot of PRENTRABn
Each symbol represents up to 9 observations.
3.2.1.17. Variável: P_FORMAL “Grau de formalização do trabalho das pessoas ocupadas” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável P_FORMAL Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,14 a 0,84. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada ao centro da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,4800,4750,4700,4650,4600,4550,450
1st Quartile 0,27107
Median 0,46291
3rd Quartile 0,65933
Maximum 1,00000
0,46464 0,47640
0,45108 0,47604
0,21966 0,22798
A-Squared 65,17
P-Value < 0,005
Mean 0,47052
StDev 0,22374
Variance 0,05006
Skewness 0,11467
Kurtosis -1,15758
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for P_FORMAn
Pontos atípicos:Não tem pontos atípicos O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,14 e 0,84
0,980,840,700,560,420,280,140,00
P_FORMAn
Dotplot of P_FORMAn
Each symbol represents up to 5 observations.
3.2.1.18. Variável: DES2529_np “Índice de desocupação da população de 25 a 29 anos de idade” Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável DES2529_np Observações:
Forma. O histograma apresenta uma distribuição concentrada na faixa entre 0,80 a 0,98. O box.plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocada à direita da referida faixa.
0,980,840,700,560,420,280,140,00
Median
Mean
0,8450,8400,8350,8300,8250,820
1st Quartile 0,76663
Median 0,84216
3rd Quartile 0,90755
Maximum 1,00000
0,82268 0,82867
0,83923 0,84523
0,11173 0,11596
A-Squared 64,58
P-Value < 0,005
Mean 0,82568
StDev 0,11380
Variance 0,01295
Skewness -1,19667
Kurtosis 2,78096
N 5564
Minimum 0,00000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for T_DES2529np
Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os três municípios com menores indicadores para “Desocupação da população de 25 a 29 anos de idade”. Os municípios são: RIACHO DA CRUZ com 0,000 no estado de RN no Nordeste do país, CAMPO ALEGRE DO FIDALGO com 0,0122 no estado de PI no Nordeste, e AMAJARI com 0,1711 no estado RR localizado no Norte do país.
O Dot-plot abaixo confirma a assimetria e a concentração dos valores entre 0,80 e 0,98
0,980,840,700,560,420,280,140,00
T_DES2529np
Dotplot of T_DES2529np
Each symbol represents up to 12 observations.
Abaixo apresenta-se uma comparação dos diferentes quesitos que foram analisados nas variáveis anteriores. A tabela apresenta uma relação que permite comparar os histogramas, Box/plot, Curva de Densidade, Média, Desvio Padrão e mediana.
Tabela 2. Analise Comparativa das variáveis.
3.2.2. Relação entre variáveis: Correlação e Regressão. 3.2.2.1. Correlação. É uma técnica que permite estabelecer uma forma de estimação dos dados. “A correlação mede a forca ou o grau de relacionamento entre duas variáveis”2. A tabela número 3 relaciona as variáveis com maior grau de correlação:
Grau
de
Correlação
ESPVIDAnEsperança de vida ao nascer
0,967
IDHMnÍndice de Desenvolvimento Humano Municipal
0,829
T_FUNDIN_TODOS_np
Indicador de pessoas em domicílios em que pelo
menos uma pessoa tem fundamental completo. 0,879
T_BANAGUA_np
Indice da população que vive em domicílios com
banheiro e água encanada 0,866
IDHMnÍndice de Desenvolvimento Humano Municipal
0,87
T_FUNDIN_TODOS_np
Indicador de pessoas em domicílios em que pelo
menos uma pessoa tem fundamental completo. 0,835
T_RMAXIDOSO_np
Indicador de pessoas em domicílios não
vulneráveis à pobreza e dependentes de idosos 0,834
IDHMn Índice de Desenvolvimento Humano Municipal
0,837
T_FUNDIN_TODOS_MMEIOIndicador de pessoas em domicílios em que pelo
menos uma pessoa tem fundamental completo.IDHMn
Índice de Desenvolvimento Humano Municipal
0,962
SOBRE40(n)Indicador de Probabilidade de sobrevivência até
40 anosSOBRE60(n)
Indicador de Probabilidade de sobrevivência até
60 anos0,956
ESPVIDAn
Esperança de vida ao nascer
IDHMn
Índice de Desenvolvimento Humano Municipal
0,852
RENOCUPn Rendimento médio dos ocupados 0,869
P_FORMAn
Grau de formalização do trabalho
das pessoas ocupadas 0,824
ALFAB 11A14nIndicador de Alfabetismo - 11 a 14 anos AFALB 15A17n Indicador de Alfabetismo - 15 a 17 anos
0,919
NESTUDA_np
Indicador de pessoas de 15 a 24 anos que
estudam e ou trabalham e não são vulneráveis à
pobreza.
IDHMn Índice de Desenvolvimento Humano Municipal
Correlations: MORT1_np. PINDCRI_np. T_NESTUDA_NT. T_FUNDIN_TOD. ...
Variável Variável
MORTI_np Supervivencia Infantil de até um ano
PINDRI_npIndicador Crinças fora de risco de ser
Extremadamente pobres
Na coluna Grau de Correlação apresenta-se em cor verde as variáveis mais representativas.
2 ESTADISTICA APLICADA Á ADMINISTRAÇÃO (1984) pág. 341.
3.2.2.2. Gráficos de Dispersão. Os gráficos de dispersão proporcionam uma útil visualização do relacionamento na análise de dados, não obstante é necessário desenvolver os métodos de cálculo também. Este tipo de gráfico deve ser inicialmente analisado quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade.
Nos gráficos abaixo são apresentadas as relações entre as variáveis a través da ferramenta Scatterplot.
Direção: Da análise das correlações acima percebemos que exceto pela gráfica Alfab 18 X IDHM, todas possuem associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual. Intensidade: Alguns dos gráficos acima não parecem indicar a existência de relações lineares, como:
PINDCRI_np x IDHM_np
NESTUDA_np x IDHM_np
FORMA_np x IDHM_np
FUNDI_TODOS_np x PINDRI_np Porém, outros parecem indicar relações lineares como:
MORTI_np x ESPVIDA_np
T_FUNDIN_TODOS x IDHM_np
Forma: A maioria dos gráficos tem uma distribuição que parece pulverizada, com exceção do gráfico MORTI_np x ESPVIDA_np que sugerem relações lineares.
Valores Atípicos: Praticamente todos os gráficos indicam a existência de valores atípicos, ou seja, municípios, que tem dados longe dos demais.
3.2.2.3. Linhas de Tendência.
IDHM x ALFA18 apresenta um relacionamento negativo, moderado. FORMA x IDHM apresenta relacionamento positivo, moderato. Não existem relacionamentos positivos, perfeitos. O mais perto deste conceito é MORTI x Espvida e Fundin_Todos_M x IDHM
A linha de tendência permite verificar qual é o tipo de relação existente entre variáveis se é linear, quadrática, cubica, exponencial, etc. A relação MORTI_np x ESPVIDA_np estabelece que existe uma grande relação entre supervivência infantil e Expectativa de vida.
3.2.2.4. Correlação Linear.
A matriz embaixo apresenta o coeficiente de correlação conhecido como r de Pearson, em homenagem ao matemático Karl Pearson.
A correlação é sempre um número entre zero e um, e mede a intensidade das relações lineares que podem ser:
Relacionamento positivo perfeito
Relacionamento positivo, moderado.
Ausência de Relacionamento
Relacionamento negativo, moderado.
Relacionamento negativo, perfeito.
Correlations: MORT1_np. PINDCRI_np. T_NESTUDA_NT. T_FUNDIN_TOD. ... MORT1_np PINDCRI_np T_NESTUDA_NTRAB_
PINDCRI_np 0,777
T_NESTUDA_NTRAB_ 0,741 0,825
T_FUNDIN_TODOS_M 0,796 0,879 0,835
T_RMAXIDOSOnp 0,724 0,823 0,834
SOBRE40(n) 0,463 0,188 0,206
SOBRE60(n) 0,590 0,293 0,303
T_BANAGUA(n) 0,739 0,866 0,722
T_DENS(n) -0,594 -0,677 -0,670
ESPVIDAn 0,967 0,776 0,753
IDHMn 0,829 0,870 0,837
ALFAB 11A14n -0,692 -0,758 -0,670
AFALB 15A17n -0,668 -0,727 -0,670
ALFAB 18Mn -0,827 -0,840 -0,805
RENOCUPn 0,705 0,762 0,721
PRENTRABn 0,593 0,704 0,618
P_FORMAn 0,678 0,798 0,697
T_DES2529np 0,373 0,341 0,526
0,000 0,000 0,000
T_FUNDIN_TODOS_M T_RMAXIDOSOnp SOBRE40(n)
T_RMAXIDOSOnp 0,799
SOBRE40(n) 0,295 0,212
SOBRE60(n) 0,384 0,305 0,956
T_BANAGUA(n) 0,810 0,706 0,132
T_DENS(n) -0,662 -0,563 -0,054
ESPVIDAn 0,802 0,726 0,504
IDHMn 0,962 0,799 0,351
ALFAB 11A14n -0,772 -0,643 -0,124
AFALB 15A17n -0,755 -0,624 -0,135
ALFAB 18Mn -0,883 -0,803 -0,289
RENOCUPn 0,792 0,731 0,312
RENTRABn 0,620 0,691 0,202
P_FORMAn 0,802 0,715 0,228
T_DES2529np 0,340 0,430 0,035
0,000 0,000 0,010
SOBRE60(n) T_BANAGUA(n) T_DENS(n)
T_BANAGUA(n) 0,230
T_DENS(n) -0,141 -0,750
ESPVIDAn 0,635 0,726 -0,589
IDHMn 0,453 0,806 -0,646
ALFAB 11A14n -0,215 -0,753 0,691
AFALB 15A17n -0,224 -0,704 0,645
ALFAB 18Mn -0,390 -0,748 0,541
RENOCUPn 0,418 0,657 -0,430
PRENTRABn 0,307 0,528 -0,245
P_FORMAn 0,310 0,722 -0,470
T_DES2529np 0,089 0,269 -0,395
ESPVIDAn IDHMn ALFAB 11A14n
IDHMn 0,852
ALFAB 11A14n -0,667 -0,744
AFALB 15A17n -0,646 -0,723 0,919
ALFAB 18Mn -0,826 -0,886 0,755
RENOCUPn 0,742 0,869 -0,562
PRENTRABn 0,585 0,638 -0,462
P_FORMAn 0,709 0,824 -0,581
T_DES2529np 0,372 0,334 -0,329
0,000 0,000 0,000
AFALB 15A17n ALFAB 18Mn RENOCUPn
ALFAB 18Mn 0,756
RENOCUPn -0,550 -0,796
PRENTRABn -0,460 -0,701 0,753
P_FORMAn -0,568 -0,772 0,802
T_DES2529np -0,312 -0,354 0,247
0,000 0,000 0,000
PRENTRABn P_FORMAn
P_FORMAn 0,631
T_DES2529np 0,270 0,185
Cell Contents: Pearson correlation
P-Value
3.2.2.5. Dendrograma. Diagrama que organiza determinados fatores e variáveis. Apresenta um diagrama de similaridade. A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo.
Cluster Analysis of Variables: MORT1_np. PINDCRI_np. T_NESTUDA_NT. ... Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 17 98,3572 0,03286 1 10 1 2
2 16 98,0777 0,03845 4 11 4 2
3 15 97,8091 0,04382 6 7 6 2
4 14 95,9428 0,08114 12 13 12 2
5 13 93,9314 0,12137 2 4 2 3
6 12 93,4643 0,13071 2 15 2 4
7 11 93,3117 0,13377 2 8 2 5
8 10 92,6019 0,14796 1 2 1 7
9 9 91,8716 0,16257 1 3 1 8
10 8 91,7035 0,16593 1 5 1 9
11 7 91,1857 0,17629 1 17 1 10
12 6 87,8062 0,24388 12 14 12 3
13 5 87,6672 0,24666 1 16 1 11
14 4 84,5617 0,30877 9 12 9 4
15 3 81,7410 0,36518 1 6 1 13
16 2 76,3215 0,47357 1 18 1 14
17 1 47,2914 1,05417 1 9 1 18
Segue abaixo o Dendrograma das variáveis analisadas:
ALF
AB 18
Mn
AFA
LB 1
5A17
n
ALF
AB
11A14
n
T_DEN
S(n)
T_DES
2529
np
SOBR
E60(n)
SOBR
E40(
n)
PREN
TRABn
P_FO
RMAn
T_RM
AXIDOSO
np
T_NES
TUDA_N
TRAB_
MMEIO_n
p
T_BA
NAG
UA(n
)
RENOCU
Pn
IDHMn
T_FU
NDIN
_TODOS_
MMEI
O_n
p
PIND
CRI_
np
ESPV
IDAn
MORT
1_np
47,29
64,86
82,43
100,00
Variables
Sim
ila
rity
DendrogramSingle Linkage. Correlation Coefficient Distance
As variáveis com maior grau de similaridade se podem determinar por grupos assim:
Morti_np, Espvida
Fundi_todos_np, IDHM_np
Sobre40_np, Sobre60_np
Alfabetismo_11ª14, Alfabetismo_15ª17 3.2.3. Regressão Multivariada & Stepwise A regressão compreende a analise de dados amostrais para saber como uma ou mais variáveis estão relacionadas. Em quanto à correlação apresenta o grau de relação entre as variáveis, a regressão oferece uma equação matemática que descreve o relacionamento. Existem algumas situações nas que as regressões são de muita utilidade3:
Quando duas variáveis medem aproximadamente a mesma coisa, mas uma delas pode ser relativamente dispendiosa, ou difícil de lidas, enquanto a outra não.
3 Estatística Aplicada a Administração. Capitulo 14 pag. 341
Explicar valores de uma variável em termos da outra. (uma relação de causa e efeito entre duas variáveis).
Predizer valores futuros de uma variável. Para a realização das seguintes regressões, os dados foram normalizados. Normalizar é passar uma variável de uma percentagem para um novo indicador.
General Regression Analysis
Regression Analysis: MORT1_np versus ESPVIDAn. IDHMn The regression equation is
MORT1_np = 0,193 + 0,883 ESPVIDAn + 0,0202 IDHMn
Predictor Coef SE Coef T P
Constant 0,192792 0,002220 86,84 0,000
ESPVIDAn 0,882807 0,006034 146,30 0,000
IDHMn 0,020236 0,007480 2,71 0,007
S = 0,0473394 R-Sq = 93,5% R-Sq(adj) = 93,5%
Analysis of Variance
Source DF SS MS F P
Regression 2 180,605 90,303 40295,37 0,000
Residual Error 5561 12,462 0,002
Total 5563 193,067
Regression Analysis: PINDCRI_np versus T_BANAGUA(n). IDHMn. T_FUNDIN_TOD The regression equation is
PINDCRI_np = 0,00445 + 0,411 T_BANAGUA(n) + 0,230 IDHMn
+ 0,441 T_FUNDIN_TODOS_MMEIO_np
Predictor Coef SE Coef T P
Constant 0,004453 0,005736 0,78 0,438
T_BANAGUA(n) 0,411259 0,008670 47,43 0,000
IDHMn 0,23020 0,02562 8,98 0,000
T_FUNDIN_TODOS_MMEIO_np 0,44098 0,02447 18,02 0,000
S = 0,0838614 R-Sq = 84,4% R-Sq(adj) = 84,3%
Analysis of Variance
Source DF SS MS F P
Regression 3 210,875 70,292 9994,92 0,000
Residual Error 5560 39,102 0,007
Total 5563 249,977
Regression Analysis: T_NESTUDA_NT versus T_FUNDIN_TOD. T_RMAXIDOSOn. ... The regression equation is
T_NESTUDA_NTRAB_MMEIO_np = 0,0318 + 0,196 T_FUNDIN_TODOS_MMEIO_np
+ 0,506 T_RMAXIDOSOnp + 0,277 IDHMn
Predictor Coef SE Coef T P
Constant 0,031761 0,006909 4,60 0,000
T_FUNDIN_TODOS_MMEIO_np 0,19604 0,02156 9,09 0,000
T_RMAXIDOSOnp 0,50649 0,01232 41,11 0,000
IDHMn 0,27689 0,02279 12,15 0,000
S = 0,0743549 R-Sq = 78,0% R-Sq(adj) = 78,0%
Analysis of Variance
Source DF SS MS F P
Regression 3 108,829 36,276 6561,53 0,000
Residual Error 5560 30,739 0,006
Total 5563 139,569
Regression Analysis: T_FUNDIN_TODOS_MMEIO_np versus IDHMn The regression equation is
T_FUNDIN_TODOS_MMEIO_np = 0,172 + 1,02 IDHMn
Predictor Coef SE Coef T P
Constant 0,171710 0,002206 77,82 0,000
IDHMn 1,01665 0,00389 261,14 0,000
S = 0,0470680 R-Sq = 92,5% R-Sq(adj) = 92,5%
Analysis of Variance
Source DF SS MS F P
Regression 1 151,07 151,07 68192,33 0,000
Residual Error 5562 12,32 0,00
Total 5563 163,39
Regression Analysis: SOBRE40(n) versus SOBRE60(n) The regression equation is
SOBRE40(n) = 0,0305 + 0,994 SOBRE60(n)
Predictor Coef SE Coef T P
Constant 0,030540 0,002410 12,67 0,000
SOBRE60(n) 0,994099 0,004081 243,57 0,000
S = 0,0445237 R-Sq = 91,4% R-Sq(adj) = 91,4%
Analysis of Variance
Source DF SS MS F P
Regression 1 117,60 117,60 59325,68 0,000
Residual Error 5562 11,03 0,00
Total 5563 128,63
Regression Analysis: ESPVIDAn versus IDHMn The regression equation is
ESPVIDAn = 0,0102 + 1,06 IDHMn
Predictor Coef SE Coef T P
Constant 0,010249 0,004931 2,08 0,038
IDHMn 1,05615 0,00870 121,39 0,000
S = 0,105190 R-Sq = 72,6% R-Sq(adj) = 72,6%
Analysis of Variance
Source DF SS MS F P
Regression 1 163,04 163,04 14735,01 0,000
Residual Error 5562 61,54 0,01
Total 5563 224,58
Regression Analysis: IDHMn versus RENOCUPn. P_FORMAn The regression equation is
IDHMn = 0,243 + 0,846 RENOCUPn + 0,257 P_FORMAn
Predictor Coef SE Coef T P
Constant 0,243220 0,002284 106,50 0,000
RENOCUPn 0,84564 0,01449 58,35 0,000
P_FORMAn 0,257043 0,007260 35,40 0,000
S = 0,0723944 R-Sq = 80,1% R-Sq(adj) = 80,1%
Analysis of Variance
Source DF SS MS F P
Regression 2 117,020 58,510 11164,02 0,000
Residual Error 5561 29,145 0,005
Total 5563 146,165
Regression Analysis: ALFAB 11A14n versus AFALB 15A17n The regression equation is
ALFAB 11A14n = 0,00247 + 1,16 AFALB 15A17n
Predictor Coef SE Coef T P
Constant 0,0024675 0,0007394 3,34 0,001
AFALB 15A17n 1,16149 0,00669 173,67 0,000
S = 0,0383961 R-Sq = 84,4% R-Sq(adj) = 84,4%
Analysis of Variance
Source DF SS MS F P
Regression 1 44,464 44,464 30160,01 0,000
Residual Error 5562 8,200 0,001
Total 5563 52,663
General Regression Analysis: PINDCRI_np versus T_FUNDIN_TOD. T_BANAGUA(n). ... Regression Equation
PINDCRI_np = 0,0044533 + 0,440984 T_FUNDIN_TODOS_MMEIO_np + 0,411259
T_BANAGUA(n) + 0,230201 IDHMn
Coefficients
Term Coef SE Coef T P
Constant 0,004453 0,0057364 0,7763 0,438
T_FUNDIN_TODOS_MMEIO_np 0,440984 0,0244713 18,0204 0,000
T_BANAGUA(n) 0,411259 0,0086703 47,4333 0,000
IDHMn 0,230201 0,0256206 8,9850 0,000
Summary of Model
S = 0,0838614 R-Sq = 84,36% R-Sq(adj) = 84,35%
PRESS = 39,1749 R-Sq(pred) = 84,33%
Analysis of Variance
Source DF Seq SS Adj SS Adj MS F P
Regression 3 210,875 210,875 70,2916 9994,92 0
T_FUNDIN_TODOS_MMEIO_np 1 192,979 2,284 2,2838 324,74 0
T_BANAGUA(n) 1 17,328 15,823 15,8231 2249,92 0
IDHMn 1 0,568 0,568 0,5678 80,73 0
Error 5560 39,102 39,102 0,0070
Total 5563 249,977
General Regression Analysis: MORT1_np versus ESPVIDAn. IDHMn Regression Equation
MORT1_np = 0,192792 + 0,882807 ESPVIDAn + 0,0202364 IDHMn
Coefficients
Term Coef SE Coef T P
Constant 0,192792 0,0022200 86,842 0,000
ESPVIDAn 0,882807 0,0060344 146,296 0,000
IDHMn 0,020236 0,0074800 2,705 0,007
Summary of Model
S = 0,0473394 R-Sq = 93,55% R-Sq(adj) = 93,54%
PRESS = 12,4792 R-Sq(pred) = 93,54%
Analysis of Variance
Source DF Seq SS Adj SS Adj MS F P
Regression 2 180,605 180,605 90,3025 40295,4 0,0000000
ESPVIDAn 1 180,589 47,963 47,9634 21402,5 0,0000000
IDHMn 1 0,016 0,016 0,0164 7,3 0,0068428
Error 5561 12,462 12,462 0,0022
Lack-of-Fit 5421 12,358 12,358 0,0023 3,1 0,0000000
Pure Error 140 0,104 0,104 0,0007
Total 5563 193,067
General Regression Analysis: ESPVIDAn versus IDHMn
Regression Equation
ESPVIDAn = 0,010249 + 1,05615 IDHMn
Coefficients
Term Coef SE Coef T P
Constant 0,01025 0,0049311 2,078 0,038
IDHMn 1,05615 0,0087006 121,388 0,000
Summary of Model
S = 0,105190 R-Sq = 72,60% R-Sq(adj) = 72,59%
PRESS = 61,5926 R-Sq(pred) = 72,57%
Analysis of Variance
Source DF Seq SS Adj SS Adj MS F P
Regression 1 163,041 163,041 163,041 14735,0 0
IDHMn 1 163,041 163,041 163,041 14735,0 0
Error 5562 61,543 61,543 0,011
Lack-of-Fit 346 7,511 7,511 0,022 2,1 0
Pure Error 5216 54,031 54,031 0,010
Total 5563 224,584
General Regression Analysis: T_FUNDIN_TODOS_MMEIO_np versus IDHMn
Regression Equation
T_FUNDIN_TODOS_MMEIO_np = 0,17171 + 1,01665 IDHMn
Coefficients
Term Coef SE Coef T P
Constant 0,17171 0,0022065 77,821 0,000
IDHMn 1,01665 0,0038932 261,137 0,000
Summary of Model
S = 0,0470680 R-Sq = 92,46% R-Sq(adj) = 92,46%
PRESS = 12,3328 R-Sq(pred) = 92,45%
Analysis of Variance
Source DF Seq SS Adj SS Adj MS F P
Regression 1 151,073 151,073 151,073 68192,3 0
IDHMn 1 151,073 151,073 151,073 68192,3 0
Error 5562 12,322 12,322 0,002
Lack-of-Fit 346 3,295 3,295 0,010 5,5 0
Pure Error 5216 9,027 9,027 0,002
Total 5563 163,395
Stepwise Regression: T_FUNDIN_TODOS_MMEIO_np versus IDHMn
Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is T_FUNDIN_TODOS_MMEIO_np on 1 predictors, with N = 5564
Step 1
Constant 0,1717
IDHMn 1,0166
T-Value 261,14
P-Value 0,000
S 0,0471
R-Sq 92,46
R-Sq(adj) 92,46
Mallows Cp 2,0
Stepwise Regression: MORT1_np versus IDHMn. ESPVIDAn Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is MORT1_np on 2 predictors, with N = 5564
Step 1 2
Constant 0,1957 0,1928
ESPVIDAn 0,8967 0,8828
T-Value 283,71 146,30
P-Value 0,000 0,000
IDHMn 0,0202
T-Value 2,71
P-Value 0,007
S 0,0474 0,0473
R-Sq 93,54 93,55
R-Sq(adj) 93,54 93,54
Mallows Cp 8,3 3,0
Stepwise Regression: PINDCRI_np versus T_FUNDIN_TOD. T_BANAGUA(n). IDHMn
Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is PINDCRI_np on 3 predictors, with N = 5564
Step 1 2 3
Constant -0,008038 -0,022512 0,004453
T_FUNDIN_TODOS_MMEIO_np 1,0868 0,6365 0,4410
T-Value 137,23 56,45 18,02
P-Value 0,000 0,000 0,000
T_BANAGUA(n) 0,4243 0,4113
T-Value 49,29 47,43
P-Value 0,000 0,000
IDHMn 0,230
T-Value 8,98
P-Value 0,000
S 0,101 0,0845 0,0839
R-Sq 77,20 84,13 84,36
R-Sq(adj) 77,19 84,12 84,35
Mallows Cp 2544,6 82,7 4,0
3.2.4. Análise de Tendências e Projeções (IBGE Series Estadísticas & Series Históricas)
Se apresenta uma análise de tendência e projeções das variáveis temporais e quantitativas "Mortalidade taxa de mortalidade infantil", "Taxa de frequência a escola ou creche de crianças de 0 a 6 anos de idade" (TaxFreEsCr06), "Existência de instalação sanitária no domicílio" (ExtInstSanDom). Os dados utilizados são referentes ao Brasil, e a fonte de dados foi tirada do IBGE Instituto Brasileiro de Geografia e Estatística www.seriesestatisticas.ibge.gov.br.
A analise espoe três partes assim: i) análise do comportamento histórico através de gráficos, ii) Análise de tendências, identificando a função que melhor representa a cada variáveis. iii) Análise de projeções através de extrapolações estatísticas. O software estatístico utilizado foi o MINITAB16.
3.2.4.1. Entendendo os dados 3.2.4.1.1. Os Indivíduos Os dados são séries históricas referentes ao Brasil, portanto, tratam-se de séries temporais. As séries vão de 2001 a 2007 para a variável “Taxa de frequência à escola ou creche de crianças de 0 a 6 anos de idade” abreviação TaxFreEsCr06, de 1997 a 2008 “Mortalidade Infantil” e 2001 a 2009 “Existência de Instalação Sanitária no domicilio comum a mais de um” abreviação ExtInstSanDom. 3.2.4.1.2. As Variáveis São três as variáveis pesquisadas mais a variável ano. Ver Tabela 2.
Tabela 2. As Variáveis
Variável Significado Conceito TipoUnidade
de Medida
Ano Ano É o ano do dado de cada variável. Categorica NA
Mortalidade taxa de mortalidade infantil
Número de óbitos de menores de
um ano de idade, por mil nascidos
vivos, na população residente em
determinado espaço geográfico, no
ano considerado.
Numérica Taxa
TaxFreEsCr06Taxa de frequencia a escola ou
creche de crianças de 0 a 6 anos
de idade
Percentagem de pessoas de uma
determinada faixa etária que
freqüenta escola em relação ao total
de pessoas da mesma faixa etária.
Numérica Taxa
ExtInstSanDomExistência de instalação sanitária
no domicílio
Saneamento Básico. É caracterizado
através dos seguintes indicadores:
abastecimento de água, esgotamento
sanitário, filtro de água, uso de
instalação sanitária e destino do lixo.
Numérica Percentual
3.2.4.1.3. A fonte e o tamanho da série de dados A fonte foi o portal do Instituto Brasileiro de Geografia e Estatística (IBGE) - http://seriesestatisticas.ibge.gov.br A serie de dados de Mortalidade Infantil é considerada satisfatória porque possui mais de 10 anos de informações, não em tanto as series de "Taxa de frequência a escola ou creche de crianças de 0 a 6 anos de idade" e "Existência de instalação sanitária no domicílio" que possuem 7 e 9 anos respectivamente, mesmo assim foram importantes no momento de sua seleção porque representam relação com a dimensão de Vulnerabilidade objeto de estudo da matéria. A Tabela de Dados
Brasil Mortalidade TaxFreEsCr06 ExtInstSanDom
1997 31,9 nd nd
1998 30,43 nd nd
1999 28,37 nd nd
2000 27,36 nd nd
2001 26,3 34,9 1,58
2002 24,89 36,5 1,35
2003 23,88 37,7 1,35
2004 22,59 40,2 1,11
2005 21,43 40,8 1,09
2006 20,66 43 1
2007 20,01 44,5 0,93
2008 17,56 nd 0,9
2009 nd nd 0,79
* Tinham instalacao sanitaria - comum a mais de um
nd = não divulgado
3.2.4.2. Análise das Variáveis Para cada variável analisa-se o comportamento histórico da série, linhas de tendência, funções e erros fazendo uso de gráficos. 3.2.4.2.1. Variável: Mortalidade
121110987654321
32
30
28
26
24
22
20
18
16
Index
Mo
rta
lid
ad
e
Time Series Plot of Mortalidade
O comportamento da variável Os gráficos facilitam a verificação visual do comportamento das variáveis assim como o comportamento histórico. O gráfico acima permite estabelecer que a variável “Mortalidade” é uma serie temporal com tendência descendente.
A análise de tendência Para a análise de tendência da série de dados, apresentam-se as funções linear, quadrática, exponencial e s-curve identificado qual é aquela que representa melhor a variável. Para medir a eficiência da função ou da curva de tendência, se analisam os erros:
MAPE (Mean Average Percentual Error)
MAD (Mean Absolute Deaviation) e
MSD (Mean Standard Deviation).
Os gráficos abaixo incluem a função, a linha de tendência e os erros.
A seguinte tabela permite identificar os três tipos de erros para cada uma das funções e assim estabelecer qual é a melhor função que representa a variável mortalidade, isto quer dizer aquela com o menor grau de erro.
Linear Quadrática Exponencial S-Curve
MAPE 1,47612 1,18358 0,18657 1,23145
MAD 0,35191 0,26350 0,25339 0,27880
MSD 0,16637 0,12615 0,13471 0,13315
A função Quadrática é a que melhor representa a série de dados para a variável “Mortalidade Infantil”, por possuir os valores com menor grau de erro para dois dos três erros analisados, é dizer para MAPE e MSD já que para o erro MAD a função Exponencial é a que melhor representa a variável. Foram utilizados 12 ciclos anuais de 1997 a 2008. Fitted Trend Equation Yt: 33,085 - 1,461*t + 0,0190*t**2 As previsões Utilizando a equação da função quadrática apresentada no gráfico acima, se apresentam os seguintes valores previstos para os próximos 4 ciclos (de 2013 ao 2016) em relação “Taxa de Mortalidade Infantil”:
Forecasts
Period Forecast
13 17,2991
14 16,3510
15 15,4410
16 14,5691
Os valores acima podem ser mais bem ilustrados de forma gráfica, conforme abaixo:
Trend Analysis Plot for Mortalidade
161412108642
32,5
30,0
27,5
25,0
22,5
20,0
17,5
15,0
Index
Mo
rta
lid
ad
e MAPE 1,18358
MAD 0,26350
MSD 0,12615
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for MortalidadeQuadratic Trend Model
Yt = 33,085 - 1,461*t + 0,0190*t**2
Observação: Ao efetuar previsões só baseados nos valores históricos da própria variável podem-se apresentar deficiências na analises. 3.2.4.2.2. Variável: TaxtFreEsCr06. Taxa de frequência a escola ou creche de crianças de 0 a 6 anos de idade
7654321
45,0
42,5
40,0
37,5
35,0
Index
Ta
xFre
EsC
r06
Time Series Plot of TaxFreEsCr06
O comportamento da variável O gráfico acima permite estabelecer que a variável “Taxa de frequência à escola ou creche de crianças de 0 a 6 anos de idade” é uma serie temporal com tendência crescente. A análise de tendência Para a análise de tendência da série de dados, apresentam-se as funções linear, quadrática, exponencial e s-curve identificado qual é aquela que representa melhor a variável. Para medir a eficiência da função ou da curva de tendência, se analisam os erros:
MAPE (Mean Average Percentual Error)
MAD (Mean Absolute Deaviation) e
MSD (Mean Standard Deviation). Os gráficos abaixo incluem a função, a linha de tendência e os erros.
7654321
45,0
42,5
40,0
37,5
35,0
Index
Ta
xFre
EsC
r06
MAPE 0,585111
MAD 0,232653
MSD 0,093827
Accuracy Measures
Actual
Fits
Variable
Trend Analysis Plot for TaxFreEsCr06Linear Trend Model
Yt = 33,243 + 1,60*t
7654321
45,0
42,5
40,0
37,5
35,0
Index
Ta
xFre
EsC
r06
MAPE 0,554413
MAD 0,221088
MSD 0,092993
Accuracy Measures
Actual
Fits
Variable
Trend Analysis Plot for TaxFreEsCr06Quadratic Trend Model
Yt = 33,343 + 1,537*t + 0,0083*t**2
7654321
45,0
42,5
40,0
37,5
35,0
Index
Ta
xFre
EsC
r06
MAPE 0,613437
MAD 0,245250
MSD 0,100074
Accuracy Measures
Actual
Fits
Variable
Trend Analysis Plot for TaxFreEsCr06Growth Curve Model
Yt = 33,6058 * (1,04140**t)
7654321
45,0
42,5
40,0
37,5
35,0
Index
Ta
xFre
EsC
r06
Intercept 32,7265
Asymptote 65,5458
Asym. Rate 0,8979
Curve Parameters
MAPE 0,771019
MAD 0,296640
MSD 0,125969
Accuracy Measures
Actual
Fits
Variable
Trend Analysis Plot for TaxFreEsCr06S-Curve Trend Model
Yt = (10**3) / (15,2565 + 15,2998*(0,897880**t))
A seguinte tabela permite identificar os três tipos de erros para cada uma das funções e assim estabelecer qual é a melhor função que representa a variável “Taxa de frequência à escola ou creche de crianças de 0 a 6 anos de idade”, isto quer dizer aquela com o menor grau de erro.
Linear Quadrática Exponencial S-Curve
MAPE 0,585111 0,554413 0,613437 0,771019
MAD 0,232653 0,221088 0,245250 0,296640
MSD 0,093827 0,092993 0,10074 0,125969
Percebemos claramente que a função Quadrática é a que melhor representa a série de dados para a variável “Taxa de frequência à escola ou creche de crianças de 0 a 6 anos de idade”, por possuir os valores com menor grau de erro para os três erros analisados. Foram utilizados 7 ciclos anuais de 2001 a 2007 Fitted Trend Equation Yt: 33,343 + 1,537*t + 0,0083*t**2 As previsões Utilizando a equação da função quadrática apresentada no gráfico acima, se apresentam os seguintes valores previstos para os próximos 4 ciclos (de 2008 ao 2011) em relação “"Taxa de frequência a escola ou creche de crianças de 0 a 6 anos de idade":
Forecasts
Period Forecast
8 46,0714
9 47,6750
10 49,2786
11 50,8821
Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:
Trend Analysis Plot for TaxFreEsCr06
1110987654321
52,5
50,0
47,5
45,0
42,5
40,0
37,5
35,0
Index
Ta
xFre
EsC
r06 MAPE 0,585111
MAD 0,232653
MSD 0,093827
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for TaxFreEsCr06Linear Trend Model
Yt = 33,243 + 1,60*t
Observação: Ao efetuar previsões só baseados nos valores históricos da própria variável podem-se apresentar deficiências na analises. 3.2.4.2.3. Variável: InstaSan. Existência de Instalação Sanitária no domicilio.
987654321
1,6
1,5
1,4
1,3
1,2
1,1
1,0
0,9
0,8
0,7
Index
In
stM
ais
1
Time Series Plot of Instalação Sanitária - Comum a mais de um
O comportamento da variável O gráfico acima permite estabelecer que a variável “Existência de Instalação Sanitária no domicilio” é uma serie temporal com tendência descendente.
A análise de tendência Para a análise de tendência da série de dados, apresentam-se as funções linear, quadrática, exponencial e s-curve identificado qual é aquela que representa melhor a variável. Para medir a eficiência da função ou da curva de tendência, se analisam os erros:
MAPE (Mean Average Percentual Error)
MAD (Mean Absolute Deaviation) e
MSD (Mean Standard Deviation).
Os gráficos abaixo incluem a função, a linha de tendência e os erros.
A seguinte tabela permite identificar os três tipos de erros para cada uma das funções e assim estabelecer qual é a melhor função que representa a variável “Existência de Instalação Sanitária no domicilio”, isto quer dizer aquela com o menor grau de erro.
Linear Quadrática Exponencial S-Curve
MAPE 4,31304 3,05903 2,93795 3,19309
MAD 0,04936 0,03487 0,03545 0,03664
MSD 0,00326 0,00171 0,00202 0,00184
A função Quadrática é a que melhor representa a série de dados para a variável “Existência de Instalação Sanitária no domicilio”, por possuir os valores com menor grau de erro para dois dos três erros analisados, é dizer para MAD e MSD já que para o erro MAPE a função Exponencial é a que melhor representa a variável. Foram utilizados 9 ciclos anuais de 2001 a 2009. Fitted Trend Equation Yt: 1,7002 - 0,1581*t + 0,0671*t**2
As previsões Utilizando a equação da função quadrática apresentada no gráfico acima, se apresentam os seguintes valores previstos para os próximos 4 ciclos (de 2010 ao 2013) em relação “Existência de Instalação Sanitária no domicilio”:
Forecasts
Period Forecast
10 0,790238
11 0,773048
12 0,769277
13 0,778926
Os valores acima podem ser mais bem ilustrados de forma gráfica, conforme abaixo:
Trend Analysis Plot for ExtInstSanDom
13121110987654321
1,6
1,5
1,4
1,3
1,2
1,1
1,0
0,9
0,8
0,7
Index
Ex
tIn
stS
an
Do
m MAPE 3,05903
MAD 0,03487
MSD 0,00171
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for ExtInstSanDomQuadratic Trend Model
Yt = 1,7002 - 0,1581*t + 0,00671*t**2
Observação: Ao efetuar previsões só baseados nos valores históricos da própria variável podem-se apresentar deficiências na analises.
One-way ANOVA: MORT1_np versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 130,1073 32,5268 2871,93 0,000
Error 5559 62,9600 0,0113
Total 5563 193,0673
S = 0,1064 R-Sq = 67,39% R-Sq(adj) = 67,37%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
CO 465 0,8110 0,0706 (*)
N 449 0,6584 0,1230 (*)
NE 1794 0,5119 0,1529 *)
S 1188 0,8823 0,0558 *)
SE 1668 0,8167 0,0705 (*
---------+---------+---------+---------+
0,60 0,70 0,80 0,90
Pooled StDev = 0,1064
3.2.5. Comparações.
3.2.5.1. Variável: MORTI_np
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
MO
RT
1_
np
Boxplot of MORT1_np
A Região Sul possui o maior índice de Supervivência Infantil do país, o que indica
que esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região
Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também
destacar que a região Centro Oeste está muito próxima.
A Região que apresenta índice de Supervivência Infantil médio mais baixo do
País é a Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos
visualizar a amplitude da variância. Podemos afirmar que os dados da Região
Norte e Nordeste possuem a maior variabilidade que os dados das demais regiões.
As Regiões que possuem menor variabilidade dos dados são Centro-Oeste e Sul.
O grau de variação entre as Regiões é muito alto (2871,93), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
3.2.5.2. Variável: PINDCRI_np
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
PIN
DC
RI_
np
Boxplot of PINDCRI_np
A Região Sul possui o maior índice de PINDCRI_np do país, o que indica que esta
é a Região mais desenvolvida do Brasil, segundo a pesquisa. As regiões Sudeste e
Centro Oeste encontram-se próximas à Região Sul, ocupando o segundo lugar
A Região que apresenta índice de PINDCRI_np médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que os dados da Região Norte e
Nordeste possuem a maior variabilidade que os dados das demais regiões. As
Regiões que possuem menor variabilidade dos dados são Centro-Oeste, Sul e
Sudeste.
O grau de variação entre as Regiões é muito alto (2131,08), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: PINDCRI_np versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 151,3336 37,8334 2132,08 0,000
Error 5559 98,6433 0,0177
Total 5563 249,9769
S = 0,1332 R-Sq = 60,54% R-Sq(adj) = 60,51%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
CO 465 0,8922 0,1103 (*)
N 449 0,6336 0,1985 (*-)
NE 1794 0,5658 0,1667 (*
S 1188 0,9286 0,0749 (*)
SE 1668 0,9080 0,1063 (*
----+---------+---------+---------+-----
0,60 0,70 0,80 0,90
Pooled StDev = 0,1332
3.2.5.3. Variável: NESTUDA_np
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
T_
NE
ST
UD
A_
NT
RA
B_
MM
EIO
_n
p
Boxplot of T_NESTUDA_NTRAB_MMEIO_np
A Região Sul possui o maior índice de NESTUDA_np do país, o que indica que
esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região
Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também
destacar que a região Centro Oeste está muito próxima.
A Região que apresenta índice de NESTUDA_np médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que os dados da Região Norte e
Sudeste possuem a maior variabilidade que os dados das demais regiões. As
Regiões que possuem menor variabilidade dos dados são Centro-Oeste e Sul.
One-way ANOVA: T_NESTUDA_NTRAB_MMEIO_np versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 82,1968 20,5492 1991,10 0,000
Error 5559 57,3719 0,0103
Total 5563 139,5687
S = 0,1016 R-Sq = 58,89% R-Sq(adj) = 58,86%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
CO 465 0,7958 0,0941 (*-)
N 449 0,6222 0,1194 (*)
NE 1794 0,5813 0,1016 (*
S 1188 0,8794 0,0820 (*)
SE 1668 0,8027 0,1105 *)
--------+---------+---------+---------+-
0,640 0,720 0,800 0,880
Pooled StDev = 0,1016
O grau de variação entre as Regiões é muito alto (1991,10), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.4. Variável: FUNDIN_TODOS_Mnp
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
T_
FU
ND
IN
_T
OD
OS
_M
ME
IO
_n
p
Boxplot of T_FUNDIN_TODOS_MMEIO_np
A Região Sul possui o maior índice de FUNDIN_TODOS_Mnp do país, o que
indica que esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A
região Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale
também destacar que a região Centro Oeste está muito próxima.
A Região que apresenta índice de FUNDIN_TODOS_Mnp médio mais baixo do
País é a Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos
visualizar a amplitude da variância. Podemos afirmar que os dados da Região
Norte e Nordeste possuem a maior variabilidade que os dados das demais regiões.
As Regiões que possuem menor variabilidade dos dados são Centro-Oeste e Sul.
O grau de variação entre as Regiões é muito alto (1753,51), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
One-way ANOVA: T_FUNDIN_TODOS_MMEIO_np versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 91,1520 22,7880 1753,51 0,000
Error 5559 72,2428 0,0130
Total 5563 163,3948
S = 0,1140 R-Sq = 55,79% R-Sq(adj) = 55,75%
Individual 95% CIs For Mean Based on Pooled
StDev
Level N Mean StDev +---------+---------+---------+---------
CO 465 0,7978 0,0910 (-*)
N 449 0,5992 0,1581 (*)
NE 1794 0,5626 0,1174 *)
S 1188 0,8569 0,0878 (*)
SE 1668 0,8154 0,1183 (*)
+---------+---------+---------+---------
0,560 0,640 0,720 0,800
Pooled StDev = 0,1140
3.2.5.5. Variável: MAXIDOSO
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
T_
RM
AX
ID
OS
On
p
Boxplot of T_RMAXIDOSOnp
A Região Sul possui o maior índice de MAXIDOSO_np do país, o que indica que
esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região
Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também
destacar que a região Centro Oeste está muito próxima.
A Região que apresenta índice de MAXIDOSO_np médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que os dados da Região Norte e
Nordeste possuem a maior variabilidade que os dados das demais regiões. As
Regiões que possuem menor variabilidade dos dados são Centro-Oeste e Sul.
One-way ANOVA: T_RMAXIDOSOnp versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 56,2287 14,0572 1621,25 0,000
Error 5559 48,1999 0,0087
Total 5563 104,4285
S = 0,09312 R-Sq = 53,84% R-Sq(adj) = 53,81%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -----+---------+---------+---------+----
CO 465 0,87244 0,08726 (-*)
N 449 0,75663 0,10786 (*)
NE 1794 0,67219 0,10581 (*)
S 1188 0,91723 0,05871 (*)
SE 1668 0,86728 0,09577 (*)
-----+---------+---------+---------+----
0,700 0,770 0,840 0,910
Pooled StDev = 0,09312
O grau de variação entre as Regiões é muito alto (1621,25), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
3.2.5.6. Variável: SOBRE40(n)
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
SO
BR
E4
0(n
)
Boxplot of SOBRE40(n)
A Região Norte possui o maior índice de SOBRE40(n) do país, segundo a
pesquisa. A região Sul encontra-se como a segunda região com este indicador.
Vale também destacar que as regiões NE e SE estão muito próximas.
A Região que apresenta índice de SOBRE40(n) médio mais baixo do País é a
Centro Oeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude
da variância. Podemos afirmar que os dados das Regiões N, NE, e SE possuem a
maior variabilidade que os dados das demais regiões. A Região que possui menor
variabilidade dos dados é CO.
O grau de variação entre as Regiões é baixa (199,89), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
One-way ANOVA: SOBRE60(n) versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 11,3021 2,8255 145,84 0,000
Error 5559 107,7030 0,0194
Total 5563 119,0051
S = 0,1392 R-Sq = 9,50% R-Sq(adj) = 9,43%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
CO 465 0,5472 0,0855 (-*--)
N 449 0,6822 0,1487 (-*--)
NE 1794 0,5425 0,1628 (*-)
S 1188 0,6215 0,1197 (*-)
SE 1668 0,5464 0,1340 (*-)
---+---------+---------+---------+------
0,550 0,600 0,650 0,700
Pooled StDev = 0,1392
3.2.5.7. Variável: SOBRE60(n)
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
SO
BR
E6
0(n
)
Boxplot of SOBRE60(n)
A Região Norte possui o maior índice de SOBRE60(n) do país, segundo a
pesquisa. A região Sul encontra-se próxima a Região Norte, e ocupa o segundo
lugar. Vale também destacar que as outras regiões estão muito próximas.
A Região que apresenta índice de SOBRE60(n) médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que os dados da Região Norte e
Nordeste possuem a maior variabilidade que os dados das demais regiões. As
Regiões que possuem menor variabilidade dos dados são N, NE e SE.
0
0,1
0,2CO
N
NES
SE
SOBRE60_np StDev
SOBRE60_npStDev
0
0,5
1CO
N
NES
SE
SOBRE60_np Mean
SOBRE60_np Mean
O grau de variação entre as Regiões é muito baixa (145,84), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
3.2.5.7. Variável: BANAGUA(n)
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
T_
BA
NA
GU
A(n
)
Boxplot of T_BANAGUA(n)
As Regiões S e SE possuem o maior índice de BANAGUA do país, mas também
tem muitos outliers, segundo a pesquisa. A região CO encontra-se próxima
também.
A Região que apresenta índice de BANAGUA médio mais baixo do País é a Norte,
seguida da Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a
amplitude da variância. Podemos afirmar que os dados da Região Norte e Nordeste
possuem a maior variabilidade que os dados das demais regiões. As Regiões que
possuem menor variabilidade dos dados são Centro-Oeste, Sul e Sudeste.
O grau de variação entre as Regiões é muito alto (1948,03), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
One-way ANOVA: T_BANAGUA(n) versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 163,5659 40,8915 1948,03 0,000
Error 5559 116,6903 0,0210
Total 5563 280,2562
S = 0,1449 R-Sq = 58,36% R-Sq(adj) = 58,33%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
CO 465 0,9118 0,0925 (*)
N 449 0,5457 0,2333 (*-)
NE 1794 0,6071 0,1992 (*
S 1188 0,9528 0,0566 *)
SE 1668 0,9434 0,0896 (*
------+---------+---------+---------+---
0,60 0,72 0,84 0,96
Pooled StDev = 0,1449
3.2.5.8. Variável: DENSn
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
T_
DE
NS
(n)
Boxplot of T_DENS(n)
A Região Norte possui o maior índice de DENS(n) do país, segundo a pesquisa. A
região NE encontra-se próxima a Região Norte, e ocupa o segundo lugar.
A Região que apresenta índice de DENS(n) médio mais baixo do País é o Sul,
seguido do SE. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude
da variância. Podemos afirmar que pelos dados da Região Norte possui a maior
variabilidade que os dados das demais regiões. As Regiões que possuem menor
variabilidade dos dados são Sudeste e Sul.
O grau de variação entre as Regiões é alto (1510,67), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.9. Variável: ESPVIDA
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
ES
PV
ID
An
Boxplot of ESPVIDAn
A Região Sul possui o maior índice de ESPVIDA do país, o que indica que esta é a
Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sudeste
encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também
destacar que a região Centro Oeste está muito próxima.
A Região que apresenta índice de ESPVIDA médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que os dados da Região Norte e
Nordeste possuem a maior variabilidade que os dados das demais regiões. A
Região que possui menor variabilidade dos dados é Centro-Oeste.
O grau de variação entre as Regiões é muito alto (2319,16), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.10. Variável: IDHM
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
ID
HM
n
Boxplot of IDHMn
A Região Sul possui o maior índice de IDHM do país, o que indica que esta é a
Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sudeste
encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também
destacar que a região Centro Oeste está muito próxima.
A Região que apresenta índice de IDHM médio mais baixo do País é a Nordeste,
seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar a
amplitude da variância. Podemos afirmar que os dados da Região Norte e Nordeste
possuem a maior variabilidade que os dados das demais regiões. As Regiões que
possuem menor variabilidade dos dados são Centro-Oeste e NE.
O grau de variação entre as Regiões é muito alto (1795,58), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.11. Variável: ALFAB11A14
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
ALFA
B 1
1A
14
n
Boxplot of ALFAB 11A14n
A Região NE possui o maior índice de ALFAB11A14n do país, o que indica que
esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região N
encontra-se próxima a Região NE, e ocupa o segundo lugar.
A Região que apresenta índice de ALFAB11A14n médio mais baixo do País é O
Sul, seguido de Centro Oeste. Pelo tamanho da caixa do BloxPlot podemos
visualizar a amplitude da variância. Podemos afirmar que os dados da Região
Norte e Nordeste possuem a maior variabilidade que os dados das demais regiões.
As Regiões que possuem menor variabilidade dos dados são Centro-Oeste, Sul e
Sudeste.
O grau de variação entre as Regiões é alto (1346,42), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.12. Variável: ALFA15A17
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
AFA
LB
15
A1
7n
Boxplot of AFALB 15A17n
A Região NE possui o maior índice de ALFAB15A17n do país, com muitos pontos
atípicos, segundo a pesquisa. A região Norte encontra-se próxima a Região NE, e
ocupa o segundo lugar.
A Região que apresenta índice de ALFAB15A17n médio mais baixo do País é o
Sul, seguido de Sudeste e Centro Oeste. Pelo tamanho da caixa do BloxPlot
podemos visualizar a amplitude da variância. Podemos afirmar que os dados da
Região Norte e Nordeste possuem a maior variabilidade que os dados das demais
regiões. As Regiões que possuem menor variabilidade dos dados são Centro-
Oeste, Sul e SE.
O grau de variação entre as Regiões é alto (1122,39), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.13. Variável: ALFAB18M
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
ALFA
B 1
8M
n
Boxplot of ALFAB 18Mn
A Região Nordeste possui o maior índice de ALFAB18 do país mais também
apresenta muitos pontos atípicos, segundo a pesquisa. A região Norte encontra-se
próxima a Região Nordeste, e ocupa o segundo lugar.
A Região que apresenta índice de ALFAB18 médio mais baixo do País é a Sul,
seguida de Sudeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a
amplitude da variância. Podemos afirmar que os dados da Região Norte e Nordeste
possuem a maior variabilidade que os dados das demais regiões. As Regiões que
possuem menor variabilidade dos dados são Centro-Oeste e Sul.
O grau de variação entre as Regiões é muito alto (2722,62), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.14. Variável: RENOCUPn
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
RE
NO
CU
Pn
Boxplot of RENOCUPn
As Regiões CO, S e SE possuem o maior índice de RENOCUP do país, segundo a
pesquisa. A região Norte encontra-se próxima destas regiões.
A Região que apresenta índice de RENOCUP médio mais baixo do País é a
Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da
variância. Podemos afirmar pelo gráfico que os dados das Regiões Sul, Sudeste,
Centro Oeste e Norte possuem uma variabilidade muito parecida. A Região que
possui menor variabilidade dos dados é Nordeste.
O grau de variação entre as Regiões é alto (1039,86), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
3.2.5.15. Variável: PRENTRABn
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
PR
EN
TR
AB
n
Boxplot of PRENTRABn
A Região Centro Oeste possui o maior índice de PRENTRABn do país, segundo a
pesquisa. A região Norte encontra-se próxima a Região Centro Oeste, e ocupa o
segundo lugar junto com o Sul. Vale também destacar que a região Sudeste está
muito próxima.
A Região que apresenta índice de PRENTRABn médio mais baixo do País é a
Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da
variância. Podemos afirmar que pelos dados que a Região Norte possui a maior
variabilidade que os dados das demais regiões. As variabilidades de CO, N, S e SE
são muito parecidas.
O grau de variação entre as Regiões é alto (1111,02), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.16. Variável: FORMAn
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
P_
FO
RM
An
Boxplot of P_FORMAn
A Regiões SE e S possuem o maior índice de FORMAn do país, segundo a
pesquisa. A região CO encontra-se próxima delas.
A Região que apresenta índice de FORMAn médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que pelos dados que as Regiões S e
SE possuem a maior variabilidade que os dados das demais regiões. A Região
que possui menor variabilidade dos dados é NE.
O grau de variação entre as Regiões é alto (1188,70), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
3.2.5.17. Variável: DES2529np
SESNENCO
1,0
0,8
0,6
0,4
0,2
0,0
REGIÃO CORRETA
T_
DE
S2
52
9n
p
Boxplot of T_DES2529np
A Região Sul possui o maior índice de DES2529_np do país, o que indica que esta
é a Região mais desenvolvida do Brasil, segundo a pesquisa. As demais regiões
estão muito perto.
A Região que apresenta índice de DES2529_np médio mais baixo do País é a
Nordeste, seguida da Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar
a amplitude da variância. Podemos afirmar que os dados da Região Norte,
Nordeste e Sudeste possuem a maior variabilidade que os dados das demais
regiões.
O grau de variação entre as Regiões é muito baixo (440,14), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente
Tabela de F
Variável Test F
MORT1_np 2871,93
ALF18M_np 2722,62
ESPVIDA 2319,16
PINDCRI_np 2132,08
NESTUDA_np 1991,1
BANAGUA_np 1948,03
IDHM_np 1795,58
FUNDIN_TODOS_MEIO_np 1753,51
MAXIDOSO_np 1621,25
DENS_np 1510,67
ALF11A14_np 1346,42
FORMAL_np 1188,7
ALF15A17_np 1122,39
PRENTRAB_np 1111,02
RENOCUP_np 1039,86
DES2529_np 440,14
SOBRE40_np 199,89
SOBRE60_np 145,84
3.2.6. Pesquisa por Amostragem A pesquisa por amostragem foi gerada em três amostras, sendo respectivamente
nas quantidades de 25, 100 e 400 municípios. Para cada amostra realizada a
análise exploratória de dados e comparações dos resultados. Foram utilizadas as
variáveis
Variável Conceito Test F
ALF18M_np Indicador de alfabetismo - 18 anos ou mais 2722,62
ESPVIDA Indicador de Esperança de vida ao nascer 2319,16
MORTI_np Supervivencia Infantil de até um ano 2871,93
3.2.6.1. Variável: MORTI_np Supervivência Infantil até um ano. 3.2.6.1.1. Amostragem: 25 Municípios.
0,80,60,40,2
Median
Mean
0,80,70,60,5
1st Quartile 0,41634
Median 0,69434
3rd Quartile 0,84834
Maximum 0,92143
0,53531 0,72765
0,48647 0,83165
0,18191 0,32410
A-Squared 0,83
P-Value 0,027
Mean 0,63148
StDev 0,23297
Variance 0,05428
Skewness -0,581673
Kurtosis -0,843038
N 25
Minimum 0,13835
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Morti_np_25
O gráfico acima apresenta a análise exploratória dos dados da variável MORT1_np Supervivência Infantil para uma amostragem de 25 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,4 a 0,10. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado ao centro da referida faixa.
Valores Atípicos: Esta amostragem não tem valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem Supervivência Infantil menor do que 0,69434 e a outra metade maior que este valor. Supervivência Infantil média dos municípios é de 0,63148 tendo um desvio-padrão de 0,23297 não sendo um valor expressivo. A Supervivência Infantil mínima é de 0,13835 e a máxima de 0,92143 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,53531 e 0,72765.
3.2.6.1.2. Amostragem: 100 Municípios.
0,900,750,600,450,30
Median
Mean
0,8500,8250,8000,7750,7500,7250,700
1st Quartile 0,63560
Median 0,81310
3rd Quartile 0,85552
Maximum 0,98277
0,70907 0,77778
0,78435 0,83596
0,15202 0,20114
A-Squared 5,76
P-Value < 0,005
Mean 0,74342
StDev 0,17315
Variance 0,02998
Skewness -1,17097
Kurtosis 0,39467
N 100
Minimum 0,26886
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Morti_np_100
O gráfico acima apresenta a análise exploratória dos dados da variável MORT1_np Supervivência Infantil para uma amostragem de 100 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,80 a 0,90. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à direita da referida faixa.
Valores Atípicos: Esta amostragem tem dois valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem Supervivência Infantil menor do que 0,81310e a outra metade maior que este valor. Supervivência Infantil média dos municípios é de 0,74342 tendo um desvio-padrão de 0,17315 não sendo um valor expressivo. A Supervivência Infantil mínima é de 0,26886 e a máxima de 0,98277 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,70907 e 0,7778.
3.2.6.1.3. Amostragem: 400 Municípios.
0,900,750,600,450,300,15
Median
Mean
0,820,800,780,760,740,720,70
1st Quartile 0,59253
Median 0,79353
3rd Quartile 0,86661
Maximum 0,98147
0,69720 0,73640
0,76719 0,80919
0,18642 0,21421
A-Squared 14,84
P-Value < 0,005
Mean 0,71680
StDev 0,19935
Variance 0,03974
Skewness -1,10051
Kurtosis 0,53311
N 400
Minimum 0,06526
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Morti_np_400
O gráfico acima apresenta a análise exploratória dos dados da variável MORT1_np Supervivência Infantil para uma amostragem de 400 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,80 a 0,90. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à direita da referida faixa.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem Supervivência Infantil menor do que 0,79353 e a outra metade maior que este valor. Supervivência Infantil média dos municípios é de 0,71680 tendo um desvio-padrão de 0,19935 não sendo um valor expressivo. A Supervivência Infantil mínima é de 0,06526 e a máxima de 0,98147 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,69720 e 0,73640.
Morti_np_400Morti_np_100Morti_np_25MORT1_np
1,0
0,8
0,6
0,4
0,2
0,0
Da
ta
Boxplot of MORT1_np. Morti_np_25. Morti_np_100. Morti_np_400
A análise de variância entre as três amostras e a população nos indica que a variação é muito pequena F= 3,27 e o P-Value não é muito representativo 0,39 evidenciando a confiabilidade dos resultados.
One-way ANOVA: Morti_np_25. Morti_np_100. Morti_np_400 Source DF SS MS F P
Factor 2 0,2523 0,1262 3,27 0,039
Error 522 20,1267 0,0386
Total 524 20,3791
S = 0,1964 R-Sq = 1,24% R-Sq(adj) = 0,86%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Morti_np_25 25 0,6315 0,2330 (------------*------------)
Morti_np_100 100 0,7434 0,1731 (------*-----)
Morti_np_400 400 0,7168 0,1993 (--*---)
--------+---------+---------+---------+-
0,600 0,660 0,720 0,780
Pooled StDev = 0,1964
3.2.6.2. Variável: ALFA18
3.2.6.2.1. Amostragem: 25 municípios
0,80,60,40,20,0
Median
Mean
0,450,400,350,300,250,20
1st Quartile 0,15985
Median 0,22606
3rd Quartile 0,46400
Maximum 0,93100
0,23043 0,43057
0,18110 0,37635
0,18930 0,33726
A-Squared 1,16
P-Value < 0,005
Mean 0,33050
StDev 0,24243
Variance 0,05877
Skewness 1,08759
Kurtosis 0,32650
N 25
Minimum 0,02936
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Alfa18_np_25
O gráfico acima apresenta a análise exploratória dos dados da variável ALFA18 para uma amostragem de 25 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,1 a 0,2 O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à esquerda da referida faixa.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem ALFA18 menor do que 0,22606 e a outra metade maior que este valor. A média de ALFA18 dos municípios é de 0,33050 tendo um desvio-padrão de 0,24243 não sendo um valor expressivo. A ALFA18 mínima é de 0,02936 e a máxima de 0,93100 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,23043 e 0,43057.
3.2.6.2.2. Amostragem: 100 municípios
0,900,750,600,450,300,15
Median
Mean
0,450,400,350,300,25
1st Quartile 0,15615
Median 0,31466
3rd Quartile 0,60140
Maximum 0,91365
0,33270 0,42761
0,23437 0,45337
0,20998 0,27782
A-Squared 3,35
P-Value < 0,005
Mean 0,38015
StDev 0,23916
Variance 0,05720
Skewness 0,36503
Kurtosis -1,28192
N 100
Minimum 0,05035
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Alfa18_np_100
O gráfico acima apresenta a análise exploratória dos dados da variável ALFA18 para uma amostragem de 100 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,12 a 0,17. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à esquerda da referida faixa.
Valores Atípicos: Esta amostragem não tem valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem ALFA18 menor do que 0,31466 e a outra metade maior
que este valor. A média de ALFA18 dos municípios é de 0,38015 tendo um
desvio-padrão de 0,23916 não sendo um valor expressivo. A ALFA18
mínima é de 0,05035 e a máxima de 0,91365 devido a os dados estarem
normalizados. Com 95% de confiança, podemos afirmar que a média
encontra-se entre os valores 0,33270 e 0,42761.
3.2.6.2.3. Amostragem: 400 municípios
0,900,750,600,450,300,150,00
Median
Mean
0,3750,3500,3250,3000,2750,250
1st Quartile 0,15952
Median 0,27277
3rd Quartile 0,55871
Maximum 0,97943
0,32880 0,37589
0,24162 0,31108
0,22398 0,25736
A-Squared 13,12
P-Value < 0,005
Mean 0,35235
StDev 0,23951
Variance 0,05736
Skewness 0,708328
Kurtosis -0,676897
N 400
Minimum 0,01693
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Alfa18_np_400
O gráfico acima apresenta a análise exploratória dos dados da variável ALFA18 para uma amostragem de 400 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,12 a 0,18. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à direita da referida faixa.
Valores Atípicos: Esta amostragem não tem valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem ALFA18 menor do que 0,27272e a outra metade maior que este valor. A média de ALFA18 dos municípios é de 0,35235 tendo um
desvio-padrão de 0,23951 não sendo um valor expressivo. A ALFA18 mínima é de 0,01693 e a máxima de 0,97943 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,32880 e 0,37589.
Alfa18_np_400Alfa18_np_100Alfa18_np_25ALFAB 18Mn
1,0
0,8
0,6
0,4
0,2
0,0
Da
ta
Boxplot of ALFAB 18Mn. Alfa18_np_25. Alfa18_np_100. Alfa18_np_400
One-way ANOVA: Alfa18_np_25. Alfa18_np_100. Alfa18_np_400 Source DF SS MS F P
Factor 2 0,0797 0,0399 0,69 0,500
Error 522 29,9610 0,0574
Total 524 30,0408
S = 0,2396 R-Sq = 0,27% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
Alfa18_np_25 25 0,3305 0,2424 (------------------*------------------)
Alfa18_np_100 100 0,3802 0,2392 (--------*--------)
Alfa18_np_400 400 0,3523 0,2395 (---*----)
---+---------+---------+---------+------
0,250 0,300 0,350 0,400
Pooled StDev = 0,2396
A análise de variância entre as três amostras e a população nos indica que a variação é muito pequena F= 0,69 e o P-Value não é muito representativo 0,500 evidenciando a confiabilidade dos resultados.
3.2.6.3. Variável: ESPVIDA
3.2.6.3.1. Amostragem: 25 municípios
0,80,60,40,20,0
Median
Mean
0,650,600,550,500,450,40
1st Quartile 0,29573
Median 0,53748
3rd Quartile 0,64280
Maximum 0,91679
0,40617 0,58267
0,39420 0,62927
0,16694 0,29742
A-Squared 0,44
P-Value 0,275
Mean 0,49442
StDev 0,21379
Variance 0,04571
Skewness -0,303365
Kurtosis -0,396817
N 25
Minimum 0,04273
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Espvida_25
O gráfico acima apresenta a análise exploratória dos dados da variável ESPVIDA para uma amostragem de 25 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,2 a 0,7 O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à direita da referida faixa.
Valores Atípicos: Esta amostragem não tem valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem ESPVIDA menor do que 0,53748 E a outra metade maior que este valor. A média de A ESPVIDA dos municípios é de 0,49442 tendo um desvio-padrão de 0,21379 não sendo um valor expressivo. A ESPVIDA mínima é de 0,04273 e a máxima de 0,91679 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,40617 e 0,58267.
3.2.6.3.2. Amostragem: 100 municípios
0,80,60,40,20,0
Median
Mean
0,6750,6500,6250,6000,5750,550
1st Quartile 0,43347
Median 0,62669
3rd Quartile 0,73163
Maximum 0,89430
0,53412 0,61468
0,55262 0,66214
0,17822 0,23580
A-Squared 1,44
P-Value < 0,005
Mean 0,57440
StDev 0,20298
Variance 0,04120
Skewness -0,645929
Kurtosis -0,252951
N 100
Minimum 0,02549
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Espvida_100
O gráfico acima apresenta a análise exploratória dos dados da variável ESPVIDA para uma amostragem de 100 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,2 a 0,8 O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à direita da referida faixa.
Valores Atípicos: Esta amostragem não tem valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem ESPVIDA menor do que 0,62669 E a outra metade maior que este valor. A média de A ESPVIDA dos municípios é de 0,57440 tendo um desvio-padrão de 0,20298 não sendo um valor expressivo. A ESPVIDA mínima é de 0,02549 e a máxima de 0,89430 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,53412 e 0,61468.
3.2.6.3.3. Amostragem: 400 municípios.
0,900,750,600,450,300,150,00
Median
Mean
0,6250,6000,5750,550
1st Quartile 0,44678
Median 0,60720
3rd Quartile 0,74363
Maximum 0,97751
0,55867 0,59911
0,57489 0,62703
0,19237 0,22104
A-Squared 2,59
P-Value < 0,005
Mean 0,57889
StDev 0,20570
Variance 0,04231
Skewness -0,416924
Kurtosis -0,490918
N 400
Minimum 0,01874
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev95% Confidence Intervals
Summary for Espvida_400
O gráfico acima apresenta a análise exploratória dos dados da variável ESPVIDA para uma amostragem de 400 municípios brasileiros.
Observações:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre 0,2 a 0,8 O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da mediana está deslocado à direita da referida faixa.
Valores Atípicos: Esta amostragem não tem valores atípicos.
Centro e Dispersão: A mediana nos indica que aproximadamente metade
dos municípios tem ESPVIDA menor do que 0,60720 E a outra metade maior que este valor. A média de A ESPVIDA dos municípios é de 0,57889 tendo um desvio-padrão de 0,20570 não sendo um valor expressivo. A ESPVIDA mínima é de 0,01874 e a máxima de 0,97751 devido a os dados estarem normalizados. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,55867 e 0,59911.
Espvida_400Espvida_100Espvida_25ESPVIDAn
1,0
0,8
0,6
0,4
0,2
0,0
Da
taBoxplot of ESPVIDAn. Espvida_25. Espvida_100. Espvida_400
One-way ANOVA: Espvida_25. Espvida_100. Espvida_400 Source DF SS MS F P
Factor 2 0,1679 0,0839 1,99 0,138
Error 522 22,0588 0,0423
Total 524 22,2267
S = 0,2056 R-Sq = 0,76% R-Sq(adj) = 0,38%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
Espvida_25 25 0,4944 0,2138 (------------*-------------)
Espvida_100 100 0,5744 0,2030 (------*-----)
Espvida_400 400 0,5789 0,2057 (--*---)
-+---------+---------+---------+--------
0,420 0,480 0,540 0,600
Pooled StDev = 0,2056
A análise de variância entre as três amostras e a população nos indica que a variação é muito pequena F= 1,99 e o P-Value não é muito representativo 0,138 evidenciando a confiabilidade dos resultados.
As seguintes tabelas apresentam os resultados da análise exploratória dos dados para amostragens de 25, 100 e 400 municípios para as variáveis Morti_np, Alfa18, Espvida.
Variável Gráfico Média Desvio Padrão
Mediana P-Value
MORT1_np 25
0,63148 0,23297 0,69434 <0,027
MORT1_np 100
0,74342 0,17315 0,81310 <0,005
MORT1_np 400
0,71680 0,19935 0,79353 <0,005
Variável Gráfico Média Desvio Padrão
Mediana
P-Value
ALFA18_np 25
0,33050 0,24243
0,22606
<0,005
ALFA18_np 100
0,38015 0,23916 0,31466 <0,005
ALFA18_np 400
0,35235 0,23951
0,27272
<0,005
Variável Gráfico Média Desvio Padrão
Mediana
P-Value
Espvida_25
0,49442 0,21379 0,53748 0,275
Espvida_100
0,57440 0,20298 0,62669 <0,005
Espvida_400
0,57889
0,20570
0,60720
<0,005
3.2.7. Analise Multivariada - Componentes Principais.
Grau
de
Correlação
ESPVIDAnEsperança de vida ao nascer
0,967
IDHMnÍndice de Desenvolvimento Humano Municipal
0,829
T_FUNDIN_TODOS_np
Indicador de pessoas em domicílios em que pelo
menos uma pessoa tem fundamental completo. 0,879
T_BANAGUA_np
Indice da população que vive em domicílios com
banheiro e água encanada 0,866
IDHMnÍndice de Desenvolvimento Humano Municipal
0,87
T_FUNDIN_TODOS_np
Indicador de pessoas em domicílios em que pelo
menos uma pessoa tem fundamental completo. 0,835
T_RMAXIDOSO_np
Indicador de pessoas em domicílios não
vulneráveis à pobreza e dependentes de idosos 0,834
IDHMn Índice de Desenvolvimento Humano Municipal
0,837
T_FUNDIN_TODOS_MMEIOIndicador de pessoas em domicílios em que pelo
menos uma pessoa tem fundamental completo.IDHMn
Índice de Desenvolvimento Humano Municipal
0,962
SOBRE40(n)Indicador de Probabilidade de sobrevivência até
40 anosSOBRE60(n)
Indicador de Probabilidade de sobrevivência até
60 anos0,956
ESPVIDAn
Esperança de vida ao nascer
IDHMn
Índice de Desenvolvimento Humano Municipal
0,852
RENOCUPn Rendimento médio dos ocupados 0,869
P_FORMAn
Grau de formalização do trabalho
das pessoas ocupadas 0,824
ALFAB 11A14nIndicador de Alfabetismo - 11 a 14 anos AFALB 15A17n Indicador de Alfabetismo - 15 a 17 anos
0,919
NESTUDA_np
Indicador de pessoas de 15 a 24 anos que
estudam e ou trabalham e não são vulneráveis à
pobreza.
IDHMn Índice de Desenvolvimento Humano Municipal
Correlations: MORT1_np. PINDCRI_np. T_NESTUDA_NT. T_FUNDIN_TOD. ...
Variável Variável
MORTI_np Supervivencia Infantil de até um ano
PINDRI_npIndicador Crinças fora de risco de ser
Extremadamente pobres
Dendrograma. Diagrama que organiza determinados fatores e variáveis. Apresenta um diagrama de similaridade. A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo.
Segue abaixo o Dendrograma das variáveis analisadas:
ALF
AB 18
Mn
AFA
LB 1
5A17
n
ALF
AB
11A14
n
T_DEN
S(n)
T_DES
2529
np
SOBR
E60(n)
SOBR
E40(
n)
PREN
TRABn
P_FO
RMAn
T_RM
AXIDOSO
np
T_NES
TUDA_N
TRAB_
MMEIO_n
p
T_BA
NAG
UA(n
)
RENOCU
Pn
IDHMn
T_FU
NDIN
_TODOS_
MMEI
O_n
p
PIND
CRI_
np
ESPV
IDAn
MORT
1_np
47,29
64,86
82,43
100,00
Variables
Sim
ila
rity
DendrogramSingle Linkage. Correlation Coefficient Distance
Cluster Analysis of Variables: MORT1_np. PINDCRI_np. T_NESTUDA_NT. ...
Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 17 98,3572 0,03286 1 10 1 2
2 16 98,0777 0,03845 4 11 4 2
3 15 97,8091 0,04382 6 7 6 2
4 14 95,9428 0,08114 12 13 12 2
5 13 93,9314 0,12137 2 4 2 3
6 12 93,4643 0,13071 2 15 2 4
7 11 93,3117 0,13377 2 8 2 5
8 10 92,6019 0,14796 1 2 1 7
9 9 91,8716 0,16257 1 3 1 8
10 8 91,7035 0,16593 1 5 1 9
11 7 91,1857 0,17629 1 17 1 10
12 6 87,8062 0,24388 12 14 12 3
13 5 87,6672 0,24666 1 16 1 11
14 4 84,5617 0,30877 9 12 9 4
15 3 81,7410 0,36518 1 6 1 13
16 2 76,3215 0,47357 1 18 1 14
17 1 47,2914 1,05417 1 9 1 18
As variáveis com maior grau de similaridade se podem determinar por grupos assim:
Morti_np, Espvida
Fundi_todos_np, IDHM_np
Sobre40_np, Sobre60_np
Alfabetismo_11ª14, Alfabetismo_15ª17
ALF
AB 18
Mn
AFA
LB 1
5A17
n
ALF
AB
11A14
n
T_DEN
S(n)
T_DES
2529
np
SOBR
E60(n)
SOBR
E40(
n)
PREN
TRABn
P_FO
RMAn
T_RM
AXIDOSO
np
T_NES
TUDA_N
TRAB_
MMEIO_n
p
T_BA
NAGU
A(n
)
REN
OCU
Pn
IDHMn
T_FU
NDIN
_TODO
S_MMEI
O_n
p
PIND
CRI_
np
ESPV
IDAn
MORT
1_np
47,29
64,86
82,43
100,00
Variables
Sim
ila
rity
DendrogramSingle Linkage. Correlation Coefficient Distance
4 Cluster variables
Cluster Analysis of Variables: MORT1_np. PINDCRI_np. T_NESTUDA_NT. ... Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 17 98,3572 0,03286 1 10 1 2
2 16 98,0777 0,03845 4 11 4 2
3 15 97,8091 0,04382 6 7 6 2
4 14 95,9428 0,08114 12 13 12 2
5 13 93,9314 0,12137 2 4 2 3
6 12 93,4643 0,13071 2 15 2 4
7 11 93,3117 0,13377 2 8 2 5
8 10 92,6019 0,14796 1 2 1 7
9 9 91,8716 0,16257 1 3 1 8
10 8 91,7035 0,16593 1 5 1 9
11 7 91,1857 0,17629 1 17 1 10
12 6 87,8062 0,24388 12 14 12 3
13 5 87,6672 0,24666 1 16 1 11
14 4 84,5617 0,30877 9 12 9 4
15 3 81,7410 0,36518 1 6 1 13
16 2 76,3215 0,47357 1 18 1 14
17 1 47,2914 1,05417 1 9 1 18
Final Partition
Cluster 1
MORT1_np PINDCRI_np T_NESTUDA_NTRAB_MMEIO_np T_FUNDIN_TODOS_MMEIO_np
T_RMAXIDOSOnp T_BANAGUA(n) ESPVIDAn IDHMn RENOCUPn PRENTRABn
P_FORMAn
Cluster 2
SOBRE40(n) SOBRE60(n)
Cluster 3
T_DENS(n) ALFAB 11A14n AFALB 15A17n ALFAB 18Mn
Cluster 4
T_DES2529np
3.2.7.1. Principais Componentes.
0,50,40,30,20,10,0-0,1-0,2-0,3-0,4
0,2
0,1
0,0
-0,1
-0,2
-0,3
-0,4
-0,5
-0,6
-0,7
First Component
Se
co
nd
Co
mp
on
en
t
AFALB 15A17n
ALFAB 11A14n
SOBRE60(n)
SOBRE40(n)
T_FUNDIN_TODOS_MMEIO_npIDHMn
ESPVIDAn
MORT1_np
Loading Plot of MORT1_np. .... AFALB 15A17n
Principal Component Analysis: MORT1_np. ESPVIDAn. IDHMn. T_FUNDIN_TOD. SOBRE40(n) Eigenanalysis of the Correlation Matrix
Eigenvalue 5,4167 1,6983 0,4344 0,2777 0,0799 0,0423 0,0273 0,0233
Proportion 0,677 0,212 0,054 0,035 0,010 0,005 0,003 0,003
Cumulative 0,677 0,889 0,944 0,978 0,988 0,994 0,997 1,000
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7
MORT1_np 0,400 -0,037 0,283 0,534 0,001 0,480 0,078
ESPVIDAn 0,403 -0,075 0,314 0,429 -0,051 -0,353 0,035
IDHMn 0,399 0,109 0,326 -0,439 -0,004 -0,481 0,387
T_FUNDIN_TODOS_MMEIO_np 0,391 0,169 0,261 -0,531 -0,012 0,475 -0,405
SOBRE40(n) 0,225 -0,625 -0,296 -0,211 0,068 0,300 0,537
SOBRE60(n) 0,270 -0,582 -0,189 -0,019 -0,032 -0,306 -0,622
ALFAB 11A14n -0,350 -0,339 0,468 -0,087 -0,728 0,071 0,033
AFALB 15A17n -0,345 -0,330 0,552 -0,053 0,680 0,010 -0,050
Variable PC8
MORT1_np -0,486
ESPVIDAn 0,649
IDHMn -0,386
T_FUNDIN_TODOS_MMEIO_np 0,280
SOBRE40(n) 0,211
SOBRE60(n) -0,267
ALFAB 11A14n -0,012
AFALB 15A17n 0,007
87654321
6
5
4
3
2
1
0
Component Number
Eig
en
va
lue
Scree Plot of MORT1_np. .... AFALB 15A17n
A primeira variável tem um peso muito grande, mas as demais estão bem distantes. A variável 2 possui peso quais maior de 1, e as demais estão realmente embaixo de 1. Todas as variáveis poderiam se resumir em a primeira componente.
3.2.8. Análise de Conglomerado
3.2.8.1. Dendrograma dos dados agrupados pelo resultado das médias MORTI_np x ALFAB18 x ESPVIDA_np POR ESTADO (-DF)
SPSCRSRJ
MSPRM
TMG
GOESROAPTORRPAAMM
AALPIPBRNCESEPEBAAC
83,98
89,32
94,66
100,00
Observations
Sim
ila
rity
Dendrograma Média de Estado MORTI_np x ALFAB18 x ESPVIDA_np
O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Em seguida geramos o Dendrograma por Estado para as três variáveis com maior F, isto é a variabilidade dentro dos grupos. STAT >> MULTIVARIATE >> CLUSTER OBSERVATION
O gráfico a seguir representa por cores as médias dos estados com maior grau de similaridade entre sim para as variáveis MORTI_np x ALFAB18 x ESPVIDA_np. A agrupação mais representativa esta com cor vermelha com um grupo 9 estados, com similaridade entre 93% a 95% aproximadamente.
No gráfico embaixo estabelece 5 grandes grupos de variáveis, agrupadas pela similaridade dos dados. Os estados que possuem maior similaridade são CE e RN em vermelho, ES e GO em amarelo e RS e SC em amarelo também, entre 97% e 98% aproximadamente, conforme o indicado na escala apresentada no eixo Y do gráfico. Mapa colorido pela Média das variáveis MORTI_np x ALFAB18 x ESPVIDA_np por estados do Brasil (classificação não supervisionada)
O mapa acima representa o agrupamento dos estados por similaridade por as médias para as três variáveis selecionadas. Cluster Analysis of Observations: Morti_np_Mean. ALFAB18_Mean. ESPVIDA_Mean Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 25 97,5588 0,022555 6 19 6 2
2 24 97,4989 0,023108 7 8 7 2
3 23 96,7863 0,029692 22 23 22 2
4 22 96,3327 0,033883 15 24 15 2
5 21 95,8616 0,038236 4 20 4 2
6 20 95,7195 0,039549 1 5 1 2
7 19 94,7711 0,048312 1 15 1 4
8 18 94,5959 0,049930 10 12 10 2
9 17 94,5280 0,050558 7 10 7 4
10 16 94,4195 0,051560 1 6 1 6
11 15 94,1500 0,054050 14 16 14 2
12 14 94,0887 0,054617 7 17 7 5
13 13 93,7479 0,057766 1 14 1 8
14 12 93,4815 0,060227 22 25 22 3
15 11 93,3801 0,061164 7 11 7 6
16 10 92,4989 0,069305 3 13 3 2
17 9 91,6392 0,077249 7 18 7 7
18 8 91,2355 0,080979 21 26 21 2
19 7 89,7687 0,094530 7 22 7 10
20 6 89,3332 0,098555 3 21 3 4
21 5 87,3009 0,117332 1 2 1 9
22 4 86,7125 0,122768 1 9 1 10
23 3 86,5162 0,124582 1 3 1 14
24 2 86,1418 0,128041 1 4 1 16
25 1 83,9780 0,148033 1 7 1 26
Final Partition
Number of clusters: 5
Maximum
Within Average distance
Number of cluster sum distance from from
observations of squares centroid centroid
Cluster1 9 0,0745054 0,0768487 0,195944
Cluster2 4 0,0277583 0,0782378 0,113381
Cluster3 2 0,0007310 0,0191181 0,019118
Cluster4 10 0,0800671 0,0848441 0,135156
Cluster5 1 0,0000000 0,0000000 0,000000
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 centroid
Morti_np_Mean 0,523808 0,67390 0,71057 0,829407 0,40007 0,674044
ALFAB18_Mean 0,615167 0,40040 0,26505 0,211000 0,60540 0,399369
ESPVIDA_Mean 0,380244 0,49575 0,51550 0,699930 0,30970 0,528662
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5
Cluster1 0,000000 0,286346 0,419232 0,599116 0,142769
Cluster2 0,286346 0,000000 0,141613 0,318974 0,389387
Cluster3 0,419232 0,141613 0,000000 0,225960 0,504581
Cluster4 0,599116 0,318974 0,225960 0,000000 0,701542
Cluster5 0,142769 0,389387 0,504581 0,701542 0,000000
3.2.8.2. Dendrograma dos dados agrupados pelo resultado do Desvio Padrão para MORTI_np x ALFAB18 x ESPIVIDA por Estados do Brasil.
RR
ROSCRJ
SPRSPRGOMTESM
SAPAMMG
TOPEPACEALRN
MASEPIPBBAAC
54,73
69,82
84,91
100,00
Observations
Sim
ila
rity
Dendrograma Desv Padrão de Estado para Morti_np, Alfab18, Espvida
Mapa colorido pelo Desvío Padrão das variáveis MORTI_np x ALFAB18 x ESPVIDA_np por estados do Brasil (classificação não supervisionada)
O mapa acima representa o agrupamento dos estados por similaridade por o desvio Padrão para as três variáveis selecionadas
Cluster Analysis of Observations: Morti_np_StDev. ALFAB18_StDev. ESPVIDA_StDev Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 25 97,0037 0,0055090 5 14 5 2
2 24 96,4227 0,0065771 16 24 16 2
3 23 95,5980 0,0080935 7 12 7 2
4 22 94,8972 0,0093819 7 8 7 3
5 21 94,3851 0,0103235 5 16 5 4
6 20 93,4450 0,0120520 5 9 5 5
7 19 91,9507 0,0147993 6 13 6 2
8 18 91,9125 0,0148696 17 22 17 2
9 17 91,2251 0,0161335 7 17 7 5
10 16 90,1109 0,0181820 7 25 7 6
11 15 89,9355 0,0185046 7 18 7 7
12 14 88,9625 0,0202934 4 11 4 2
13 13 88,7898 0,0206110 1 5 1 6
14 12 86,7449 0,0243707 4 7 4 9
15 11 85,5408 0,0265846 4 23 4 10
16 10 85,4865 0,0266843 1 19 1 7
17 9 85,1639 0,0272775 1 2 1 8
18 8 84,0481 0,0293290 1 6 1 10
19 7 81,9410 0,0332032 1 15 1 11
20 6 79,7306 0,0372671 4 20 4 11
21 5 79,6016 0,0375044 1 26 1 12
22 4 77,1238 0,0420599 1 10 1 13
23 3 76,2102 0,0437397 1 3 1 14
24 2 71,6929 0,0520451 1 4 1 25
25 1 54,7330 0,0832275 1 21 1 26
Final Partition
Number of clusters: 5
Within Average Maximum
Number of cluster sum distance from distance from
observations of squares centroid centroid
Cluster1 12 0,0133651 0,0281643 0,0563743
Cluster2 1 0,0000000 0,0000000 0,0000000
Cluster3 11 0,0083919 0,0251984 0,0496616
Cluster4 1 0,0000000 0,0000000 0,0000000
Cluster5 1 0,0000000 0,0000000 0,0000000
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 centroid
Morti_np_StDev 0,135571 0,11872 0,0568709 0,07623 0,05681 0,096315
ALFAB18_StDev 0,142883 0,20760 0,0811818 0,15240 0,23070 0,123012
ESPVIDA_StDev 0,129133 0,11960 0,0948727 0,13420 0,06900 0,112154
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5
Cluster1 0,000000 0,067551 0,105710 0,060312 0,132405
Cluster2 0,067551 0,000000 0,142893 0,071173 0,083228
Cluster3 0,105710 0,142893 0,000000 0,083627 0,151740
Cluster4 0,060312 0,071173 0,083627 0,000000 0,103726
Cluster5 0,132405 0,083228 0,151740 0,103726 0,000000
3.2.8.3. Análise das variâncias das variáveis por Estado
A análise das variâncias permite a comprovação e visualização das médias e desvios padrões da variável a ser analisada. Os gráficos Boxplots, também conhecidos como Box-and-whisker plots, são usados para comparar mostras de distribuição e agrupamentos, assim como para visualizar as ocorrências de outliers dentro de um grupo de dados. Um Outlier é uma pequena a grande observação que não é usual.
3.2.8.4 Análise das variâncias da variável Morti_np por estado
TOSPSESCRSRRRORNRJPRPIPEPBPAMT
MS
MG
MA
GOESCEBAAPAMALAC
1,0
0,8
0,6
0,4
0,2
0,0
UFN
MO
RT
1_
np
Boxplot of MORT1_np
A gráfica acima representa a supervivência infantil por estado em Brasil para o ano 2010, São Paulo representa uma baixa variabilidade dos dados para Supervivência Infantil e não tem outliers igual que Santa Catarina. De outra parte os estados de Alagoas, Maranhão, Paraíba, Pernambuco, Piauí apresentam uma maior variabilidade dos dados, mas com exceção de Paraíba que não tem outliers.
One-way ANOVA: MORT1_np versus UFN Source DF SS MS F P
UFN 25 140,0967 5,6039 585,88 0,000
Error 5538 52,9706 0,0096
Total 5563 193,0673
S = 0,09780 R-Sq = 72,56% R-Sq(adj) = 72,44%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -----+---------+---------+---------+----
AC 22 0,56547 0,12793 (--*-)
AL 102 0,38903 0,17208 (*)
AM 62 0,62020 0,11872 (*-)
AP 16 0,71727 0,07617 (--*--)
BA 417 0,54251 0,14205 *)
CE 184 0,57694 0,09764 *)
ES 78 0,83671 0,03954 (-*)
GO 246 0,85766 0,03644 (*)
MA 217 0,40007 0,14694 (*)
MG 853 0,79411 0,07623 *
MS 78 0,72158 0,06966 (*-)
MT 141 0,77900 0,04711 (*)
PA 143 0,62539 0,09034 (*)
PB 223 0,52496 0,14638 (*)
PE 185 0,53302 0,16428 (*
PI 224 0,48459 0,13826 (*)
PR 399 0,85558 0,05113 (*)
RJ 92 0,81447 0,04235 (*-)
RN 167 0,57584 0,11805 (*)
RO 52 0,70387 0,09695 (-*-)
RR 15 0,76083 0,05681 (---*--)
RS 496 0,89748 0,04625 (*
SC 293 0,89302 0,06315 (*
SE 75 0,52191 0,13748 (-*)
SP 645 0,84446 0,05683 *)
TO 139 0,68918 0,14542 (*)
-----+---------+---------+---------+----
0,45 0,60 0,75 0,90
Pooled StDev = 0,09780
3.2.8.5 Análise das variâncias da variável Alfa18 por estado.
TOSPSESCRSRRRORNRJPRPIPEPBPAMT
MS
MG
MA
GOESCEBAAPAMALAC
1,0
0,8
0,6
0,4
0,2
0,0
UFN
ALFA
B 1
8M
n
Boxplot of ALFAB 18Mn
A gráfica acima representa a ALFA18 por estado em Brasil para o ano 2010, a variabilidade é abrangente para todo o país, e não apresenta um numero considerável de outliers. Os estados com maior variabilidade são AL, MA, PI, SE. A maioria faz parte do Nordeste.
One-way ANOVA: ALFAB 18Mn versus UFN Source DF SS MS F P
UFN 25 210,9858 8,4394 574,60 0,000
Error 5538 81,3387 0,0147
Total 5563 292,3245
S = 0,1212 R-Sq = 72,18% R-Sq(adj) = 72,05%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
AC 22 0,5386 0,1651 (--*-)
AL 102 0,7358 0,1401 (*)
AM 62 0,4268 0,2076 (*-)
AP 16 0,2791 0,0853 (--*--)
BA 417 0,5324 0,1421 (*
CE 184 0,6136 0,1316 (*)
ES 78 0,2636 0,0988 (*-)
GO 246 0,2733 0,0948 (*
MA 217 0,6054 0,1545 (*)
MG 853 0,2895 0,1524 *)
MS 78 0,2421 0,0813 (*)
MT 141 0,2520 0,0976 (*)
PA 143 0,3708 0,1439 (*)
PB 223 0,6619 0,1447 (*)
PE 185 0,6047 0,1701 (*)
PI 224 0,6848 0,1407 (*)
PR 399 0,2180 0,0894 (*
RJ 92 0,1557 0,0792 (*)
RN 167 0,5920 0,1247 (*)
RO 52 0,2510 0,0560 (-*)
RR 15 0,4028 0,2307 (--*--)
RS 496 0,1324 0,0767 (*
SC 293 0,1306 0,0719 (*
SE 75 0,5727 0,1471 (-*)
SP 645 0,1528 0,0620 (*
TO 139 0,4012 0,1100 (*)
----+---------+---------+---------+-----
0,20 0,40 0,60 0,80
Pooled StDev = 0,1212
3.2.8.6 Análise das variâncias da variável Espvida por estado.
TOSPSESCRSRRRORNRJPRPIPEPBPAMT
MS
MG
MA
GOESCEBAAPAMALAC
1,0
0,8
0,6
0,4
0,2
0,0
UFN
ES
PV
ID
An
Boxplot of ESPVIDAn
A gráfica acima representa a ESPIVDA estado em Brasil para o ano 2010, a variabilidade é abrangente para todo o país, e não apresenta um numero
considerável de outliers. Os estados com maior variabilidade são AL, MA, PI, SE. A maioria faz parte do Nordeste. One-way ANOVA: ESPVIDAn versus UFN Source DF SS MS F P
UFN 25 147,7345 5,9094 425,85 0,000
Error 5538 76,8498 0,0139
Total 5563 224,5843
S = 0,1178 R-Sq = 65,78% R-Sq(adj) = 65,63%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
AC 22 0,4267 0,1243 (--*---)
AL 102 0,3049 0,1457 (*-)
AM 62 0,4216 0,1196 (-*-)
AP 16 0,5044 0,0891 (---*--)
BA 417 0,3951 0,1356 *)
CE 184 0,4029 0,0993 (*)
ES 78 0,6924 0,0784 (-*-)
GO 246 0,6914 0,0705 (*)
MA 217 0,3097 0,1264 (*)
MG 853 0,6840 0,1342 (*
MS 78 0,6733 0,1079 (-*-)
MT 141 0,6547 0,0810 (-*)
PA 143 0,4621 0,0955 (*)
PB 223 0,3777 0,1378 (*)
PE 185 0,3774 0,1576 (*)
PI 224 0,3500 0,1261 (*)
PR 399 0,6690 0,0943 (*
RJ 92 0,6491 0,0816 (*-)
RN 167 0,4093 0,1192 (*)
RO 52 0,5266 0,1099 (-*-)
RR 15 0,5685 0,0690 (---*---)
RS 496 0,7587 0,1003 (*
SC 293 0,7880 0,1319 (*
SE 75 0,3782 0,1274 (-*-)
SP 645 0,7387 0,0987 *)
TO 139 0,5308 0,1547 (*-)
-+---------+---------+---------+--------
0,30 0,45 0,60 0,75
Pooled StDev = 0,1178
3.2.9. Análise Discriminante 3.2.9.1. Análise Discriminante Linear por Região
A analise multivariada é utilizada para analisar dados quando tem-se feito multiplex medições onde se pode escolher:
Analisar a covariância para entendê-la ou para reduzir a dimensão dos dados.
Assignar observações aos grupos
Explorar relações dentro das variáveis categóricas
Interpretar os resultados é subjetivo já que a ferramenta Minitab não compara testes de significância para processos multivariados.
A análise discriminante classifica observações em dois ou mais grupos. Neste caso o objetivo é discriminar os valores dos municípios do Brasil, começando com a variável categórica Região.
Discriminant Analysis: REGIÃO CORRETA versus MORT1_np. ALFAB 18Mn. ... Linear Method for Response: REGIÃO CORRETA
Predictors: MORT1_np. ALFAB 18Mn. ESPVIDAn
Group CO N NE S SE
Count 465 449 1794 1188 1668
Summary of classification
True Group
Put into Group CO N NE S SE
CO 152 81 51 63 308
N 35 251 259 51 206
NE 3 79 1454 0 39
S 119 30 8 842 268
SE 156 8 22 232 847
Total N 465 449 1794 1188 1668
N correct 152 251 1454 842 847
Proportion 0,327 0,559 0,810 0,709 0,508
N = 5564 N Correct = 3546 Proportion Correct = 0,637
Squared Distance Between Groups
CO N NE S SE
CO 0,0000 2,3619 10,3407 0,9336 0,2044
N 2,3619 0,0000 4,6399 4,9365 3,2064
NE 10,3407 4,6399 0,0000 17,0651 11,1346
S 0,9336 4,9365 17,0651 0,0000 1,1715
SE 0,2044 3,2064 11,1346 1,1715 0,0000
Linear Discriminant Function for Groups
CO N NE S SE
Constant -52,64 -45,48 -44,30 -56,14 -50,64
MORT1_np 154,03 152,50 121,97 168,20 145,38
ALFAB 18Mn 50,66 51,45 64,33 45,36 49,24
ESPVIDAn -48,56 -59,35 -35,40 -59,00 -40,75
Discriminant Analysis: REGIÃO CORRETA versus MORT1_np. ALFAB 18Mn. ...
Quadratic Method for Response: REGIÃO CORRETA
Predictors: MORT1_np. ALFAB 18Mn. ESPVIDAn
Group CO N NE S SE
Count 465 449 1794 1188 1668
Summary of classification
True Group
Put into Group CO N NE S SE
CO 142 39 26 79 98
N 25 263 306 0 197
NE 15 50 1400 0 41
S 148 13 1 1098 115
SE 135 84 61 11 1217
Total N 465 449 1794 1188 1668
N correct 142 263 1400 1098 1217
Proportion 0,305 0,586 0,780 0,924 0,730
N = 5564 N Correct = 4120 Proportion Correct = 0,740
From Generalized Squared Distance to Group
Group CO N NE S SE
CO -15,98 -12,20 -6,60 -3,11 -16,62
N -9,91 -15,84 -12,42 71,42 -8,20
NE 11,67 -10,99 -15,14 293,57 43,63
S -13,90 -11,50 -3,52 -18,33 -7,96
SE -15,78 -8,24 -2,42 0,12 -17,15
3.2.9.2. Análise Discriminante Linear por “4 Brasis” A segunda parte da tabela 4 representa o distancia entre os grupos, encontrando que as regiões Centro-Oeste e Sudeste podem conformar um agrupamento chamado COSE, assim ficariam 4 regiões i) COSE ii) N iii) NE iv) S
Discriminant Analysis: Reagrup versus MORT1_np. ALFAB 18Mn. ESPVIDAn Linear Method for Response: Reagrup
Predictors: MORT1_np. ALFAB 18Mn. ESPVIDAn
Group COSE N NE S
Count 2133 449 1794 1188
Summary of classification
True Group
Put into Group COSE N NE S
COSE 1298 63 55 240
N 298 269 274 55
NE 46 80 1455 0
S 491 37 10 893
Total N 2133 449 1794 1188
N correct 1298 269 1455 893
Proportion 0,609 0,599 0,811 0,752
N = 5564 N Correct = 3915 Proportion Correct = 0,704
Squared Distance Between Groups
COSE N NE S
COSE 0,0000 2,9731 10,9153 1,0830
N 2,9731 0,0000 4,6407 4,9315
NE 10,9153 4,6407 0,0000 17,0632
S 1,0830 4,9315 17,0632 0,0000
Linear Discriminant Function for Groups
COSE N NE S
Constant -50,95 -45,30 -44,12 -56,00
MORT1_np 146,20 151,18 120,65 167,04
ALFAB 18Mn 49,38 51,23 64,12 45,17
ESPVIDAn -41,48 -58,14 -34,20 -57,94
3.2.9.3. Análise Discriminante Quadrática por “4 Brasis”
Discriminant Analysis: Reagrup versus MORT1_np. ALFAB 18Mn. ESPVIDAn Quadratic Method for Response: Reagrup
Predictors: MORT1_np. ALFAB 18Mn. ESPVIDAn
Group COSE N NE S
Count 2133 449 1794 1188
Summary of classification
True Group
Put into Group COSE N NE S
COSE 1416 94 62 36
N 338 292 323 9
NE 68 50 1407 1
S 311 13 2 1142
Total N 2133 449 1794 1188
N correct 1416 292 1407 1142
Proportion 0,664 0,650 0,784 0,961
N = 5564 N Correct = 4257 Proportion Correct = 0,765
From Generalized Squared Distance to Group
Group COSE N NE S
COSE -16,16 -9,27 -3,46 -0,65
N -10,85 -15,84 -12,42 71,42
NE 11,83 -10,99 -15,14 293,57
S -13,14 -11,50 -3,52 -18,33
Discriminant Analysis: C48 versus MORT1_np. ALFAB 18Mn. ESPVIDAn Linear Method for Response: C48
Predictors: MORT1_np. ALFAB 18Mn. ESPVIDAn
Group COSEN NE S
Count 2582 1794 1188
Summary of classification
True Group
Put into Group COSEN NE S
COSEN 1757 184 152
NE 217 1596 0
S 608 14 1036
Total N 2582 1794 1188
N correct 1757 1596 1036
Proportion 0,680 0,890 0,872
N = 5564 N Correct = 4389 Proportion Correct = 0,789
Squared Distance Between Groups
COSEN NE S
COSEN 0,0000 8,4596 1,2746
NE 8,4596 0,0000 15,6398
S 1,2746 15,6398 0,0000
Linear Discriminant Function for Groups
COSEN NE S
Constant -48,54 -43,95 -54,42
MORT1_np 148,93 121,37 169,17
ALFAB 18Mn 50,40 64,39 45,96
ESPVIDAn -50,52 -36,54 -64,98
Discriminant Analysis: C48 versus MORT1_np. ALFAB 18Mn. ESPVIDAn Quadratic Method for Response: C48
Predictors: MORT1_np. ALFAB 18Mn. ESPVIDAn
Group COSEN NE S
Count 2582 1794 1188
Summary of classification
True Group
Put into Group COSEN NE S
COSEN 1945 147 33
NE 281 1645 2
S 356 2 1153
Total N 2582 1794 1188
N correct 1945 1645 1153
Proportion 0,753 0,917 0,971
N = 5564 N Correct = 4743 Proportion Correct = 0,852
From Generalized Squared Distance to Group
Group COSEN NE S
COSEN -15,24 -6,38 7,77
NE -3,30 -15,14 293,57
S -12,95 -3,52 -18,33
A melhor análise discriminante para os dados estudados é o método quadrático que melhora a proporção de numero de acertos e diminui a variabilidade, com um 85% considerando 4753 municípios corretamente.
3.2.9.4. Análise Discriminante Linear para dados agrupados
Para procurar uma Análise Discriminante com uma porcentagem de proporção mais correta, foi realizado o dendrograma do Cluster Analysis of Observations, para as três variáveis com maior F. Com base na similaridade poderemos definimos agrupamento de dados e após utilizamos a análise discriminante para verificar a proporção correta dos agrupamentos. (5 clusters)
SPSCRSRJ
MSPRM
TMG
GOESROAPTORRPAAMM
AALPIPBRNCESEPEBAAC
83,98
89,32
94,66
100,00
Observations
Sim
ila
rity
Dendrograma Média de Estado MORTI_np x ALFAB18 x ESPVIDA_np
Discriminant Analysis: Agrupamentos versus Morti_np_Mea. ALFAB18_Mean.... Linear Method for Response: Agrupamentos do Estado
Predictors: Morti_np_Mean. ALFAB18_Mean. ESPVIDA_Mean
Group G1 G2 G3 G4
Count 10 4 2 10
Summary of classification
True Group
Put into Group G1 G2 G3 G4
G1 10 0 0 0
G2 0 4 0 0
G3 0 0 2 0
G4 0 0 0 10
Total N 10 4 2 10
N correct 10 4 2 10
Proportion 1,000 1,000 1,000 1,000
N = 26 N Correct = 26 Proportion Correct = 1,000
Squared Distance Between Groups
G1 G2 G3 G4
G1 0,0000 14,5087 37,3881 65,0848
G2 14,5087 0,0000 6,7171 24,8840
G3 37,3881 6,7171 0,0000 23,8269
G4 65,0848 24,8840 23,8269 0,0000
Linear Discriminant Function for Groups
G1 G2 G3 G4
Constant -213,42 -195,61 -164,71 -227,40
Morti_np_Mean 154,00 172,73 179,13 106,43
ALFAB18_Mean 395,64 340,67 287,67 315,77
ESPVIDA_Mean 281,55 279,21 244,21 428,48
O estado de Maranhão (MA) foi o único Estado que ficou solto, razão pela qual foi integrado ao grupo 1 vermelho, para obter assim 100% de proporção correta com o agrupamento por método linear.
3.2.10 Regressão logística.
Para seguir com a comparação com os demais métodos a seguir se apresenta a regressão logística. COMPARAÇÃO DE MÉDIA, ANÁLISE DE VARIÂNCIA E INTERVALO DE CONFIANÇA. 3.2.10.1. ANOVA das variáveis. Segue abaixo os resultados da One-Way ANOVA para cada uma das três variáveis MORTI_np X ALFAB18 X ESPVIDA para verificar a ordem das regiões
One-way ANOVA: MORT1_np versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 130,1073 32,5268 2871,93 0,000
Error 5559 62,9600 0,0113
Total 5563 193,0673
S = 0,1064 R-Sq = 67,39% R-Sq(adj) = 67,37%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
CO 465 0,8110 0,0706 (*)
N 449 0,6584 0,1230 (*)
NE 1794 0,5119 0,1529 *)
S 1188 0,8823 0,0558 *)
SE 1668 0,8167 0,0705 (*
---------+---------+---------+---------+
0,60 0,70 0,80 0,90
Pooled StDev = 0,1064
One-way ANOVA: ALFAB 18Mn versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 193,5353 48,3838 2722,62 0,000
Error 5559 98,7892 0,0178
Total 5563 292,3245
S = 0,1333 R-Sq = 66,21% R-Sq(adj) = 66,18%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
CO 465 0,2616 0,0942 (*)
N 449 0,3801 0,1540 (*)
NE 1794 0,6109 0,1556 (*
S 1188 0,1607 0,0898 *)
SE 1668 0,2280 0,1365 (*)
-------+---------+---------+---------+--
0,24 0,36 0,48 0,60
Pooled StDev = 0,1333
One-way ANOVA: ESPVIDAn versus REGIÃO CORRETA Source DF SS MS F P
REGIÃO CORRETA 4 140,4313 35,1078 2319,16 0,000
Error 5559 84,1530 0,0151
Total 5563 224,5843
S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
CO 465 0,6772 0,0825 (*)
N 449 0,4886 0,1292 (*)
NE 1794 0,3714 0,1356 *)
S 1188 0,7358 0,1177 (*
SE 1668 0,7036 0,1202 *)
---+---------+---------+---------+------
0,40 0,50 0,60 0,70
Pooled StDev = 0,1230
MORTI_np NE N CO SE S
ESPVIDA NE N CO SE S
ALFAB18 S SE CO N NE
Depois de fazer a analise das três ANOVAS se determina que a classificação das regiões é:
NE (1)
N (2)
CO (3)
SE (4).
S (5)
3.2.10.2. Regressão Logistica Ordinal.
Ordinal Logistic Regression: Regiões codi versus MORT1_np. ALFAB 18Mn. ... Link Function: Logit
Response Information
Variable Value Count
Regiões codificadas 1 1794
2 449
3 465
4 1668
5 1188
Total 5564
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower
Const(1) 11,6814 0,445838 26,20 0,000
Const(2) 13,0963 0,456345 28,70 0,000
Const(3) 14,1116 0,463090 30,47 0,000
Const(4) 16,9096 0,483009 35,01 0,000
MORT1_np -36,3949 0,984000 -36,99 0,000 0,00 0,00
ALFAB 18Mn 5,96464 0,274596 21,72 0,000 389,41 227,34
ESPVIDAn 18,6810 0,668521 27,94 0,000 1,29729E+08 34993726,34
Predictor Upper
Const(1)
Const(2)
Const(3)
Const(4)
MORT1_np 0,00
ALFAB 18Mn 667,04
ESPVIDAn 4,80931E+08
Log-Likelihood = -4604,638
Test that all slopes are zero: G = 7107,982, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 50904,0 22245 0,000
Deviance 9206,5 22245 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 10611295 91,8 Somers' D 0,84
Discordant 933644 8,1 Goodman-Kruskal Gamma 0,84
Ties 19194 0,2 Kendall's Tau-a 0,63
Total 11564133 100,0
Ordinal Logistic Regression: Grupos versus Morti_np_Mea. ALFAB18_Mean. ... Link Function: Logit
Response Information
Variable Value Count
Grupos 1 9
2 4
3 2
4 10
5 1
Total 26
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) -11,7337 8,66133 -1,35 0,176
Const(2) -9,33871 8,48549 -1,10 0,271
Const(3) -8,09481 8,44142 -0,96 0,338
Const(4) -2,93701 8,17544 -0,36 0,719
Morti_np_Mean 21,6310 15,6267 1,38 0,166 2,47875E+09 0,00 4,96248E+22
ALFAB18_Mean 17,8917 8,15988 2,19 0,028 58917674,53 6,68 5,19937E+14
ESPVIDA_Mean -22,6305 14,9018 -1,52 0,129 0,00 0,00 718,06
Log-Likelihood = -19,620
Test that all slopes are zero: G = 30,716, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 13918,0 97 0,000
Deviance 39,2 97 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 218 92,0 Somers' D 0,84
Discordant 18 7,6 Goodman-Kruskal Gamma 0,85
Ties 1 0,4 Kendall's Tau-a 0,62
Total 237 100,0
Consideração.
Em comparação com o resultado do Analise Discriminante que teve 85,2% de confiabilidade, o método de regressão logística melhora o agrupamento por região e a analises dos dados, já que aumenta esta confiabilidade para 91,8%, e 92% por grupos.
3.2.11. Arvores de Classificação.
A porcentagem de acerto deste modelo é de 70,1. El árbol no consigue distinguir N. A árvore considera que as variáveis mais importantes são: em primeiro lugar Supervivência Infantil de até um ano. (Morti_np). Sem considerar o valor F.
3.2.12. Análise de correspondências.
Simple Correspondence Analysis: Morti_np_Mean. ALFAB18_Mean. ESPVIDA_Mean Relative Inertias
mi a18 esp Total
AC 0,002 0,016 0,003 0,021
AL 0,019 0,100 0,015 0,133
AM 0,000 0,002 0,002 0,005
AP 0,003 0,006 0,000 0,009
BA 0,002 0,019 0,004 0,025
CE 0,003 0,029 0,007 0,040
ES 0,002 0,019 0,004 0,025
GO 0,003 0,018 0,003 0,024
MA 0,011 0,058 0,009 0,078
MG 0,001 0,013 0,004 0,018
MS 0,000 0,017 0,008 0,025
MT 0,002 0,017 0,004 0,023
PA 0,000 0,000 0,000 0,000
PB 0,007 0,047 0,009 0,063
PE 0,004 0,034 0,007 0,046
PI 0,009 0,061 0,011 0,082
PR 0,005 0,027 0,004 0,036
RJ 0,006 0,038 0,006 0,050
RN 0,003 0,025 0,006 0,034
RO 0,003 0,009 0,001 0,013
RR 0,000 0,000 0,000 0,001
RS 0,007 0,055 0,012 0,074
SC 0,006 0,057 0,015 0,077
SE 0,004 0,029 0,006 0,038
SP 0,004 0,045 0,012 0,061
TO 0,000 0,000 0,000 0,000
Total 0,106 0,740 0,154 1,000
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0960 0,9917 0,9917 ******************************
2 0,0008 0,0083 1,0000
Total 0,0968
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 AC 1,000 0,037 0,021 -0,237 1,000 0,022 -0,004 0,000 0,001
2 AL 1,000 0,034 0,133 -0,612 0,994 0,134 -0,047 0,006 0,096
3 AM 1,000 0,035 0,005 -0,100 0,800 0,004 0,050 0,200 0,110
4 AP 1,000 0,036 0,009 0,142 0,841 0,008 0,062 0,159 0,171
5 BA 1,000 0,035 0,025 -0,262 0,999 0,025 0,007 0,001 0,002
6 CE 1,000 0,038 0,040 -0,316 0,997 0,040 0,016 0,003 0,012
7 ES 1,000 0,043 0,025 0,238 0,999 0,025 -0,008 0,001 0,003
8 GO 1,000 0,044 0,024 0,230 1,000 0,024 0,004 0,000 0,001
9 MA 1,000 0,032 0,078 -0,487 0,995 0,078 -0,034 0,005 0,045
10 MG 1,000 0,042 0,018 0,201 0,979 0,018 -0,030 0,021 0,046
11 MS 1,000 0,039 0,025 0,240 0,928 0,024 -0,067 0,072 0,220
12 MT 1,000 0,040 0,023 0,233 0,995 0,023 -0,016 0,005 0,013
13 PA 1,000 0,035 0,000 -0,013 0,233 0,000 0,024 0,767 0,026
14 PB 1,000 0,038 0,063 -0,403 1,000 0,063 -0,003 0,000 0,000
15 PE 1,000 0,036 0,046 -0,348 0,999 0,046 0,008 0,001 0,003
16 PI 1,000 0,036 0,082 -0,466 0,999 0,083 -0,010 0,001 0,005
17 PR 1,000 0,042 0,036 0,286 0,993 0,036 0,024 0,007 0,030
18 RJ 1,000 0,039 0,050 0,354 0,997 0,051 0,019 0,003 0,018
19 RN 1,000 0,038 0,034 -0,293 0,998 0,034 0,012 0,002 0,007
20 RO 1,000 0,036 0,013 0,182 0,961 0,012 0,037 0,039 0,060
21 RR 1,000 0,042 0,001 0,037 0,700 0,001 0,024 0,300 0,030
22 RS 1,000 0,043 0,074 0,407 1,000 0,074 -0,008 0,000 0,004
23 SC 1,000 0,043 0,077 0,413 0,994 0,077 -0,031 0,006 0,052
24 SE 1,000 0,035 0,038 -0,324 1,000 0,039 0,002 0,000 0,000
25 SP 1,000 0,042 0,061 0,376 0,994 0,061 -0,028 0,006 0,041
26 TO 1,000 0,039 0,000 0,004 0,161 0,000 0,008 0,839 0,003
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 mi 1,000 0,421 0,106 0,153 0,963 0,103 0,030 0,037 0,476
2 a18 1,000 0,249 0,740 -0,536 1,000 0,746 -0,004 0,000 0,005
3 esp 1,000 0,330 0,154 0,209 0,972 0,151 -0,036 0,028 0,519
Symmetric Plot
0,500,250,00-0,25-0,50-0,75
0,50
0,25
0,00
-0,25
-0,50
-0,75
Component 1
Co
mp
on
en
t 2
espa18
miTOSP
SESCRS
RR RORN RJPRPI PEPB
PAMTMS
MGMAGOES
CEBAAPAM
ALAC
Symmetric Plot Média por Estado
Simple Correspondence Analysis: Morti_np_StDev. ALFAB18_StDev. ESPVIDA_StDev Relative Inertias
mi a18 esp Total
AC 0,001 0,002 0,005 0,008
AL 0,031 0,014 0,001 0,047
AM 0,002 0,029 0,018 0,049
AP 0,000 0,002 0,001 0,003
BA 0,009 0,003 0,001 0,013
CE 0,000 0,002 0,003 0,006
ES 0,024 0,011 0,001 0,036
GO 0,023 0,014 0,000 0,037
MA 0,011 0,000 0,006 0,018
MG 0,022 0,006 0,003 0,031
MS 0,001 0,006 0,013 0,020
MT 0,014 0,006 0,001 0,021
PA 0,001 0,010 0,006 0,017
PB 0,010 0,004 0,001 0,015
PE 0,009 0,002 0,001 0,012
PI 0,010 0,002 0,002 0,014
PR 0,012 0,000 0,008 0,019
RJ 0,013 0,001 0,007 0,020
RN 0,004 0,002 0,000 0,006
RO 0,015 0,048 0,013 0,076
RR 0,057 0,198 0,060 0,315
RS 0,014 0,001 0,022 0,038
SC 0,007 0,020 0,052 0,079
SE 0,007 0,001 0,003 0,011
SP 0,002 0,012 0,023 0,037
TO 0,016 0,032 0,005 0,052
Total 0,315 0,429 0,256 1,000
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0294 0,6868 0,6868 ******************************
2 0,0134 0,3132 1,0000 *************
Total 0,0429
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 AC 1,000 0,048 0,008 0,042 0,242 0,003 0,075 0,758 0,020
2 AL 1,000 0,053 0,047 -0,151 0,602 0,041 0,122 0,398 0,059
3 AM 1,000 0,052 0,049 0,188 0,873 0,062 0,072 0,127 0,020
4 AP 1,000 0,029 0,003 -0,063 0,978 0,004 -0,009 0,022 0,000
5 BA 1,000 0,049 0,013 -0,077 0,517 0,010 0,074 0,483 0,020
6 CE 1,000 0,038 0,006 0,054 0,467 0,004 0,058 0,533 0,010
7 ES 1,000 0,025 0,036 0,195 0,621 0,032 -0,152 0,379 0,043
8 GO 1,000 0,023 0,037 0,223 0,725 0,039 -0,137 0,275 0,033
9 MA 1,000 0,050 0,018 -0,035 0,080 0,002 0,119 0,920 0,052
10 MG 1,000 0,042 0,031 0,118 0,440 0,020 -0,133 0,560 0,056
11 MS 1,000 0,030 0,020 -0,103 0,370 0,011 -0,134 0,630 0,040
12 MT 1,000 0,026 0,021 0,142 0,587 0,018 -0,119 0,413 0,028
13 PA 1,000 0,038 0,017 0,130 0,870 0,022 0,050 0,130 0,007
14 PB 1,000 0,050 0,015 -0,080 0,499 0,011 0,080 0,501 0,024
15 PE 1,000 0,057 0,012 -0,062 0,415 0,007 0,073 0,585 0,023
16 PI 1,000 0,047 0,014 -0,061 0,295 0,006 0,094 0,705 0,031
17 PR 1,000 0,027 0,019 0,040 0,054 0,002 -0,169 0,946 0,058
18 RJ 1,000 0,024 0,020 0,061 0,103 0,003 -0,180 0,897 0,057
19 RN 1,000 0,042 0,006 -0,062 0,585 0,005 0,052 0,415 0,008
20 RO 1,000 0,030 0,076 -0,326 0,994 0,110 -0,026 0,006 0,002
21 RR 1,000 0,041 0,315 0,568 0,989 0,454 0,059 0,011 0,011
22 RS 1,000 0,026 0,038 -0,028 0,012 0,001 -0,248 0,988 0,119
23 SC 1,000 0,031 0,079 -0,179 0,291 0,034 -0,279 0,709 0,179
24 SE 1,000 0,048 0,011 -0,040 0,169 0,003 0,089 0,831 0,028
25 SP 1,000 0,025 0,037 -0,156 0,391 0,021 -0,195 0,609 0,071
26 TO 1,000 0,048 0,052 -0,216 0,995 0,076 0,016 0,005 0,001
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 mi 1,000 0,291 0,315 -0,159 0,542 0,249 0,146 0,458 0,461
2 a18 1,000 0,371 0,429 0,222 0,993 0,620 0,018 0,007 0,009
3 esp 1,000 0,338 0,256 -0,107 0,352 0,131 -0,145 0,648 0,530
Symmetric Plot
0,60,40,20,0-0,2-0,4
0,6
0,4
0,2
0,0
-0,2
-0,4
Component 1
Co
mp
on
en
t 2
esp
a18
mi
TO
SP
SE
SCRS
RR
RO
RN
RJPR
PIPEPB
PA
MTMS MG
MA
GOES
CEBA
AP
AM
AL
AC
Symmetric Plot Desvio Padrao Morti Mi, Alfab18 a18, Espvida Esp
Região
Simple Correspondence Analysis: Morti_np_Mean. ALFAB18_Mean. ESPVIDA_Mean Relative Inertias
mi a18 esp Total
CO 0,002 0,016 0,003 0,021
N 0,019 0,100 0,015 0,133
CO 0,000 0,002 0,002 0,005
NE 0,003 0,006 0,000 0,009
SE 0,002 0,019 0,004 0,025
SE 0,003 0,029 0,007 0,040
N 0,002 0,019 0,004 0,025
NE 0,003 0,018 0,003 0,024
NE 0,011 0,058 0,009 0,078
NE 0,001 0,013 0,004 0,018
NE 0,000 0,017 0,008 0,025
SE 0,002 0,017 0,004 0,023
CO 0,000 0,000 0,000 0,000
NE 0,007 0,047 0,009 0,063
NE 0,004 0,034 0,007 0,046
N 0,009 0,061 0,011 0,082
S 0,005 0,027 0,004 0,036
N 0,006 0,038 0,006 0,050
NE 0,003 0,025 0,006 0,034
NE 0,003 0,009 0,001 0,013
S 0,000 0,000 0,000 0,001
N 0,007 0,055 0,012 0,074
SE 0,006 0,057 0,015 0,077
N 0,004 0,029 0,006 0,038
S 0,004 0,045 0,012 0,061
N 0,000 0,000 0,000 0,000
Total 0,106 0,740 0,154 1,000
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0960 0,9917 0,9917 ******************************
2 0,0008 0,0083 1,0000
Total 0,0968
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 CO 1,000 0,037 0,021 -0,237 1,000 0,022 -0,004 0,000 0,001
2 N 1,000 0,034 0,133 -0,612 0,994 0,134 -0,047 0,006 0,096
3 CO 1,000 0,035 0,005 -0,100 0,800 0,004 0,050 0,200 0,110
4 NE 1,000 0,036 0,009 0,142 0,841 0,008 0,062 0,159 0,171
5 SE 1,000 0,035 0,025 -0,262 0,999 0,025 0,007 0,001 0,002
6 SE 1,000 0,038 0,040 -0,316 0,997 0,040 0,016 0,003 0,012
7 N 1,000 0,043 0,025 0,238 0,999 0,025 -0,008 0,001 0,003
8 NE 1,000 0,044 0,024 0,230 1,000 0,024 0,004 0,000 0,001
9 NE 1,000 0,032 0,078 -0,487 0,995 0,078 -0,034 0,005 0,045
10 NE 1,000 0,042 0,018 0,201 0,979 0,018 -0,030 0,021 0,046
11 NE 1,000 0,039 0,025 0,240 0,928 0,024 -0,067 0,072 0,220
12 SE 1,000 0,040 0,023 0,233 0,995 0,023 -0,016 0,005 0,013
13 CO 1,000 0,035 0,000 -0,013 0,233 0,000 0,024 0,767 0,026
14 NE 1,000 0,038 0,063 -0,403 1,000 0,063 -0,003 0,000 0,000
15 NE 1,000 0,036 0,046 -0,348 0,999 0,046 0,008 0,001 0,003
16 N 1,000 0,036 0,082 -0,466 0,999 0,083 -0,010 0,001 0,005
17 S 1,000 0,042 0,036 0,286 0,993 0,036 0,024 0,007 0,030
18 N 1,000 0,039 0,050 0,354 0,997 0,051 0,019 0,003 0,018
19 NE 1,000 0,038 0,034 -0,293 0,998 0,034 0,012 0,002 0,007
20 NE 1,000 0,036 0,013 0,182 0,961 0,012 0,037 0,039 0,060
21 S 1,000 0,042 0,001 0,037 0,700 0,001 0,024 0,300 0,030
22 N 1,000 0,043 0,074 0,407 1,000 0,074 -0,008 0,000 0,004
23 SE 1,000 0,043 0,077 0,413 0,994 0,077 -0,031 0,006 0,052
24 N 1,000 0,035 0,038 -0,324 1,000 0,039 0,002 0,000 0,000
25 S 1,000 0,042 0,061 0,376 0,994 0,061 -0,028 0,006 0,041
26 N 1,000 0,039 0,000 0,004 0,161 0,000 0,008 0,839 0,003
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 mi 1,000 0,421 0,106 0,153 0,963 0,103 0,030 0,037 0,476
2 a18 1,000 0,249 0,740 -0,536 1,000 0,746 -0,004 0,000 0,005
3 esp 1,000 0,330 0,154 0,209 0,972 0,151 -0,036 0,028 0,519
Symmetric Plot
0,500,250,00-0,25-0,50-0,75
0,50
0,25
0,00
-0,25
-0,50
-0,75
Component 1
Co
mp
on
en
t 2
espa18
miNS
NSEN
S NENE NS
N NENECO
SENE
NENENENSESE
NECO
NCO
Symmetric Plot Média por Regiao para Morti_np, Alfab18_np, Espvida_np
Simple Correspondence Analysis: Morti_np_StDev. ALFAB18_StDev. ESPVIDA_StDev Relative Inertias
mi a18 esp Total
CO 0,001 0,002 0,005 0,008
N 0,031 0,014 0,001 0,047
CO 0,002 0,029 0,018 0,049
NE 0,000 0,002 0,001 0,003
SE 0,009 0,003 0,001 0,013
SE 0,000 0,002 0,003 0,006
N 0,024 0,011 0,001 0,036
NE 0,023 0,014 0,000 0,037
NE 0,011 0,000 0,006 0,018
NE 0,022 0,006 0,003 0,031
NE 0,001 0,006 0,013 0,020
SE 0,014 0,006 0,001 0,021
CO 0,001 0,010 0,006 0,017
NE 0,010 0,004 0,001 0,015
NE 0,009 0,002 0,001 0,012
N 0,010 0,002 0,002 0,014
S 0,012 0,000 0,008 0,019
N 0,013 0,001 0,007 0,020
NE 0,004 0,002 0,000 0,006
NE 0,015 0,048 0,013 0,076
S 0,057 0,198 0,060 0,315
N 0,014 0,001 0,022 0,038
SE 0,007 0,020 0,052 0,079
N 0,007 0,001 0,003 0,011
S 0,002 0,012 0,023 0,037
N 0,016 0,032 0,005 0,052
Total 0,315 0,429 0,256 1,000
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0294 0,6868 0,6868 ******************************
2 0,0134 0,3132 1,0000 *************
Total 0,0429
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 CO 1,000 0,048 0,008 0,042 0,242 0,003 0,075 0,758 0,020
2 N 1,000 0,053 0,047 -0,151 0,602 0,041 0,122 0,398 0,059
3 CO 1,000 0,052 0,049 0,188 0,873 0,062 0,072 0,127 0,020
4 NE 1,000 0,029 0,003 -0,063 0,978 0,004 -0,009 0,022 0,000
5 SE 1,000 0,049 0,013 -0,077 0,517 0,010 0,074 0,483 0,020
6 SE 1,000 0,038 0,006 0,054 0,467 0,004 0,058 0,533 0,010
7 N 1,000 0,025 0,036 0,195 0,621 0,032 -0,152 0,379 0,043
8 NE 1,000 0,023 0,037 0,223 0,725 0,039 -0,137 0,275 0,033
9 NE 1,000 0,050 0,018 -0,035 0,080 0,002 0,119 0,920 0,052
10 NE 1,000 0,042 0,031 0,118 0,440 0,020 -0,133 0,560 0,056
11 NE 1,000 0,030 0,020 -0,103 0,370 0,011 -0,134 0,630 0,040
12 SE 1,000 0,026 0,021 0,142 0,587 0,018 -0,119 0,413 0,028
13 CO 1,000 0,038 0,017 0,130 0,870 0,022 0,050 0,130 0,007
14 NE 1,000 0,050 0,015 -0,080 0,499 0,011 0,080 0,501 0,024
15 NE 1,000 0,057 0,012 -0,062 0,415 0,007 0,073 0,585 0,023
16 N 1,000 0,047 0,014 -0,061 0,295 0,006 0,094 0,705 0,031
17 S 1,000 0,027 0,019 0,040 0,054 0,002 -0,169 0,946 0,058
18 N 1,000 0,024 0,020 0,061 0,103 0,003 -0,180 0,897 0,057
19 NE 1,000 0,042 0,006 -0,062 0,585 0,005 0,052 0,415 0,008
20 NE 1,000 0,030 0,076 -0,326 0,994 0,110 -0,026 0,006 0,002
21 S 1,000 0,041 0,315 0,568 0,989 0,454 0,059 0,011 0,011
22 N 1,000 0,026 0,038 -0,028 0,012 0,001 -0,248 0,988 0,119
23 SE 1,000 0,031 0,079 -0,179 0,291 0,034 -0,279 0,709 0,179
24 N 1,000 0,048 0,011 -0,040 0,169 0,003 0,089 0,831 0,028
25 S 1,000 0,025 0,037 -0,156 0,391 0,021 -0,195 0,609 0,071
26 N 1,000 0,048 0,052 -0,216 0,995 0,076 0,016 0,005 0,001
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 mi 1,000 0,291 0,315 -0,159 0,542 0,249 0,146 0,458 0,461
2 a18 1,000 0,371 0,429 0,222 0,993 0,620 0,018 0,007 0,009
3 esp 1,000 0,338 0,256 -0,107 0,352 0,131 -0,145 0,648 0,530
Symmetric Plot
0,60,40,20,0-0,2-0,4
0,6
0,4
0,2
0,0
-0,2
-0,4
Component 1
Co
mp
on
en
t 2
esp
a18
mi
N
S
N
SEN
S
NE
NE
NS
NNENE
CO
SENE NE
NE
NEN
SESE
NE
CO
N
CO
Symmetric Plot Desv Padrao por Regiao Morti_np, Alfab18, Espvida
4. CONSIDERAÇÕES FINAIS.
A regressão logística pode ser superior do que o a análise discriminante e este foi o caso do presente trabalho já que o modelo que oferece uma melhor porcentagem de acerto é a Regressão Logística com 90% de acerto.
A região que apresenta as melhores condições de vida para as variáveis analisadas no Brasil é o Sul, isto é destacável nos gráficos Summary e Box-Plot.
As ANOVAS permitem identificar a ordem das variáveis apresentando a variabilidade de seus dados.
Neste caso as informações foram normalizadas razão pela qual os indicadores das diferentes variáveis estão entre 0,000 e 1.
Existem vários cenários para estudar o Brasil, falamos no trabalho de 4 Brasis, 3 Brasis porque a diferencia entre as regiões em termos econômicos e de qualidade de vida é muito amplia.
top related