preços de venda de imóveis residenciais em seattlegei12033/relatorios/... · ano de 2000 será...
TRANSCRIPT
Faculdade de Engenharia da Universidade do Porto
Departamento de Engenharia Industrial e Gestão
Preços de venda de imóveis residenciais em Seattle
estudo estatístico
Mestrado Integrado em Engenharia Industrial e Gestão
Ano letivo 2013/2014
2.º semestre
Estatística II
Grupo 21
Ana Rodrigues | Andreia Lourenço | Gina Gonçalves | Hermano Maia
Professores
Miguel Gomes | Armando Leitão
Porto, maio de 2014
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
I
Índice
Introdução .......................................................................................................................... 1
Conceitos Gerais e Metodologia ........................................................................................ 2
Análise inicial dos dados .................................................................................................... 4
“Será que os preços dos imóveis em Seattle aumentaram?” ............................................. 7
Intervalos de confiança .................................................................................................. 7
Testes paramétricos ....................................................................................................... 9
Testes não paramétricos .............................................................................................. 11
Testes de Qualidade de Ajuste ................................................................................. 11
Teste de Localização de Mann-Whitney-Wilcoxon .................................................... 13
Bootstrap ...................................................................................................................... 14
Permutation Test .......................................................................................................... 15
Resumo dos testes de hipótese ................................................................................... 17
Conclusões e considerações finais .................................................................................. 18
Bibliografia ....................................................................................................................... 20
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
II
Índice de tabelas e gráficos
Índice de tabelas
Tabela 1. Amostra relativa ao preço de venda de imóveis em 2000 ........................................... 4
Tabela 2. Amostra relativa ao preço de venda de imóveis em 2001 ........................................... 4
Tabela 3. Estatísticas diversas relativas às amostras ................................................................. 5
Tabela 4. Resumo dos testes de hipótese efetuados ................................................................ 17
Índice de gráficos
Gráfico 1. Histograma para o preço das vendas de 2000 ........................................................... 4
Gráfico 2. Histograma para o preço das vendas de 2001 ........................................................... 4
Gráfico 3. Boxplot para as amostras originais de 2000 e 2001 ................................................... 5
Gráfico 4. QQ-plot para as amostras de 2000 (sem outliers) e 2001 .......................................... 6
Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado ..... 7
Gráfico 6. Histograma para a diferença das trimean das amostras Bootstrap .......................... 14
Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap ............................... 15
Gráfico 8. Histograma para a diferença das médias das amostras do Permutation Test ......... 16
Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test ..... 16
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
1 -
Introdução
O presente estudo estatístico visa analisar a evolução dos preços de venda dos imóveis
residenciais de Seattle, particularmente no que concerne à eventual existência de um
aumento dos mesmos do ano de 2000 para o ano de 2001.
A análise estatística tem por base duas amostras aleatórias (uma para o ano de 2000 e
outra para o ano de 2001) obtidas através dos registos do avaliador da cidade. Estas
amostras, de dimensão distinta, incluem dados sobre a venda de imóveis residenciais,
condomínios e imóveis comerciais, excluindo parcelas de terrenos não urbanizados.
Este relatório, que se constitui, a par da folha de cálculo, como o produto resultante do
estudo elaborado, apresenta os conceitos das técnicas estatísticas realizadas, de forma
resumida, e a metodologia adotada. Segue-se uma secção na qual serão indicados e
analisados os resultados obtidos, apoiados em tabelas e gráficos ilustrativos, bem como
explicadas, com mais precisão, as etapas das diversas técnicas utilizadas. Finalmente,
apresentar-se-ão as conclusões retiradas e considerações finais.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
2 -
Conceitos Gerais e Metodologia
Inicialmente, procedeu-se a uma análise estatística univariada, que implicou o cálculo de
estatísticas de localização e de dispersão, bem como a representação gráfica através de
histogramas e de Quantile-Quantile (QQ) e Probability-Probability (PP) Plots. No decurso
desta etapa, considerou-se oportuno ser tida em conta uma “terceira amostra”, que
resultou da amostra de 2000, mas sem incluir duas observações que foram consideradas
outliers (valores atípicos que apresentam grande afastamento face aos restantes), uma vez
que em determinados testes tais valores poderiam afetar de forma significativa os
resultados.
Posteriormente, recorreu-se à estimação por intervalo, isto é, à elaboração de intervalos
de confiança para a razão das variâncias e para a diferença dos valores esperados, para
uma significância (𝛼) de 5%.
De seguida, efetuaram-se testes paramétricos (testes que incidem explicitamente sobre
um parâmetro de uma ou mais populações e cuja estatística de teste (ET) pressupõe uma
forma particular das distribuições populacionais). Serão apresentados os resultados para o
teste de localização à diferença entre valores esperados de duas populações (teste t) e
para o teste de dispersão à razão de variâncias entre duas populações normais (teste F).
Estes testes foram realizados considerando e excluindo os outliers.
Ulteriormente, recorreu-se a testes não-paramétricos. Neste caso, só foram analisadas
as amostras originais, isto é, com os outliers, uma vez que este tipo de testes apresenta
um grau de robustez que permite “acomodar” estes valores atípicos. Neste grupo estão os
testes:
Kolmogorov-Smirnov (KS) Lilliefors: teste de qualidade de ajuste no qual os
parâmetros são estimados a partir das amostras, pressupondo-se que a variável
aleatória em análise é quantitativa e contínua. Este teste foi realizado para avaliar
se os preços de venda dos imóveis se ajustavam a uma distribuição normal.
Kolmogorov-Smirnov (KS) para duas amostras independentes: teste de qualidade
de ajuste que pressupõe uma variável aleatória quantitativa e contínua,
pretendendo-se avaliar se as duas amostras são provenientes de uma única
população ou de duas igualmente distribuídas.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
3 -
Mann-Whitney-Wilcoxon (MWW): teste de localização que pretende analisar se as
medianas de duas populações contínuas, com a mesma forma, se localizam no
mesmo ponto.
Além dos testes descritos, recorreu-se à técnica bootstrap, que possibilita, em situações
em que não se conhece a distribuição da população e o número de dados da amostra é
pequeno, estimar parâmetros populacionais a partir de uma amostra. Além de que, tal
como os testes de qualidade de ajuste, permite estudar a hipótese de duas amostras
provirem de uma única população. Este processo envolve a geração de várias amostras,
aleatoriamente, com base na amostra inicial e, por isso, a capacidade de cálculo dos
computadores facilita o processo que requer elevados recursos computacionais.
Por último, aplicou-se um permutation test que também parte da geração de vários
valores aleatórios1 mas, neste caso, para obter amostras sem reposição. Considerando
que as populações são idênticas (hipótese nula), estas amostras dão origem a uma única
(de dimensão N) que agrupa as observações das duas amostras individuais. Gera-se,
então, um grande número de amostras de dimensão N, sendo que, para todas as novas
amostras, os primeiros NA valores são atribuídos à população A e os restantes NB são
atribuídos à população B.
Refira-se ainda que durante a execução deste estudo foram realizados outros testes
(incluídos na folha de cálculo), mas que, no decurso da mesma, foram considerados
desadequados ou sem relevância e, por isso, não serão analisados neste relatório.
1 No caso dos Permutation Tests, os números aleatórios corresponderão a números de ordem que serão posteriormente associados às observações das amostras originais.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
4 -
Análise inicial dos dados
Das tabelas 1 e 2 constam as amostras que serviram de base à elaboração do presente
estudo.
Tabela 1. Amostra relativa ao preço de venda de i móveis em 2 000
Vendas de 2000 (em milhares de dólares)
333 207,5 1836* 175 1100* 194,5 280 185 242 359 126,5 199,5 360 133 203 140 475 390 276 163,95
*outliers
Tabela 2. Amostra relativa ao preço de venda de imóveis em 2001
Vendas de 2001 (em milhares de dólares)
419 55,268 65 210 510,728 212,2 152,720 266,6 69,427 125 191 451 469 310 325 50 675 140 105,5 285 320 305 255 95,179 346 199 450 280 205,5 135 190 452,5 335 455 291,905 239,9 369,95 569 481 475 495 195 237,5 143 218,95 239 710 172 228,5 270
Gráfico 1. Histograma para o preço das vendas de 2000
Gráfico 2. Histogr ama para o pre ço das vendas de 2001
Antes de serem realizados os testes adequados à análise do problema proposto,
concretizou-se uma avaliação dos dados facultados no sentido de averiguar a existência
0
1
2
3
4
5
6
Preço de venda (milhares de dólares)
Vendas de 2000
0
2
4
6
8
10
12
14
Preço de venda (milhares de dólares)
Vendas de 2001
Tabela 1. Amostra relativa ao preço de venda de imóveis em 2000
Tabela 2. Amostra relativa ao preço de venda de imóveis em 2001
Gráfico 1. Histograma para o preço das vendas de 2000
Gráfico 2. Histograma para o preço das vendas de 2001
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
5 -
de valores atípicos (outliers) que pudessem afetar os resultados das técnicas acima
referidas e saber quais seriam esses valores. Constatou-se, nomeadamente pela análise
dos histogramas dos gráficos 1 e 2, que existem aparentemente dois outliers (1100 e 1836)
que são muito superiores aos restantes e que respeitam à amostra do ano 2000
(sinalizados a cinzento no histograma respetivo). Uma vez que se pretende analisar o
comportamento dos preços de imóveis residenciais e tendo em conta que as amostras
incluem também valores respeitantes a imóveis comerciais, aqueles valores atípicos
podem não corresponder à venda dos imóveis sobre os quais o presente estudo recai
(imóveis residenciais). Desta forma, no decurso do trabalho, as técnicas estatísticas foram
aplicadas para ambas as possibilidades, ou seja, incluindo e não incluindo os outliers.
Na tabela 3 apresentam-se algumas estatísticas calculadas para as amostras. A
comparação das amostras originais, através da média, sugere valores mais elevados para
as vendas de 2000, contudo se a análise for feita com base na mediana ou na trimean2 a
situação inverte-se.
Tabela 3. Estatísticas diversas relativas às amostras
2000 2001
N 20 (18)
50
Mínimo* 126,5
50,0
1.º Quartil* 177,5 (172,2)
185,5
Mediana* 224,8 (205,3)
260,8
3.º Quartil* 359,8 (339,5)
426,8
Máximo* 1836,0 (475,5)
710,0
Média* 368,9 (246,8)
288,9
Trimean* 246,7 (230,6)
283,5
Desvio Padrão* 405,6 (100,1)
156,2
Kurtose 9,635 (-0,175)
0,072
Assimetria 3,037 (0,815)
0,690
*valores em milhares.
Gráfico 3. Boxpl ot para as amostras originais de 200 0 e 2001
2 Trimean = (1. ºQuartil + 2 × Mediana + 3. ºQuartil)/4
Tabela 3. Estatísticas diversas relativas às amostras.
(entre parêntesis surgem estatísticas calculadas sem considerar outliers)
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
6 -
O boxplot, presente no gráfico 3, sugere alguma assimetria dos dados, particularmente
da amostra de 2000. Considerou-se, por isso, oportuno construir um QQ-plot (neste caso o
ano de 2000 será analisado já sem os outliers) o qual constitui o gráfico 4. Gráfico 4. QQ-plot para as amostras de 2 000 (sem outliers) e 200 1
O coeficiente de determinação amostral para a amostra de 2001 é de 95,45%, enquanto
para a amostra de 2000 é de 92,05%. Apesar destes valores não serem muito baixos para
que se coloque em causa a normalidade, a análise do QQ-plot revela novamente alguma
assimetria e desvios face à reta de ajuste.
Foram também construídos intervalos de confiança para o valor esperado. Estes
intervalos foram calculados de forma distinta para 2000 e 2001, dado que a amostra para o
0
200
400
600
800
1000
1200
1400
1600
1800
2000
2000 2001
Pre
ço d
e ve
nd
a (m
ilhar
es d
e d
óla
res)
0
100
200
300
400
500
600
700
0 100 200 300 400 500 600 700
Val
ore
s Te
óri
cos
Valores da amostra (milhares de dólares)
QQ Plot
2000 s/out 2001
Gráfico 3. Boxplot para as amostras originais de 2000 e 2001
Gráfico 4. QQ-plot para as amostras de 2000 (sem outliers) e 2001.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
7 -
primeiro caso é de pequena dimensão e assimétrica, enquanto para o segundo a amostra
é de grande dimensão.
Assim, para o ano de 2000 o intervalo resulta da fórmula �̅� ± 𝑍(𝛼/2) ∙ 𝜎/√𝑁, podendo-se
afirmar, com 95% de confiança, que o valor esperado das vendas do ano de 2000 está
compreendido entre 179,1 e 558,8 milhares de dólares. Se analisarmos o mesmo ano, mas
excluindo os outliers, a amplitude reduz-se significativamente, obtendo-se o intervalo
[197,0; 296,6].
Por outro lado, para o ano de 2001 o intervalo a 95% de confiança, que resulta da
fórmula �̅� ± 𝑡𝑁−1(𝛼/2) ∙ 𝑠/√𝑁, é [245,6; 332,2].
O gráfico 5 constitui uma representação esquemática destes intervalos de confiança (o
valor da média amostral está assinalado com um triângulo). Gráfico 5. Repre sentação esquemáti ca dos intervalos de confi ança para o valor esperado
“Será que os preços dos imóveis em Seattle aumentaram?”
Intervalos de confiança3
Após a análise inicial, construíram-se intervalos de confiança para a diferença de valores
esperados para compreender se os preços de venda dos imóveis são mais elevados em
2001 do que em 2000. Como se pretende analisar uma possível subida de preços, os
intervalos serão abertos à direita.
Admitiu-se, para tal, que as amostras são independentes e que foram recolhidas de
forma aleatória de populações que seguem distribuições normais, com valores esperados
μ2000 e μ2001 e variâncias σ22000 e σ2
2001. A amostra de 2000 (com média amostra �̅�2000 e
variância amostral s22000) apresenta uma dimensão N2000=20, pelo que, sendo assimétrica,
é considerada uma amostra de pequena dimensão. Por seu turno, a amostra de 2001 (com
3 Ao longo do estudo, a unidade em que os intervalos de confiança serão expressos será o milhar de dólar.
Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado.
(escala em milhares de dólares)
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
8 -
média amostral �̅�2001 e variância amostral s22001) apresenta uma dimensão N2001=50, sendo,
portanto, uma amostra de grande dimensão.
Desta forma, para a construção do intervalo de confiança para a diferença dos valores
esperados, considerou-se, mesmo havendo uma amostra de grande dimensão, que ambas
as amostras eram de pequenas dimensões. Neste caso, não são válidas as aproximações
S22000 ≈ σ2
2000 e S22001 ≈ σ2
2001.
Assim, primeiramente, realizou-se um intervalo de confiança para a razão de variâncias
populacionais, uma vez que estas são desconhecidas. Com o pressuposto de que as duas
populações são normais, o intervalo de confiança é dado por:
[1
𝐹𝑁2000−1, 𝑁2001−1 (𝛼2)
×𝑆2000
2
𝑆20012 ,
1
𝐹𝑁2000−1, 𝑁2001−1 (1 −𝛼2)
×𝑆2000
2
𝑆20012 ] (1)
Com um nível de significância de 5%, o intervalo de confiança ([3,3; 15,2]) não contém o
valor 1, pelo que se admite a não igualdade das variâncias.
Consequentemente, o intervalo de confiança para a diferença de valores esperados
aberto à direita é dado por:
[(�̅�2001 − �̅�2000) − 𝑡𝐺𝐿 (𝛼
2) × √
𝑠20012
𝑁2001+
𝑠20002
𝑁2000; +∞[ (2)
Com:
𝐺𝐿 =(
𝑠20012
𝑁2001+
𝑠20002
𝑁2000)
2
(𝑠2001
2
𝑁2001)
2
𝑁2001 − 1 +(
𝑠20002
𝑁2000)
2
𝑁2000 − 1
(3)
Uma vez que se obteve o intervalo [-240,73; +∞[, estando o valor 0 (zero) incluído, pode
afirmar-se, com 95% de confiança, que os valores esperados para as vendas de 2000 e
2001 são iguais, não havendo, portanto, um aumento de preços. Note-se que a amplitude
deste intervalo de confiança é elevada.
Como as médias amostrais são afetadas por outliers, construíram-se também intervalos
de confiança para os valores esperados e para a razão de variâncias sem considerar
esses valores.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
9 -
Para a construção dos intervalos de confiança sem outliers os pressupostos tidos em
conta para o intervalo de confiança para diferença de valores esperados com outliers
mantêm-se, tendo apenas em conta que a dimensão N2000 é reduzida em duas unidades,
devido à eliminação dos dois valores atípicos, ficando N2000=18.
Torna-se, da mesma forma, necessária a execução de um intervalo de confiança para a
razão de variâncias, admitindo, uma vez mais, a normalidade das populações. Neste caso,
para um nível de significância de 5%, obtém-se o intervalo [1,03; 5,12]4, e, apesar de o
limite inferior estar muito próximo de 1, considera-se também que as variâncias são
diferentes.
Posto isto, a fórmula que permite calcular o intervalo de confiança para a diferença de
valores esperados sem outliers mantém-se, pelo que para α=5%, o intervalo de confiança
é [-12,41;+∞[, havendo evidências estatísticas que permitem admitir que os valores
esperados são idênticos, já que o intervalo obtido contém o valor 0 (zero). É de notar que a
amplitude do intervalo é menor (intervalo mais restrito) do que a verificada anteriormente
com N2000=20.
Testes paramétricos
Como alternativa aos intervalos de confiança, surgem os testes paramétricos, os quais
estabelecem uma hipótese nula (H0) e uma hipótese alternativa (H1), sendo o objetivo
destes testes a rejeição de H0 (quando tal não ocorre, considera-se o teste inconclusivo). É
expectável que as inferências retiradas da análise dos intervalos de confiança sejam as
mesmas que podem ser retiradas após a realização deste tipo de testes.
Mantendo os pressupostos estabelecidos para os intervalos de confiança, ou seja, que
as amostras são de pequenas dimensões e que provêm de populações normais, o teste a
utilizar para a diferença dos valores esperados será o teste t de student.
As hipóteses serão:
H0: μ2000 = μ2001
H1: μ2001 > μ2000 (teste unilateral à direita)
4 Este intervalo foi calculado com a fórmula (1), mas trocando o ano de 2000 com o 2001, de forma a permitir que no numerador surgisse a variância amostral com valor mais elevado.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
10 -
𝐺𝐿 =(
𝑠20012
𝑁2001+
𝑠20002
𝑁2000)
2
(𝑠2001
2
𝑁2001)
2
𝑁2001 − 1 +(
𝑠20002
𝑁2000)
2
𝑁2000 − 1
(7)
Tal como nos intervalos de confiança, é necessária a execução de um teste à razão das
variâncias, admitindo que são populações normais. O teste a ser realizado é o teste F,
para ambos os casos, com e sem outliers.
As hipóteses serão:
H0: σ22000 = σ2
2001
H1: σ22001 ≠ σ2
2000 (teste bilateral)
A estatística de teste é:
𝐸𝑇 = 𝑆2000
2
𝑆20012 (4)5
Quando H0 é verdadeira, a estatística de teste tem a seguinte distribuição:
𝐸𝑇 ↝ 𝐹𝑁2000−1,𝑁2001−1 (5)
Incluindo os outliers, o teste apresenta uma estatística de teste de 6,61, valor crítico de
2,02 e valor de prova inferior a uma centésima percentual. Assim, como a estatística de
teste é superior ao valor crítico, H0 é rejeitada, pelo que não há evidências estatísticas que
permitam admitir que as variâncias das populações sejam iguais. O mesmo se conclui com
a comparação entre o valor de prova e o nível de significância considerado, α=5%, visto
que o valor de prova é inferior à significância.
Desta forma, a estatística de teste para a diferença de valores esperados vem dada por:
𝐸𝑇 =(�̅�2001 − �̅�2000)
√𝑠2001
2
𝑁2001+
𝑠20002
𝑁2000
(6)
Com,
Quando H0 é verdadeira, a estatística de teste segue uma distribuição t de student, como
referido, com GL graus de liberdade. Com 21 graus de liberdade e sendo o teste unilateral
5 Para a situação de não inclusão dos outliers, a ET resultou do inverso desta fórmula, para se manter o tipo de teste (unilateral à direita).
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
11 -
à direita, a estatística de teste toma o valor de -0,86, o valor crítico é 1,72 e, por fim, o valor
de prova é 79,9%. Visto que a estatística de teste é inferior ao valor crítico, não há
evidências estatísticas que apoiem a rejeição da hipótese nula, podendo admitir-se que os
valores esperados são semelhantes.
No caso sem outliers, no teste à razão das variâncias, obtêm-se os seguintes resultados:
ET = 2,48; valor crítico = 2,41 e valor de prova = 4,30%. Através destes resultados é
apoiada a rejeição de H0, na medida em que, apesar de muito próximos, a estatística de
teste é superior ao valor crítico. Assim, admite-se que as variâncias das populações são
diferentes.
Por esta razão, a estatística de teste para a diferença de valores esperados é dada pela
mesma fórmula que a admitida no caso com outliers. Em virtude deste facto e
concretizando um teste unilateral à direita os resultados são: ET = 1,30; valor crítico = 1,68;
valor de prova = 10,1%. A estatística de teste é inferior ao valor crítico, pelo que não há
evidências estatísticas que apoiem a rejeição da hipótese nula. Como tal, conclui-se que
os valores esperados das duas populações são iguais. Caso se tivesse realizado este teste
pressupondo a igualdade das variâncias a inferência seria a mesma já que ET seria 1,06 e
o valor crítico seria 1,67.
Os testes paramétricos foram inconclusivos, na medida em que não houve evidências
estatísticas para rejeitar H0. Conduziram, então, às mesmas conclusões retiradas através
da construção de intervalos de confiança, o que era expectável.
A relação fundamental que existe entre os testes de hipótese e os intervalos de
confiança prende-se com a rejeição da hipótese nula. De uma forma geral, se designarmos
H0: θ = θ0, esta pode ser rejeitada a um nível de significância α se, e só se, o intervalo de
confiança de θ a (1 – α)×100% não incluir o valor de θ0.
Testes não paramétricos
Testes de Qualidade de Ajuste
Para testar a normalidade das amostras realizaram-se testes de Kolmogorov-Smirnov
Lilliefors, para as diferentes amostras (ano 2000, com e sem outliers, e ano 2001),
admitindo que as amostras são aleatórias e independentes.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
12 -
No caso do ano 2000, com outliers, a hipótese nula (a distribuição é normal com valor
esperado igual à média amostral e variância populacional igual à variância amostral) foi
rejeitada, a um nível de significância de 5%, uma vez que a estatística de teste (0,3293) é
superior ao valor crítico (0,1900). Assim, o teste sugere que esta amostra não é ajustável
por uma distribuição normal de média 369 e variância 164505.
Na análise relativa a este mesmo ano, agora sem incluir os outliers, a estatística de teste
(0,2083) é superior ao valor crítico (0,2000), pelo que, a um nível de significância de 5%, o
teste apontaria no sentido da rejeição de H0. Contudo, caso se adotasse um nível de
significância de 1%, a decisão seria a inversa, o que se justifica por o valor de prova estar
compreendido no intervalo ]1; 5[ %. Assim, embora com algumas reservas, considera-se
plausível admitir que a população segue uma distribuição normal de média 247 e variância
10029.
Quanto ao ano 2001, o valor de prova é maior do que 20%, pelo que H0 não é rejeitada e
se admite que a amostra segue uma distribuição normal de média 289 e variância 24894.
Note-se que nestes testes a rejeição de H0 pode não estar associada ao facto da
distribuição ser ou não normal, mas por os parâmetros estimados (média e variância) não
serem os verdadeiros.
Nos intervalos de confiança e testes paramétricos anteriormente realizados, admitiu-se a
normalidade das populações. Ora, após realizados estes testes de KS-Lilliefors, pode
colocar-se em causa esse pressuposto, principalmente para a amostra original de 2000.
Realizou-se ainda um teste de Kolmogorov-Smirnov para duas amostras, com o objetivo
de perceber se as amostras do ano 2000 e do ano 2001 provêm ou não de populações
contínuas com comportamentos semelhantes, admitindo, mais uma vez, a independência e
aleatoriedade das amostras. Neste caso, o teste foi realizado apenas com as amostras
originais, pois o teste não paramétrico consegue “acomodar” os outliers.
A hipótese nula (F2000(x) = F2001(x)) não foi rejeitada, uma vez que o valor de prova é
superior a 20%. Assim, analisando os resultados de forma análoga ao que foi feito nos
testes anteriores, não há evidência estatística de que as duas amostras não tenham
comportamento semelhante.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
13 -
Testou-se, ainda, a título teórico, o ajuste a uma distribuição exponencial negativa, tendo
a hipótese nula sido rejeitada para amostra do ano de 2001 (N=50), mas não para as
amostras de 2000 (N=20 ou N=18). No entanto, nestes últimos casos, a dimensão da
amostra é pequena, pelo que os resultados do teste poderão não ser representativos.
Teste de Localização de Mann-Whitney-Wilcoxon
Como se pretende avaliar se a mediana de 2001 é superior à de 2000 utilizou-se o teste
de MWW. Como já referido, teve-se em consideração as amostras originais dado que os
testes não-paramétricos suportam este tipo de anormalidade. Admitindo que as duas
populações são contínuas, com igual forma, formularam-se as seguintes hipóteses:
H0: ƞ2000=ƞ2001--
H1: ƞ2000<ƞ2001 6
Para o cálculo da estatística de teste, ordenou-se de forma crescente todas as
observações atribuindo um número de ordem a cada uma, começando por 1 e terminado
em 70 (soma das dimensões das duas amostras). De seguida, calculou-se W, que
corresponde à soma dos números de ordem da amostra de menor dimensão (2000).
A estatística de teste é dada por:
𝐸𝑇 =𝑊 − 𝑁2000 ∙ (𝑁 + 1)/2
√𝑁2001 ∙ 𝑁2000 ∙ (𝑁 + 1)/12 (8)
Quando H0 é verdadeira, a estatística de teste possui uma distribuição simétrica. Sendo
que, para a dimensão das amostras em causa, se pode aproximar essa distribuição por
uma distribuição normal, com valor esperado 𝑁2000 ∙ (𝑁 + 1)/2 e variância
𝑁2001 ∙ 𝑁2000 ∙ (𝑁 + 1)/12.
Sendo assim, o teste unilateral à esquerda apresenta uma estatística de teste de
-0,1885, um valor crítico de -1,645 e valor de prova igual a 42,5%. Portanto, como o valor
de prova é superior ao nível de significância de 5%, conclui-se que a hipótese nula não é
rejeitada e que o teste é inconclusivo, isto é, o teste aponta para que as medianas das
populações em questão se localizem no mesmo ponto.
6 A formulação de H1 teve em conta o facto de a amostra de menor dimensão ser a de 2000 e, por isso, o teste é unilateral à esquerda.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
14 -
Bootstrap
Outra técnica estatística utilizada neste estudo foi o bootstrap. Para tal, foram geradas
999 amostras, com reposição, de dimensão 20 baseadas nas observações relativas ao ano
de 2000 e outras 999 amostras, com reposição, de dimensão 50 baseadas nas
observações do ano de 2001.
Para cada amostra foi calculada a média, a mediana e a trimean e, posteriormente,
obteve-se a diferença destes valores entre as amostras relativas a 2001 e as relativas a
2000.
Uma vez que, até ao momento, já foram analisadas as médias populacionais (intervalos
de confiança e testes paramétricos) e as medianas populacionais (teste não paramétrico
de Mann-Whitney-Wilcoxon), atentemos na amostra de bootstrap para a diferença das
trimean. Gráfico 6. Histogr ama para a di ferença das trime an das amostras Bootstrap
A análise do gráfico 6 mostra alguma assimetria na distribuição da diferença das trimean,
pelo que para analisar a normalidade da mesma se construiu um QQ-plot e se calculou o
coeficiente de determinação amostral.
O QQ-plot apresenta dispersão nas caudas e um coeficiente de determinação amostral
de 94,52%. Desta maneira, há a sugestão de que a diferença das trimean não segue uma
distribuição normal.
0
20
40
60
80
100
120
140
160
Histograma diferenças trimean
Gráfico 6. Histograma para a diferença das trimean (milhares de dólares) das amostras bootstrap
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
15 -
Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap
Consequentemente, a construção de intervalos de confiança não faz sentido, pelo que se
procedeu ao cálculo de um intervalo baseado nos percentis 2,5% e 97,5%, obtendo-se
[-112,92; 96,74]. Uma vez que o valor 0 (zero) está contido no intervalo, há a sugestão de
que os preços de 2001 não aumentaram, quando comparados com os de 2000.
Permutation Test
A última técnica estatística utilizada foi o Permutation Test. Trata-se de um caso
particular de testes não-paramétricos, para o qual a estatística de teste corresponde ao
valor de uma estatística, como a diferença das médias, das medianas ou das trimean,
relativo às amostras originais. A hipótese nula é formulada no sentido de as duas amostras
provirem de populações com a mesma distribuição, pelo que, sendo verdadeira, deverá
haver um número semelhante de iterações para as quais a diferença das
médias/medianas/trimean é superior a zero ou inferior a zero. Por outro lado, o valor de
prova é calculado a partir do quociente entre o número de iterações em que a estatística
em análise assume um valor igual ou mais extremo que ET e o número total de iterações
(somando-se, no numerador e no denominador, uma unidade que corresponde à amostra
original).
Foram, então, e de acordo com o já explicitado na secção de Metodologia do presente
estudo, efetuadas 999 iterações que conduziram a 999 amostras sem reposição de
-200
-150
-100
-50
0
50
100
150
200
-300 -250 -200 -150 -100 -50 0 50 100 150
Val
ore
s Te
óri
cos
Valores da amostra (milhares de dólares)
QQ-Plot Diferenças Trimean
Gráfico 7. QQ-plot para a diferença das trimean (milhares de dólares) das amostras Bootstrap.
(os eixos intersetam-se para x=-300 e y=-200)
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
16 -
dimensão 70 referentes à diferença das médias/medianas/trimean, sendo os primeiros 20
valores atribuídos ao ano 2000 e os restantes ao ano 2001.
A análise recairá sobre a diferença das médias e sobre a diferença das medianas, cujos
histogramas relativos às 999 amostras geradas estão representados, respetivamente, nos
gráficos 8 e 9. Nestes gráficos o valor da estatística para as amostras originais está
salientado através de uma reta vertical. Gráfico 8. Histogr ama para a di ferença das médias das amostras do Per mutation Te st
Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test
A diferença das médias e a diferença das medianas considerando as amostras originais
é de, respetivamente, -80,02 e 36,05 milhares de dólares. O teste de permutação aplicado
0
10
20
30
40
50
60
70
80
<-1
55
[-1
55
,-1
45
]
[-1
45
,-1
35
]
[-1
35
,-1
25
]
[-1
25
,-1
15
]
[-1
15
,-1
05
]
[-1
05
,-9
5]
[-9
5,-
85
]
[-8
5,-
75
]
[-7
5,-
65
]
[-6
5,-
55
]
[-5
5,-
45
]
[-4
5,-
35
]
[-3
5,-
25
]
[-2
5,-
15
]
[-1
5,-
5]
[-5
,5]
[5,1
5]
[15
,25
]
[25
,35
]
[35
,45
]
[45
,55
]
[55
,65
]
[65
,75
]
[75
,85
]
[85
,95
]
[95
,10
5]
[10
5,1
15
]
[11
5,1
25
]
[12
5,1
35
]
[13
5,1
45
]
>14
5
Histograma Diferenças Médias
0
10
20
30
40
50
60
70
80
90
100
Histograma Diferenças Medianas
Gráfico 8. Histograma para a diferença das médias (milhares de dólares) das amostras do
Permutation Test. A reta vertical corresponde à ET.
Gráfico 9. Histograma para a diferença das medianas (milhares de dólares) das amostras do
Permutation Test. A reta vertical corresponde à ET.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
17 -
conduziu a um valor de prova de 88,0% no primeiro caso e de 28,7% no segundo caso.
Como se usou um nível de significância de 5%, para ambos os casos não é possível
rejeitar H0. Atente-se, contudo, que o valor de prova para o teste cuja estatística foi a
diferença das médias é muito elevado, o que poderá advir da presença dos outliers.
Construíram-se também, à semelhança do realizado no bootstrap, intervalos de
confiança.
A análise do gráfico 8 mostra assimetria na distribuição das diferenças das médias
amostrais e no gráfico 9 a forma da distribuição das diferenças de medianas parece muito
díspar da forma sinusoidal de uma distribuição normal. Por isso, há a sugestão de que
estas distribuições não são normais, pelo que os intervalos calculados se basearam nos
percentis 2,5% e 97,5%. Obteve-se para a primeira situação o intervalo [-129,99; 112,09] e
para a segunda situação [-90,75; 76,75].
Em ambos os intervalos, como o valor 0 (zero) está incluído, não há evidências
estatísticas que indiquem a rejeição de H0, ou seja, os intervalos sugerem que as vendas
de 2000 e 2001 foram realizadas a preços semelhantes.
Resumo dos testes de hipótese Tabela 4. Re sumo dos testes de hipótese e fetuados
Teste Valor de Prova Conclusão
Diferença valores esperados com outliers 79,9% Teste inconclusivo
Diferença valores esperados sem outliers 10,1% Teste inconclusivo
KS para 2 amostras >20% Teste inconclusivo
Mann-Whitney-Wilcoxon 42,5% Teste inconclusivo
Permutation Test Diferença Médias 88,0% Teste inconclusivo
Permutation Test Diferença Medianas 28,7% Teste inconclusivo
Tabela 4. Resumo dos testes de hipótese efetuados
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
18 -
Conclusões e considerações finais
O presente estudo estatístico pretendia responder à questão “Será que os preços dos
imóveis residenciais de Seattle aumentaram?”, através da comparação dos preços das
vendas de 2001 com os de 2000.
As amostras disponíveis apresentam um inconveniente que reside no facto de não se
cingirem a vendas de imóveis residenciais, uma vez que os registos de que partiram
englobam também as vendas comerciais.
Seattle é uma cidade portuária do estado de Washington dos EUA, com 4 milhões de
habitantes, sendo descrita como um grande centro financeiro, comercial, industrial e
turístico [1]. Por isso, não se considerou apropriado desprezar as vendas de imóveis
comerciais, face às vendas de imóveis residenciais.
Desta forma, ao longo do estudo, a análise do problema baseou-se nas amostras
originais e também nessas amostras mas eliminando valores atípicos que se atribuíram a
eventuais vendas comerciais.
Após a realização e análise das várias técnicas de inferência estatística utilizadas, não
foi possível reunir evidências estatísticas que apoiassem a teoria da subida dos preços de
venda dos imóveis residenciais do ano de 2000 para o ano de 2001, mesmo quando se
analisavam as amostras sem os outliers.
Os intervalos de confiança abertos à direita obtidos para a diferença de valores
esperados apresentam um limite inferior bastante mais próximo de zero quando a análise é
feita sem os outliers, mas, ainda assim, esse valor é de -12,41 mil dólares (no teste de
hipótese correspondente o valor de prova foi de 10,1%).
Além disso, o teste KS para as duas amostras originais, resultou num valor de prova
superior a 20%, sugerindo a semelhança das distribuições dos preços de vendas de 2000
e 2001. No mesmo sentido, o teste de MWW, com um valor de prova de 42,5%, não
permitiu suportar a tese de a mediana dos preços de 2001 ser superior à verificada para os
preços de 2000.
Face a isto, tentou-se ainda analisar o comportamento de uma outra estatística, a
trimean, nomeadamente através do teste bootstrap. Novamente, não foi possível concluir
no sentido do aumento dos preços.
Tabela 4. dos resultados dos testes de hipótese efetuados
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
19 -
Em suma, os testes realizados consubstanciaram-se como inconclusivos, e, por isso, não
é possível apoiar a possibilidade de ter existido uma subida de preços, independentemente
de se considerarem ou não os outliers ou da estatística em análise ser a média, a mediana
ou a trimean.
Contudo, destaque-se a importância de, para o ano de 2000, obter uma amostra de
maior dimensão, uma vez que aquela que foi recolhida não se mostrou representativa. Por
um lado, a amostra era de pequena dimensão e, por outro, continha dois outliers, pelo que,
ao desconsiderá-los, a dimensão da amostra resultante era ainda mais reduzida. Se fosse,
então, possível obter uma nova amostra para as vendas de 2000 e, por outro lado, que as
amostras reunissem valores apenas relativos ao objeto do estudo (imóveis residenciais),
seria interessante repetir os testes realizados para averiguar a plausibilidade da existência
de uma subida dos preços dos imóveis residenciais em Seattle.
Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21
20 -
Bibliografia
Campos Guimarães, R. & Sarsfield Cabral, J. Estatística. ISBN: 978-989-642-108-3.
Materiais Adicionais disponibilizados pelos docentes no SIGARRA.
[1] http://pt.wikipedia.org/wiki/Seattle