preços de venda de imóveis residenciais em seattlegei12033/relatorios/... · ano de 2000 será...

Faculdade de Engenharia da Universidade do Porto

Departamento de Engenharia Industrial e Gestão

Preços de venda de imóveis residenciais em Seattle

estudo estatístico

Mestrado Integrado em Engenharia Industrial e Gestão

Ano letivo 2013/2014

2.º semestre

Estatística II

Grupo 21

Ana Rodrigues | Andreia Lourenço | Gina Gonçalves | Hermano Maia

Professores

Miguel Gomes | Armando Leitão

Porto, maio de 2014

Preço de venda de imóveis em Seattle FEUP – MIEIG – Estatística II – Grupo 21

I

Índice

Introdução .......................................................................................................................... 1

Conceitos Gerais e Metodologia ........................................................................................ 2

Análise inicial dos dados .................................................................................................... 4

“Será que os preços dos imóveis em Seattle aumentaram?” ............................................. 7

Intervalos de confiança .................................................................................................. 7

Testes paramétricos ....................................................................................................... 9

Testes não paramétricos .............................................................................................. 11

Testes de Qualidade de Ajuste ................................................................................. 11

Teste de Localização de Mann-Whitney-Wilcoxon .................................................... 13

Bootstrap ...................................................................................................................... 14

Permutation Test .......................................................................................................... 15

Resumo dos testes de hipótese ................................................................................... 17

Conclusões e considerações finais .................................................................................. 18

Bibliografia ....................................................................................................................... 20


II

Índice de tabelas e gráficos

Índice de tabelas

Tabela 1. Amostra relativa ao preço de venda de imóveis em 2000 ........................................... 4

Tabela 2. Amostra relativa ao preço de venda de imóveis em 2001 ........................................... 4

Tabela 3. Estatísticas diversas relativas às amostras ................................................................. 5

Tabela 4. Resumo dos testes de hipótese efetuados ................................................................ 17

Índice de gráficos

Gráfico 1. Histograma para o preço das vendas de 2000 ........................................................... 4

Gráfico 2. Histograma para o preço das vendas de 2001 ........................................................... 4

Gráfico 3. Boxplot para as amostras originais de 2000 e 2001 ................................................... 5

Gráfico 4. QQ-plot para as amostras de 2000 (sem outliers) e 2001 .......................................... 6

Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado ..... 7

Gráfico 6. Histograma para a diferença das trimean das amostras Bootstrap .......................... 14

Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap ............................... 15

Gráfico 8. Histograma para a diferença das médias das amostras do Permutation Test ......... 16

Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test ..... 16


1 -

Introdução

O presente estudo estatístico visa analisar a evolução dos preços de venda dos imóveis

residenciais de Seattle, particularmente no que concerne à eventual existência de um

aumento dos mesmos do ano de 2000 para o ano de 2001.

A análise estatística tem por base duas amostras aleatórias (uma para o ano de 2000 e

outra para o ano de 2001) obtidas através dos registos do avaliador da cidade. Estas

amostras, de dimensão distinta, incluem dados sobre a venda de imóveis residenciais,

condomínios e imóveis comerciais, excluindo parcelas de terrenos não urbanizados.

Este relatório, que se constitui, a par da folha de cálculo, como o produto resultante do

estudo elaborado, apresenta os conceitos das técnicas estatísticas realizadas, de forma

resumida, e a metodologia adotada. Segue-se uma secção na qual serão indicados e

analisados os resultados obtidos, apoiados em tabelas e gráficos ilustrativos, bem como

explicadas, com mais precisão, as etapas das diversas técnicas utilizadas. Finalmente,

apresentar-se-ão as conclusões retiradas e considerações finais.


2 -

Conceitos Gerais e Metodologia

Inicialmente, procedeu-se a uma análise estatística univariada, que implicou o cálculo de

estatísticas de localização e de dispersão, bem como a representação gráfica através de

histogramas e de Quantile-Quantile (QQ) e Probability-Probability (PP) Plots. No decurso

desta etapa, considerou-se oportuno ser tida em conta uma “terceira amostra”, que

resultou da amostra de 2000, mas sem incluir duas observações que foram consideradas

outliers (valores atípicos que apresentam grande afastamento face aos restantes), uma vez

que em determinados testes tais valores poderiam afetar de forma significativa os

resultados.

Posteriormente, recorreu-se à estimação por intervalo, isto é, à elaboração de intervalos

de confiança para a razão das variâncias e para a diferença dos valores esperados, para

uma significância (𝛼) de 5%.

De seguida, efetuaram-se testes paramétricos (testes que incidem explicitamente sobre

um parâmetro de uma ou mais populações e cuja estatística de teste (ET) pressupõe uma

forma particular das distribuições populacionais). Serão apresentados os resultados para o

teste de localização à diferença entre valores esperados de duas populações (teste t) e

para o teste de dispersão à razão de variâncias entre duas populações normais (teste F).

Estes testes foram realizados considerando e excluindo os outliers.

Ulteriormente, recorreu-se a testes não-paramétricos. Neste caso, só foram analisadas

as amostras originais, isto é, com os outliers, uma vez que este tipo de testes apresenta

um grau de robustez que permite “acomodar” estes valores atípicos. Neste grupo estão os

testes:

Kolmogorov-Smirnov (KS) Lilliefors: teste de qualidade de ajuste no qual os

parâmetros são estimados a partir das amostras, pressupondo-se que a variável

aleatória em análise é quantitativa e contínua. Este teste foi realizado para avaliar

se os preços de venda dos imóveis se ajustavam a uma distribuição normal.

Kolmogorov-Smirnov (KS) para duas amostras independentes: teste de qualidade

de ajuste que pressupõe uma variável aleatória quantitativa e contínua,

pretendendo-se avaliar se as duas amostras são provenientes de uma única

população ou de duas igualmente distribuídas.


3 -

Mann-Whitney-Wilcoxon (MWW): teste de localização que pretende analisar se as

medianas de duas populações contínuas, com a mesma forma, se localizam no

mesmo ponto.

Além dos testes descritos, recorreu-se à técnica bootstrap, que possibilita, em situações

em que não se conhece a distribuição da população e o número de dados da amostra é

pequeno, estimar parâmetros populacionais a partir de uma amostra. Além de que, tal

como os testes de qualidade de ajuste, permite estudar a hipótese de duas amostras

provirem de uma única população. Este processo envolve a geração de várias amostras,

aleatoriamente, com base na amostra inicial e, por isso, a capacidade de cálculo dos

computadores facilita o processo que requer elevados recursos computacionais.

Por último, aplicou-se um permutation test que também parte da geração de vários

valores aleatórios1 mas, neste caso, para obter amostras sem reposição. Considerando

que as populações são idênticas (hipótese nula), estas amostras dão origem a uma única

(de dimensão N) que agrupa as observações das duas amostras individuais. Gera-se,

então, um grande número de amostras de dimensão N, sendo que, para todas as novas

amostras, os primeiros NA valores são atribuídos à população A e os restantes NB são

atribuídos à população B.

Refira-se ainda que durante a execução deste estudo foram realizados outros testes

(incluídos na folha de cálculo), mas que, no decurso da mesma, foram considerados

desadequados ou sem relevância e, por isso, não serão analisados neste relatório.

1 No caso dos Permutation Tests, os números aleatórios corresponderão a números de ordem que serão posteriormente associados às observações das amostras originais.


4 -

Análise inicial dos dados

Das tabelas 1 e 2 constam as amostras que serviram de base à elaboração do presente

estudo.

Tabela 1. Amostra relativa ao preço de venda de i móveis em 2 000

Vendas de 2000 (em milhares de dólares)

333 207,5 1836* 175 1100* 194,5 280 185 242 359 126,5 199,5 360 133 203 140 475 390 276 163,95

*outliers

Tabela 2. Amostra relativa ao preço de venda de imóveis em 2001

Vendas de 2001 (em milhares de dólares)

419 55,268 65 210 510,728 212,2 152,720 266,6 69,427 125 191 451 469 310 325 50 675 140 105,5 285 320 305 255 95,179 346 199 450 280 205,5 135 190 452,5 335 455 291,905 239,9 369,95 569 481 475 495 195 237,5 143 218,95 239 710 172 228,5 270

Gráfico 1. Histograma para o preço das vendas de 2000

Gráfico 2. Histogr ama para o pre ço das vendas de 2001

Antes de serem realizados os testes adequados à análise do problema proposto,

concretizou-se uma avaliação dos dados facultados no sentido de averiguar a existência

0

1

2

3

4

5

6

Preço de venda (milhares de dólares)

Vendas de 2000

0

2

4

6

8

10

12

14

Preço de venda (milhares de dólares)

Vendas de 2001






5 -

de valores atípicos (outliers) que pudessem afetar os resultados das técnicas acima

referidas e saber quais seriam esses valores. Constatou-se, nomeadamente pela análise

dos histogramas dos gráficos 1 e 2, que existem aparentemente dois outliers (1100 e 1836)

que são muito superiores aos restantes e que respeitam à amostra do ano 2000

(sinalizados a cinzento no histograma respetivo). Uma vez que se pretende analisar o

comportamento dos preços de imóveis residenciais e tendo em conta que as amostras

incluem também valores respeitantes a imóveis comerciais, aqueles valores atípicos

podem não corresponder à venda dos imóveis sobre os quais o presente estudo recai

(imóveis residenciais). Desta forma, no decurso do trabalho, as técnicas estatísticas foram

aplicadas para ambas as possibilidades, ou seja, incluindo e não incluindo os outliers.

Na tabela 3 apresentam-se algumas estatísticas calculadas para as amostras. A

comparação das amostras originais, através da média, sugere valores mais elevados para

as vendas de 2000, contudo se a análise for feita com base na mediana ou na trimean2 a

situação inverte-se.

Tabela 3. Estatísticas diversas relativas às amostras

2000 2001

N 20 (18)

50

Mínimo* 126,5

50,0

1.º Quartil* 177,5 (172,2)

185,5

Mediana* 224,8 (205,3)

260,8

3.º Quartil* 359,8 (339,5)

426,8

Máximo* 1836,0 (475,5)

710,0

Média* 368,9 (246,8)

288,9

Trimean* 246,7 (230,6)

283,5

Desvio Padrão* 405,6 (100,1)

156,2

Kurtose 9,635 (-0,175)

0,072

Assimetria 3,037 (0,815)

0,690

*valores em milhares.

Gráfico 3. Boxpl ot para as amostras originais de 200 0 e 2001

2 Trimean = (1. ºQuartil + 2 × Mediana + 3. ºQuartil)/4

Tabela 3. Estatísticas diversas relativas às amostras.

(entre parêntesis surgem estatísticas calculadas sem considerar outliers)


6 -

O boxplot, presente no gráfico 3, sugere alguma assimetria dos dados, particularmente

da amostra de 2000. Considerou-se, por isso, oportuno construir um QQ-plot (neste caso o

ano de 2000 será analisado já sem os outliers) o qual constitui o gráfico 4. Gráfico 4. QQ-plot para as amostras de 2 000 (sem outliers) e 200 1

O coeficiente de determinação amostral para a amostra de 2001 é de 95,45%, enquanto

para a amostra de 2000 é de 92,05%. Apesar destes valores não serem muito baixos para

que se coloque em causa a normalidade, a análise do QQ-plot revela novamente alguma

assimetria e desvios face à reta de ajuste.

Foram também construídos intervalos de confiança para o valor esperado. Estes

intervalos foram calculados de forma distinta para 2000 e 2001, dado que a amostra para o

0

200

400

600

800

1000

1200

1400

1600

1800

2000

2000 2001

Pre

ço d

e ve

nd

a (m

ilhar

es d

e d

óla

res)

0

100

200

300

400

500

600

700

0 100 200 300 400 500 600 700

Val

ore

s Te

óri

cos

Valores da amostra (milhares de dólares)

QQ Plot

2000 s/out 2001

Gráfico 3. Boxplot para as amostras originais de 2000 e 2001

Gráfico 4. QQ-plot para as amostras de 2000 (sem outliers) e 2001.


7 -

primeiro caso é de pequena dimensão e assimétrica, enquanto para o segundo a amostra

é de grande dimensão.

Assim, para o ano de 2000 o intervalo resulta da fórmula �̅� ± 𝑍(𝛼/2) ∙ 𝜎/√𝑁, podendo-se

afirmar, com 95% de confiança, que o valor esperado das vendas do ano de 2000 está

compreendido entre 179,1 e 558,8 milhares de dólares. Se analisarmos o mesmo ano, mas

excluindo os outliers, a amplitude reduz-se significativamente, obtendo-se o intervalo

[197,0; 296,6].

Por outro lado, para o ano de 2001 o intervalo a 95% de confiança, que resulta da

fórmula �̅� ± 𝑡𝑁−1(𝛼/2) ∙ 𝑠/√𝑁, é [245,6; 332,2].

O gráfico 5 constitui uma representação esquemática destes intervalos de confiança (o

valor da média amostral está assinalado com um triângulo). Gráfico 5. Repre sentação esquemáti ca dos intervalos de confi ança para o valor esperado

“Será que os preços dos imóveis em Seattle aumentaram?”

Intervalos de confiança3

Após a análise inicial, construíram-se intervalos de confiança para a diferença de valores

esperados para compreender se os preços de venda dos imóveis são mais elevados em

2001 do que em 2000. Como se pretende analisar uma possível subida de preços, os

intervalos serão abertos à direita.

Admitiu-se, para tal, que as amostras são independentes e que foram recolhidas de

forma aleatória de populações que seguem distribuições normais, com valores esperados

μ2000 e μ2001 e variâncias σ22000 e σ2

2001. A amostra de 2000 (com média amostra �̅�2000 e

variância amostral s22000) apresenta uma dimensão N2000=20, pelo que, sendo assimétrica,

é considerada uma amostra de pequena dimensão. Por seu turno, a amostra de 2001 (com

3 Ao longo do estudo, a unidade em que os intervalos de confiança serão expressos será o milhar de dólar.

Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado.

(escala em milhares de dólares)


8 -

média amostral �̅�2001 e variância amostral s22001) apresenta uma dimensão N2001=50, sendo,

portanto, uma amostra de grande dimensão.

Desta forma, para a construção do intervalo de confiança para a diferença dos valores

esperados, considerou-se, mesmo havendo uma amostra de grande dimensão, que ambas

as amostras eram de pequenas dimensões. Neste caso, não são válidas as aproximações

S22000 ≈ σ2

2000 e S22001 ≈ σ2

2001.

Assim, primeiramente, realizou-se um intervalo de confiança para a razão de variâncias

populacionais, uma vez que estas são desconhecidas. Com o pressuposto de que as duas

populações são normais, o intervalo de confiança é dado por:

[1

𝐹𝑁2000−1, 𝑁2001−1 (𝛼2)

×𝑆2000

2

𝑆20012 ,

1

𝐹𝑁2000−1, 𝑁2001−1 (1 −𝛼2)

×𝑆2000

2

𝑆20012 ] (1)

Com um nível de significância de 5%, o intervalo de confiança ([3,3; 15,2]) não contém o

valor 1, pelo que se admite a não igualdade das variâncias.

Consequentemente, o intervalo de confiança para a diferença de valores esperados

aberto à direita é dado por:

[(�̅�2001 − �̅�2000) − 𝑡𝐺𝐿 (𝛼

2) × √

𝑠20012

𝑁2001+

𝑠20002

𝑁2000; +∞[ (2)

Com:

𝐺𝐿 =(

𝑠20012

𝑁2001+

𝑠20002

𝑁2000)

2

(𝑠2001

2

𝑁2001)

2

𝑁2001 − 1 +(

𝑠20002

𝑁2000)

2

𝑁2000 − 1

(3)

Uma vez que se obteve o intervalo [-240,73; +∞[, estando o valor 0 (zero) incluído, pode

afirmar-se, com 95% de confiança, que os valores esperados para as vendas de 2000 e

2001 são iguais, não havendo, portanto, um aumento de preços. Note-se que a amplitude

deste intervalo de confiança é elevada.

Como as médias amostrais são afetadas por outliers, construíram-se também intervalos

de confiança para os valores esperados e para a razão de variâncias sem considerar

esses valores.


9 -

Para a construção dos intervalos de confiança sem outliers os pressupostos tidos em

conta para o intervalo de confiança para diferença de valores esperados com outliers

mantêm-se, tendo apenas em conta que a dimensão N2000 é reduzida em duas unidades,

devido à eliminação dos dois valores atípicos, ficando N2000=18.

Torna-se, da mesma forma, necessária a execução de um intervalo de confiança para a

razão de variâncias, admitindo, uma vez mais, a normalidade das populações. Neste caso,

para um nível de significância de 5%, obtém-se o intervalo [1,03; 5,12]4, e, apesar de o

limite inferior estar muito próximo de 1, considera-se também que as variâncias são

diferentes.

Posto isto, a fórmula que permite calcular o intervalo de confiança para a diferença de

valores esperados sem outliers mantém-se, pelo que para α=5%, o intervalo de confiança

é [-12,41;+∞[, havendo evidências estatísticas que permitem admitir que os valores

esperados são idênticos, já que o intervalo obtido contém o valor 0 (zero). É de notar que a

amplitude do intervalo é menor (intervalo mais restrito) do que a verificada anteriormente

com N2000=20.

Testes paramétricos

Como alternativa aos intervalos de confiança, surgem os testes paramétricos, os quais

estabelecem uma hipótese nula (H0) e uma hipótese alternativa (H1), sendo o objetivo

destes testes a rejeição de H0 (quando tal não ocorre, considera-se o teste inconclusivo). É

expectável que as inferências retiradas da análise dos intervalos de confiança sejam as

mesmas que podem ser retiradas após a realização deste tipo de testes.

Mantendo os pressupostos estabelecidos para os intervalos de confiança, ou seja, que

as amostras são de pequenas dimensões e que provêm de populações normais, o teste a

utilizar para a diferença dos valores esperados será o teste t de student.

As hipóteses serão:

H0: μ2000 = μ2001

H1: μ2001 > μ2000 (teste unilateral à direita)

4 Este intervalo foi calculado com a fórmula (1), mas trocando o ano de 2000 com o 2001, de forma a permitir que no numerador surgisse a variância amostral com valor mais elevado.


10 -

𝐺𝐿 =(

𝑠20012

𝑁2001+

𝑠20002

𝑁2000)

2

(𝑠2001

2

𝑁2001)

2

𝑁2001 − 1 +(

𝑠20002

𝑁2000)

2

𝑁2000 − 1

(7)

Tal como nos intervalos de confiança, é necessária a execução de um teste à razão das

variâncias, admitindo que são populações normais. O teste a ser realizado é o teste F,

para ambos os casos, com e sem outliers.

As hipóteses serão:

H0: σ22000 = σ2

2001

H1: σ22001 ≠ σ2

2000 (teste bilateral)

A estatística de teste é:

𝐸𝑇 = 𝑆2000

2

𝑆20012 (4)5

Quando H0 é verdadeira, a estatística de teste tem a seguinte distribuição:

𝐸𝑇 ↝ 𝐹𝑁2000−1,𝑁2001−1 (5)

Incluindo os outliers, o teste apresenta uma estatística de teste de 6,61, valor crítico de

2,02 e valor de prova inferior a uma centésima percentual. Assim, como a estatística de

teste é superior ao valor crítico, H0 é rejeitada, pelo que não há evidências estatísticas que

permitam admitir que as variâncias das populações sejam iguais. O mesmo se conclui com

a comparação entre o valor de prova e o nível de significância considerado, α=5%, visto

que o valor de prova é inferior à significância.

Desta forma, a estatística de teste para a diferença de valores esperados vem dada por:

𝐸𝑇 =(�̅�2001 − �̅�2000)

√𝑠2001

2

𝑁2001+

𝑠20002

𝑁2000

(6)

Com,

Quando H0 é verdadeira, a estatística de teste segue uma distribuição t de student, como

referido, com GL graus de liberdade. Com 21 graus de liberdade e sendo o teste unilateral

5 Para a situação de não inclusão dos outliers, a ET resultou do inverso desta fórmula, para se manter o tipo de teste (unilateral à direita).


11 -

à direita, a estatística de teste toma o valor de -0,86, o valor crítico é 1,72 e, por fim, o valor

de prova é 79,9%. Visto que a estatística de teste é inferior ao valor crítico, não há

evidências estatísticas que apoiem a rejeição da hipótese nula, podendo admitir-se que os

valores esperados são semelhantes.

No caso sem outliers, no teste à razão das variâncias, obtêm-se os seguintes resultados:

ET = 2,48; valor crítico = 2,41 e valor de prova = 4,30%. Através destes resultados é

apoiada a rejeição de H0, na medida em que, apesar de muito próximos, a estatística de

teste é superior ao valor crítico. Assim, admite-se que as variâncias das populações são

diferentes.

Por esta razão, a estatística de teste para a diferença de valores esperados é dada pela

mesma fórmula que a admitida no caso com outliers. Em virtude deste facto e

concretizando um teste unilateral à direita os resultados são: ET = 1,30; valor crítico = 1,68;

valor de prova = 10,1%. A estatística de teste é inferior ao valor crítico, pelo que não há

evidências estatísticas que apoiem a rejeição da hipótese nula. Como tal, conclui-se que

os valores esperados das duas populações são iguais. Caso se tivesse realizado este teste

pressupondo a igualdade das variâncias a inferência seria a mesma já que ET seria 1,06 e

o valor crítico seria 1,67.

Os testes paramétricos foram inconclusivos, na medida em que não houve evidências

estatísticas para rejeitar H0. Conduziram, então, às mesmas conclusões retiradas através

da construção de intervalos de confiança, o que era expectável.

A relação fundamental que existe entre os testes de hipótese e os intervalos de

confiança prende-se com a rejeição da hipótese nula. De uma forma geral, se designarmos

H0: θ = θ0, esta pode ser rejeitada a um nível de significância α se, e só se, o intervalo de

confiança de θ a (1 – α)×100% não incluir o valor de θ0.

Testes não paramétricos

Testes de Qualidade de Ajuste

Para testar a normalidade das amostras realizaram-se testes de Kolmogorov-Smirnov

Lilliefors, para as diferentes amostras (ano 2000, com e sem outliers, e ano 2001),

admitindo que as amostras são aleatórias e independentes.


12 -

No caso do ano 2000, com outliers, a hipótese nula (a distribuição é normal com valor

esperado igual à média amostral e variância populacional igual à variância amostral) foi

rejeitada, a um nível de significância de 5%, uma vez que a estatística de teste (0,3293) é

superior ao valor crítico (0,1900). Assim, o teste sugere que esta amostra não é ajustável

por uma distribuição normal de média 369 e variância 164505.

Na análise relativa a este mesmo ano, agora sem incluir os outliers, a estatística de teste

(0,2083) é superior ao valor crítico (0,2000), pelo que, a um nível de significância de 5%, o

teste apontaria no sentido da rejeição de H0. Contudo, caso se adotasse um nível de

significância de 1%, a decisão seria a inversa, o que se justifica por o valor de prova estar

compreendido no intervalo ]1; 5[ %. Assim, embora com algumas reservas, considera-se

plausível admitir que a população segue uma distribuição normal de média 247 e variância

10029.

Quanto ao ano 2001, o valor de prova é maior do que 20%, pelo que H0 não é rejeitada e

se admite que a amostra segue uma distribuição normal de média 289 e variância 24894.

Note-se que nestes testes a rejeição de H0 pode não estar associada ao facto da

distribuição ser ou não normal, mas por os parâmetros estimados (média e variância) não

serem os verdadeiros.

Nos intervalos de confiança e testes paramétricos anteriormente realizados, admitiu-se a

normalidade das populações. Ora, após realizados estes testes de KS-Lilliefors, pode

colocar-se em causa esse pressuposto, principalmente para a amostra original de 2000.

Realizou-se ainda um teste de Kolmogorov-Smirnov para duas amostras, com o objetivo

de perceber se as amostras do ano 2000 e do ano 2001 provêm ou não de populações

contínuas com comportamentos semelhantes, admitindo, mais uma vez, a independência e

aleatoriedade das amostras. Neste caso, o teste foi realizado apenas com as amostras

originais, pois o teste não paramétrico consegue “acomodar” os outliers.

A hipótese nula (F2000(x) = F2001(x)) não foi rejeitada, uma vez que o valor de prova é

superior a 20%. Assim, analisando os resultados de forma análoga ao que foi feito nos

testes anteriores, não há evidência estatística de que as duas amostras não tenham

comportamento semelhante.


13 -

Testou-se, ainda, a título teórico, o ajuste a uma distribuição exponencial negativa, tendo

a hipótese nula sido rejeitada para amostra do ano de 2001 (N=50), mas não para as

amostras de 2000 (N=20 ou N=18). No entanto, nestes últimos casos, a dimensão da

amostra é pequena, pelo que os resultados do teste poderão não ser representativos.

Teste de Localização de Mann-Whitney-Wilcoxon

Como se pretende avaliar se a mediana de 2001 é superior à de 2000 utilizou-se o teste

de MWW. Como já referido, teve-se em consideração as amostras originais dado que os

testes não-paramétricos suportam este tipo de anormalidade. Admitindo que as duas

populações são contínuas, com igual forma, formularam-se as seguintes hipóteses:

H0: ƞ2000=ƞ2001--

H1: ƞ2000<ƞ2001 6

Para o cálculo da estatística de teste, ordenou-se de forma crescente todas as

observações atribuindo um número de ordem a cada uma, começando por 1 e terminado

em 70 (soma das dimensões das duas amostras). De seguida, calculou-se W, que

corresponde à soma dos números de ordem da amostra de menor dimensão (2000).

A estatística de teste é dada por:

𝐸𝑇 =𝑊 − 𝑁2000 ∙ (𝑁 + 1)/2

√𝑁2001 ∙ 𝑁2000 ∙ (𝑁 + 1)/12 (8)

Quando H0 é verdadeira, a estatística de teste possui uma distribuição simétrica. Sendo

que, para a dimensão das amostras em causa, se pode aproximar essa distribuição por

uma distribuição normal, com valor esperado 𝑁2000 ∙ (𝑁 + 1)/2 e variância

𝑁2001 ∙ 𝑁2000 ∙ (𝑁 + 1)/12.

Sendo assim, o teste unilateral à esquerda apresenta uma estatística de teste de

-0,1885, um valor crítico de -1,645 e valor de prova igual a 42,5%. Portanto, como o valor

de prova é superior ao nível de significância de 5%, conclui-se que a hipótese nula não é

rejeitada e que o teste é inconclusivo, isto é, o teste aponta para que as medianas das

populações em questão se localizem no mesmo ponto.

6 A formulação de H1 teve em conta o facto de a amostra de menor dimensão ser a de 2000 e, por isso, o teste é unilateral à esquerda.


14 -

Bootstrap

Outra técnica estatística utilizada neste estudo foi o bootstrap. Para tal, foram geradas

999 amostras, com reposição, de dimensão 20 baseadas nas observações relativas ao ano

de 2000 e outras 999 amostras, com reposição, de dimensão 50 baseadas nas

observações do ano de 2001.

Para cada amostra foi calculada a média, a mediana e a trimean e, posteriormente,

obteve-se a diferença destes valores entre as amostras relativas a 2001 e as relativas a

2000.

Uma vez que, até ao momento, já foram analisadas as médias populacionais (intervalos

de confiança e testes paramétricos) e as medianas populacionais (teste não paramétrico

de Mann-Whitney-Wilcoxon), atentemos na amostra de bootstrap para a diferença das

trimean. Gráfico 6. Histogr ama para a di ferença das trime an das amostras Bootstrap

A análise do gráfico 6 mostra alguma assimetria na distribuição da diferença das trimean,

pelo que para analisar a normalidade da mesma se construiu um QQ-plot e se calculou o

coeficiente de determinação amostral.

O QQ-plot apresenta dispersão nas caudas e um coeficiente de determinação amostral

de 94,52%. Desta maneira, há a sugestão de que a diferença das trimean não segue uma

distribuição normal.

0

20

40

60

80

100

120

140

160

Histograma diferenças trimean

Gráfico 6. Histograma para a diferença das trimean (milhares de dólares) das amostras bootstrap


15 -

Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap

Consequentemente, a construção de intervalos de confiança não faz sentido, pelo que se

procedeu ao cálculo de um intervalo baseado nos percentis 2,5% e 97,5%, obtendo-se

[-112,92; 96,74]. Uma vez que o valor 0 (zero) está contido no intervalo, há a sugestão de

que os preços de 2001 não aumentaram, quando comparados com os de 2000.

Permutation Test

A última técnica estatística utilizada foi o Permutation Test. Trata-se de um caso

particular de testes não-paramétricos, para o qual a estatística de teste corresponde ao

valor de uma estatística, como a diferença das médias, das medianas ou das trimean,

relativo às amostras originais. A hipótese nula é formulada no sentido de as duas amostras

provirem de populações com a mesma distribuição, pelo que, sendo verdadeira, deverá

haver um número semelhante de iterações para as quais a diferença das

médias/medianas/trimean é superior a zero ou inferior a zero. Por outro lado, o valor de

prova é calculado a partir do quociente entre o número de iterações em que a estatística

em análise assume um valor igual ou mais extremo que ET e o número total de iterações

(somando-se, no numerador e no denominador, uma unidade que corresponde à amostra

original).

Foram, então, e de acordo com o já explicitado na secção de Metodologia do presente

estudo, efetuadas 999 iterações que conduziram a 999 amostras sem reposição de

-200

-150

-100

-50

0

50

100

150

200

-300 -250 -200 -150 -100 -50 0 50 100 150

Val

ore

s Te

óri

cos

Valores da amostra (milhares de dólares)

QQ-Plot Diferenças Trimean

Gráfico 7. QQ-plot para a diferença das trimean (milhares de dólares) das amostras Bootstrap.

(os eixos intersetam-se para x=-300 e y=-200)


16 -

dimensão 70 referentes à diferença das médias/medianas/trimean, sendo os primeiros 20

valores atribuídos ao ano 2000 e os restantes ao ano 2001.

A análise recairá sobre a diferença das médias e sobre a diferença das medianas, cujos

histogramas relativos às 999 amostras geradas estão representados, respetivamente, nos

gráficos 8 e 9. Nestes gráficos o valor da estatística para as amostras originais está

salientado através de uma reta vertical. Gráfico 8. Histogr ama para a di ferença das médias das amostras do Per mutation Te st

Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test

A diferença das médias e a diferença das medianas considerando as amostras originais

é de, respetivamente, -80,02 e 36,05 milhares de dólares. O teste de permutação aplicado

0

10

20

30

40

50

60

70

80

<-1

55

[-1

55

,-1

45

]

[-1

45

,-1

35

]

[-1

35

,-1

25

]

[-1

25

,-1

15

]

[-1

15

,-1

05

]

[-1

05

,-9

5]

[-9

5,-

85

]

[-8

5,-

75

]

[-7

5,-

65

]

[-6

5,-

55

]

[-5

5,-

45

]

[-4

5,-

35

]

[-3

5,-

25

]

[-2

5,-

15

]

[-1

5,-

5]

[-5

,5]

[5,1

5]

[15

,25

]

[25

,35

]

[35

,45

]

[45

,55

]

[55

,65

]

[65

,75

]

[75

,85

]

[85

,95

]

[95

,10

5]

[10

5,1

15

]

[11

5,1

25

]

[12

5,1

35

]

[13

5,1

45

]

>14

5

Histograma Diferenças Médias

0

10

20

30

40

50

60

70

80

90

100

Histograma Diferenças Medianas

Gráfico 8. Histograma para a diferença das médias (milhares de dólares) das amostras do

Permutation Test. A reta vertical corresponde à ET.

Gráfico 9. Histograma para a diferença das medianas (milhares de dólares) das amostras do

Permutation Test. A reta vertical corresponde à ET.


17 -

conduziu a um valor de prova de 88,0% no primeiro caso e de 28,7% no segundo caso.

Como se usou um nível de significância de 5%, para ambos os casos não é possível

rejeitar H0. Atente-se, contudo, que o valor de prova para o teste cuja estatística foi a

diferença das médias é muito elevado, o que poderá advir da presença dos outliers.

Construíram-se também, à semelhança do realizado no bootstrap, intervalos de

confiança.

A análise do gráfico 8 mostra assimetria na distribuição das diferenças das médias

amostrais e no gráfico 9 a forma da distribuição das diferenças de medianas parece muito

díspar da forma sinusoidal de uma distribuição normal. Por isso, há a sugestão de que

estas distribuições não são normais, pelo que os intervalos calculados se basearam nos

percentis 2,5% e 97,5%. Obteve-se para a primeira situação o intervalo [-129,99; 112,09] e

para a segunda situação [-90,75; 76,75].

Em ambos os intervalos, como o valor 0 (zero) está incluído, não há evidências

estatísticas que indiquem a rejeição de H0, ou seja, os intervalos sugerem que as vendas

de 2000 e 2001 foram realizadas a preços semelhantes.

Resumo dos testes de hipótese Tabela 4. Re sumo dos testes de hipótese e fetuados

Teste Valor de Prova Conclusão

Diferença valores esperados com outliers 79,9% Teste inconclusivo

Diferença valores esperados sem outliers 10,1% Teste inconclusivo

KS para 2 amostras >20% Teste inconclusivo

Mann-Whitney-Wilcoxon 42,5% Teste inconclusivo

Permutation Test Diferença Médias 88,0% Teste inconclusivo

Permutation Test Diferença Medianas 28,7% Teste inconclusivo

Tabela 4. Resumo dos testes de hipótese efetuados


18 -

Conclusões e considerações finais

O presente estudo estatístico pretendia responder à questão “Será que os preços dos

imóveis residenciais de Seattle aumentaram?”, através da comparação dos preços das

vendas de 2001 com os de 2000.

As amostras disponíveis apresentam um inconveniente que reside no facto de não se

cingirem a vendas de imóveis residenciais, uma vez que os registos de que partiram

englobam também as vendas comerciais.

Seattle é uma cidade portuária do estado de Washington dos EUA, com 4 milhões de

habitantes, sendo descrita como um grande centro financeiro, comercial, industrial e

turístico [1]. Por isso, não se considerou apropriado desprezar as vendas de imóveis

comerciais, face às vendas de imóveis residenciais.

Desta forma, ao longo do estudo, a análise do problema baseou-se nas amostras

originais e também nessas amostras mas eliminando valores atípicos que se atribuíram a

eventuais vendas comerciais.

Após a realização e análise das várias técnicas de inferência estatística utilizadas, não

foi possível reunir evidências estatísticas que apoiassem a teoria da subida dos preços de

venda dos imóveis residenciais do ano de 2000 para o ano de 2001, mesmo quando se

analisavam as amostras sem os outliers.

Os intervalos de confiança abertos à direita obtidos para a diferença de valores

esperados apresentam um limite inferior bastante mais próximo de zero quando a análise é

feita sem os outliers, mas, ainda assim, esse valor é de -12,41 mil dólares (no teste de

hipótese correspondente o valor de prova foi de 10,1%).

Além disso, o teste KS para as duas amostras originais, resultou num valor de prova

superior a 20%, sugerindo a semelhança das distribuições dos preços de vendas de 2000

e 2001. No mesmo sentido, o teste de MWW, com um valor de prova de 42,5%, não

permitiu suportar a tese de a mediana dos preços de 2001 ser superior à verificada para os

preços de 2000.

Face a isto, tentou-se ainda analisar o comportamento de uma outra estatística, a

trimean, nomeadamente através do teste bootstrap. Novamente, não foi possível concluir

no sentido do aumento dos preços.

Tabela 4. dos resultados dos testes de hipótese efetuados


19 -

Em suma, os testes realizados consubstanciaram-se como inconclusivos, e, por isso, não

é possível apoiar a possibilidade de ter existido uma subida de preços, independentemente

de se considerarem ou não os outliers ou da estatística em análise ser a média, a mediana

ou a trimean.

Contudo, destaque-se a importância de, para o ano de 2000, obter uma amostra de

maior dimensão, uma vez que aquela que foi recolhida não se mostrou representativa. Por

um lado, a amostra era de pequena dimensão e, por outro, continha dois outliers, pelo que,

ao desconsiderá-los, a dimensão da amostra resultante era ainda mais reduzida. Se fosse,

então, possível obter uma nova amostra para as vendas de 2000 e, por outro lado, que as

amostras reunissem valores apenas relativos ao objeto do estudo (imóveis residenciais),

seria interessante repetir os testes realizados para averiguar a plausibilidade da existência

de uma subida dos preços dos imóveis residenciais em Seattle.


20 -

Bibliografia

Campos Guimarães, R. & Sarsfield Cabral, J. Estatística. ISBN: 978-989-642-108-3.

Materiais Adicionais disponibilizados pelos docentes no SIGARRA.

[1] http://pt.wikipedia.org/wiki/Seattle

http://aleph.fe.up.pt/F/-?func=find-b&find_code=SYS&request=000142266

http://pt.wikipedia.org/wiki/Seattle

preços de venda de imóveis residenciais em seattlegei12033/relatorios/... · ano de 2000 será...

Documents