modelos lineares generalizados: aplicação a dados de...
TRANSCRIPT
UNIVERSIDADE DE LISBOA
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL
Modelos lineares generalizados: aplicação a dados de
acidentes rodoviários
Dissertação
Mestrado em Gestão de Informação
Especialização em Gestão e Análise de Dados
Ana Maria Tavares Alvarenga
Dissertação orientada pela Prof.ª Doutora Maria Isabel Calisto Frade Barão
Dissertação co-orientada pela Prof.ª Doutora Ana Luísa do Carmo Correia Respício
2015
ii
Agradecimentos
Gostaria de agradecer e dedicar esse trabalho à minha família. Em especial a minha mãe
sempre muito presente, me apoiando e dando força.
Agradeço a professora Doutora Maria Isabel Calisto Frade Barão, minha orientadora, pela
paciência, incentivo e todo o apoio dado no decorrer deste estudo.
Também agradeço a professora Doutora Ana Luísa do Carmo Correia Respício pelas
sugestões e críticas que foram importantes para a concretização desta dissertação.
A todos que de alguma forma contribuíram para a realização deste trabalho, muito
obrigada!
iii
Índice
1. Introdução ................................................................................................................ 1
1.1. Objetivo ............................................................................................................. 1 1.2. Estrutura da tese ................................................................................................. 2
2. Revisão da literatura ............................................................................................... 3
3. Modelos lineares generalizados .............................................................................. 7 3.1. Família Exponencial .......................................................................................... 7 3.2. Características do Modelo linear generalizado .................................................. 8 3.3. Estimação dos parâmetros ................................................................................. 9
3.4. Testes de hipóteses ........................................................................................... 11
3.4.1. Teste de Wald ........................................................................................... 11
3.4.2. Teste da razão de verosimilhanças ........................................................... 12 3.5. Seleção de modelos .......................................................................................... 12 3.6. Avaliação do modelo ....................................................................................... 13
3.6.1. Deviance ................................................................................................... 13
3.6.2. Critério de Informação.............................................................................. 14 3.6.3. Análise de resíduos ................................................................................... 14
3.6.4. Observações influentes ............................................................................. 16 3.6.5. Tipos de gráficos ...................................................................................... 16
4. Modelo de regressão Logística ............................................................................. 17
4.1. Formulação ...................................................................................................... 17
4.2. Estimação dos coeficientes de regressão ......................................................... 18
4.3. Qualidade de ajustamento ................................................................................ 19 4.3.1. Hosmer e Lemeshow ................................................................................ 19
4.3.2. Qui-Quadrado de Pearson ......................................................................... 20 4.4. Capacidade preditiva do modelo ...................................................................... 20
4.4.1. Curva ROC ............................................................................................... 20 4.4.2. Tabela de contingência ............................................................................. 21
4.5. Interpretação dos coeficientes de regressão ..................................................... 21 4.5.1. Variável independente dicotómica ........................................................... 22 4.5.2. Variável independente policotómica ........................................................ 23 4.5.3. Variável independente contínua ............................................................... 24
5. Modelo de regressão de Poisson ........................................................................... 25
5.1. Descrição ......................................................................................................... 25
5.2. Estimação dos coeficientes do modelo ............................................................ 26
5.3. Qualidade de ajustamento ................................................................................ 27
6. Modelo de regressão Binomial Negativa ............................................................. 29
6.1. Descrição ......................................................................................................... 29
6.2. Estimação dos coeficientes do modelo ............................................................ 29 6.3. Qualidade de ajustamento ................................................................................ 30
7. Análise e modelação de dados .............................................................................. 31
iv
7.1. Base de dados ................................................................................................... 31
7.1.1. Dados da severidade de acidentes rodoviários ......................................... 32
7.1.2. Dados de ocorrências de acidentes rodoviários por dia ............................ 39 7.2. Estimação dos modelos .................................................................................... 40
7.2.1. Regressão Logística .................................................................................. 41 7.2.2. Regressão de Poisson ............................................................................... 57 7.2.3. Regressão Binomial Negativa .................................................................. 61
8. Conclusão ............................................................................................................... 65
Bibliografia: .................................................................................................................. 67
Anexos ............................................................................................................................ 69
v
Lista de Tabelas
Tabela 7.1: As variáveis em estudo e respetivas categorias ........................................................ 33
Tabela 7.2: Frequência de severidade dos acidentes rodoviários segundo os dias da semana .... 37
Tabela 7.3: Frequência de severidade dos acidentes rodoviários segundo os meses .................. 37
Tabela 7.4: Frequência de severidade dos acidentes rodoviários segundo a hora do dia ............ 37
Tabela 7.5: Frequência de severidade dos acidentes rodoviários segundo a condição de
iluminação ........................................................................................................................... 38
Tabela 7.6: Frequência de severidade dos acidentes rodoviários segundo o tipo de veículos .... 38
Tabela 7.7: Frequência de severidade dos acidentes rodoviários segundo o género do condutor
............................................................................................................................................. 38
Tabela 7.8: Frequência de severidade dos acidentes rodoviários segundo a faixa etária do
condutor ............................................................................................................................... 38
Tabela 7.9: Teste de Qui-Quadrado entre as variáveis explicativas e a variável severidade de
acidentes rodoviários ........................................................................................................... 39
Tabela 7.10: Ajuste de regressão logística a cada uma das variáveis explicativas ..................... 42
Tabela 7.11: Comparação entre os modelos (backward, both e forward) e o modelo nulo ........ 44
Tabela 7.12: Resultado para comparação dos modelos de regressão Logística (modelo1 e 2) ... 45
Tabela 7.13: Modelo de regressão Logística (Modelo1) ............................................................. 46
Tabela 7.14: Estimativas dos parâmetros, estatística de Wald e valor p (Modelo3) ................... 48
Tabela 7.15: Tabela de classificação do modelo3 ....................................................................... 50
Tabela 7.16: valores obtidos para a razão da chance (Odds ratio) e intervalo de confiança ...... 51
Tabela 7.17: Regressão Logística ajustado aos dados de acidentes com peões na zona rural .... 53
Tabela 7.18: Regressão logística ajustado aos dados de acidentes com peões na zona urbana .. 54
Tabela 7.19: resultados comparativos da probabilidade de ocorrência de acidentes não ligeiros
entre zona rural e urbana ..................................................................................................... 55
Tabela 7.20: Resultados de ajuste de regressão de Poisson de cada variável explicativa ........... 57
Tabela 7.21: diferença entre a deviance do modelo ajustado com regressão de Poisson e a
deviance do modelo nulo ..................................................................................................... 58
Tabela 7.22: Resultados de AIC e %explicada da deviance para selecionar o modelo de Poisson
............................................................................................................................................. 59
Tabela 7.23: Resultado de ajustamento do modelo de regressão de Poisson (modelo1) ............ 59
Tabela 7.24: Resultados de AIC e % explicada da deviance para selecionar o modelo de
regressão Binomial Negativa .............................................................................................. 61
Tabela 7.25: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo1) 62
vi
Lista de Figura
Figura 7.1: Boxplot e gráfico de barras para a variável idade do veículo ................................... 34
Figura 7.2: Distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano
............................................................................................................................................. 34
Figura 7.3: Distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os
tipos de veículos .................................................................................................................. 35
Figura 7.4: Distribuição de acidentes rodoviários segundo a hora do dia e as condições de
iluminação ........................................................................................................................... 35
Figura 7.5: Distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor
............................................................................................................................................. 36
Figura 7.6: Distribuição de acidentes rodoviários entre 2005 e 2013 ......................................... 40
Figura 7.7: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados
aos dados de acidentes com peões de 2005 a 2013 ............................................................. 49
Figura 7.8: gráfico da Curva ROC (modelo de regressão Logística) .......................................... 50
Figura 7.9: Gráficos normais de probabilidades referentes ao modelo de regressão de Poisson (a)
e ao modelo de regressão Binomial Negativa (b) ................................................................ 63
Figura 7.10: Gráficos da análise de resíduos referentes ao modelo de regressão Binomial Negativa
............................................................................................................................................. 63
vii
Resumo
Os acidentes rodoviários são considerados um importante problema de saúde pública a
nível mundial. Segundo o relatório da organização mundial de saúde (OMS, 2013), em
2030 os acidentes rodoviários estarão entre as cinco principais causas de morte no mundo.
A investigação sobre os fatores que influenciam a ocorrência de acidentes rodoviários é
realizada com o intuito de reduzir o número de acidentes rodoviários e a sua severidade,
assim como evitar os custos pessoais, sociais e económicos que lhe estão associados.
Nesta dissertação, a análise de ocorrência de acidentes rodoviários abordou duas
questões. A primeira foi identificar os fatores que influenciam a probabilidade de
ocorrerem acidentes não ligeiros, aplicando a regressão Logística. A segunda questão foi
modelar a ocorrência de acidentes rodoviários por dia, aplicando a metodologia de
regressão de Poisson. No entanto, os modelos desenvolvidos apresentaram o problema de
sobredispersão e a alternativa foi a regressão Binomial Negativa. Os modelos foram
desenvolvidos com aplicação a um conjunto de dados relativos a acidentes ocorridos entre
2005 e 2013 na Grã-Bretanha a nível nacional.
Para a análise da regressão Logística, tomou-se como variável resposta a severidade de
acidentes, em que as vítimas são peões. Foram considerados os dados de acidentes com
peões ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 a 31 de Dezembro de 2013.
Nesta análise os resultados demonstraram que o modelo de regressão Logística é
adequado para explicar a severidade dos acidentes. As variáveis explicativas utilizadas
foram o tipo de veículos, o limite de velocidade nas estradas, as condições de iluminação,
o género e a faixa etária dos condutores, o dia da semana, a hora do dia e a idade do
veículo. Estas variáveis foram estatisticamente significativas, mas as que tiveram o maior
impacto sobre a severidade de acidentes foram o limite de velocidade nas estradas, as
condições de iluminação e o tipo de veículos.
Também foi feita uma comparação da severidade de acidentes com peões entre
ocorrências na zona rural e urbana, usando as mesmas variáveis explicativas da análise
anterior. A diferença encontrada reside no maior impacto que tem o limite de velocidade
na severidade dos acidentes ocorridos na zona rural, em comparação com a zona urbana.
Quanto à análise do número de acidentes ocorridos por dia, os modelos desenvolvidos
com a regressão Binomial Negativa foram mais adequados para ajustar aos dados que os
desenvolvidos com a regressão de Poisson. As variáveis explicativas utilizadas foram o
dia da semana, o facto desse dia ser feriado ou não, os meses ou as estações do ano. Os
resultados da análise demonstraram que o número de acidentes ocorridos por dia é melhor
explicado pelas variáveis dia da semana (com sete categorias), meses do ano e os dias
feriados.
Palavras-Chaves: Modelos de regressão Logística, modelos de regressão, modelos de
regressão Binomial Negativa, severidade de acidentes, acidentes rodoviários.
viii
Abstract
Road accidents are considered an important public health problem worldwide. According
to the report of the World Health Organization (WHO, 2013), in 2030 road accidents will
be among the five leading causes of death worldwide. Research on the factors influencing
the occurrence of road accidents is performed with the aim of reducing the number of
road accidents and its severity, as well as avoiding the personal, social and economic costs
associated with it.
In this thesis, the analysis of the occurrence of road accidents addresses two issues. The
first is identifying the factors that influence the probability of non-slight accidents,
applying the Logistic regression methodology. The second issue is modelling the
occurrence of daily road accidents applying the Poisson regression methodology.
However, the models developed showed an over-dispersion problem and the alternative
was the Negative Binomial regression. The models were developed with application to a
set of data on accidents that occurred from 2005-2013 in Britain at national level.
For the Logistics regression analysis the response variable is the severity of the accidents
where the victims are pedestrians. Data consists of accident data involving pedestrians
that have occurred in Britain from 1 January 2005 to 31 December 2013. In this analysis
the results showed that the Logistic regression model is adequate to explain the severity
of accidents. The explanatory variables used were the type of the vehicles, the speed limit
on the roads, lighting conditions, gender and age group of drivers, day of the week, time
of the day and the age of the vehicle. These variables were statistically significant, but
the ones that had the greatest impact on the severity of accidents were the speed limit on
the roads, the lighting conditions and the type of the vehicles.
A comparison on the severity of accidents involving pedestrians between rural and urban
areas was also undertaken using the same explanatory variables. The difference was
mainly the greatest impact of speed limit on rural areas.
Regarding the analysis of the number of accidents per day, the models developed with
the Negative Binomial regression were more appropriate to adjust the data than the
models developed with the Poisson regression. The explanatory variables used were the
days of the week, the months of the year, the seasons and holidays. The results of the
regression analysis showed that the number of daily accidents is best explained by the
day of the week (seven categories), the months of the year and the holidays.
Keywords: Logistic regression models, Poisson regression models, Negative Binomial
regression models, severity of accidents, road accidents.
1
1. Introdução
A nível mundial, cerca de 1.24 milhões de pessoas morrem em acidentes rodoviários
anualmente, e entre 20 a 50 milhões de pessoas sofrem ferimentos ligeiros ou graves
(WHO, 2013). As consequências dos acidentes rodoviários resultam em custos elevados
para a sociedade, para a saúde e para a economia de cada país. A estimativa a nível
económico das consequências dos acidentes rodoviários é de 1% do produto interno bruto
(PIB) nos países de rendimento baixo, 1.5% nos países de rendimento médio, e 2% nos
países de rendimento alto (Peden et al., 2004). Segundo a organização mundial de saúde
(OMS), em 2030 os acidentes rodoviários estarão entre as cinco principais causas de
morte no mundo, portanto os acidentes rodoviários continuam a ser um importante
problema de saúde pública.
Há, em todo o mundo, uma necessidade de se melhorar a segurança rodoviária com o
objetivo de reduzir o número de vítimas nas estradas. Muitos acidentes são causados por
fatores que são conhecidos e podem ser evitados. Estes incluem a condução a alta
velocidade ou sob a influência de álcool, a falta do uso de cintos de segurança, não
respeitar os utilizadores de estrada mais vulneráveis, como peões e ciclistas, e
infraestruturas rodoviárias inseguras. Em muitos países desenvolvidos o número de
vítimas em acidentes rodoviários tende a diminuir, devido à aplicação de medidas
adequadas para melhorar a segurança rodoviária. A Organização para a Cooperação e
Desenvolvimento Económico (OCDE), que inclui a maioria dos países desenvolvidos,
estabeleceu um Sistema de Seguranças com metas desafiadoras para seus membros em
direção à filosofia a longo prazo, denominada visão zero, cujo objetivo é reduzir o número
de mortos e ferimentos graves a zero. Nestes países, a fatalidade foi reduzida em 50%,
desde 1970, apesar do aumento do número de veículos motorizados (OCDE, 2008). Para
tal objetivo são aplicadas medidas sistemáticas e métodos educacionais que permitem
modificar o comportamento dos participantes no tráfego. As medidas sistemáticas são
direcionadas aos veículos, a via, o sistema legal e fiscalização (Raia Jr. e Santos, 2005).
1.1. Objetivo
O objetivo deste trabalho é desenvolver modelos estatísticos que permitam identificar
fatores associados à ocorrência de acidentes rodoviários. Trata-se de uma questão de
elevada importância, no âmbito da segurança rodoviária, pois permite às empresas
responsáveis tomar medidas adequadas para melhor segurança nas estradas.
Os modelos desenvolvidos correspondem a dois tipos de abordagem: modelos onde a
variável resposta é qualitativa e modelos onde a variável resposta é quantitativa. Para a
primeira abordagem, a variável resposta é qualitativa, assume apenas dois valores
possíveis (0 e 1) que identificam as categorias da severidade dos acidentes,
respetivamente, “ligeiros” e “não ligeiros”. Na segunda abordagem, a variável resposta é
quantitativa, os valores correspondem ao número de acidentes ocorridos por dia.
2
Estas duas abordagens foram aplicadas neste trabalho, com base nos dados de acidentes
ocorridos entre 2005 a 2013 na Grã-Bretanha a nível nacional.
1.2. Estrutura da tese
Para além do presente capítulo, o trabalho foi organizado em sete capítulos.
O capítulo 2 apresenta alguns estudos que abordaram o tema de análise nesta dissertação.
O capítulo 3 apresenta de uma forma geral, a teoria sobre as metodologias utilizadas neste
trabalho.
Os capítulos 4, 5 e 6 seguem com a teoria das metodologias de uma maneira mais
específica, descrevendo os modelos de regressão Logística, de Poisson e de Binomial
Negativa, respetivamente.
O capítulo 7 inicia com a apresentação e descrição das bases de dados, em seguida serão
discutidos os resultados estatísticos dos modelos.
Finalmente, no capítulo 8 são apresentadas as conclusões obtidas do trabalho.
3
2. Revisão da literatura
Neste capítulo apresentam-se os principais trabalhos realizados no âmbito de estudo da
ocorrência de acidentes rodoviários e das suas consequências. A investigação tem
mostrado que a ocorrência de acidentes rodoviários e suas consequências estão associados
a diversos fatores, dos quais podemos citar fatores individuais e fatores externos ou
ambientais. A nível individual parecem ser mais comuns as variáveis como a faixa etária
e o género dos condutores. Relativamente aos fatores externos, pode referir-se a hora do
dia, condições climáticas, características das estradas e características de veículos.
Primeiramente apresentam-se os trabalhos realizados sobre os fatores que influenciam a
ocorrência de acidentes a nível das suas consequências, sendo a variável resposta ou
dependente de natureza qualitativa 0 e 1. Em seguida apresentam-se os trabalhos
realizados sobre a ocorrência de acidentes a nível das frequências, onde a variável
resposta é quantitativa.
2.1. Modelos de variável resposta qualitativa
As consequências de acidentes rodoviários podem ser a nível económico, físico e
psicológico. Em relação ao nível físico, quando não resulta em morte, as consequências
dos acidentes podem levar a vários níveis de incapacidade, desde baixas limitações até
limitações a longo prazo. Os investigadores analisaram as consequências referentes a
nível físico considerando a severidade dos ferimentos como variável resposta e a sua
representação em duas ou mais categorias. Quando esta variável é categórica (com duas
categorias) a regressão Logística é a mais utilizada, e no caso de mais de duas categorias
é mais comum a aplicação do modelo de resposta ordenada (Eluru et al. 2008).
Por exemplo, Dissanayake & Lu (2002) e Eluru & Bhat (2007) analisaram a severidade
de ferimento dos condutores com aplicação da regressão Logística e modelos de resposta
ordenada, respetivamente. Segundo Dissanayake & Lu (2002) o aumento da velocidade
do veículo e o ponto de impacto frontal aumentam a probabilidade de ferimentos graves,
a utilização de um dispositivo de retenção diminui a probabilidade de ferimentos graves.
Eluru & Bhat (2007) identificaram nas suas análises outros fatores que foram relevantes
nas probabilidades, esses fatores são: tipo de veículo, limite de velocidade nas estradas e
hora do dia.
Zajac & Ivan (2003) e Eluru et al. (2008) realizaram uma análise sobre a severidade de
ferimento dos peões com a utilização, respetivamente, da metodologia modelo probit
ordenado e modelo logit ordenado, concluíram que existe uma associação
estatisticamente significativa entre os condutores sob o efeito de álcool e a severidade de
ferimento dos peões. Os resultados mostraram que os peões ou os ciclistas atingidos por
um condutor alcoolizado têm maior probabilidade de sofrer ferimentos graves. Os
resultados da análise de estudo realizado por Zajac & Ivan também indicaram outros
fatores como o tipo de veículos, o tipo de áreas e a largura da via que foram
4
estatisticamente significativa. Para Eluru et al. (2008) os acidentes ocorridos nas estradas
com limite de velocidade maior ou igual a 25 milhas/hora aumentam a probabilidade de
ferimentos fatais e se ocorreram em interseção sinalizada diminui a probabilidade de
ferimentos fatais em relação a outros locais. Também identificaram que se o impacto for
frontal aumenta a probabilidade de ferimentos graves.
Valent et al. (2002) aplicaram a regressão Logística para analisar a severidade de
acidentes entre os condutores. Os resultados demonstraram que a chance de acidentes
fatais aumenta com a idade dos condutores e os homens tem maior chance de sofrer
ferimentos fatais em relação às mulheres. Também indicaram que há maior probabilidade
de acidentes fatais no horário das 18:00 horas à meia-noite e principalmente às primeiras
horas de manhã.
Kong & Yang (2010) analisaram o impacto da velocidade do veículo sobre a severidade
de ferimento dos peões com aplicação da regressão Logística e concluíram que os peões
atingidos por um veículo a alta velocidade tem maior probabilidade de ferimentos graves.
Ghamdi (2002) aplicou a regressão Logística para analisar a severidade de acidentes entre
os indivíduos envolvidos nos acidentes. Os resultados demonstraram que a associação
entre a severidade de acidente e as variáveis explicativas (localização e a causa de
acidente) foram estatisticamente significativas.
Milton, Shankar e Mannering, (2008) consideraram o modelo logit misto para estudar a
variação das proporções de severidade de acidentes em segmentos rodoviários de acordo
com as características do tempo, da estrada e do tráfego. A severidade de acidente é
definida como nível de ferimento resultante de um acidente. Para desenvolver o modelo
consideraram três níveis de ferimentos (apenas danos materiais, possíveis ferimentos e
categoria ferimento grave) por segmento da rodovia. Segundo eles, esta abordagem
permite à empresa de segurança rodoviária uma melhor compreensão do efeito das
variáveis explicativas sobre a variação de acidentes e aperfeiçoar a segurança nas
estradas.
2.2. Modelo de variável resposta quantitativa
No caso de estudo onde a variável resposta é quantitativa, os modelos nomeadamente
utilizados para a análise de ocorrência de acidentes rodoviários são o modelo clássico de
regressão ou os modelos lineares generalizados.
Hong et al. (2005) utilizaram o modelo clássico de regressão. Para o desenvolvimento do
modelo classificaram as estradas em grupos de acordo com o número de faixas e
existência de barreira mediana, assim para cada grupo estima-se o número médio de
acidentes. As variáveis explicativas consideradas foram o número de cruzamentos, o
número de vias de ligação, os sinais de trânsito e o volume do tráfego. Os modelos
desenvolvidos foram três: modelo para estradas com duas faixas de rodagem, com quatro
faixas de rodagem e existência de barreira mediana e modelo com quatro faixas de
5
rodagem sem barreira mediana. Os resultados demonstraram que todas as variáveis
explicativas tiveram correlações positivas com a variável resposta “número de acidentes”,
as mais significativas foram o número de interseções e os sinais de trânsito.
O volume de tráfego é um fator considerado importante na análise de variação de
acidentes, (Cools et al. 2009) estudaram o efeito da variável tempo sobre o volume de
tráfego com aplicação do modelo clássico de regressão, e concluíram que o volume de
tráfego aumenta com a temperatura máxima e diminui com o aumento da queda de neve,
da chuva e da velocidade do vento.
No entanto Miaou & Lum (1993) aplicaram o modelo clássico de regressão para estudar
a relação entre a ocorrência de acidentes rodoviários e a geometria de estrada, e
concluíram que o modelo não é adequado. O modelo clássico de regressão tem o
pressuposto básico que a variável dependente seja contínua e normalmente distribuída
com variância constante. Portanto este modelo não tem a propriedade distributiva
necessária para descrever adequadamente eventos aleatórios discretos e não negativos,
tais como os acidentes rodoviários. Ainda sobre os mesmos dados da análise aplicaram o
modelo linear generalizado, referindo-se ao modelo de Poisson, mas também não foi o
modelo adequado. Geralmente em dados de contagem a variância é maior que a média.
Esta variação é conhecida como sobredispersão e a utilização do modelo de Poisson nesta
circunstância pode causar a subestimação da variância dos parâmetros. A consequência
disso é a estatística de teste sobrestimada enviesando a significância desta.
Para ultrapassar o problema de sobredispersão vários investigadores como Milton &
Mannering (1988), Abdel-Aty & Radwan (2000), e Memon (2012) propuseram a
utilização da regressão Binomial Negativa.
Milton & Mannering (1988) utilizaram a regressão Binomial Negativa para a análise da
frequência anual de acidentes nas principais autoestradas do estado de Washington. As
variáveis explicativas como o comprimento de seção de estrada, a percentagem de
camiões em trânsito, a velocidade fixa, o número de faixas e as curvas horizontais foram
consideradas para explicar a variação de acidentes. Os resultados demonstraram que a
regressão Binomial Negativa é um método adequado para a previsão de acidentes
rodoviários.
Abdel-Aty & Radwan (2000) aplicaram a regressão Binomial Negativa aos dados de
acidentes rodoviários ocorridos nas principais autoestradas de Florida. Os resultados
demonstraram que o aumento de volume de tráfego, o excesso de velocidade, a largura
da via estreita, o maior número de vias e as secções rodoviárias urbanas, aumentam a
probabilidade de acidentes.
Memon (2012) analisou a ocorrência de acidentes rodoviários na Grã-Bretanha a nível
nacional. O objetivo foi desenvolver modelos de previsão de acidentes rodoviários que
podem descrever e estimar com precisão o número de acidentes, das vítimas e dos
veículos envolvidos nos acidentes. Para estimar o número de acidentes desenvolveram-
se três modelos. O primeiro modelo foi para estimar o número de acidentes por dia a nível
6
nacional, o segundo modelo considerou apenas 51 regiões da Grã-Bretanha, locais onde
existem instalações policiais, e o terceiro modelo foi para estimar o número de acidente
por mês. Em geral, para desenvolver estes modelos, utilizou-se a base de dados Stats19
(2013) com informação de acidentes, dos veículos e das vítimas. As variáveis explicativas
selecionadas a partir desta base de dados foram as seguintes: dia da semana, meses do
ano, hora, feriados e estações do ano. Também se utilizaram outras variáveis explicativas
(selecionadas em outras bases de dados como a Estatística Nacional, o departamento de
transporte e as estações meteorológicas da Grã-Bretanha) como o total da distância
percorrida, o número de veículos por habitante, a densidade populacional e os fatores
meteorológicos. As metodologias utilizadas foram os modelos lineares generalizados,
sendo que a regressão Binomial Negativa se ajustou melhor aos dados que a regressão de
Poisson.
Muitas empresas de transportes utilizam estes modelos estatísticos para estimar o número
de acidentes rodoviários através da relação com diferentes variáveis, e assim utilizar os
conhecimentos obtidos para desenvolver os programas de intervenção da segurança
rodoviária (Mannering et al. 2008, Memon, 2012).
7
3. Modelos lineares generalizados
Em problemas onde o objetivo é estudar a relação entre as variáveis, os estatísticos
utilizam modelos de regressão. Existem várias metodologias estatísticas que permitem
explicar ou descrever a relação entre uma variável de interesse (variável resposta) e uma
ou mais variáveis (variáveis explicativas).
O modelo linear é talvez o mais utilizado para modelar esta relação. Este modelo assume,
entre outras, que o valor esperado da variável resposta é uma combinação linear das
variáveis explicativas e que a variável resposta segue a distribuição Normal.
Esta teoria da modelação estatística é limitada, pois não pode ser utilizada se a
distribuição da variável resposta é diferente da Normal. Para a resolução deste problema,
o modelo linear generalizado foi introduzido em 1972, por Nelder e Wedderburn. São
vários os modelos lineares generalizados, nesse estudo consideram-se apenas três:
Regressão Logística, Poisson e Binomial Negativa.
O modelo linear generalizado é uma extensão do modelo linear, onde a distribuição da
variável resposta não tem de ser Normal, mas sim uma outra distribuição da família
exponencial e a função que relaciona o valor esperado e o vetor de variáveis explicativas
pode ser qualquer função diferenciável.
3.1. Família Exponencial
No âmbito dos modelos lineares generalizados pressupõe-se que a variável resposta tem
uma distribuição pertencente à família Exponencial, ou seja, que a sua função densidade
de probabilidade (ou função massa de probabilidade) pode ser escrita na forma geral
𝑓(𝑦|𝜃; 𝜙) = 𝑒𝑥𝑝 {
𝑦𝜃 − 𝑏(𝜃)
𝑎(𝜙)+ 𝑐(𝑦, 𝜙)},
(3.1)
Onde 𝜃 é o parâmetro de localização, 𝝓 é o parâmetro de dispersão, a(.), b(.) e c(.) são
funções reais conhecidas.
Pode ser demonstrado com um pouco de cálculo algébrico que o valor médio e a variância
da distribuição desta variável aleatória são dados por b’(𝜃) e a(𝜙) b’’(𝜃) respetivamente.
Exemplo
Se Y, variável aleatória resposta, segue uma distribuição Normal com valor médio µ e
variância 𝜎2, a sua função densidade de probabilidade é dada por
8
𝑓(𝑦|µ, 𝜎2) =1
𝜎√2𝜋exp (−
(𝑦 − µ)2
2𝜎2)
= 𝑒𝑥𝑝 {1
𝜎2(𝑦µ −
µ2
2) −
1
2(
𝑦2
𝜎2+ 𝑙𝑛(2𝜋𝜎2))}
Tem-se então que esta função é do tipo (3.1) com 𝜃 = µ, b(θ) =µ2
2, a(ϕ) = σ2 e
c(y,𝝓) = −1
2(
y2
σ2 + ln(2πσ2)). Nesta situação, pode-se mostrar que E(Y)= b’(𝜃) = µ e
var(Y)= a(𝝓)b’’(𝜃) = σ2.
3.2. Características do Modelo linear generalizado
Os modelos lineares generalizados são caracterizados pela seguinte forma:
Componente aleatória
Componente sistemática
Função de ligação
Componente aleatória
Dado o vetor de covariáveis xi as variáveis aleatórias Yi são condicionalmente
independentes com distribuição pertencente à família Exponencial, e portanto o seu valor
médio é dado por
E(Yi|𝐱𝑖) = µi = b′(θi), i = 1, … , n
Componente sistemática
Defina-se o preditor linear η𝑖 como combinação linear das variáveis explicativas, dado
por
η𝑖 = 𝐱𝑖𝑇𝛽
Associado a cada valor da variável resposta, Yi, tem-se o vetor p 1 de covariáveis, 𝐱𝑖𝑇 =
(𝑥𝑖1, … , 𝑥𝑖𝑝), 𝑖 = 1, … , 𝑛, onde 𝐱𝑖𝑘, (k=1, …, p) representa a k-ésima covariável para o i-
ésimo indivíduo, e β = (β1, … , β𝑝)𝑇um vetor p 1 de parâmetros desconhecidos.
9
Função de ligação
A função de ligação para relacionar o valor esperado de Yi com o preditor linear η𝑖 é uma
função g(.) tal que 𝑔(µ𝑖) = η𝑖.
3.3. Estimação dos parâmetros
Num modelo linear generalizado o parâmetro de interesse é β, sendo a sua estimação feita
pelo método da máxima verosimilhança. O parâmetro de dispersão ϕ, quando existe, é
considerado parâmetro perturbador e é estimado pelo método dos momentos. A
verosimilhança também é considerada como base fundamental no processo inferencial,
no caso dos testes de hipóteses sobre os coeficientes estimados e da qualidade do
ajustamento.
A função de verosimilhança do modelo, em função de β é dado por (Turkman e Silva,
2000; Hosmer & Lemeshow, 2013),
𝐿(𝛽) = ∏ 𝑓(𝑦𝑖|𝜃𝑖 , 𝜙)
𝑛
𝑖=1
(3.2)
= ∏ exp {𝑦𝑖𝜃𝑖 − 𝑏(𝜃𝑖)
𝜙+ 𝑐(𝑦𝑖, 𝜙)}
𝑛
𝑖=1
= 𝑒𝑥𝑝 {∑𝑦𝑖𝜃𝑖−𝑏(𝜃𝑖)
𝜙
𝑛𝑖=1 + ∑ 𝑐(𝑦𝑖, 𝜙)𝑛
𝑖=1 }
O logaritmo da verosimilhança é dado por
ln(𝐿(𝛽)) = 𝑙(𝛽)
= ∑ {𝑦𝑖𝜃𝑖 − 𝑏(𝜃𝑖)
𝜙+ 𝑐(𝑦𝑖, 𝜙)}
𝑛
𝑖=1
= ∑ 𝑙𝑖(𝛽)
𝑛
𝑖=1
Onde 𝑙𝑖 é a contribuição de cada observação 𝑦𝑖 para a verosimilhança.
Os estimadores de máxima verosimilhança para β são obtidos como solução do sistema
de equações de verosimilhança.
As equações de verosimilhança são dadas por:
𝜕𝑙(𝛽)
𝜕𝛽𝑗= ∑
𝜕𝑙𝑖(𝛽)
𝜕𝛽𝑗
𝑛
𝑖=1
= 0, 𝑗 = 1, … 𝑝
(3.3)
10
A equação (3.3) é a derivada do logaritmo da verosimilhança em relação ao parâmetro β
e pode-se chamar de Score.
Para obter estas equações escrevemos (Turkman e Silva, 2000),
𝜕𝑙𝑖(𝛽)
𝜕𝛽𝑗=
𝜕𝑙𝑖(𝜃𝑖)
𝜕𝜃𝑖
𝜕𝜃𝑖(µ𝑖)
𝜕µ𝑖
𝜕µ𝑖(ƞ𝑖)
𝜕ƞ𝑖
𝜕ƞ𝑖(𝛽)
𝜕𝛽𝑗, 𝑗 = 0,1, … , 𝑝
Tendo em atenção a função logaritmo da verosimilhança, e sabendo que 𝑏′(𝜃𝑖) = µ𝑖 e
𝑣𝑎𝑟(𝑦𝑖) = 𝜙𝑏′′(𝜃𝑖), então:
1. 𝜕𝑙𝑖(𝜃𝑖)
𝜕𝜃𝑖=
(𝑦𝑖−µ𝑖)
𝜙
2. 𝜕µ𝑖
𝜕𝜃𝑖= 𝑏′′(𝜃𝑖) =
𝑣𝑎𝑟(𝑦𝑖)
𝜙
3. 𝜕ƞ𝑖
𝜕𝛽𝑖𝑗= 𝑥𝑖𝑗
Pelo que a equação dada em (3.3) passa a ser rescrita da seguinte maneira:
𝜕𝑙𝑖(𝛽)
𝜕𝛽𝑗=
(𝑦𝑖 − µ𝑖)
𝜙
𝜙
𝑣𝑎𝑟(𝑦𝑖)
𝜕µ𝑖
𝜕ƞ𝑖𝑥𝑖𝑗
(3.4)
Assim as equações de verosimilhança para β são dadas por
∑
(𝑦𝑖 − µ𝑖)
𝑣𝑎𝑟(𝑌𝑖)
𝑛
𝑖=1
𝜕µ𝑖
𝜕ƞ𝑖𝑥𝑖𝑗 = 0 𝑗 = 1, … , 𝑝
(3.5)
A função score é obtida por
𝑠(𝛽) =
𝜕𝑙(𝛽)
𝜕𝛽= ∑ 𝑠𝑖(𝛽)
𝑛
𝑖=1
(3.6)
em que 𝑠𝑖(𝛽) é o vetor de componentes 𝜕𝑙𝑖(𝛽)
𝜕𝛽𝑗 obtidas na equação (3.4).
A matriz de covariância da função score é designada por matriz de informação de Fisher
e é dada por:
𝐼(𝛽) = 𝐸 [−
𝜕𝑠(𝛽)
𝜕𝛽]
(3.7)
11
É obtida considerando o valor esperado das segundas derivadas da função logaritmo da
verosimilhança em relação ao parâmetro β. Tem-se, para famílias regulares, que
−𝐸 (𝜕2𝑙𝑖
𝜕𝛽𝑗𝜕𝛽𝑘) = 𝐸 (
𝜕𝑙𝑖
𝜕𝛽𝑗
𝜕𝑙𝑖
𝜕𝛽𝑘)
= 𝐸 [((𝑌𝑖 − µ𝑖)𝑥𝑖𝑗
𝑣𝑎𝑟(𝑌𝑖)
𝜕µ𝑖
𝜕ƞ𝑖) (
(𝑌𝑖 − µ𝑖)𝑥𝑖𝑘
𝑣𝑎𝑟(𝑌𝑖)
𝜕µ𝑖
𝜕ƞ𝑖)]
= 𝐸 [(𝑌𝑖 − µ𝑖)
2𝑥𝑖𝑗𝑥𝑖𝑘
(𝑣𝑎𝑟(𝑌𝑖))2(
𝜕µ𝑖
𝜕ƞ𝑖)
2
]
=𝑥𝑖𝑗𝑥𝑖𝑘
𝑣𝑎𝑟(𝑌𝑖)(
𝜕µ𝑖
𝜕ƞ𝑖)
2
e, portanto, o elemento (j, k) da matriz de informação de Fisher é dado por:
− ∑ 𝐸
𝑛
𝑖=1
(𝜕2𝑙𝑖
𝜕𝛽𝑗𝜕𝛽𝑘) = ∑
𝑥𝑖𝑗𝑥𝑖𝑘
𝑣𝑎𝑟(𝑌𝑖)(
𝜕µ𝑖
𝜕ƞ𝑖)
2𝑛
𝑖=1
As equações de verosimilhança descrita em (3.5), não têm solução analítica, portanto são
necessários métodos iterativos para a sua resolução.
3.4. Testes de hipóteses
Depois de obter as estimativas para os coeficientes da regressão é necessário avaliar a sua
significância, isto é, determinar se as variáveis independentes introduzidas no modelo
estão significativamente associadas à variável dependente (Hosmer and Lemeshow,
2013). Para esse efeito recorremos à estatística de Wald e à estatística da razão de
verosimilhanças.
3.4.1. Teste de Wald
O teste de Wald é utilizada para testar a hipótese nula de que o parâmetro βj estimado é
igual a zero.
As hipóteses a testar são:
𝐻0: 𝛽𝑗 = 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1: 𝛽𝑗 ≠ 0, 𝑗 = 1, … , 𝑝
A estatística de teste e a respetiva distribuição, sob a validade de H0 são:
𝑊𝑗 =��𝑗
𝑠𝑒(��𝑗)∩ 𝑁(0,1)
12
3.4.2. Teste da razão de verosimilhanças
O teste da razão de verosimilhanças é utilizado para comparar a qualidade do ajustamento
de dois modelos aninhados, isto é, modelos em que um tem o subconjunto de variáveis
do outro modelo. Também se pode dizer que este teste avalia a significância dos
coeficientes estimados simultaneamente, ou seja verifica se o modelo estimado é
globalmente significativo.
Dados dois modelos aninhados, 𝑀𝑝 e 𝑀𝑞, com um número de variáveis p e q
respetivamente, tal que p < q, para comparar a qualidade de ajustamento de dois modelos
aplica-se o teste da razão de verosimilhanças, sob a hipótese de que as q-p variáveis no
modelo não apresentam acréscimo significativo na qualidade do modelo.
Hipóteses a testar:
𝐻0: 𝐴𝑠 𝑞 − 𝑝 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠 𝑛𝑜 𝑚𝑜𝑑𝑒𝑙𝑜 𝑛ã𝑜 𝑠ã𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜𝑠
𝑣𝑒𝑟𝑠𝑢𝑠
𝐻1: 𝐴𝑠 𝑞 − 𝑝 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠 𝑛𝑜 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ã𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜𝑠
A estatística de teste e a respetiva distribuição, sob a validade de H0:
𝐺 = −2 [ln (𝐿𝑀𝑝
(𝛽))
ln (𝐿𝑀𝑞(𝛽))
] ∩ χ2𝑞−𝑝
(3.8)
onde ln (𝐿𝑀𝑝(𝛽)) é a função logaritmo da verosimilhança do modelo 𝑀𝑝 com p variáveis
e ln (𝐿𝑀𝑞(𝛽)) é a função logaritmo da verosimilhança do modelo 𝑀𝑞 com q variáveis.
3.5. Seleção de modelos
A seleção de modelos é uma parte importante de toda a investigação em modelação
estatística e envolve a procura de um modelo que seja o mais simples possível e que
descreva bem os dados observados. Na prática há geralmente um elevado número de
variáveis que podem ser potencialmente importantes para explicar a variabilidade da
variável resposta. Isto implica a existência de vários modelos com combinações diferentes
das variáveis explicativas para explicar o fenómeno em causa, o que torna o processo da
13
seleção mais difícil e mais moroso. Para facilitar o processo da seleção vários
investigadores utilizaram o método de seleção stepwise.
Método stepwise
O método stepwise é um procedimento automático de seleção das variáveis em direção
backward, forward e both. A direção forward inicia-se a partir de um modelo nulo e
adiciona uma de cada vez as variáveis que podem ser significativas para explicar a
variabilidade da variável resposta. O modelo nulo é um modelo simples com apenas um
parâmetro que representa o mesmo valor médio µ para todas as observações yi.
O caso da direção backward é ao contrário da direção forward, inicia-se a partir de um
modelo completo e verifica a cada passo se uma variável pode ser ou não eliminada do
modelo. O modelo completo ou saturado é o maior modelo que temos a possibilidade de
considerar. Dada uma amostra com n observações, o número máximo de parâmetros para
esse modelo é igual a n, isto é, um parâmetro para cada observação.
O método both stepwise é uma combinação dos dois métodos (forward e backward).
A fase de incluir ou excluir a variável do modelo é a fase de avaliação da significância
das variáveis ou comparação dos modelos. Para isso utilizam-se medidas estatísticas
adequadas para a sua avaliação.
3.6. Avaliação do modelo
3.6.1. Deviance
A deviance é uma medida estatística que avalia a significância dos coeficientes estimados
e tem por base o teste da razão de verosimilhanças.
Considerem-se dois modelos, o primeiro com a variável presente e o segundo sem essa
variável. O teste da razão de verosimilhanças, descrito em 3.4.2, permite afirmar que, sob
a hipótese do modelo com a variável presente ser o verdadeiro modelo, a deviance é dada
por
𝐷 = −2𝐿𝑛 [
𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑐𝑜𝑚 𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 )
𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑎𝑡𝑢𝑟𝑎𝑑𝑜)] ∩ χ2
𝑛−𝑞
(3.9)
Da mesma forma, se o modelo sem essa variável for o modelo verdadeiro, a deviance é
dado por:
𝐷 = −2𝐿𝑛 [
𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑚 𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 )
𝐿(𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑎𝑡𝑢𝑟𝑎𝑑𝑜)] ∩ χ2
𝑛−𝑝
(3.10)
14
O valor D representa o desvio do modelo ajustado em relação ao modelo saturado. Quanto
mais próximo o modelo ajustado, µ, estiver dos dados observados, y, menor será o valor
de D.
Para avaliar a significância de uma variável explicativa no modelo, calcula-se a diferença
entre o valor de deviance do modelo sem a variável e o valor de deviance do modelo com
a variável. O valor desta diferença coincide com a estatística de razão de verosimilhanças,
sendo este valor comparado com o quantil da distribuição Qui-Quadrado e q-p graus de
liberdade. Para um determinado nível de significância, rejeita-se a hipótese de que q-p
variáveis explicativas incluídas no modelo não são significativos se o valor da estatística
de teste da razão de verosimilhança for maior que o quantil de probabilidade (1- α) da
distribuição Qui-Quadrado.
3.6.2. Critério de Informação
A outra medida utilizada para avaliar o modelo é o critério de informação de Akaike
desenvolvido por Hirotugu Akaike e proposto em 1974. Esta medida não é um teste de
hipóteses, é uma estatística que tem por base o logaritmo da verosimilhança e penaliza o
modelo com muitas variáveis. A medida AIC é dada por
𝐴𝐼𝐶 = −2[𝐿𝑜𝑔(𝐿) − 𝑘]
(3.11)
Onde k é o número de parâmetros do modelo, e L é o valor da verosimilhança para o
modelo estimado.
A AIC é uma medida relativa da informação perdida por ajuste de um determinado
modelo, permite comparar modelos aninhados ou não, contrariamente a medida deviance
que compara apenas os modelos aninhados. Quanto menor for este valor menor será a
informação perdida e, portanto, melhor será o ajustamento do modelo.
3.6.3. Análise de resíduos
A análise de resíduos é útil, para avaliar a qualidade de ajustamento de um modelo no que
diz respeito à escolha da distribuição, da função de ligação e de termos do preditor linear,
como também identificar observações mal ajustadas pelo modelo (Turkman e Silva,
2000).
As técnicas usadas para a análise de resíduos nos modelos lineares generalizados são
semelhantes ao do modelo clássico de regressão.
Para a i-ésima observação define-se o resíduo como a diferença entre o valor observado
𝑦𝑖 e o valor µ𝑖 estimado pelo modelo.
15
Resíduo de Pearson
O resíduo de Pearson é calculado pela seguinte expressão:
𝑟𝑖𝑝 =𝑦𝑖−µ𝑖
√𝑉(µ𝑖) , i = 1, 2, … n
(3.12)
O resíduo 𝑟𝑖𝑝 corresponde à contribuição da i-ésima observação para o cálculo da
estatística de Pearson generalizada, dada pela seguinte expressão:
𝑋2 = ∑
(𝑦𝑖 − µ𝑖)2
𝑉(µ𝑖)
𝑛
𝑖=1
(3.13)
onde 𝑉(µ𝑖) é a função de variância estimada para a distribuição do modelo em estudo.
Resíduo da deviance
O resíduo da deviance correspondente à i-ésima observação é dado por
𝑟𝐷 = 𝑠𝑖𝑛𝑎𝑙(𝑦𝑖 − µ𝑖)√𝑑𝑖
(3.14)
Onde 𝑑𝑖 é a contribuição da i-ésima observação para a medida deviance definida em
3.6.1.
Resíduos standardizados
Para uma análise adequada dos resíduos é necessário que eles sejam standardizados pelo
respetivo desvio padrão.
O resíduo de Pearson standardizado é dado por
𝑟𝑖𝐸 =
𝑦𝑖 − µ𝑖
√𝑉(µ𝑖)(1 − ℎ𝑖𝑖)
(3.15)
Onde ℎ𝑖𝑖 são os valores da diagonal da matriz de projeção 𝐻 = 𝑊1/2𝑋(𝑋′𝑊𝑋)−1𝑋′𝑊1/2.
O resíduo da deviance standardizado é dado por
𝑟𝐷𝐸 =𝑟𝐷
√(1 − ℎ𝑖𝑖)
(3.16)
16
3.6.4. Observações influentes
A ideia básica sobre os pontos de influência consiste em verificar a dependência do
modelo estatístico em relação às várias observações que foram recolhidas e ajustadas
(Cordeiro e Lima, 2006).
Outlier é uma observação distante das outras em termos das variáveis explicativas, e ela
pode ser, ou não, influente. Uma observação influente é aquela cuja sua eliminação do
conjunto de dados resulta em mudanças substanciais em certos aspetos do modelo. A
identificação de outliers e das observações influentes pode ser feitas através da análise de
resíduos e da medida ℎ𝑖𝑖, onde ℎ𝑖𝑖 é o elemento da diagonal da matriz de projeção. O
valor ℎ𝑖𝑖 representa a influência da i-ésima observação sobre o próprio valor ajustado, se
todas as observações têm a mesma influência sobre os valores ajustados, podemos esperar
que ℎ𝑖𝑖 esteja próximo de 𝑝
𝑛, em que p é o número de parâmetros no modelo e n é o total
das observações. Alguns autores sugerem utilizar ℎ𝑖𝑖 >2𝑝
𝑛 para indicar as possíveis
observações influentes. Para avaliar de uma forma mais geral a influência da i-ésima
observação nas estimativas dos coeficientes da regressão utiliza-se a medida distância de
Cook dada por
𝐷𝐶𝑖 =
ℎ𝑖𝑖𝑟𝑝𝑖2
𝑝(1 − ℎ𝑖𝑖)
(3.17)
Pela expressão podemos observar que o valor de 𝐷𝐶𝑖 será elevado quando o valor de ℎ𝑖𝑖
é diferente de zero e resíduos elevados. Portanto, para valores elevados de 𝐷𝐶𝑖 considera-
se a respetiva observação como influente.
3.6.5. Tipos de gráficos
A representação gráfica é um método informal para verificar a qualidade de ajuste de um
modelo. Segundo (Paula, 2013), os tipos de gráficos mais utilizados para identificar os
problemas relacionados ao ajustamento de um modelo são as seguintes:
1) Gráfico dos resíduos standardizados contra os valores ajustados ou a ordem das
observações. Este gráfico permite identificar observações consideradas outliers,
observações que estão fora do limite considerado para a distribuição dos resíduos.
2) Gráfico normal de probabilidades para resíduos com envelope permite avaliar o
pressuposto da normalidade dos resíduos e da escolha da distribuição para a
variável resposta. No caso da regressão logística é mais útil para avaliar se o
modelo em análise é ou não adequado. Se o modelo ajustado é o correto, existe
grande probabilidade de que todos os pontos estejam dentro do envelope.
3) Gráficos de ℎ𝑖𝑖 e 𝐷𝐶𝑖 contra a ordem das observações para identificar as
observações influentes.
17
4. Modelo de regressão Logística
O modelo de regressão Logística é um dos casos mais importante do modelo linear
generalizado, quando se pretende modelar uma variável resposta categórica com dois
valores possíveis, dado um conjunto de variáveis explicativas (Agresti, 2002).
A principal diferença entre modelos de regressão logística e regressão linear é a
distribuição da variável resposta (Hosmer & Lemeshow, 2013), a regressão logística
substitui a distribuição Normal da variável resposta pela distribuição de Bernoulli.
Seja Y a variável resposta com distribuição de Bernoulli, e uma amostra 𝑦1, … , 𝑦𝑛 dessa
distribuição que pode tomar apenas dois valores, atribuindo-se yi = 1 ao acontecimento
de interesse e yi = 0 ao acontecimento complementar, denominados “sucesso” e
“insucesso”, respetivamente e cuja função de probabilidade é dado por
𝑓(𝑦𝑖|𝑝𝑖) = 𝑝𝑖𝑦𝑖(1 − 𝑝𝑖)
1−𝑦𝑖 , yi = 0, 1; i=1, …, n
(4.1)
Onde pi é o parâmetro desconhecido, que significa a probabilidade do sucesso P(yi = 1) e
a probabilidade do insucesso P(yi = 0) = 1 - pi.
4.1. Formulação
O objetivo é formular um modelo para a probabilidade de um objeto ou individuo
caracterizado por um vetor de variáveis explicativas (x) tomar o valor 1, isto é, formular
um modelo para o valor médio da variável resposta Yi, que corresponde a P(Yi=1|xi).
No entanto, no modelo de regressão clássico o valor médio é dado por
E (Y|xi =xi) = 𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 … + 𝛽𝑝𝑥𝑖𝑝, i = 1, …, n
A equação do modelo de regressão linear implica que a variável resposta pode assumir
valores entre -∞ e +∞, o que não corresponde ao contradomínio do modelo de regressão
logística.
Para a resolução deste problema, a regressão logística reescreve o modelo linear de modo
a permitir que o valor da variável resposta varie entre 0 e 1. Isto é obtido pela seguinte
equação
𝑃(𝑌𝑖 = 1|𝐱) =
𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝
1 + 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝
(4.2)
As componentes do vetor β são os parâmetros desconhecidos do modelo.
Para descrever uma relação linear entre a variável resposta e as variáveis explicativas faz-
se o uso da função logit que é o logaritmo da razão entre a probabilidade de sucesso e a
probabilidade de insucesso. A equação da função logit é o seguinte
18
𝑙𝑜𝑔𝑖𝑡[ 𝑝(𝑌𝑖 = 1|𝑋)] = 𝑙𝑛 [
𝑝(𝑌𝑖 = 1|𝑋)
1 − 𝑝(𝑌𝑖 = 1|𝑋)]
(4.3)
= 𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 + ⋯ + 𝛽𝑝𝑥𝑖𝑝
Os coeficientes de regressão βj, j = 1,…,p representam a variação esperada no logaritmo
da chance por unidade de variação na variável xj.
4.2. Estimação dos coeficientes de regressão
Para a estimação dos coeficientes de regressão usa-se o método da máxima
verosimilhança (descrito na secção 3.3), partindo do pressuposto que existe
independência dos valores observados, a função de máxima verosimilhança para dados
binários é obtido como o produto dos termos dado em expressão (4.1) do seguinte modo
𝐿(𝛽) = ∏ 𝑝𝑖𝑦𝑖(1 − 𝑝𝑖)
1−𝑦𝑖
𝑛
𝑖=1
Na prática usa-se o logaritmo da função verosimilhança (ou log-verosimilhança) para
simplificar a tarefa de obtenção dos estimadores, e é dado por
ln(𝐿(𝛽)) = 𝑙(𝛽) = ∑ [𝑦𝑖𝑙𝑛 (𝑝 (𝑌𝑖 = 1|𝑋)
1 − 𝑝 (𝑌𝑖 = 1|𝑋)) + 𝑙𝑛(1 − 𝑝 (𝑌𝑖 = 1|𝑋))]
𝑛
𝑖=1
Substituindo 𝑙𝑛 (𝑝 (𝑌𝑖=1|𝑋)
1− 𝑝 (𝑌𝑖=1|𝑋)) = 𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 + ⋯ + 𝛽𝑝𝑥𝑖𝑝
e 1 − 𝑝(𝑌𝑖 = 1|𝑋) = 1
1+ 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝
, obtém-se
𝑙(𝛽) = ∑[𝑦𝑖(𝛽1 + 𝛽2𝑥𝑖2 + 𝛽3𝑥𝑖3 + ⋯ + 𝛽𝑝𝑥𝑖𝑝) − ln(1 + 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝)]
𝑛
𝑖=1
O valor de β que maximiza 𝑙(β) é obtido após derivar 𝑙(β) em relação aos parâmetros
(β1, β2, β3,…, βp). Caso não seja possível uma solução analítica serão necessários
métodos iterativos para a sua resolução.
19
4.3. Qualidade de ajustamento
Depois de obter as estimativas dos coeficientes da regressão, é necessário avaliar a
qualidade do modelo ajustado. O primeiro passo desta avaliação é verificar se os
coeficientes estimados são significativos, isto é, se existe uma associação estatisticamente
significativa entre as variáveis explicativas e a variável resposta. Para isso utiliza-se o
teste de Wald e o teste da razão de verosimilhança descrita na secção 3.4.
4.3.1. Hosmer e Lemeshow
O teste de Wald e o teste da razão de verosimilhança têm como objetivo avaliar a
significância de cada variável explicativa incluída no modelo. No caso do teste de Hosmer
e Lemeshow, este é utilizado para avaliar de uma forma geral a qualidade do ajuste de um
modelo, ou seja, a hipótese a testar é:
𝐻0: 𝑂 𝑚𝑜𝑑𝑒𝑙𝑜 𝑎𝑗𝑢𝑠𝑡𝑎 − 𝑠𝑒 𝑏𝑒𝑚 𝑎𝑜𝑠 𝑑𝑎𝑑𝑜𝑠
𝑣𝑒𝑟𝑠𝑢𝑠
𝐻1: 𝑂 𝑚𝑜𝑑𝑒𝑙𝑜 𝑛ã𝑜 𝑠𝑒 𝑎𝑗𝑢𝑠𝑡𝑎 𝑏𝑒𝑚 𝑎𝑜𝑠 𝑑𝑎𝑑𝑜𝑠
Estatística de teste e respetiva distribuição:
𝑋𝐻𝐿2 = ∑
(𝑧𝑖 − ��𝑖)2
��𝑖
𝑔
𝑖=1
∩ χ2(𝑔−2)
(4.4)
𝑧𝑖 = ∑ 𝑦𝑗𝑛𝑖𝑗=1 , ni é a dimensão do grupo i = 1, … , g e ��𝑖 = ∑ ��𝑗
𝑛𝑖𝑗=1
A estratégia para o cálculo desta estatística é a divisão da amostra em g grupos. O número
de grupos mais utilizado é g = 10. A distribuição dos grupos é feita com dimensão
aproximadamente igual, sendo o primeiro grupo constituído pelas observações que
possuem os menores valores para as probabilidades estimadas e o último grupo será
constituído pelas observações que possuem os valores mais altos para as probabilidades
estimadas. A forma de organizar a distribuição desses dados é uma tabela de contingência
g x 2. Esta tabela contém as frequências observadas e esperadas. A frequência esperada é
dada pela soma das probabilidades estimadas de todos os indivíduos dentro de cada grupo,
g = 1,..., 10, para o caso da variável resposta, Y = 1. Ao que refere a variável resposta, Y
= 0, a frequência esperada é dada pela soma de 1 – probabilidades estimadas de todos os
indivíduos dentro de cada grupo. Depois disso calcula-se o valor da estatística de teste de
Hosmer e Lemeshow e compara-se com o quantil de probabilidade (1-α) da distribuição
Qui-Quadrado de Pearson e g – 2 graus de liberdade a um dado nível de significância (α).
A hipótese do modelo se ajustar bem aos dados é rejeitada se o valor-p associado a
estatística de teste for menor que o nível de significância α.
20
4.3.2. Qui-Quadrado de Pearson
O teste de Qui-Quadrado de Pearson é também utilizado na avaliação do modelo.
De acordo com a expressão (3.12) definida na secção 3.6.3, a fórmula para o cálculo do
resíduo é:
𝑟𝑖𝑝 =𝑦𝑖−𝑝𝑖
√𝑝𝑖(1−𝑝𝑖), i = 1,2, … n
Assim, a estatística de teste é dada pelo quadrado da soma dos resíduos:
𝑋2 = ∑(𝑦𝑖 − ��𝑖)
2
��𝑖(1 − ��𝑖)
𝑛
𝑖=1
∩ χ2(𝑛−𝑝−1)
A hipótese nula (H0) é rejeitada se o valor p associado a estatística de teste for menor que
um dado nível de significância.
4.4. Capacidade preditiva do modelo
Quando o objetivo de ajustamento do modelo de regressão Logística é a predição, é
necessário que o modelo tenha ótimo poder de discriminação, pois o erro de classificação
tem as suas consequências.
A análise do poder de discriminação é feita por meio de algumas medidas de desempenho
como a sensibilidade, a especificidade e a percentagem total de acertos. Para melhor
estudar estas medidas, Hosmer e Lemeshow sugerem dois métodos:
Curva ROC
Tabela de contingência
4.4.1. Curva ROC
Seja Y = 1 se um indivíduo selecionado na população em estudo for classificado como
acontecimento de interesse e Y = 0 se classificado como não acontecimento. Para esta
classificação, é necessário estabelecer um ponto de corte que determina a probabilidade
de um dado indivíduo ser classificado em uma determinada classe. O ponto de corte mais
utilizado é C = 0.5, significa que para um valor Y maior ou igual a 0.5 o indivíduo será
classificado na classe 1, caso contrário será classificado na classe 0. Através da curva
ROC é possível escolher um ponto de corte que maximiza simultaneamente a
sensibilidade e a especificidade. Ela é representada por meio de um gráfico que nos
permite estudar a variação da sensibilidade e 1- especificidade para todos os possíveis
pontos de corte entre 0 e 1.
21
Em geral, o melhor ponto de corte refere-se a uma combinação da sensibilidade e 1 –
especificidade que mais se aproxima do canto superior esquerdo do gráfico.
4.4.2. Tabela de contingência
A tabela de contingência é uma tabela 2 x 2 para o ponto de corte escolhido, como
apresentado na tabela abaixo.
Tabela de classificação para as duas classes
A partir da tabela de classificação, as medidas de desempenho do modelo são definidas
como:
A sensibilidade é a probabilidade da classificação correta do acontecimento de interesse,
isto é, P(Y = 1|Y = 1) =n22
n.2.
A especificidade é a probabilidade da classificação correta do não acontecimento,
P(Y = 0|Y = 0) =n11
n.1.
A percentagem total de acertos é dada por n11 + n22
n x 100.
Além de o gráfico da curva Roc fornecer o melhor ponto de corte, a área abaixo da curva
que varia entre 0 e 1, dá uma medida da capacidade do modelo em discriminar os valores
da variável resposta, Y = 1, dos valores de Y = 0. Hosmer e Lemeshow (2013)
apresentaram uma regra geral para avaliação do resultado da área abaixo da curva ROC:
Se a área for igual a 0.5 não há discriminação
Se 0.7 ≤ área < 0.8 a discriminação é aceitável
Se 0.8 ≤ área < 0.9 a discriminação é excelente
Se a área ≥ 0.9 a discriminação é excecional
4.5. Interpretação dos coeficientes de regressão
Depois de ajuste do modelo, assumindo o pressuposto de que o modelo se ajuste bem aos
dados e de que os coeficientes estimados são significativos, é necessário interpretar os
valores associados aos coeficientes do modelo. A interpretação dos coeficientes do
modelo de regressão depende da natureza das variáveis explicativas que podem ser
Classificação Valores Observados
Classe (0) Classe (1)
Total
Classe (0) 𝑛11 𝑛12 𝑛1.
Classe (1) 𝑛21 𝑛22 𝑛2.
Total 𝑛.1 𝑛.2 𝑛
22
categóricas ou contínuas. No caso da variável explicativa categórica é necessário criar
variáveis auxiliares para que possam ser introduzidas no modelo. Estas variáveis também
são designadas de variáveis dummy.
4.5.1. Variável independente dicotómica
Quando a variável explicativa, x, é categórica e pode assumir dois valores possíveis. Se
x tomar os valores 0 e 1, podemos construir uma tabela de contingência com as
probabilidades que se pretendem estimar, nomeadamente a probabilidade em que a
variável resposta, Y, pode assumir o valor 1 segundo os dois valores possíveis de x, ou
seja, p1 = P(Y = 1|𝐱 = 1) e p0 = P(Y = 1|𝐱 = 0):
x = 1 x = 0
Y = 1 𝑝1 𝑝0
Y = 0 1 − 𝑝1 1 − 𝑝0
Tendo em consideração a equação (4.2), a expressão do cálculo de 𝑝1 e 𝑝0 é
respetivamente, dada por
𝑝1 =𝑒𝛽1 +𝛽2
1+𝑒𝛽1+ 𝛽2e 𝑝0 =
𝑒𝛽1
𝑒𝛽1
Portanto, pode definir-se a chance (odds) da seguinte forma:
𝑝1
1−𝑝1= 𝑒𝛽1+𝛽2 e
𝑝0
1−𝑝0= 𝑒𝛽1
A razão 𝑝1
1−𝑝1 corresponde à chance da variável resposta assumir o valor 1 em relação ao
valor 0 quando a variável explicativa é igual a 1, x = 1. Da mesma forma a razão 𝑝0
1−𝑝0
significa a chance da variável resposta assumir valor 1 em relação ao valor 0 quando a
variável explicativa é igual a 0, x = 0.
Também se verifica que ao aplicar a função logit
𝑙𝑜𝑔𝑖𝑡[P(Y = 1|𝐱 = 1)] = ln (p1
1 − p1)
= β1 + β2 (4.5)
𝑙𝑜𝑔𝑖𝑡[P(Y = 1|𝐱 = 0)] = ln (p0
1 − p0)
= β1
(4.6)
Observando as expressões (4.5) e (4.6) pode concluir-se que β2 é dado pela diferença dos
logit.
23
A razão entre as chances é designada por razão da chance ou em termo inglês odds ratio,
a sua expressão é dada por
𝑂𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 =
𝑝1
1−𝑝1𝑝0
1−𝑝0
Substituindo os valores de 𝑝1
1−𝑝1 e
𝑝0
1−𝑝0 pelas expressões apresentadas anteriormente, vem
𝑂𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 =𝑒𝛽1+𝛽2
𝑒𝛽1
= 𝑒𝛽2
O valor da razão de chance representa o risco para a variável resposta Y tomar valor 1
quando a variável explicativa x = 1, em relação a x = 0. O intervalo de 100% (1-α) de
confiança para a estimativa eβ2 é dado por
𝑒(𝛽2±𝑍
1−𝛼2
𝑆��(𝛽2))
Onde 𝑍1−𝛼
2 é o quantil de probabilidade da distribuição Normal de valor médio zero e
variância unitária.
4.5.2. Variável independente policotómica
Quando a variável explicativa, x, é categórica com k categorias (k>2), então é necessário
criar k-1 variáveis dummy. Estas variáveis podem assumir apenas os valores 0 ou 1. Por
conveniência as k categorias são numeradas de 0 a k-1, sendo a categoria 0 a classe
referência.
Os valores possíveis 0 ou 1 das variáveis dummy significam que se a caraterística de um
objeto ou indivíduo pertence à classe i, com i = 1,…, k-1, a todas as variáveis dummy
corresponderá o valor 0, com exceção da i-ésima classe, à qual corresponderá o valor 1.
E no caso da classe referência, se a caraterística de um objeto pertence a esta classe, então
a todas as k-1 variáveis dummy corresponderá o valor 0.
Exemplo: Suponhamos que a variável explicativa, x, foi registada com a seguinte
codificação,
𝑋 = {
0 Categoria 11 Categoria 22 Categoria 3
Para este exemplo é possível criar duas variáveis dummy, sendo a categoria 1 a classe
referência. Neste caso tem-se
24
Categoria da
variável X
Variáveis dummy
Categoria 2 Categoria 3
Categoria 1 0 0
Categoria 2 1 0
Categoria 3 0 1
Assim, para cada categoria da variável explicativa pode estimar-se a probabilidade da
variável resposta assumir o valor 1 e a chance desta variável assumir o valor 1 em relação
ao valor 0.
O cálculo e interpretação do valor da razão da chance é semelhante ao caso da variável
dicotómica.
4.5.3. Variável independente contínua
Quando um modelo de regressão logística contém uma variável independente contínua, a
interpretação do coeficiente estimado será feita com base no pressuposto da linearidade
entre a variável resposta e a variável independente. Já vimos na secção (3.1) que para
estabelecer a tal relação linear utiliza-se a função logit dada por
𝑙𝑜𝑔𝑖𝑡[ p(Yi = 1|𝐱)] = ln [p(Yi = 1|𝐱)
1 − p(Yi = 1|𝐱)]
= β1 + β2𝑥
Sendo assim a interpretação do coeficiente estimado é semelhante ao do modelo clássico
de regressão. O coeficiente β2 representa a variação no logaritmo da chance por uma
unidade de variação no valor da variável independente, x.
No caso de a variável ser dicotômica vimos que existe uma diferença no logit ou logaritmo
da chance quando a variável independente passa da classe referência para outra classe.
Aqui o processo é semelhante, ao aumentar uma unidade no valor da variável, x, haverá
uma diferença β2 no logaritmo da chance e se aumentarmos k unidades, haverá uma
diferença de kβ2. Para estimar o valor de odds ratio é a exponencial de β2 ou kβ2. O
intervalo de 100% (1-α) de confiança para a estimativa ekβ2 é dado por
e(kβ2±Z
1−α2
KSE(β2))
25
5. Modelo de regressão de Poisson
O modelo de regressão de Poisson desempenha um papel fundamental na análise de dados
de contagem (Turkman & Silva, 2000). Este tipo de dados assumem valores discretos (0,
1, 2, …), refletindo o número de ocorrências de um acontecimento em um período de
tempo fixo.
Diversos estudos sobre os dados de contagem utilizam a metodologia de regressão de
Poisson como modelo padrão para a análise deste tipo de dados. A razão pela qual o
modelo de regressão de Poisson é considerado a metodologia base na modelação de dados
de contagens é o facto de assumir apenas valores inteiros não negativos para o valor
esperado da variável resposta, e esta é uma característica inerente deste tipo de dados
(Coxe et al., 2009; Lord & Mannering, 2010; Hausman et al., 1984).
No entanto, este modelo apresenta limitação pelo facto de impor que o valor médio
condicional seja igual à variância condicional. Esta restrição faz com que ocorra muitas
vezes na prática o problema de sobredispersão (Turkman & Silva, 2000). A principal
causa deste fenómeno foi dada como a heterogeneidade na população e o erro de medida
das covariáveis. A consequência disso é o mau ajustamento do modelo pela subestimação
da variância dos parâmetros, o que resulta em estatísticas de teste sobrestimadas
enviesando a significância destes. Para resolver este problema, utiliza-se o modelo de
regressão Binomial Negativa.
5.1. Descrição
O objetivo da regressão de Poisson é modelar a relação de uma variável dependente Y
com um vetor de variáveis independentes xi (Winkelman, 2008).
Seja Y a variável aleatória resposta com distribuição de Poisson que pode tomar apenas
valores inteiros não negativos, e cuja função de probabilidade é dada por
𝑓(𝑦𝑖|µ𝑖) =
µ𝑖𝑦𝑖𝑒−µ𝑖
𝑦𝑖!, 𝑦𝑖 = 0,1,2,3, …,
(5.1)
Onde yi é o valor observado da variável resposta Y, e µi é o parâmetro desconhecido,
valor médio da variável Y.
Em modelo de regressão linear o valor médio da variável resposta é dado por uma
combinação linear de variáveis explicativas, isto é
E (y|𝐱) = 𝐱′β, onde β é o vetor dos parâmetros desconhecidos.
26
No entanto, em modelo de regressão de Poisson não pode ser usado a fórmula acima para
o cálculo do valor médio µi, uma vez que o preditor linear pode assumir qualquer valor
real, enquanto µi, valor esperado em regressão de Poisson só assume valores não
negativos.
Para ultrapassar este problema, a regressão de Poisson permite reescrever o modelo de
regressão linear através da seguinte equação
µ(𝑥i) = e𝐱′β
Assim µi Є |R+ (números positivos).
Uma outra restrição do modelo de Poisson é o valor médio condicional igual a variância
condicional. Isto é,
E(y|𝐱) = µ = e𝐱′β
var(y|𝐱) = µ = e𝐱′β
Para estabelecer uma relação linear entre a variável resposta e as variáveis explicativas
pode usar-se a transformação logarítmica como função de ligação do modelo linear
generalizado e tem-se
ln(µ(𝑥i)) = ln(e𝐱′β)
= 𝐱′β
Os coeficientes de regressão βj, j = 1,…,p representam a variação esperada no logaritmo
do valor médio, por unidade de variação na variável xi.
5.2. Estimação dos coeficientes do modelo
Para a estimação dos coeficientes de regressão usa-se o método da máxima
verosimilhança descrita na secção (3.3), o logaritmo da verosimilhança para o modelo de
Poisson é dado por,
27
ℓ(𝛽) = ∑(𝑦𝑖
𝑛
𝑖=1
ln(µ(𝑥𝑖)) − µ(𝑥𝑖) − 𝑙𝑛(𝑦𝑖!))
(5.2)
Substituindo 𝑙𝑛(µ(𝑥𝑖))eµ(𝑥𝑖) por (𝐱′β) e (e𝐱′β) respetivamente, obtém-se
𝑙(𝛽) = ∑ [𝑦𝑖𝛽1 + 𝑦𝑖𝛽2𝑥𝑖2 + 𝑦𝑖𝛽3𝑥𝑖3 + ⋯ + 𝑦𝑖𝛽𝑝𝑥𝑖𝑝 − 𝑒𝛽1+𝛽2𝑥𝑖2+𝛽3𝑥𝑖3+⋯+𝛽𝑝𝑥𝑖𝑝 −𝑛𝑖=1
𝑙𝑛 (𝑦𝑖!)]
Para encontrar a estimativa dos parâmetros é necessário a utilização de métodos iterativos.
5.3. Qualidade de ajustamento
Para avaliar a qualidade de ajuste de um modelo de Poisson com p parâmetros
independentes aos dados 𝑦1, … , 𝑦𝑛, utiliza-se a medida AIC definida na secção (3.6.2), a
razão de verosimilhanças e o Qui-Quadrado de Pearson.
A deviance para o modelo de regressão de Poisson é dada através da equação (3.9)
descrita na secção (3.6.1) e equação (5.3), obtendo-se a seguinte expressão
𝐷 = 2 ∑ (𝑦𝑖𝑙𝑛 (𝑦𝑖
µ𝑖) − (𝑦𝑖 − µ𝑖))
𝑛
𝑖=1
A outra medida importante na avaliação do modelo ajustado em relação aos dados é o
Qui-Quadrado de Pearson. Pela expressão (3.13) definida na secção (3.6.3), substitui-se
a função de variância, V(µ𝑖) = µ𝑖, logo obtêm-se a seguinte expressão
𝑋2 = ∑(𝑦𝑖 − µ𝑖)
2
µ𝑖
𝑛
𝑖=1
28
Também, para o modelo de regressão de Poisson é possível calcular a percentagem da
deviance reduzida, ou seja, a variabilidade nos dados explicados pelo modelo, através da
seguinte expressão (Coxe et al., 2009).
(1 −D(Modelo ajustado)
D(Modelo nulo)) x 100
29
6. Modelo de regressão Binomial Negativa
O modelo de regressão Binomial Negativa é utilizado em alternativa ao modelo de
Poisson quando ocorre o problema de sobredispersão por considerar um parâmetro
adicional de dispersão (α) no cálculo da variância condicional. Este parâmetro é não
negativo, portanto a variância condicional é, ou pode ser, maior do que o valor médio.
6.1. Descrição
Seja Y a variável resposta com distribuição Binomial Negativa, parâmetro µ ≥ 0 e α ≥ 0,
cuja função de probabilidade é dada por
𝑓(𝑦𝑖|µ𝑖; 𝛼) = (
𝛤(𝑦𝑖 + 𝛼)
𝛤(𝑦𝑖 + 1)𝛤(𝛼)) (
𝛼
𝛼 + µ𝑖)
𝛼
(µ𝑖
𝛼 + µ𝑖)
𝑦𝑖
com 𝑦𝑖
= 0, 1, 2 …,
(6.1)
Onde 𝚪(.) é a função gama. O valor médio e a variância são dadas, respetivamente por,
𝐸(𝑌𝑖) = µ𝑖
𝑉𝑎𝑟(𝑌𝑖) = µ𝑖 + 𝛼µ𝑖2
A formulação do modelo de regressão Binomial Negativa é semelhante aos outros
modelos lineares generalizados. A parte sistemática é dada por g(µi) = 𝐱i′β, em que 𝐱i =
(𝑥𝑖1, … , 𝑥𝑖𝑝) contém valores de variáveis explicativas e β = (β1, … , β𝑝)𝑇 é um vetor de
parâmetros desconhecidos. A função de ligação g(.) utilizada é a logarítmica assim como
nos modelos de Poisson. Assim sendo, µ𝑖 = 𝑒𝐱i′β, logo o valor médio condicional,
E(Yi|𝐱i) = e𝐱i′β e a variância condicional, Var(Yi|𝐱i) = e𝐱i
′β + 𝛼e𝟐𝐱i′β.
Aplicando a transformação logarítmica, o modelo de regressão Binomial Negativa é dado
por
𝑙𝑛(µi) = 𝐱i′β
6.2. Estimação dos coeficientes do modelo
O método utilizado para estimar os coeficientes de regressão é a máxima verosimilhança.
O logaritmo da verosimilhança para o modelo de regressão Binomial Negativa é dado por
𝑙(𝛽) = ∑ (𝑦𝑖𝑙𝑛 (𝛼µ𝑖
1 + 𝛼µ𝑖) − (
1
𝛼) 𝑙𝑛(1 + 𝛼µ𝑖) + 𝑙𝑛 (
𝛤 (𝑦𝑖 +1
𝛼)
𝛤(𝑦𝑖 + 1)𝛤 (1
𝛼)
))
𝑛
𝑖=1
30
Para encontrar a estimativa dos parâmetros (α e β) é necessário a utilização de métodos
iterativos.
6.3. Qualidade de ajustamento
Para avaliar a qualidade de ajustamento de um modelo de regressão Binomial Negativa
com p parâmetros independentes aos dados 𝑦1, … , 𝑦𝑛, utilizam-se as mesmas estatísticas
que para o modelo de Poisson.
A expressão de cálculo da deviance para o modelo de regressão Binomial Negativa é dada
por
𝐷 = 2 ∑ (𝑦𝑖𝑙𝑛 (𝑦𝑖
µ𝑖) − (
1
𝛼+ 𝑦𝑖) 𝑙𝑛 (
1 + 𝛼𝑦𝑖
1 + 𝛼µ𝑖))
𝑛
𝑖=1
Pela expressão (3.13) dada na secção (3.6.3), substitui-se a função da variância, V(µ𝑖) =
µ𝑖 + 𝛼µ𝑖2, logo obtêm-se a seguinte expressão da estatística Qui-Quadrado de Pearson
𝑋2 = ∑(𝑦𝑖 − µ𝑖)
2
µ𝑖 + 𝛼µ𝑖2
𝑛
𝑖=1
31
7. Análise e modelação de dados
Neste capítulo, o objetivo é aplicar a metodologia de modelos lineares generalizados,
considerando duas amostras obtidas a partir do conjunto de dados Stats19 (2013). A
primeira amostra vai ser utilizada para estudar a severidade de acidentes rodoviários. A
segunda amostra será utilizada para estudar a ocorrência de acidentes rodoviários por dia.
Este capítulo está organizado da seguinte maneira. A secção 7.1 apresenta o conjunto de
dados Stats19, o processo de como foram extraídas as duas amostras de dados e a análise
exploratória destes dados. Por fim, na secção 7.2, são apresentados os modelos estimados,
assim como é feita a seleção do modelo que melhor se ajusta aos dados.
7.1. Base de dados
O conjunto de dados Stats19 (2013) utilizado neste trabalho refere-se a acidentes
rodoviários na Grã-Bretanha a nível nacional. Estes dados são preenchidos pelas
autoridades policiais num formulário estatístico de acidente onde descrevem os detalhes
sobre as circunstâncias dos acidentes, as informações dos veículos e das vítimas conforme
se apresentam no Anexo 1. Todos esses dados são transferidos, guardados e mantidos
pelo Departamento de Transporte britânico, em três ficheiros. O primeiro ficheiro
constitui as características dos acidentes. O segundo ficheiro dispõe as características dos
veículos envolvidos nos acidente e o terceiro ficheiro contém as características das
vítimas. O fenómeno em estudo é a ocorrência de acidentes rodoviários, sendo necessária
a utilização destes três ficheiros de dados.
A apresentação e o resumo dos três ficheiros de dados utilizando gráficos de barras
encontram-se disponíveis no Anexo 2.
O primeiro ficheiro acidentes.csv constitui uma base de dados com o total de 1494275
acidentes rodoviários ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 e 31 de
Dezembro de 2013. Do total de 1494275 acidentes rodoviários, a maior percentagem de
acidentes, cerca de 74.8 %, ocorreram em estradas de via simples, seguindo-se as estradas
de via dupla e as rotundas com 14.8% e 6.7%, respetivamente. Finalmente as estradas de
sentido único e as estradas escorregadias apresentaram menores frequências de acidentes.
Quanto ao limite de velocidade verificou-se que a maioria dos acidentes ocorreram nas
estradas com limite ≥ 30 milhas por hora.
A distribuição de acidentes rodoviários segundo as condições de iluminação apresenta-se
no Anexo 2. Verificou-se que a maior percentagem de acidentes ocorreu à luz do dia.
Relativamente às condições da superfície de estradas, a maioria dos acidentes rodoviários
ocorreu com estrada seca.
O segundo ficheiro veículos.csv constitui uma base de dados no total de 2735898 veículos
envolvidos nos acidentes. Do total dos veículos envolvidos nos acidentes, a maioria foram
32
os veículos ligeiros. A maioria dos condutores foram do género masculino, com faixa
etária entre os 20 a 45 anos.
Por último, o terceiro ficheiro vítimas.csv constitui uma base de dados no total de
2022243 vítimas de acidentes. Das vítimas de acidentes, a maioria foram os condutores,
com 62.9%, seguindo-se os passageiros com 24.6%, e os peões com 12.4%. Também se
verificou que a maioria das vítimas sofreram ferimentos ligeiros, 87.7%, enquanto os
ferimentos graves e fatais foram 11.2% e 1.1 %, respetivamente.
7.1.1. Dados da severidade de acidentes rodoviários
A primeira análise foi estudar os fatores que influenciam a ocorrência de acidentes não
ligeiros. Para tal, aplicou-se o filtro à base de dados correspondente ao ficheiro
acidentes.csv para reduzi-la a uma amostra onde cada observação corresponde a acidente
envolvendo um veículo, e as vítimas podem ser condutores, passageiros e peões. Assim
deu-se origem a uma nova base de dados com a dimensão de 870641 acidentes. As
informações sobre os veículos e as vítimas foram selecionadas das bases de dados
correspondentes aos ficheiros veículos.csv e vítimas.csv, respetivamente.
Para a construção do modelo estatístico, utilizou-se a metodologia regressão Logística e
a variável resposta foi a severidade de acidentes. Esta variável assume dois valores
possíveis (0 e 1), em que 0 representa acidentes ligeiros e 1 corresponde a acidentes não
ligeiros.
No ficheiro vítimas.csv é dado o valor da severidade de cada vítima com a seguinte
escala:
Escala da severidade das vítimas em cada
acidente
1 Ferimentos fatais
2 Ferimentos graves
3 Ferimentos ligeiros
Para a nova base de dados, agruparam-se as categorias “ferimentos fatais” e “ferimentos
graves” numa só categoria “ferimentos não ligeiros”, que passou a tomar o valor 1, e a
categoria “ferimentos ligeiros” tomou o valor 0. Portanto para obter o valor da variável
resposta severidade dos acidentes calculou-se a média da severidade de todas vítimas em
um acidente, que só é considerado ligeiro se todas as vítimas tiverem ferimentos ligeiros.
De acordo com a revisão da literatura nomeadamente Dissanayake (2002), Eluru & Bhat
(2007), Eluru et al. (2008), Ghamdi (2002), Kong & Yang (2010), Valent et al. (2002) e
Zajac & Ivan (2003), identificaram as características humanas, ambientais e dos veículos,
como fatores que influenciam a severidade dos acidentes. A partir da base dados Stats19
foram selecionadas para análise da severidade de acidentes rodoviários as seguintes
variáveis explicativas.
33
Dia de semana
Hora do dia
Mês do ano
Género do condutor
Faixa etária do condutor
Tipo de veículo
Condições de iluminação
Idade do veículo
Velocidade limite na estrada
A tabela 7.1 apresenta as variáveis em estudo e as respetivas categorias.
Tabela 7.1: As variáveis em estudo e respetivas categorias
Variáveis Categorias
Severidade de acidentes 0-acidentes ligeiros
1-acidentes não ligeiros
Dia da semana 0-dias úteis
1-domingo
2-sábado
Hora do dia 1-1 a 5 horas
2-6 a 11 horas
3-12 a 17 horas
4-18 a 24 horas
Meses do ano 1-Dezembro a Fevereiro
2-Março a Maio
3-Junho a Setembro
4-Outubro a Novembro
Género do condutor 0-Feminino
1-Masculino
Faixa etária dos condutores 1-<36 anos
2-36-55 anos
3->55anos
Tipos de veículos 1-Automóvel (veículos ligeiros)
2-motocicleta
3-camião
4-outro (Táxi, minibus, autocarro e
veículo de agricultura)
Condições de iluminação 0-luz do dia
1-não luz do dia
Idade do veículo Anos
Velocidade limite nas estradas 1-<30 milhas/horas
2-30-50 milhas/horas
3->50 milhas/horas
Para a análise exploratória dos dados, no caso das variáveis explicativas qualitativas (dia
da semana, meses do ano, velocidade limite nas estradas, tipos de veículos, hora do dia e
condições de iluminação) utilizou-se os gráficos de barras. Estes representam a proporção
de elementos da amostra de cada categoria de uma variável. A idade do veículo é uma
variável quantitativa contínua, portanto, vai ser apresentada a medida de tendência central
e a medida de dispersão, assim como o diagrama de caixa e o gráfico de barras.
34
Idade do veículo
A figura 7.1 apresenta a distribuição de acidentes rodoviários segundo a variável idade
do veículo. Esta figura sugere que a variável idade do veículo tem distribuição enviesada
à direita, ou seja menos concentrada na parte superior do que na parte inferior.
A idade do veículo varia entre 1 a 111 anos, respetivamente, sendo a idade média de 7.3
e o desvio padrão de 4.6.
Figura 7.1: Boxplot e gráfico de barras para a variável idade do veículo
Dias da semana e meses do ano
A figura 7.2 apresenta a distribuição de acidentes rodoviários segundo os dias da semana
e os meses do ano. Podemos observar que em dias úteis há maior frequência de acidentes
rodoviários, enquanto no domingo é menos frequente a ocorrência de acidentes.
Relativamente à variável meses do ano, verifica-se que nos meses de Junho a Setembro
há maior percentagem de acidentes rodoviários e menor percentagem nos meses de
Outubro a Novembro.
Figura 7.2: Distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano
35
Velocidade limite nas estradas e tipos de veículos
A figura 7.3 apresenta a distribuição de acidentes rodoviários segundo a velocidade limite
nas estradas e os tipos de veículos. Podemos verificar que a maioria de acidentes
rodoviários ocorrem a uma velocidade limite de 30-50 milhas por hora nas estradas, e do
total dos veículos na amostra a maioria são os automóveis.
Figura 7.3: Distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os tipos de
veículos
Hora do dia e condições de iluminação
A figura 7.4 apresenta a distribuição de acidentes rodoviários segundo a hora do dia e as
condições de iluminação. Esta figura mostra que os acidentes rodoviários são mais
frequentes no horário das 12-17 horas, cerca de 37.40% das observações, e menos
frequentes nos horários das 1-5 horas e 18-24 horas. Relativamente à variável condições
de iluminação, verifica-se que é mais frequente a ocorrência de acidentes à luz do dia,
cerca de 73.4% das observações.
Figura 7.4: Distribuição de acidentes rodoviários segundo a hora do dia e as condições de iluminação
36
Género e faixa etária do condutor
Por último, a figura 7.5 apresenta a distribuição de acidentes rodoviários segundo o
género e a faixa etária do condutor. Através desta figura podemos observar que os
condutores do género masculino são os que mais se envolvem em acidentes, com 66.7%
das observações da amostra. Quanto à variável faixa etária verifica-se que os condutores
com menos de 36 anos sofrem mais acidentes, cerca de 45% dos valores observados, e
são menos frequentes em condutores com mais de 55 anos, 15.20% da mostra da amostra
total.
Figura 7.5: Distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor
Associação entre a variável resposta e as variáveis explicativas
Uma tabela de contingência cruza os possíveis valores de uma variável qualitativa, X,
com os possíveis valores da outra variável, Y, registando quantas ocorrências foram
verificadas em cada combinação das diversas categorias das variáveis. O objetivo inicial
da análise de tabelas de contingência é averiguar se existe ou não alguma relação entre as
variáveis aleatórias que presidiram à classificação cruzada.
Tendo sido observadas n ocorrências, pode efetuar-se um teste de independência, com as
hipóteses:
H0: As variáveis X e Y são independentes versus H1: As variáveis X e Y não são independentes
A estatística de teste compara frequências observadas com frequências esperadas, e sob
a validade de H0:
𝑋2 = ∑ ∑(𝑛𝑖𝑗 − 𝑒𝑖𝑗)
2
𝑒𝑖𝑗
𝑐
𝑗=1
𝑟
𝑖=1
∩ χ2(𝑟 −1)(𝑐 −1)
37
onde nij representa a frequência observada na célula (i, j), r é o número de categorias
da variável Y, c é o número de categorias da variável X, n=rxc e 𝑒𝑖𝑗 representa a
frequência esperada na célula (i, j), estimada por:
eij = total da linhai ∗ total da colunaj
total da amostra
A hipótese H0 será rejeitada quando a diferença entre frequências observadas e
frequências esperadas for demasiado elevada, ou seja, quando o valor da estatística
de teste for maior que o valor crítico da distribuição Qui-Quadrado de Pearson (χ2).
Ainda sob a hipótese de H0 ser verdadeira, o valor p = P(χ2 > 𝑋02), sendo 𝑋0
2 o valor
observado da estatística de teste.
Nas tabelas 7.2 a 7.8 são apresentadas as frequências de acidentes ligeiros e não ligeiros
em cada uma das categorias das variáveis explicativas utilizadas neste estudo. As
frequências esperadas encontram-se entre os parêntesis.
Tabela 7.2: Frequência de severidade dos acidentes rodoviários segundo os dias da semana
Acidentes Dias Úteis Sábado Domingo Total
Ligeiros (0) 556186
(550947.7)
100439
(102525.3)
79957
(83109.03)
736582
Não ligeiros (1) 95035
(100273.3)
20746
(18659.7)
18278
(15125.9)
134059
Total 651221 121185 98235 870641
Tabela 7.3: Frequência de severidade dos acidentes rodoviários segundo os meses
Acidentes Dezembro
a
Fevereiro
Março
a
Maio
Junho
a
Setembro
Outubro
a
Novembro
Total
Ligeiros (0) 178523
(177013.3)
180094
(180469.01)
245604
(247252.7)
132361
(131856.01)
736582
Não ligeiros
(1)
30707
(32216.7)
33210
(32843.9)
46649
(45000.3)
23493
(23997.9)
134059
Total 209230 213304 292253 155854 870641
Tabela 7.4: Frequência de severidade dos acidentes rodoviários segundo a hora do dia
Acidentes 1-5 horas 6-11 horas 12-17 horas 18-24 horas Total
Ligeiros (0) 123735
(125933)
179407
(175102.9)
278086
(275705.2)
155354
(159840.8)
736582
Não ligeiros
(1)
25118
(22919.9)
27565
(31869)
47798
(50178.8)
33578
(29091.2)
134059
Total 148853 206972 325884 188932 870641
38
Tabela 7.5: Frequência de severidade dos acidentes rodoviários segundo a condição de iluminação
Acidentes Luz do dia Não luz do dia Total
Ligeiros (0) 548634
(540792.1)
187948
(195789.9)
736582
Não ligeiros (1) 90582
(98424.9)
43476
(35634.1)
134059
Total 639217 231424 870641
Tabela 7.6: Frequência de severidade dos acidentes rodoviários segundo o tipo de veículos
Acidentes Automóvel Motociclista Camião Outro Total
Ligeiros (0) 576340
(563166.8)
69219
(80585.3)
44404
(46550.7)
46619
(46279.1)
736582
Não ligeiros
(1)
89324
(102497.2)
26033
(14666.7)
10619
(8472.3)
8083
(8422.9)
134059
Total 665664 95252 55023 54702 870641
Tabela 7.7: Frequência de severidade dos acidentes rodoviários segundo o género do condutor
Acidentes Feminino Masculino Total
Ligeiros (0) 256472
(245283.9)
480110
(491298.03)
736582
Não ligeiros (1) 33454
(44642.03)
100605
(89416.9)
134059
Total 289926 580715 870641
Tabela 7.8: Frequência de severidade dos acidentes rodoviários segundo a faixa etária do condutor
Acidentes <36 anos 36-55 anos >55 anos Total
Ligeiros (0) 332711
(331261.9)
294381
(293668.8)
109490
(111651.3)
736582
Não ligeiros (1) 58841
(60290.1)
52736
(53448.2)
22482
(20320.7)
134059
Total 391552 347117 131972 870641
A rejeição da hipótese de que as variáveis são independentes é dada quando a diferença
entre a frequência observada e a frequência esperada for demasiado elevada, pois quanto
maior é esta diferença maior será a associação entre as variáveis. Para verificar se esta
diferença é significativa, ou seja, se há evidência suficiente para considerarmos que existe
uma associação entre as variáveis explicativas e a variável resposta, utiliza-se a estatística
designada por Qui-Quadrado de Pearson. A partir do Qui-Quadrado pode-se então
calcular a probabilidade de não rejeitar a hipótese de independência entre a variável
resposta e as variáveis explicativas. No caso da associação entre a severidade de acidentes
rodoviários e as variáveis explicativas consideradas neste estudo, os valores p associados
às estatísticas de teste com distribuição do Qui-Quadrado de Pearson são de uma forma
geral todos iguais a zero, portanto a decisão é rejeitar a hipótese de independência entre
a variável severidade de acidentes rodoviários e as variáveis explicativas para qualquer
nível de significância (1%, 5% e 10%).
39
Na tabela 7.9 apresentam-se os valores da estatística de teste e os respetivos valores da
probabilidade de não rejeitar a hipótese nula (H0).
Tabela 7.9: Teste de Qui-Quadrado entre as variáveis explicativas e a variável severidade de acidentes
rodoviários
Variáveis Estatística
de
teste (X2)
Valor-p
= p(χ2 > 𝑋2)
Graus
de liberdade
Dia_semana 1375.5 2.015e-299 2
Meses 172.4 3.87e-37 3
Hora_dia 1887.7 0 3
Condições_iluminação 2778.02 0 1
Tipo_veiculo 13072.2 0 3
Limite_Velocidade 3903.44 0 2
Género_condutor 4968.4 0 1
Faixa_etária_condutor 324.09 4.19e-71 2
7.1.2. Dados de ocorrências de acidentes rodoviários por dia
Para o estudo da ocorrência de acidentes rodoviários por dia, utilizou-se a base de dados
correspondente ao ficheiro acidentes.csv no total de 2494275 acidentes ocorridos entre 1
de Janeiro de 2005 a 31 de Dezembro de 2013. A informação sobre os acidentes ocorridos
por dia foi extraída desta base de dados utilizando o software Excel. Assim sendo, uma
nova base de dados foi criada no total de 3287 observações em que cada observação
corresponde ao total de acidentes ocorridos em cada dia no período de 1 de Janeiro de
2005 a 31 de Dezembro de 2013.
O estudo da ocorrência de acidentes rodoviários com modelos de regressão de Poisson é
muito comum na literatura, considerando como variáveis explicativas a geometria de
estrada, as condições climáticas e o volume de tráfego. Nesta dissertação foi estudada a
sua variação em função das variáveis dias da semana, meses, estações do ano e dias
feriados, pois a seleção das variáveis a partir da base de dados utilizada (Stats19) é
limitada devido à forma como elas estão representadas. Os dias da semana que são
feriados estão apresentados no Anexo 3. A variável resposta é quantitativa discreta e
representa o número de acidentes ocorridos por dia. Os modelos lineares generalizados
utilizados para descrever a relação entre a variável resposta e as variáveis explicativas
vão ser a regressão de Poisson e a Binomial Negativa.
Para a análise exploratória dos dados da amostra foi utilizada a representação gráfica
boxplots. Este permite visualizar a distribuição dos acidentes ocorridos segundo as
variáveis consideradas como explicativas.
Boxplot, também designado por caixa de bigodes, é um gráfico utilizado para estudar a
distribuição empírica dos dados. A sua representação permite resumir os valores da
amostra para o 1º quartil e o 3º quartil, além dos limites inferior e superior. A linha
horizontal mais baixa e a linha horizontal mais alta indicam, respetivamente os valores
mínimo e máximo da amostra. A linha no interior do retângulo é o 2º quartil ou mediana.
40
O limite superior (inferior) da linha tracejada vai até o maior (menor) valor do conjunto
de dados apenas se esse valor não for muito distante do 3º e 1º quartil (no máximo 1.5 x
intervalo entre quartis). Os valores acima do limite superior e abaixo do limite inferior
são considerados outliers.
Figura 7.6: Distribuição de acidentes rodoviários entre 2005 e 2013
Os boxplots correspondentes à distribuição de acidentes rodoviários entre o período de 1
de Janeiro de 2005 e 31 de Dezembro de 2013 sugerem haver uma diferença na
distribuição dos dados entre os dias de semana e os fins-de-semana, sendo o dia de sexta-
feira o que apresenta a maior ocorrência dos acidentes. O mês de Novembro é o que
apresenta maior ocorrência de acidentes por dia e o mês de Janeiro a menor ocorrência
por dia. Em dias feriados ocorrem menos acidentes em relação a dias normais (não
feriados).
7.2. Estimação dos modelos
Nesta secção serão apresentados os resultados da estimação dos modelos de regressão.
Os modelos foram desenvolvidos para estimar a probabilidade de ocorrências dos
acidentes não ligeiros e explicar a variação do número de acidentes rodoviários por dia,
utilizando, respetivamente, o método de regressão Logística e de regressão de Poisson.
41
Primeiramente vai ser ajustado um modelo de regressão a cada variável explicativa, em
seguida são introduzidos mais variáveis no modelo de acordo com o método de seleção
backward stepwise, both stepwise e forward stepwise.
O R(2013) foi o software utilizado para ajustar os modelos de regressão simples e
múltipla.
7.2.1. Regressão Logística
A estimação do modelo logístico inicia-se com o ajuste de uma regressão simples a cada
uma das variáveis explicativas. O objetivo desta análise é verificar a importância que cada
variável explicativa tem para a variável resposta, severidade de um acidente.
A tabela 7.10 apresenta os valores estimados dos coeficientes de regressão, desvio padrão,
teste de Wald e respetivos valores p. As estimativas dos coeficientes representam o efeito
que cada uma das variáveis explicativas pode causar na variável resposta. O desvio padrão
da estimativa é utilizado para o cálculo da estatística de teste Wald que avalia a
significância dos coeficientes estimados. Assim, para testar a significância dos
coeficientes estimados, compara-se o valor do teste de Wald com o quantil de
probabilidade da normal padrão. Esse quantil depende do nível de significância que se
pretender.
Também foi apresentado na tabela 7.10 o valor estimado da medida razão da chance
(Odds ratio). Para a variável explicativa categórica, esta medida indica o quanto o
logaritmo da razão da chance muda quando se passa da categoria referência da variável
para uma outra sua categoria. No caso da variável explicativa contínua, o aumento de uma
unidade no valor da variável corresponde a um incremento de valor igual no logaritmo da
razão da chance.
42
Tabela 7.10: Ajuste de regressão logística a cada uma das variáveis explicativas
Variáveis explicativas Estimativas
dos
coeficientes
Odds
ratio
(OR)
Intervalo
de confiança
(95%, OR)
Desvio
padrão
Teste
Wald
Valor-
p(wald)
Meses
Termo Constante -1.76 1.00 0.0062 -284.9 <2e-16
Março-Maio 0.069 1.09 (1.05;1.09) 0.009 8.1 5.5e-16
Junho-Setembro 0.099 1.10 (1.09;1.12) 0.008 12.4 <2e-16
Outubro-Novembro 0.031 1.03 (1.01;1.05) 0.0094 3.3 0.0008
Dia_Semana
Termo Constante -1.77 1.00 0.004 -503.4 <2e-16
Sábado 0.189 1.21 (1.18;1.23) 0.0089 32.64 <2e-16
Domingo 0.291 1.34 (1.32;1.36) 0.0084 22.59 <2e-16
Hora do dia
Termo Constante -1.87 1.00 0.006 -289.5 <2e-16
1-5horas 0.28 1.32 (1.29;1.35) 0.0095 29.4 <2e-16
12-17horas 0.11 1.12 (1.09;1.13) 0.008 13.8 <2e-16
18-24horas 0.34 1.40 (1.38;1.43) 0.009 38.6 <2e-16
Condições_Iluminação
Termo Constante -1.80 1.00 0.004 -502.2 <2e-16
Não luz do dia 0.34 1.40 (1.39;1.42) 0.006 52.6 <2e-16
Tipo_Veículo
Termo Constante -1.86 1.00 0.004 -518.5 <2e-16
Motocicleta 0.89 2.43 (2.39;2.47) 0.008 109.3 <2e-16
Camião 0.43 1.54 (1.50;1.57) 0.011 38.1 <2e-16
Outro tipo_veículo 0.11 1.12 (1.09;1.15) 0.013 8.9 <2e-16
Género_condutor
Termo Constante -2.04 1.00 0.006 -350.4 <2e-16
Masculino 0.5 1.65 (1.63;1.67) 0.007 70.03 <2e-16
Faixa_etária_Condutor
Termo Constante -1.73 1.00 0.0045 -387.4 <2e-16
36-55 anos 0.013 1.013 (0.99;1.027) 0.007 1.97 0.05
>55 anos 0.15 1.16 (1.14;1.18) 0.009 17.4 <2e-16
Idade_Veículo
Termo Constante -1.76 1.00 0.006 -318.2 <2e-16
Idade 0.008 1.008 (1.007;1.009) 0.0006 12.4 <2e-16
Limite_Velocidade
Termo Constante -1.67 1.00 0.0307 -54.5 <2e-16
30-50 m/hora -0.15 0.86 (0.81;0.91) 0.0309 -4.7 2.25e-06
>50 m/horas 0.25 1.28 (1.21;1.36) 0.031 8.06 7.54e-16
A partir dos resultados de ajuste do modelo de regressão Logística a cada variável
explicativa apresentados na tabela 7.10, verifica-se que todas as variáveis explicativas
apresentam uma associação estatisticamente significativa e positiva com a variável
resposta.
A chance da ocorrência de acidentes não ligeiros nos meses de Outubro a Dezembro é
3% superior aos meses de Dezembro a Fevereiro (classe referência), e para os meses de
Junho a Setembro e Outubro a Novembro a chance é de 9% e 10% respetivamente,
superior aos meses de Dezembro a Fevereiro.
43
Relativamente aos dias da semana verifica-se que nos dias de sábado e domingo a chance
é de 21% e 34% respetivamente, superior em relação aos dias úteis (segunda a sexta).
Para a variável hora do dia, o horário de 18 a 24 horas e das 1 a 5 horas apresentam uma
chance de 40% e 32% respetivamente, superior à classe referência (6 a 11 horas), o
mesmo se verifica para a variável condição de iluminação em que os acidentes que
ocorrem à noite têm uma chance 40% superior de serem não ligeiros em relação à classe
referência (luz do dia).
Também se verifica na tabela 7.10 que a chance dos acidentes envolvendo os condutores
de motocicletas terem vítimas não ligeiras é maior (OR=2.43) em relação aos condutores
de automóveis, os condutores de camião têm uma chance 54% superior aos condutores
de automóveis. O odds ratio da idade do veículo é 1.008, o que significa que a cada
aumento de um ano na idade do veículo aumenta exp(0.008) na chance de acidentes não
ligeiros.
7.2.1.1. Modelo de regressão múltipla
Depois da análise da tabela de contingência e do ajuste do modelo logístico a cada uma
das variáveis explicativas, procede-se à seleção das variáveis para a construção do modelo
de regressão múltipla. Para a seleção das variáveis foi utilizado o procedimento
automático backward stepwise, forward stepwise e both stepwise.
Método backward stepwise
O método backward stepwise inicia-se com a suposição de que todas as variáveis estão
incluídas no modelo. A ideia é verificar, por fase, se cada variável pode ser ou não
eliminada do modelo. A decisão de eliminar a variável é com base na estatística
deviance ou a medida AIC, de modo que este método terminou o processo de seleção
com o seguinte modelo ajustado:
Severidade_acidente ~ meses + dia_semana + hora_do_dia + limite_velocidade +
condições_iluminações + tipo_veículo + género + faixa_etária + idade_veículo.
Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald
e respetivos valores p são apresentados no Anexo4.
Método forward stepwise
Esse procedimento parte da suposição que não há variável no modelo. A ideia do método
é adicionar uma variável a cada passo. A primeira variável selecionada é aquela com
maior correlação com a variável resposta, tendo por base a estatística deviance ou a
medida AIC.
O modelo selecionado com o método forward stepwise foi o seguinte:
44
Severidade_acidente ~ tipo_veiculo + limite_velocidade + condições_iluminações +
género + dia_semana + faixa_etária + meses + hora_do_dia + idade_veículo
Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald
e respetivos valores p são apresentados em Anexo4.
Método both stepwise
O método both stepwise é uma combinação dos dois métodos anteriores. Este método
utiliza a adição e a remoção de covariáveis com base na estatística deviance ou a medida
AIC. O modelo final selecionado por este método foi o seguinte:
Severidade_acidente ~ meses + dia_semana + hora_do_dia + limite_velocidade +
condições_iluminações + tipo_veículo + género + faixa_etária + idade_veículo.
Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald
e respetivos valores p são apresentados no Anexo4.
A partir dos resultados apresentados em Anexo4 verifica-se que o modelo final é o mesmo
para todos os métodos de seleção das covariáveis. De acordo com o valor da estatística
de teste Wald existe evidência estatística de que os coeficientes estimados são todos
significativos a qualquer nível de significância considerado. Para confirmar que o modelo
selecionado pelos procedimentos automáticos se ajusta melhor com a presença de todas
as covariáveis faz-se a comparação do modelo ajustado com o modelo nulo através dos
cálculos das medidas descritas na secção (3.6). A tabela 7.11 apresenta os resultados para
tal comparação:
Tabela 7.11: Comparação entre os modelos (backward, both e forward) e o modelo nulo
AIC Deviance (D) Diferença entre deviance Valor-p
Modelo nulo (Mn) 747964 747962
Modelo backward (Mb) 724834 724796 (𝐷Mn-𝐷Mb) = 23166 <2.2e-16
Modelo both (Mbh) 724834 724796 (𝐷Mn-𝐷Mbh) = 23166 <2.2e-16
Modelo forward (Mf) 724834 724796 (𝐷Mn-𝐷Mf) = 23166 <2.2e-16
A medida AIC mede o grau de informação que se perde com o ajuste de um determinado
modelo, o seu valor mostra que os modelos backward, both e forward têm uma menor
perda de informação em relação ao modelo nulo (tabela 7.11), portanto o ajustamento é
melhor. A deviance é o desvio do modelo ajustado em relação ao modelo saturado, isto
é, a distância do modelo ajustado, µ, dos dados observados, y, e quanto menor é esta
distância melhor é o ajuste do modelo.
A diferença entre a deviance do modelo nulo em relação aos modelos backward, both e
forward corresponde ao valor da estatística de teste de verosimilhança e é dada como uma
45
medida de variação dos dados. A comparação desta medida com o quantil da distribuição
Qui-Quadrado permite concluir que as variáveis explicativas incluídas nos modelos
backward, both e forward são significativos, o valor p correspondente é
aproximadamente zero.
Pelo facto de existir uma forte associação entre a variável condições de iluminação e a
variável hora do dia, decidiu-se ajustar estas duas variáveis em modelos diferentes com o
método forward stepwise.
Os dois modelos ajustados são:
Modelo 1:
Log(p
1−p)=β1 + β2*Tipo_Veículo + β3*Limite_Velocidade + β4*Condições_Iluminação +
β5*Género_Condutor + β6*Dia_Semana + β7*FaixaEtária_Condutor + β8*Meses + β9*Idade_Veículo
Modelo 2:
Log(p
1−p)=β1 + β2*Tipo_Veículo + β3*Limite_Velocidade + β4* Género_Condutor + β5* Dia_Semana +
β6* FaixaEtária_Condutor + β7* Meses + β8*Hora_do_dia + β9*Idade_Veículo
Para a escolha do melhor modelo é utilizado a medida AIC, pois os dois modelos não são
aninhados. A tabela 7.12 apresenta os resultados de AIC dos dois modelos:
Tabela 7.12: Resultado para comparação dos modelos de regressão Logística (modelo1 e 2)
AIC Número de parâmetros
Modelo1 725229 16
Modelo2 726295 18
Seguindo o critério de parcimónia, isto é, escolher um modelo que esteja bem ajustado e
com um número reduzido de parâmetros, a escolha do modelo final será o modelo1 com
menor número de parâmetros e menor valor de AIC. A tabela 7.13 apresenta os resultados
da estimativa dos parâmetros do modelo selecionado.
46
Tabela 7.13: Modelo de regressão Logística (Modelo1)
Avaliação do modelo 1
Depois do ajustamento do modelo 1, procede-se à sua avaliação. A estatística de teste de
Wald, a medida deviance e o teste de Hosmer e Lemeshow são os métodos utilizados para
avaliar a qualidade de ajuste do modelo.
O primeiro passo da avaliação do modelo foi a significância estatística dos coeficientes
estimados utilizando a estatística de Wald e a medida deviance. Analisando os valores
apresentados na tabela 7.13, o teste de Wald, para qualquer nível habitual de significância
(1%, 5% e 10%), considera que os parâmetros estimados são estatisticamente
significativos. Também, pelo resultado da medida deviance comprova-se que o modelo é
globalmente significativo. Para esta conclusão faz-se a análise de comparação entre a
deviance do modelo ajustado (modelo1) com a deviance do modelo nulo (ver o Anexo4).
Ainda sobre a qualidade de ajuste do modelo o resultado de teste de Hosmer e Lemeshow
foi igual a 62.1 e valor p é de 1.83e-10, isso indica que o modelo não se ajusta bem aos
dados.
Com o objetivo de encontrar um modelo que se ajusta bem aos dados foi realizado uma
análise mais específica considerando uma base de dados de acidentes com peões. As
variáveis explicativas utilizadas são as mesmas consideradas no modelo 1.
Variáveis explicativas Estimativas dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -2.36 -72.3 <2e-16
Tipo_Veículo
Motocicleta 0.87 100.8 <2e-16
Camião 0.39 31.91 <2e-16
Outro tipo_veículo 0.12 9.4 <2e-16
Limite_Velocidade
30-50 m/horas -0.19 -6.1 1.3e-09
>50 m/horas 0.21 6.62 3.51e-11
Condições_Iluminação
Não luz do dia 0.39 57.016 <2e-16
Género_Condutor
Masculino 0.25 34.4 <2e-16
Dia_Semana
Sábado 0.17 19.7
Domingo 0.24 25.9 <2e-16
Faixa_etária_Condutor
36-55anos 0.04 5.6 2.07e-08
>55anos 0.28 31.6 <2e-16
Meses
Março-Maio 0.15 16.7 <2e-16
Junho-Setembro 0.18 20.9 <2e-16
Outubro-Novembro 0.043 4.6 4.77e-06
Idade_veículo
Idade 0.009 14.44 <2e-16
47
Análise de acidentes com peões
Nesta análise, os dados da amostra descrita na secção 7.1.2 foram reduzidos,
considerando apenas as instâncias da base de dados que correspondem a acidentes com
peões.
Os resultados de ajustamento do modelo sobre os dados de acidentes com peões com a
regressão Logística encontram-se no Anexo5.
Analisando a tabela (Anexo5), verifica-se uma diferença estatística significativa na
proporção de acidentes não ligeiros em comparação com os ligeiros, para a variável
tipo_veículo (categoria camião, valor p <2e-16, e outro tipo de veículo, valor p = 0.017),
mas não significativa para as motocicletas. Também se verifica que a diferença de
proporção de acidentes não ligeiros em comparação com os meses de Dezembro a
Fevereiro não foi estatisticamente significativa para os meses de Março a Maio, Junho a
Setembro e Outubro a Novembro, os valores-p são (0.342, 0.18 e 0.79) respetivamente.
Pelos valores estimados da estatística de Wald e respetivos valores p associados à variável
“meses”, conclui-se que esta variável não é significativa, portanto foi retirada do modelo.
O modelo final selecionado para explicar a severidade dos acidentes com peões foi o
seguinte:
Modelo 3:
Log(p
1−p)=β1 + β2*Tipo_Veículo + β3*Limite_Velocidade + β4*Condições_Iluminação +
β5*Género_Condutor + β6*Dia_Semana + β7*FaixaEtária_Condutor + β8*Idade_Veículo
Os resultados da estimativa dos parâmetros, estatística de Wald e valor p são apresentados
na tabela 7.14.
48
Tabela 7.14: Estimativas dos parâmetros, estatística de Wald e valor p (Modelo3)
Variáveis explicativas Estimativas
dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -1.45 -32,1 <2e-16
Tipo_Veículo
Motocicleta 0.025 0.74 0.46
Camião 0.39 15.46 <2e-16
Outro tipo_veículo 0.05 2.43 0.015
Limite_Velocidade
30-50 m/horas 0.118 2.78 0.0054
>50 m/horas 0.89 16.83 2e-16
Condições_Iluminação
Não luz do dia 0.37 26.76 <2e-16
Género_Condutor
Masculino 0.091 6.3 2.97e-10
Dia_Semana
Sábado 0.079 4.41 1.05e-05
Domingo 0.13 5.93 3.00e-09
Faixa_etária_Condutor
36-55anos -0.092 -6.547 5.86e-11
>55anos -0.078 -4.47 8e-06
Idade_veículo
Idade 0.004 2.43 0.015
Para um nível de significância de 5%, os valores estimados da estatística de teste de Wald
(tabela 7.14) indicam que todos os parâmetros estimados são estatisticamente
significativos, evidenciando que existe associação entre a variável resposta (severidade
de acidentes) e as variáveis explicativas. Para uma avaliação mais global do modelo sobre
a sua eficiência em descrever a variável resposta utiliza-se o teste de Hosmer e Lemeshow.
O valor estimado da estatística de teste foi 8.9 e o valor p é 0.35, logo não se rejeita a
hipótese de que o modelo3 se ajusta bem aos dados.
49
Análise de resíduos
A análise de resíduos permite verificar a qualidade de ajustamento do modelo e identificar
as observações consideradas outliers ou influentes. A figura 7.7 apresenta o gráfico de
resíduos da deviance versus os valores ajustados, o gráfico de leverage (hii versus os
índices das observações) e o gráfico da distância de Cook para a análise do modelo3.
Figura 7.7: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos
dados de acidentes com peões de 2005 a 2013
Relativamente ao gráfico de resíduos da deviance mostra que todas as observações estão
dentro do intervalo considerado [-2,2], portanto nenhuma observação é considerada
outlier. Quanto ao gráfico de leverage permitiu identificar algumas observações como
sendo influentes, pois seus hii são superiores ao valor crítico 2𝑝
𝑛= 0.00019. Para avaliar
com mais detalhe esta influência, utilizou-se a medida distância de Cook. Pelo gráfico
referente a esta medida nota-se que as observações 21520 e 139216 apresentam maiores
valores de DCi. No Anexo5 apresentam-se os resultados do modelo ajustado sem essas
duas observações. As variações encontradas foram pequenas e não houve mudança
inferencial, isto é, todas as variáveis que foram significativas no modelo3 continuaram
presentes nesse modelo.
Avaliação preditiva do modelo3
A avaliação da capacidade preditiva do modelo é importante quando existe a
possibilidade de o utilizar para fazer a previsão. Para essa avaliação recorreu-se ao estudo
das medidas de desempenho através da tabela de contingência e área da curva ROC. O
melhor ponto de corte (cutoff ) é 0.243, como mostra a figura no Anexo5. Na tabela 7.15
50
estão os resultados possíveis na classificação dos indivíduos em cada classe da variável
resposta (Y = 0 e Y = 1).
Tabela 7.15: Tabela de classificação do modelo3
Através da tabela 7.15 é possível estimar os valores das medidas de desempenho, verifica-
se que a percentagem total de acertos, ou seja, a proporção de indivíduos corretamente
classificados foi de 60.9%, a sensibilidade e a especificidade foram 44.01% e 66.5%
respetivamente, isso mostra que o modelo tem problemas em avaliar os verdadeiros
positivos.
Área da curva ROC
A área abaixo da curva ROC varia entre 0 e 1 e dá-nos uma medida da capacidade do
modelo em discriminar os valores da variável resposta Y=1, dos valores da variável Y=0.
Figura 7.8: gráfico da Curva ROC (modelo de regressão Logística)
A linha diagonal representada no gráfico indica uma classificação aleatória, quanto mais
distante estiver a curva da diagonal principal melhor é o desempenho do modelo. O valor
da área abaixo da curva foi de 0.567, uma discriminação não aceitável de acordo com os
critérios de avaliação propostos por Hosmer e Lemeshow. O modelo em análise faz
classificação aleatória dos indivíduos. O problema do baixo desempenho do modelo em
Classificação Valores Observados
Classe (0) Classe (1)
Total
Classe (0) 70030 19415 89445
Classe (1) 35269 15267 50536
Total 105299 34682 139981
51
discriminar os valores da variável resposta está associado à distribuição da mesma. A
proporção da classe negativa que corresponde a acidentes ligeiros é de 75.2% enquanto a
proporção da classe positiva “acidentes não ligeiros” é de apenas 24.8%.
Interpretação do modelo 3
A interpretação será feita em termos da razão da chance a cada variável explicativa
incluída no modelo. A tabela 7.16 apresenta os valores da razão da chance (odds ratio) e
a correspondente estimativa do intervalo de confiança ao nível de 95% de confiança.
Tabela 7.16: valores obtidos para a razão da chance (Odds ratio) e intervalo de confiança
Variáveis explicativas Estimativas dos
coeficientes
Odds
ratio
(OR)
Intervalo de
confiança (95%,
OR)
Tipo_veículo
Motocicleta 0.025 1.03 (0.96;1.096)
Camião 0.39 1.48 (1.41;1.55)
Outro_tipo_veículo 0.05 1.05 (1.009;1.095)
Limite_velocidade
30-50 m/hora 0.12 1.13 (1.04;1.23)
>50 m/hora 0.89 2.44 (2.19;2.70)
Condições_Iluminação
Não luz do dia 0.37 1.40 (1.37;1.44)
Género_condutor
Masculino 0.09 1.09 (1.06;1.13)
Dia_semana
Sábado 0.08 1.08 (1.05;1.12)
Domingo 0.13 1.14 (1.09;1.19)
Faixa_etária_Condutor
36-55 anos -0.09 0.91 (0.89;1.12)
>55 anos -0.08 0.92 (0.89;1.12)
Idade_Veículo
Idade 0.004 1.004 (0.99;1.007)
Variáveis explicativas:
Tipo de veículo:
A ocorrência de acidentes não ligeiros é 48% superior entre os condutores de camiões,
3% superior entre os condutores de motocicletas e 5% superior entre os condutores de
outros tipos de veículos, em relação aos veículos ligeiros. Os motivos podem ser
atribuídos a maior peso e a alta velocidade do veículo (Eluru et al. 2008).
Limite de velocidade
O valor desta variável explicativa está relacionado com o valor do limite de velocidade
na estrada onde ocorreu o acidente. Verifica-se em relação à classe referência (limite de
52
velocidade <30 milhas/hora), um aumento na ocorrência de acidentes não ligeiros de 13%
para o limite de velocidade entre 30 e 50 milhas/hora. Para limite de velocidade maior
que 50 milhas/hora a chance de acidentes não ligeiros é 2.44 vezes superiores em relação
a limite de velocidade <30 milhas/hora. Parece, então, que a alta velocidade contribui
significativamente para a severidade dos acidentes.
Condições de iluminação
Em relação a esta variável verifica-se que de risco a acidentes não ligeiros é maior a noite
do que à luz do dia (odds ratio = 1.40). A razão para isso é o maior fluxo de tráfego
durante o dia permitindo aos condutores diminuir a velocidade.
Género de condutor
O risco de envolvimento em acidentes não ligeiros é maior entre os condutores
masculinos do que entre os condutores femininos, cerca de 9% superior.
Dia de semana
Quanto a esta variável, a classe de referência definida são os dias úteis (segunda a sexta
feira) e verifica-se que a chance da ocorrência de acidentes não ligeiros é maior aos fins-
de-semana, sendo 8% superior ao sábado e 14% superior ao domingo.
Idade do veículo
Por último a idade do veículo, verifica-se que a chance de acidentes não ligeiros aumenta
com a idade do veículo.
53
Análise de acidentes com peões na zona rural e urbana
Os dados da amostra utilizada na análise de acidentes com peões foram divididos em duas
bases de dados, uma representa os dados de acidentes com peões na zona rural e a outra
representa os dados de acidentes com peões na zona urbana. A percentagem de acidentes
não ligeiros é maior em zona rural do que em zona urbana (ver Anexo6). O objetivo desta
análise é comparar a probabilidade de ocorrência de acidentes não ligeiros na zona rural
em relação à zona urbana. Para isso, foi ajustada o modelo de regressão Logística aos
dados, considerando as mesmas variáveis explicativas utilizadas no modelo3.
A tabela 7.17 apresenta os resultados do modelo ajustado aos dados da ocorrência de
acidentes com peões na zona rural.
Tabela 7.17: Regressão Logística ajustado aos dados de acidentes com peões na zona rural
Variáveis explicativas Estimativas dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -1.72 -12.5 <2e-16
Tipo_Veículo
Motocicleta 0.17 1.6 0.09
Camião 0.37 6.11 9.73e-10
Outro tipo_veículo -0.06 -0.8 0.43
Limite_Velocidade
30-50 m/horas 0.36 2.7 0.007
>50 m/horas 1.07 7.8 4.77e-15
Condições_Iluminação
Não luz do dia 0.58 15.3 <2e-16
Género_Condutor
Masculino 0.11 2.7 0.007
Dia_Semana
Sábado 0.11 2.31 0.02
Domingo 0.19 3.4 0.0007
Faixa_etária_Condutor
36-55anos 0.034 0.84 0.4
>55anos -0.012 -0.27 0.8
Idade_veículo
idade 0.008 2.13 0.03
Analisando a tabela 7.17, verifica-se que a diferença na proporção de acidentes não
ligeiros em comparação com os acidentes ligeiros foi estatisticamente significativa para
camiões (valor p = 9.73e-10), mas não significativa para as motocicletas e outros tipos de
veículos com valores p (0.09 e 0.43), respetivamente.
Para qualquer nível habitual de significância (1%, 5% e 10%), os valores estimados da
estatística de Wald e respetivos valores p associados a variável “faixa etária dos
condutores”, permitem concluir que esta variável não é significativa. Em relação às outras
variáveis (limite de velocidade nas estradas, condições de iluminação, género dos
54
condutores, dia da semana e idade do veículo), conclui-se que para um nível de
significância de 5% que existe uma relação estatisticamente significativa com a variável
resposta (severidade de acidentes com peões na zona rural).
Para além da análise individual de cada variável explicativa no modelo logístico ajustado
aos dados da ocorrência de acidentes com peões na zona rural com a estatística Wald,
utilizam-se outras técnicas estatísticas para a análise da qualidade de ajustamento do
modelo. O resultado da estatística de teste de Hosmer e Lemeshow foi 0.73 e o valor p é
0.99, logo não se rejeita a hipótese de que o modelo se ajusta bem aos dados. Os gráficos
da análise de resíduos referentes ao modelo que explica a severidade de acidentes com
peões na zona rural encontram-se no Anexo7.
A tabela 7.18 apresenta os resultados do modelo ajustado aos dados da ocorrência de
acidentes com peões na zona urbana.
Tabela 7.18: Regressão logística ajustado aos dados de acidentes com peões na zona urbana
Variáveis explicativas Estimativas dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -1.42 -29.5 <2e-16
Tipo_Veículo
Motocicleta 0.011 0.32 0.75
Camião 0.39 13.8 <2e-16
Outro tipo_veículo 0.072 3.3 0.0009
Limite_Velocidade
30-50 m/horas 0.092 2.04 0.041
>50 m/horas 0.34 3.71 0.0002
Condições_Iluminação
Não luz do dia 0.34 22.6 <2e-16
Género_Condutor
Masculino 0.092 5.9 3.67e-09
Dia_Semana
Sábado 0.074 3.8 0.00016
Domingo 0.11 4.8 1.37e-06
Faixa_etária_Condutor
36-55anos -0.11 -7.34 1.49e-06
>55anos -0.093 -4.9 9.24e-07
Idade_veículo
Idade 0.003 1.74 0.08
Os resultados apresentados em tabela 7.18, mostram que a diferença de proporção de
acidentes não ligeiros em comparação com os veículos ligeiros foi estatisticamente
significativa para camiões e outros tipos de veículos, valores p (<2.2e-16 e 0.0009),
respetivamente, mas não significativa para as motocicletas (valor p = 0.75). Para um nível
de significância 5%, a estimativa do coeficiente associado a variável “idade do veículo”
55
não foi significativa, (valor p = 0.08), resultado diferente da análise de acidentes com
peões na zona rural.
Em relação as outras variáveis (limite de velocidade nas estradas, condições de
iluminação, género dos condutores, dia da semana e faixa etária dos condutores), conclui-
se para um nível de significância 5% que existe uma relação estatisticamente significativa
com a variável resposta (severidade de acidentes com peões na zona urbana).
Para a avaliação global do modelo ajustado aos dados de acidentes com peões na zona
urbana, o resultado da estatística de teste de Hosmer e Lemeshow foi 1.75 e o valor p é
0.99, logo não se rejeita a hipótese de que o modelo se ajusta bem aos dados. Os gráficos
da análise de resíduos referentes ao modelo encontram-se no Anexo8.
Comparação dos resultados
A comparação será feita em termos da probabilidade de ocorrência de acidentes não
ligeiros na zona rural e urbana.
Tabela 7.19: resultados comparativos da probabilidade de ocorrência de acidentes não ligeiros entre zona
rural e urbana
Zona Rural
Zona Urbana
Variáveis explicativas Estimativa
dos
coeficientes
Odds
ratio
(OR)
Intervalo de
confiança
(95%, OR)
Estimativa
dos
coeficientes
Odds
ratio
(OR)
Intervalo de
confiança
(95%, OR)
Tipo_veículo Motocicleta 0.17 1.18 (0.97;1.44) 0.011 1.011 (0.92;1.12)
Camião 0.37 1.45 (1.28;1.63) 0.39 1.48 (1.39;1.57)
Outro_tipo_veículo -0.06 0.94 (0.80;1.10) 0.072 1.07 (1.03;1.12)
Limite_velocidade
30-50 m/horas 0.36 1.43 (1.11;1.85) 0.092 1.09 (0.99;1.20)
>50 m/horas 1.07 2.92 (2.22;3.84) 0.34 1.40 (1.18;1.68)
Condições_Iluminação
Não luz do dia 0.58 1.79 (1.65;1.93) 0.34 1.40 (1.38;1.43)
Género_condutor
Masculino 0.11 1.12 (1.03;1.21) 0.092 1.09 (1.05;1.14)
Dia_semana
Sábado 0.11 1.12 (1.01;1.23) 0.074 1.08 (1.04;1.12)
Domingo 0.19 1.21 (1.08;1.36) 0.11 1.12 (1.07;1.16)
Os coeficientes positivos (0.17 e 0.37) apresentados na tabela 7.19 para as motocicletas e
camiões, respetivamente, sugerem que acidentes ocorridos na zona rural envolvendo estes
tipos de veículos tem maior probabilidade de ser acidentes não ligeiros em relação a
acidentes envolvendo os veículos ligeiros. E o coeficiente negativo (-0.06) de outros tipos
de veículos sugere menor probabilidade de ocorrer acidentes não ligeiros em relação aos
veículos ligeiros. A razão da chance de (1.18 e 1.45) indicam que acidentes envolvendo
56
motocicletas e camiões, respetivamente, tem 18% e 45% mais chance de ser não ligeiros
em relação aos acidentes envolvendo veículos ligeiros.
Os coeficientes positivos (0.36 e 1.07) da variável limite de velocidade nas estradas de
zona rural indicam maior probabilidade de ocorrer acidentes não ligeiros nas estradas com
limite entre 30 a 50 milhas por hora e >50 milhas por hora em relação a limite <30 milhas
por hora. Para as estradas de zona urbana com limite de velocidade entre 30 e 50 milhas
por horas não houve diferenças significativas na ocorrência de acidentes não ligeiros em
relação a limite <30 milhas por hora, pois o intervalo de confiança da razão da chance
contém o valor 1 (tabela 7.19). A razão da chance (1.43) indica que os acidentes ocorridos
nas estradas de zona rural com limite entre 30 e 50 milhas por hora tem 43% mais chance
de ser não ligeiros em relação a limite <30 milhas por hora. Quanto a limite >50 milhas
por hora a chance de ocorrerem acidentes não ligeiros é aproximadamente 3 vezes
superior em relação ao limite < 30 milhas por hora. Para as estradas da zona urbana a
chance de ocorrerem acidentes não ligeiros quando o limite é >50 milhas por horas é
apenas 40% superior em relação a limite < 30 milhas por hora.
Os coeficientes positivos (0.58 e 0.34) da variável “condições de iluminação” em zona
rural e urbana, respetivamente, indicam que a probabilidade de ocorrerem acidentes não
ligeiros é maior à noite em relação à luz do dia. As razões de chance (1.79 e 1.40) sugerem
que a chance de ocorrerem acidentes não ligeiros nas estradas da zona rural é 79%
superior em relação a luz do dia e nas estradas da zona urbana é 40% superior.
Quanto à variável género dos condutores, os coeficientes positivos (0.092 e 0.11), para
zona rural e urbana, respetivamente, indicam maior probabilidade de ocorrerem acidentes
não ligeiros entre os condutores masculinos. A razão da chance (1.12 e 1.09) indicam que
a chance de ocorrer acidentes não ligeiros entre os condutores masculinos é 12% e 9%
superior em relação aos condutores femininos.
Por último, para a variável dia da semana, verifica-se que a probabilidade de ocorrerem
acidentes não ligeiros é maior aos fins-de-semana (sábado e domingo) em relação aos
dias úteis (segunda à sexta feira), tanto em zona rural como urbana. A chance de
ocorrerem acidentes não ligeiros aos sábados na zona rural é 12% superior em relação aos
dias úteis. Aos domingos a chance é 21% superior em relação aos dias úteis. Para a zona
urbana a chance de ocorrerem acidentes não ligeiros aos sábados é 8% superior em
relação aos dias úteis. Aos domingos a chance é 12% superior em relação aos dias úteis.
57
7.2.2. Regressão de Poisson
Para estimar o modelo utilizaram-se os dados da amostra descrita na secção (7.1.2).
Primeiramente foi ajustado o modelo a cada variável explicativa. As estimativas dos
coeficientes do modelo, do desvio padrão, da estatística de teste de Wald e respetivos
valores p são apresentados na tabela 7.20.
Tabela 7.20: Resultados de ajuste de regressão de Poisson de cada variável explicativa
Variáveis explicativas Estimativas
dos
coeficientes
Desvio
padrão
Teste
Wald
Valor
p(wald)
Dia_Semana
Termo Constante 5.9 0.0024 2421.6 <2e-16
Segunda 0.23 0.0032 70.95 <2e-16
Terça 0.27 0.0032 86.2 <2e-16
Quarta 0.29 0.0032 89.7 <2e-16
Quinta 0.29 0.0032 90.22 <2e-16
Sexta 0.35 0.0031 110.2 <2e-16
Sábado 0.16 0.0033 46.9 <2e-16
Dia_Semana
(com três categorias)
Termo Constante 5.9 0.0024 2421.6 <2e-16
Dias úteis 0.29 0.0026 110.5 <2e-16
Sábado 0.16 0.0033 46.85 <2e-16
Mês
Termo Constante 6.051 0.003 2082.9 <2e-16
Fevereiro 0.025 0.004 5.99 2.07e-09
Março 0.009 0.004 2.35 0.018
Abril 0.004 0.004 0.87 0.39
Maio 0.068 0.004 16.88 <2e-16
Junho 0.098 0.004 24.47 <2e-16
Julho 0.099 0.004 24.71 <2e-16
Agosto 0.031 0.004 7.65 1.99e-14
Setembro 0.120 0.004 29.92 <2e-16
Outubro 0.132 0.004 33.4 <2e-16
Novembro 0.179 0.004 45.17 <2e-16
Dezembro 0.031 0.004 7.57 3.73e-14
Estações_ano
Termo Constante 6.07 0.002 3597.5 <2e-16
Primavera 0.009 0.002 3.92 8.76e-05
Verão 0.07 0.002 31.48 <2e-16
Outono 0.14 0.003 53.82 <2e-16
Dias
Termo Constante 6.13 0.0008 7436.4 <2e-16
Feriados -0.41 0.007 -59.1 <2e-16
Os valores da estatística de teste de Wald e os valores p apresentados na tabela 7.20,
indicam que todos os coeficientes associados a cada variável explicativa são
estatisticamente significativos, com exceção do coeficiente associado a mês de Abril
(valor p = 0.39).
Para uma análise mais completa sobre a significância estatística das variáveis explicativas
foi estimado o valor da estatística de teste da razão de verosimilhanças, em que se
58
compara o valor da medida deviance de cada modelo ajustado com a do modelo nulo. A
tabela 7.21 apresenta os resultados do teste da razão de verosimilhanças.
Tabela 7.21: diferença entre a deviance do modelo ajustado com regressão de Poisson e a deviance do
modelo nulo
Variável explicativa Estatísticas de teste da razão
de verosimilhança (G)
Valor p
Dia da semana (com 7 categorias) 16153 2.2e-16
Dia da semana (com 3 categorias) 14529 2.2e-16
Mês (com 12 categorias) 4794.4 2.2e-16
Estações do ano 3705.4 2.2e-16
Feriados (dias normais, dias feriados) 4004.2 2.2e-16
Os resultados da tabela 7.21, também demonstraram que as variáveis explicativas
ajustadas ao modelo individualmente são significativos, pois os valores da estatística de
teste (G) correspondentes à quantidade da variabilidade nos dados explicada por cada
uma das variáveis explicativas e respetivos valores p conduzem à rejeição da hipótese
nula de que o modelo ajustado a cada uma das variáveis explicativas é igual ao modelo
nulo.
7.2.2.1. Modelo de regressão múltipla
Após o ajuste dos modelos de regressão a cada variável explicativa, procede-se à seleção
das variáveis explicativas que vão entrar no modelo de regressão múltipla. O método de
seleção utilizado foi o forward stpewise descrita na secção (3.5.1).
As variáveis explicativas dia da semana (dias úteis, sábado e domingo) e estações do ano
(primavera, verão, outono e inverno) foram construídas a partir das variáveis dia da
semana (com 7 categorias) e os meses do ano, respetivamente, portanto é evidente que
existe correlações entre estas variáveis. Para evitar o problema da multicolinearidade,
decidiu-se estimar os quatros modelos seguintes:
Modelo 1:
Log (µ) = β1 + β2*dia_semana + β3*mes + β4*feriados
Modelo 2:
Log (µ) = β1 + β2*dia_semana + β3*estacões_ano + β4*feriados
Modelo 3:
Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*mes + β4*feriados
Modelo 4:
Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*estacões_ano + β4*feriados
59
Os resultados de ajustamento dos modelos com o método forward stpewise estão em
Anexo9.
Seleção do modelo
A escolha do melhor modelo será feita com base na medida AIC e a percentagem da
variabilidade explicada pelo modelo, resultados apresentados na tabela 7.22.
Tabela 7.22: Resultados de AIC e %explicada da deviance para selecionar o modelo de Poisson
Modelos ajustados AIC % Explicada
Modelo 1 76750 32.7%
Modelo 2 78044 30.9%
Modelo 3 78180 30.7%
Modelo 4 79493 29%
Analisando a tabela 7.22, verifica-se que o modelo1 é o mais adequado, apresenta o
menor valor do AIC e a maior percentagem da variabilidade nos dados explicada. Os
resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald e
respetivos valores p são apresentados na tabela 7.23.
Tabela 7.23: Resultado de ajustamento do modelo de regressão de Poisson (modelo1)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio Padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.83 0.004 1576.41 <2e-16
Dia_semana
Segunda 0.24 0.003 74.5 <2e-16
Terça 0.27 0.003 86.3 <2e-16
Quarta 0.28 0.003 88.8 <2e-16
Quinta 0.28 0.003 89.5 <2e-16
Sexta 0.35 0.003 111.12 <2e-16
Sábado 0.15 0.003 46.2 <2e-16
Mês
Fevereiro 0.007 0.004 1.8 0.07
Março -0.004 0.004 -0.92 0.35
Abril -0.003 0.004 -0.84 0.4
Maio 0.07 0.004 18.14 <2e-16
Junho 0.08 0.004 20.8 <2e-16
Julho 0.08 0.004 20.9 <2e-16
Agosto 0.01 0.004 3.5 0.0005
Setembro 0.1 0.004 25.9 <2e-16
Outubro 0.12 0.004 29.8 <2e-16
Novembro 0.16 0.004 40.7 <2e-16
Dezembro 0.04 0.004 10.3 <2e-16
Dias
Feriados -0.4 0.007 -56.9 <2e-16
60
Para o nível de significância 5%, os valores da estatística de teste e respetivos valores p
(0.07, 0.35 e 0.4), levam a concluir que os coeficientes estimados associados aos meses
de Fevereiro, Março e Abril não foram significativos. Em relação às outras variáveis
explicativas, para qualquer nível de significância (1%, 5% e 10%), conclui-se que existe
uma relação estatisticamente significativa com a variável resposta (ocorrências de
acidentes rodoviários por dia), resultados apresentados na tabela 7.23. O valor da
estatística de teste da razão de verosimilhanças foi G = 24588 e valor p = 2.2e-16, portanto
o modelo é globalmente significativo em relação ao modelo nulo, isto é, as variáveis
explicativas incluídas no modelo são importantes, podendo ver-se no Anexo9 a
variabilidade explicada pelo modelo com a introdução de cada uma das variáveis
explicativas.
Sobredispersão
A sobredispersão é um problema que ocorre frequentemente na prática quando se aplica
a metodologia regressão de Poisson, pois esse método tem uma condição específica de
que o valor médio condicional seja igual à variância condicional, que geralmente não se
verifica na prática. Para a resolução deste problema, a alternativa será o modelo de
regressão Binomial Negativa.
Para identificar a sobredispersão nos dados, utiliza-se a deviance. O cálculo é baseado na
aproximação 𝑋2 do desvio residual. Se existir a sobredispersão, então 𝐷
𝜙 segue uma
distribuição Qui-Quadrado com n - p graus de liberdade, e isso leva ao seguinte estimador
para 𝜙 (Zuur et al, 2009) citado por (Santos, 2013).
�� =𝐷
𝑛 − 𝑝
Se a estimativa deste parâmetro for menor ou igual a um, então não existe sobredispersão
nos dados, prosseguindo-se com o processo de validação do modelo. Caso seja maior que
um, é uma indicação da existência de sobredispersão.
No modelo 1 ajustado com a regressão de Poisson, verifica-se que ϕ = 15.5, o que
evidencia sobredispersão nos dados. Devido a este problema, vai se ajustar aos dados um
modelo de regressão Binomial Negativa.
61
7.2.3. Regressão Binomial Negativa
A regressão Binomial Negativa é utilizada com o objetivo de solucionar o problema
identificado no ajuste do modelo de regressão de Poisson, sendo por isso considerados os
mesmos dados da amostra e as mesmas variáveis explicativas. Os modelos de regressão
Binomial Negativa ajustados aos dados foram os seguintes:
Modelo 1:
Log (µ) = β1 + β2*dia_semana + β3*mes + β4*feriados
Modelo 2:
Log (µ) = β1 + β2*dia_semana + β3*estacões_ano + β4*feriados
Modelo 3:
Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*mes + β4*feriados
Modelo 4:
Log (µ) = β1 + β2*dia_semana (com três categorias) + β3*estacões_ano + β4*feriados
Seleção do modelo
A seleção do modelo que se ajustou melhor aos dados será feita com base na medida AIC
e a percentagem da variabilidade explicada pelo modelo, resultados apresentados na
tabela 7.24.
Tabela 7.24: Resultados de AIC e % explicada da deviance para selecionar o modelo de regressão
Binomial Negativa
Modelos ajustados AIC % Explicada
Modelo 1 38502 32.5%
Modelo 2 38565 30.9%
Modelo 3 38577 30.8%
Modelo 4 38639 29.13%
Ao comparar os resultados dos modelos apresentados na tabela 7.24, verificou-se que o
modelo 1 teve o menor valor de AIC e a maior percentagem da variabilidade explicada
em relação aos outros três modelos, portanto é o modelo que explica melhor a variação
nos dados de acidentes rodoviários ocorridos por dia.
62
Os resultados de ajustamento do modelo1 são apresentados na tabela 7.25 e dos outros
três modelos estão no Anexo9.
Tabela 7.25: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo1)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.83 0.014 418.8 <2e-16
Dia_semana
Segunda 0.24 0.012 19.7 <2e-16
Terça 0.28 0.012 22.5 <2e-16
Quarta 0.29 0.012 23.14 <2e-16
Quinta 0.29 0.012 23.3 <2e-16
Sexta 0.35 0.012 28.7 <2e-16
Sábado 0.15 0.012 12.4 <2e-16
Mês
Fevereiro 0.008 0.016 0.5 0.6
Março -0.0015 0.02 -0.09 0.93
Abril -0.002 0.02 0.11 0.91
Maio 0.08 0.02 5.16 2.45e-07
Junho 0.09 0.02 5.47 4.49e-08
Julho 0.09 0.02 5.62 1.93e-08
Agosto 0.02 0.02 1.26 0.21
Setembro 0.11 0.02 6.61 3.84e-11
Outubro 0.12 0.02 7.68 1.61e-14
Novembro 0.16 0.02 10.008 <2e-16
Dezembro 0.04 0.02 2.3 0.02
Dias
Feriados -0.4 0.02 -17.003 <2e-16
Pelos valores apresentados na tabela 7.25, para qualquer nível habitual de significância,
conclui-se que os coeficientes associados a meses de Fevereiro, Março, Abril e Agosto
não são significativas. Em comparação com o modelo de regressão Poisson (modelo1), o
mês de Agosto deixou de ser significativo, isso sugere que a sua significância era
influenciada pela presença da sobredispersão nos dados.
A seguir são apresentados os gráficos normais de probabilidades para o modelo1 ajustado
com a regressão de Poisson e o modelo1 ajustado com a regressão Binomial Negativa,
respetivamente. Analisando a figura abaixo nota-se que o modelo Binomial Negativa é
mais adequado para explicar a variabilidade nos dados, uma vez que a maioria dos pontos
estão dentro do intervalo.
63
Figura 7.9: Gráficos normais de probabilidades referentes ao modelo de regressão de Poisson (a) e ao
modelo de regressão Binomial Negativa (b)
Na figura 7.10 apresentam-se os gráficos da análise de resíduos. Estes gráficos permitem
aferir sobre a qualidade de ajuste do modelo1 com a regressão Binomial Negativa.
Figura 7.10: Gráficos da análise de resíduos referentes ao modelo de regressão Binomial Negativa
Os resíduos mostram que ainda há espaço para melhorar o modelo de regressão Binomial
Negativa. No entanto, o modelo não sofre alteração significativa quando se eliminam as
observações candidatas a outliers.
64
Interpretação dos coeficientes do modelo
A forma como se interpretam os coeficientes estimados é a mesma para os modelos
lineares generalizados com função de ligação logarítmica, nomeadamente, os modelos de
regressão de Poisson e de Binomial Negativa.
Uma interpretação possível para estes parâmetros é que a cada unidade de aumento na
variável explicativa resulta em um aumento igual ao coeficiente estimado no logaritmo
do valor médio da variável resposta, mantendo as outras variáveis explicativas constantes.
A outra interpretação possível é a cada unidade de aumento na variável explicativa resulta
em um aumento igual à exponencial do coeficiente estimado no valor médio da variável
resposta, mantendo as outras variáveis explicativas constantes.
Nesta dissertação a regressão Binomial Negativa foi considerada mais adequada que a
regressão de Poisson, portando será feita a interpretação dos resultados encontrados com
esta metodologia. Os coeficientes positivos estimados no modelo1 e no modelo3
associados à variável explicativa dia da semana indicam que o número esperado de
acidentes é maior nos dias úteis em comparação com os fins-de-semana. Por exemplo, na
sexta-feira o número esperado de acidentes rodoviários é 42% superior em relação ao
domingo. Os coeficientes estimados associados á variável meses no modelo1 e
associados a variável estações do ano no modelo2 indicam que nos meses de outono,
respetivamente, Outubro e Novembro, existe maior probabilidade de acidentes por dia
em comparação com os outros meses do ano. Relativamente a estes dois meses o número
esperado de acidentes por dia aumenta aproximadamente 13% e 17%, respetivamente em
relação ao mês de Janeiro. Nos meses de verão (Junho a Setembro), o mês de Agosto tem
o menor número de acidentes por dia e o mês de Setembro é o que tem maior número de
acidentes por dia. O número esperado de acidentes por dia aumenta 2% e 12% no mês de
Agosto e Setembro, respetivamente, em relação ao mês de Janeiro. Os coeficientes
negativos dos meses Março e Abril indicam que o número esperado de acidentes por dia
diminui cerca de 1% em relação ao mês de Janeiro. Nos dias feriados o número esperado
de acidentes diminui 33% em relação aos dias não feriados.
65
8. Conclusão
Neste trabalho o objetivo principal foi identificar os fatores que influenciam a ocorrência
de acidentes rodoviários e a sua severidade. A análise inicial foi a análise exploratória
dos dados, pois ela pode sugerir se existe uma relação ou associação entre a variável
resposta e as variáveis explicativas, relação essa que pode posteriormente ser melhor
estudada e compreendida com a análise de regressão. A análise de regressão incide nos
estudos dos modelos lineares generalizados, que neste trabalho abrangeu os modelos de
regressão Logística sobre os dados da severidade de acidentes e os modelos de regressão
de Poisson ou de regressão Binomial Negativa sobre os dados da ocorrência de acidentes
rodoviários por dia na Grã-Bretanha.
Os resultados da análise de regressão Logística sobre os dados da severidade de acidentes
com peões ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 e 31 de Dezembro de
2013 demonstraram que as variáveis explicativas tipo de veículos, limite de velocidade
nas estradas, condições de iluminação, género do condutor, dia da semana, faixa etária
dos condutores e idade do veículo foram estatisticamente significativas. Estas
significâncias podem ser observados em termos da probabilidade ou da razão da chance.
Os coeficientes estimados destas variáveis, com exceção da variável faixa etária dos
condutores, foram positivos, o que significa aumento da probabilidade de acidentes não
ligeiros.
Quanto à razão da chance, as variáveis que tiveram o maior impacto sobre a severidade
de acidentes foram as condições de iluminação, os tipos de veículos e o limite de
velocidade nas estradas. Por exemplo a chance de acidentes ocorridos à noite serem não
ligeiros é 40% superior em relação à luz do dia. Para Keall, Frith & Patterson (2005) as
razões para o maior risco de acidentes à noite incluem o efeito da fadiga dos condutores
e a visibilidade reduzida. A chance de acidentes não ligeiros é 48% superior para os peões
atingidos por um camião em relação aos automóveis. Para as estradas com limite de
velocidade maior do que 50 milhas por hora duplica a chance de acidentes não ligeiros.
Outra análise realizada com aplicação da regressão Logística foi a comparação da
severidade de acidentes com peões ocorridos na zona rural e urbana. Entre as variáveis
explicativas consideradas nesta análise, a maioria foram significativas para explicar a
severidade de acidentes, tanto em zona rural como em zona urbana. A diferença desta
significância está no diferente impacto que estas variáveis têm sobre a severidade de
acidentes na zona rural e urbana.
Por exemplo, nas estradas rurais com limite de velocidade maior do que 50 milhas por
hora a chance de acidentes não ligeiros é aproximadamente três vezes superior em relação
as estradas com limite menor do que 30 milhas por hora. Considerando as mesmas
circunstâncias em estradas urbanas, a chance de acidentes não ligeiros aumenta 40%. Em
estradas urbanas, os acidentes ocorridos à noite têm uma chance de 40% superior de serem
não ligeiros em relação a luz do dia, enquanto nas estradas rurais a chance de acidentes
não ligeiros aumenta 79%.
66
A idade do veículo foi significativa para explicar a severidade de acidentes na zona rural,
mas não significativa para a zona urbana. A probabilidade de acidentes não ligeiros
aumenta com a idade do veículo. Segundo Zwerling et al. (2005) esta diferença pode estar
associada ao fato dos condutores em zonas rurais utilizarem os veículos mais antigos sem
dispositivos de segurança. Para a zona urbana a variável faixa etária dos condutores foi
significativa, a probabilidade de acidentes não ligeiros diminui com o aumento da idade
dos condutores.
De um modo geral, as variáveis que tiveram a maior influência sobre a severidade de
acidentes com peões foram o limite de velocidade nas estradas, os tipos de veículos e as
condições de iluminação.
Na análise de dados sobre a ocorrência de acidentes por dia conclui-se que os modelos
desenvolvidos com a regressão Binomial Negativa foram adequados para ajustar os
dados. As variáveis explicativas utilizadas foram o dia da semana (com sete categorias),
o dia da semana (com três categorias), os meses do ano, as estações do ano e os dias
feriados. Os resultados da análise de regressão demonstraram que a ocorrência de
acidentes por dia é melhor explicada pelas variáveis explicativas como o dia da semana
(com sete categorias), os meses do ano e os dias feriados. De acordo com os resultados
da análise de regressão Binomial Negativa, o número esperado de acidentes rodoviários
é maior nos dias úteis em relação aos fins-de-semana. Nos meses de Março e Abril, o
número esperado de acidentes por dia diminui em relação ao mês de Janeiro. Enquanto
nos outros meses do ano aumenta o número esperado de acidentes por dia em relação ao
mês de Janeiro, com maior destaque nos meses de Outubro, Novembro e Setembro.
Os conhecimentos obtidos podem ser utilizados para melhorar a segurança rodoviária,
como desenvolver programas de intervenção de segurança adequadas para reduzir o
número de acidentes e da sua severidade. Por exemplo um programa para alertar e
sensibilizar os condutores sobre as consequências e os possíveis riscos de um acidente.
Sugestão para trabalho futuro
O limite de velocidade nas estradas foi considerado como o fator que teve maior
influência sobre a severidade de acidentes rodoviários. As estradas de vias simples
também tiveram um maior número de acidentes rodoviários, cerca de 74.5% do total de
acidentes ocorridos entre 1 de Janeiro de 2005 a 31 de Dezembro de 2013 na Grã-
Bretanha. Uma análise interessante seria estudar os acidentes ocorridos neste tipo de
estrada considerando o limite de velocidade estabelecido e as características da geometria
das estradas. O objetivo seria estabelecer um limite de velocidade adequado a este tipo de
estrada.
67
Bibliografia:
Abdel-Aty, M.A. and Radwan, A.E. (2000). Modelling traffic accident occurrence and involvement.
Accid. Anal. Prev, 32, 633-642.
Agresti, Alan (2002). Categorical Data Analysis. Wiley.
Ballesteros, M.F., Dischinger, P.C and Langenberg, P. (2004). Pedestrian injuries and vehicle type in
Maryland. Accid. Anal. Prev. 36, 73–81.
Cordeiro, G.M, and Lima, E.A. (2006). Modelos Paraméricos. Recife
Coxe, S., West, S.G. and Aiken, L.S. (2009). The Analysis of Count Data: A Gentle Introduction to
Poisson Regression and Its Alternatives. Journal of Personality Assessment.
Cools, M., Moons, E. and Wets, G. (2009). Assessing the impact of weather on traffic intensity. In
Transportation Research Institute.
Dissanayake, S., and Lu, J.J. (2002). Factors influential in making an injury severity difference to older
drivers involved in fixed object–passenger car crashes. Accid. Anal. Prev. 34, 609–618.
Eluru, N. and Bhat, C.R. (2007). A joint econometric analysis of seat belt use and crash-related injury
severity. Accid. Anal. Prev. 39 (5), 1037–1049.
Eluru, N., Bhat, C.R. and Hensher, D.A. (2008). A mixed generalized ordered response model for
examining pedestrian and bicyclist injury severity level in traffic crashes. Accid. Anal. Prev. 40, 033 –
1054.
Ghamdi, A.S. (2002). Using logistic regression to estimate the influence of accident factors on accident
severity. Accid.Anal.Prev. 34, 729–741.
Hausman, J., Hall, B.H. and Griliches, Z. (1984). Econometric Models for Count Data with an
Application to the Patents-R & D Relationship. Econometrica, 52(4), 909-938.
Hong, D., Kim, J., Kim, W., Lee, Y. and Yang, H. (2005). Development of traffic accident prediction
models by traffic and road characteristics urban areas. Procedings of the Eastern Asia Society for
Transportation Studies, vol 5, 2046-2061.
Hosmer, D. W., and Lemeshow, S. (2013). Applied Logistic Regression. Wiley.
Lord, D. and Mannering, F. (2010). The Statistical Analysis of Crash-Frequency Data: A Review and
Assessment of Methodological Alternatives.
Keall, M. D., Frith, W. J. and Patterson, T. L. (2005). The contribution of alcohol to night time crash risk
and other risks of night driving. Accid. Anal. Prev. 37, 816–824.
Kong, C. and Yang, J. (2010). Logistic regression analysis of pedestrian casualty risk in passenger
vehicle collisions in China. Accid. Anal. Prev. 42, 987–993.
Kononen, D.W., Flannagan, C.A.C. and Wang, S.C. (2011). Identification and validation of a logistic
regression model for predicting serious injuries associated with motor vehicle crashes. Accid. Anal. Prev.
43, 112–122.
Miaou, S.P and Lum, H. (1993). Modeling vehicle accidents and highway geometric design relationships.
Accid. Anal. Prev, 25, 689-709.
68
Milton, J. and Mannering, F. (1998). The relationship among highway geometrics, traffic-related
elements and motor vehicle accident frequencies. Transportation 25, 395–413.
Milton, J. C., Shankar, V. N. and Mannering, F. L. (2008). Highway accident severities and the mixed
logit model: An exploratory empirical analysis. Accid. Anal. Prev. 40, 260–266.
Memon, A. Q. (2012). Modelling road accidents from national datasets: A case study of Great Britain.
Disponivel em: http://discovery.ucl.ac.uk/1354623/1/Memon%20Thesis.pdf.
Nelder, J.A. and Wedderburn, R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical
Society, A 135, 370-384.
OECD (2008). Towards Zero: Ambitious Road Safety Targets and The Safe System Approach.
Organisation for Economic Co-Operation and Development. International Transport Forum. Paris,
France.
Peden, M., Scurfield, R., Sleet, D., Mohan, D., Hyder, A., Jarawan, E. and Mathers, C. (2004). World
Report on Road Traffic Injury Prevention. Geneva: World Health Organization.
Paula, G.A. (2013). Modelos de Regressão com Apoio Computacional, São Paulo: IME - Universidade de
São Paulo.
Raia Jr., A. A. e Santos, L. (2005). Acidente Zero: utopia ou realidade? Anais do XV Congresso
Brasileiro de Transporte e Trânsito, Goiânia. Anais em CD-ROM.
R Core Team (2013). R: A language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.
Santos, J. H. (2013). Modelos para dados de contagem com excesso de zeros. Disponível em:
http://repositorium.sdum.uminho.pt/handle/1822/29402.
Stats19 (2013). Road Traffic Accident dataset, base de dados disponível em:
https://data.gov.uk/dataset/road-accidents-safety-data.
Turkman, M. A., and Silva, G. L. (2000). Modelos Lineares Generalizados – da teoria à prática. Lisboa:
Edições SPE.
Valent, F., Schiava, F., Savonito, C., Gallo, T., Brusaferro, S. and Barbone, F. (2002). Risk factors for
fatal road traffic accidents in Udine, Italy. Accid. Anal. Prev. 34, 71 – 84.
Winkelmann, R. (2008). Econometric Analysis of Count Data, (Fifth edition). ISBN: 978-3-540-77648-2.
World Health Organization (2013). Global status report on road safety. ISBN: 978 92 4 156456 4.
Zajac, S.S. and Ivan, J.N. (2003). Factors influencing injury severity of motor vehicle–crossing pedestrian
crashes in rural Connecticut. Accid.Anal. Prev. 35, 369 – 379.
Zwerling et al. (2005). Fatal motor vehicle crashes in rural and urban áreas: decomposing rates into
contributing factors. Injury Prevention 11, 24 – 28.
69
Anexos
Anexo 1:
70
71
72
73
Anexo 2:
Descrição dos dados (ficheiro 1)
Figura 2.1: Distribuição de acidentes por limite de velocidade (n = dimensão do ficheiro1)
Figura 2.2: Distribuição de acidentes por tipos de estrada (n = dimensão do ficheiro1)
74
Figura 2.3: Distribuição de acidentes por condições climáticas (n = dimensão do ficheiro1)
Figura 2.4: Distribuição de acidentes por condições da superfície de estrada (n = dimensão do ficheiro1)
Figura 2.5: Distribuição de acidentes por condições de iluminação (n = dimensão do ficheiro1)
75
Figura 2.6: Distribuição de acidentes em cruzamento (n = dimensão do ficheiro1)
Descrição dos dados (ficheiro 2)
Figura 2.7: Distribuição dos condutores de veículos envolvidos nos acidentes por género dos condutores
(n = dimensão do ficheiro2)
76
Figura 2.8: Distribuição dos condutores de veículos envolvidos nos acidentes por faixa etária (n =
dimensão do ficheiro2)
Figura 2.9: Distribuição dos veículos envolvidos nos acidentes (n = dimensão do ficheiro2)
77
Descrição dos dados (ficheiro 3)
Figura 2.10: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 (n = dimensão do
ficheiro3)
Figura 2.11: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 por género (n = dimensão
do ficheiro3)
78
Figura 2.12: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 por faixa etária (n =
dimensão do ficheiro3)
Figura 2.13: Distribuição da severidade das vítimas de acidentes ocorridos entre 2005 a 2013 (n =
dimensão do ficheiro3)
79
Anexo 3:
Tabela: Dias feriados codificados em base de dados
Ano (2005) Dia da semana Dias feriados (F) Ano (2006) Dia da semana Dias feriados
(F) 1 de Janeiro Sábado F 1 de Janeiro Domingo F
3 de Janeiro Segunda F 2 de Janeiro Segunda F
25 de Março Sexta F 14 de Abril Sexta F
2 de Maio Segunda F 1 de Maio Segunda F
30 de Maio Segunda F 29 de Maio Segunda F
25 de Dezembro Domingo F 25 de Dezembro Segunda F
26 de Dezembro Segunda F 26 de Dezembro Terça F
27 de Dezembro Terça F
Ano (2007) Dia da semana Dias feriados (F) Ano (2008) Dia da semana Dias feriados
(F) 1 de Janeiro Segunda F 1 de Janeiro Terça F
6 de Abril Sexta F 21 de Março Sexta F
7 de Maio Segunda F 5 de Maio Segunda F
28 de Maio Segunda F 26 de Maio Segunda F
30 de Maio Segunda F 25 de Dezembro Quinta F
25 de Dezembro Terça F 26 de Dezembro Sexta F
26 de Dezembro Quarta F
Ano (2009) Dia da semana Dias feriados (F) Ano (2010) Dia da semana Dias feriados
(F) 1 de Janeiro Quinta F 1 de Janeiro Sexta F
10 de Abril Sexta F 2 de Abril Sexta F
4 de Maio Segunda F 3 de Maio Segunda F
25 de Maio Segunda F 31 de Maio Segunda F
25 de Dezembro Sexta F 25 de Dezembro Sábado F
26 de Dezembro Sábado F 26 de Dezembro Domingo F
28 de Dezembro Segunda F 27 de Dezembro Segunda F
28 de Dezembro Terça F
Ano (2011) Dia da semana Dias feriados (F) Ano (2012) Dia da semana Dias feriados
(F) 1 de Janeiro Sábado F 1 de Janeiro Domingo F
3 de Janeiro Segunda F 2 de Janeiro Segunda F
22 de Abril Sexta F 6 de Abril Sexta F
29 de Abril Sexta F 7 de Maio Segunda F
2 de Maio Segunda F 4 de Junho Segunda F
30 de Maio Segunda F 5 de Junho Terça F
25 de Dezembro Domingo F 25 de Dezembro Terça F
26 de Dezembro Segunda F 26 de Dezembro Quarta F
27 de Dezembro Terça F
Ano (2013) Dia da semana Dias feriados (F) 1 de Janeiro Terça F
29 de Março Sexta F
6 de Maio Segunda F
27 de Maio Segunda F
25 de Dezembro Terça F
26 de Dezembro Quarta F
80
Anexo 4:
Regressão Logística
Acidentes com condutores, peões e passageiros ocorridos entre 2005 a 2013
Tabela 4.1: Resultado obtido a partir da aplicação do método backward stepwise
Variáveis explicativas Estimativas
dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -2.97 -204.13 <2e-16
Meses <2e-16
Março-Maio 0.13 14.4 <2e-16
Junho-Setembro 0.15 17.91 <2e-16
Outubro-Novembro 0.04 4.05 5.21e-05
Dia_Semana
Sábado 0.16 19 <2e-16
Domingo 0.23 24.9 <2e-16
Hora_do_Dia
1-5horas 0.202 19.7 <2e-16
12-17horas 0.103 12.4 <2e-16
18-24horas 0.16 14.9 <2e-16
Limite_Velocidade
30-50 m/horas -0.19 -6.13 8.6e-10
>50 m/horas 0.21 6.64 3.1e-11
Condições_Iluminação
Não luz do dia 0.33 38 <2e-16
Tipo_Veículo
Motocicleta 0.87 101.6 <2e-16
Camião 0.39 32.4 <2e-16
Outro tipo_veículo 0.13 9.8 <2e-16
Género_Condutor
Masculino 0.25 34.3 <2e-16
Faixa_etária_Condutor
36-55anos 0.04 5.7 1.03e-08
>55anos 0.29 32.4 <2e-16
Idade_veículo
Idade 0.0010 15.3 <2e-16
81
Tabela 4.2: Resultado obtido a partir da aplicação do método forward stepwise
Variáveis explicativas Estimativas
dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -2.97 -204.13 <2e-16
Tipo_Veículo
Motocicleta 0.87 101.6 <2e-16
Camião 0.39 32.4 <2e-16
Outro tipo_veículo 0.13 9.8 <2e-16
Limite_Velocidade
30-50 m/horas -0.19 -6.13 8.6e-10
>50 m/horas 0.21 6.64 3.1e-11
Condições_Iluminação
Não luz do dia 0.33 38 <2e-16
Género_Condutor
Masculino 0.25 34.3 <2e-16
Dia_Semana
Sábado 0.16 19
Domingo 0.23 24.9 <2e-16
Faixa_etária_Condutor
36-55anos 0.04 5.7 1.03e-08
>55anos 0.29 32.4 <2e-16
Meses
Março-Maio 0.13 14.4 <2e-16
Junho-Setembro 0.15 17.9 <2e-16
Outubro-Novembro 0.04 4.05 5.21e-05
Hora do dia
1-5horas 0.202 19.7 <2e-16
12-17horas 0.103 12.4 <2e-16
18-24horas 0.16 14.9 <2e-16
Idade_veículo
Idade 0.0010 15.3 <2e-16
82
Tabela 4.3: Resultado obtido a partir da aplicação do método both stepwise
Variáveis explicativas Estimativas
dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -2.97 -204.13 <2e-16
Meses <2e-16
Março-Maio 0.13 14.4 <2e-16
Junho-Setembro 0.15 17.91 <2e-16
Outubro-Novembro 0.04 4.05 5.21e-05
Dia_Semana
Sábado 0.16 19 <2e-16
Domingo 0.23 24.9 <2e-16
Hora_do_Dia
1-5horas 0.202 19.7 <2e-16
12-17horas 0.103 12.4 <2e-16
18-24horas 0.16 14.9 <2e-16
Limite_Velocidade
30-50 m/horas -0.19 -6.13 8.6e-10
>50 m/horas 0.21 6.64 3.1e-11
Condições_Iluminação
Não luz do dia 0.33 38 <2e-16
Tipo_Veículo
Motocicleta 0.87 101.6 <2e-16
Camião 0.39 32.4 <2e-16
Outro tipo_veículo 0.13 9.8 <2e-16
Género_Condutor
Masculino 0.25 34.3 <2e-16
Faixa_etária_Condutor
36-55anos 0.04 5.7 1.03e-08
>55anos 0.29 32.4 <2e-16
Idade_veículo
Idade 0.0010 15.3 <2e-16
Tabela 4.4: Comparação entre a deviance do modelo1 com o modelo nulo
Deviance
(D)
Diferença entre
deviance
Valor-p
Modelo nulo (Mn) 747962
Modelo1 (M1) 725197 22765 <2.2e-16
83
Anexo 5:
Regressão Logística
Acidentes com peões ocorridos entre 2005 a 2013
Tabela: Regressão logística ajustado aos dados de acidentes com peões de 2005 a 2013
Variáveis explicativas Estimativas dos
coeficientes
Teste de Wald Valor-p (Wald)
Termo Constante -1.46 -31,22 <2e-16
Tipo_Veículo
Motocicleta 0.025 0.74 0.46
Camião 0.39 15.46 <2e-16
Outro tipo_veículo 0.05 2.37 0.017
Limite_Velocidade
30-50 m/horas 0.119 2.79 0.0053
>50 m/horas 0.89 16.81 2e-16
Condições_Iluminação
Não luz do dia 0.38 25.95 <2e-16
Género_Condutor
Masculino 0.091 6.27 3.60e-10
Dia_Semana
Sábado 0.078 4.321 1.55e-05
Domingo 0.13 5.82 5.93e-09
Faixa_etária_Condutor
36-55anos -0.091 -6.487 8.76e-11
>55anos -0.077 -4.39 1.10e-05
Meses
Março-Maio 0.017 0.95 0.342
Junho-Setembro 0.023 1.33 0.18
Outubro-Novembro -0.005 -0.27 0.79
Idade_veículo
Idade 0.004 2.43 0.015
84
Análise de resíduos (Modelo3)
Resultado de ajustamento do modelo com a presença das observações 21520 e 139216
Resultado de ajustamento do modelo sem as observações 21520 e 139216
Capacidade preditiva do modelo3 (melhor ponto de corte)
Gráfico: sensibilidade versus especificidade
85
Anexo 6:
acidentes com peões na zona rural e urbana
Figura 6.1: Frequência de acidentes rodoviários ocorridos na zona urbana e rural
Figura 6.2: Percentagem de acidentes ligeiros e não ligeiros na zona rural
Figura 6.3: Percentagem de acidentes ligeiros e não ligeiros na zona urbana
86
Anexo 7:
Regressão Logística
Dados de acidentes com peões na zona rural
Análise de resíduos
Figura 7.1: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos
dados de acidentes com peões na zona rural
Resultado de ajustamento do modelo com a presença das observações 2170, 12162 e 15495
87
Resultado de ajustamento do modelo sem a presença das observações 2170, 12162 e 15495
Capacidade preditiva (melhor ponto de corte)
Figura 7.2: gráfico sensibilidade versus especificidade (modelo zona rural)
Figura 7.3: gráfico da curva ROC (Modelo zona rural)
88
Anexo 8:
Regressão Logística
Dados de acidentes com peões na zona urbana
Análise de resíduos
Figura 8.1: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos
dados de acidentes com peões na zona urbana
Resultado de ajustamento do modelo com a presença das observações 66925 e 103040
89
Resultado de ajustamento do modelo sem a presença das observações 66925 e 103040
Capacidade preditiva (melhor ponto de corte)
Figura 8.2: gráfico sensibilidade versus especificidade (modelo zona urbana)
Figura 8.3: gráfico da curva ROC (Modelo zona urbana)
90
Anexo 9:
Regressão de Poisson
Modelos Variabilidade nos dados não
explicados (Deviance)
Variabilidade nos dados
explicados (estatística de teste
da verosimilhança)
Modelo nulo 75231 0 Modelo 1 = β
1 + β
2*dia_semana 59077 16153
Modelo 1 = β1 + β
2*dia_semana +
β3*mes 54304 20926
Modelo 1 = β1 + β
2*dia_semana +
β3*mes + β4*feriados 50642 24588
Ajustamento do modelo com o método stepwise forward
Tabela 9.1: Resultado de ajustamento do modelo de regressão de Poisson (modelo2)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.85 0.003 2053.4 <2e-16
Dia_semana
Segunda 0.24 0.003 74.3 <2e-16
Terça 0.28 0.003 86.3 <2e-16
Quarta 0.29 0.003 88.8 <2e-16
Quinta 0.29 0.003 89.6 <2e-16
Sexta 0.35 0.003 111.13 <2e-16
Sábado 0.15 0.003 46.3 <2e-16
Estações do ano
Primavera 0.006 0.002 2.51 0.01
Verão 0.06 0.002 25.2 <2e-16
Outono 0.12 0.003 48.3 <2e-16
Dias
Feriados -0.4 0.007 -55.2 <2e-16
91
Tabela 9.2: Resultado de ajustamento do modelo de regressão de Poisson (modelo3)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.83 0.004 1576.4 <2e-16
Dia_semana
Dias úteis 0.29 0.003 111.3 <2e-16
Sábado 0.15 0.003 46.14 <2e-16
Mês
Fevereiro 0.008 0.004 1.9 0.06
Março -0.004 0.004 -0.98 0.3
Abril -0.004 0.004 -0.91 0.4
Maio 0.07 0.004 18.4 <2e-16
Junho 0.08 0.004 20.9 <2e-16
Julho 0.08 0.004 20.9 <2.e-16
Agosto 0.01 0.004 3.5 0.0005
Setembro 0.1 0.004 25.9 <2e-16
Outubro 0.12 0.004 29.8 <2e-16
Novembro 0.16 0.004 40.7 <2e-16
Dezembro 0.04 0.004 10.44 <2e-16
Dias
Feriados -0.4 0.007 -58.2 <2e-16
Tabela 9.3: Resultado de ajustamento do modelo de regressão de Poisson (modelo4)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.85 0.003 2053.5 <2e-16
Dia_semana
Dias úteis 0.29 0.003 111.3 <2e-16
Sábado 0.15 0.003 46.2 <2e-16
Estações do ano
Primavera 0.006 0.002 -56.3 0.01
Verão 0.06 0.002 2.45 <2e-16
Outono 0.12 0.003 25.1 <2e-16
Dias
Feriados -0.4 0.007 -56.3 <2e-16
92
Regressão Binomial Negativa
Tabela 9.4: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo2)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.85 0.011 549.9 <2e-16
Dia_semana
Segunda 0.24 0.013 19.5 <2e-16
Terça 0.28 0.012 22.2 <2e-16
Quarta 0.29 0.012 22.9 <2e-16
Quinta 0.29 0.012 23.01 <2e-16
Sexta 0.35 0.012 28.3 <2e-16
Sábado 0.15 0.012 12.24 <2e-16
Estações do ano
Primavera 0.013 0.009 1.4 0.2
Verão 0.06 0.008 6.9 4.2e-12
Outono 0.126 0.011 12.01 <2e-16
Dias
Feriados -0.4 0.02 -16.3 <2e-16
Tabela 9.5: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo3)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.83 0.014 413.5 <2e-16
Dia_semana
Dias úteis 0.29 0.0097 29.9 <2e-16
Sábado 0.15 0.012 12.2 <2e-16
Mês
Fevereiro 0.008 0.016 0.5 0.6
Março -0.0006 0.02 -0.04 0.97
Abril -0.003 0.02 0.18 0.9
Maio 0.08 0.02 5.12 3e-07
Junho 0.09 0.02 5.45 4.98e-08
Julho 0.09 0.02 5.6 2.46e-08
Agosto 0.02 0.02 1.29 0.19
Setembro 0.11 0.02 6.6 4.27e-11
Outubro 0.12 0.02 7.64 2.22e-14
Novembro 0.16 0.02 9.91 <2e-16
Dezembro 0.04 0.02 2.3 0.02
Dias
Feriados -0.4 0.02 -17.11 <2e-16
93
Tabela 9.6: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo4)
Variáveis explicativas Estimativas
dos
coeficientes
Desvio padrão Teste de Wald Valor-p (Wald)
Termo Constante 5.85 0.011 543.2 <2e-16
Dia_semana
Dias úteis 0.29 0.0099 29.5 <2e-16
Sábado 0.15 0.012 12.08 <2e-16
Estações do ano
Primavera 0.013 0.009 1.43 0.2
Verão 0.06 0.008 6.9 5.78e-12
Outono 0.127 0.011 11.9 <2e-16
Dias
Feriados -0.4 0.02 -16.5 <2e-16
Análise de resíduos (regressão Binomial Negativa)
Resultado de ajustamento do modelo com a presença da observação 193
Resultado de ajustamento do modelo com observação 193 eliminada do conjunto de dados