regressão linear múltipla e variáveis dummypmbortolon.wdfiles.com/local--files/home/aula...
TRANSCRIPT
Contabilometria
Aula 11 – Regressão Linear Múltipla e Variáveis Dummy
O Modelo de Regressão Múltipla
Ideia: Examinar a relação linear entre 1 variável dependente (Y)
& 2 ou mais variáveis independentes (Xi).
ikik2i21i10i εXβXβXββY
Modelo de Regressão com k Variáveis Independentes:
Intercepto Inclinações na população Erro Aleatório
Equação da Regressão Múltipla
Os coeficientes do modelo de regressão múltipla
são estimados a partir de dados amostrais
kik2i21i10i XbXbXbbY
Valor estimado
(ou previsto)
de Y
Coeficinetes angulares estimados
Modelo de regressão múltipla com k variáveis independentes
Intercepto
estimado
Neste capítulo usaremos o Excel para obter os coeficientes
angulares da regressão e outras medidas.
Equação da Regressão Múltipla
Exemplo com
duas variáveis
independentes
Y
X1
X2
22110 XbXbbY
Equação da Regressão Múltipla
2 Variáveis - Exemplo
• Uma empresa deseja analisar o comportamento dos custos indiretos de fabricação (cif), em função das variáveis: horas de mão-de-obra direta (hmod) e horas-máquina (hm).
– Variável Dependente: Custos Indiretos (em $)
– Variável Independente: Horas de mão-de-obra direta (em h)
Horas-máquina (em h)
• Dados coletados durante 15 meses
Equação da Regressão Múltipla
2 Variáveis - Exemplo
• CIF = b0 + b1 (hmod) +
b2 (hm)
• CIF = b0 +b1X1 + b2X2
Onde: X1 = hmod
X2 = hm
Equação da Regressão Múltipla:
Período CIF HMOD HM
1 350 4 10
2 400 8 14
3 470 12 16
4 550 10 26
5 620 15 31
6 380 7 12
7 290 6 13
8 490 10 21
9 580 11 26
10 610 13 24
11 560 12 23
12 420 8 12
13 450 11 19
14 510 12 19
15 380 5 11
Regressão Linear Simples
CIF = f(hmod)
Estatística de regressão
R múltiplo 0,883
R-Quadrado 0,780
R-quadrado ajustado 0,763
Erro padrão 48,985
Observações 15
ANOVA
gl SQ MQ F F de significação
Regressão 1 110.299,26 110.299,26 45,967 0,0000130
Resíduo 13 31.194,08 2.399,54
Total 14 141.493,33
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 200,82 41,76 4,81 0,0003 110,60 291,04
HMOD 28,11 4,15 6,78 0,0000 19,15 37,07V
Vvc
Custo Fixo
Vvc
Custo Variável
Regressão Linear Simples
CIF = f(hm)
Estatística de regressão
R múltiplo 0,920
R-Quadrado 0,846
R-quadrado ajustado 0,834
Erro padrão 40,921
Observações 15
ANOVA
gl SQ MQ F F de significação
Regressão 1 119.724,13 119.724,13 71,496 0,0000012
Resíduo 13 21.769,20 1.674,55
Total 14 141.493,33
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 208,88 32,71 6,38 0,0000 138,20 279,55
HM 14,18 1,68 8,46 0,0000 10,55 17,80
Vvc
Custo Fixo
Vvc
Custo Variável
Regressão Linear Múltipla
CIF = f(hmod;hm)
Estatística de regressão
R múltiplo 0,941
R-Quadrado 0,885
R-quadrado ajustado 0,866
Erro padrão 36,827
Observações 15
ANOVA
gl SQ MQ F F de significação
Regressão 2 125.218,94 62.609,47 46,165 0,000002
Resíduo 12 16.274,39 1.356,20
Total 14 141.493,33
CoeficientesErro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 184,88 31,76 5,821 0,00008 115,68 254,09
HMOD 11,75 5,84 2,013 0,06712 -0,97 24,46
HM 9,37 2,82 3,317 0,00615 3,21 15,52
,8850141493,33
125218,94
STQ
SQReg2 R
88,5% da variação nos custos
indiretos de fabricação é explicada
pela variação nas horas de mão de
obra direta e horas-máquina.
R2ajustado
• Mostra a proporção da variação em Y explicada pelo conjunto das variáveis X ajustado ao número de variáveis X utilizadas no modelo
(onde n = tamanho da amostra, k = numero de coeficientes da regressão)
– Penaliza o uso excessivo e desnecessário de variáveis independentes
– É menor que r2
– Útil ao comparar modelos com diferentes especificações
)1(1
1 22 Rkn
nRaj
R2ajustado
Estatística de regressão
R múltiplo 0,941
R-Quadrado 0,885
R-quadrado ajustado 0,866
Erro padrão 36,827
Observações 15
ANOVA
gl SQ MQ F F de significação
Regressão 2 125.218,94 62.609,47 46,165 0,000002
Resíduo 12 16.274,39 1.356,20
Total 14 141.493,33
CoeficientesErro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 184,88 31,76 5,821 0,00008 115,68 254,09
HMOD 11,75 5,84 2,013 0,06712 -0,97 24,46
HM 9,37 2,82 3,317 0,00615 3,21 15,52
%58,86315
115)88498,01(12
ajR
Como testar a validade da regressão
como um todo
• As hipóteses são definidas em termos do coeficiente
de determinação:
– H0: R2 = 0
– H1: R2 > 0
• O Fteste é calculado pela fórmula:
kn
R
k
R
Fteste
2
2
1
1
Explicada Não Variância
Explicada Variância
R2ajustado
Estatística de regressão
R múltiplo 0,941
R-Quadrado 0,885
R-quadrado ajustado 0,866
Erro padrão 36,827
Observações 15
ANOVA
gl SQ MQ F F de significação
Regressão 2 125.218,94 62.609,47 46,165 0,000002
Resíduo 12 16.274,39 1.356,20
Total 14 141.493,33
CoeficientesErro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 184,88 31,76 5,821 0,00008 115,68 254,09
HMOD 11,75 5,84 2,013 0,06712 -0,97 24,46
HM 9,37 2,82 3,317 0,00615 3,21 15,52
Vvc
Custo Fixo
Vvc
Custo Variável
165,46
315
88498,012
88498,0
1
12
2
kn
R
k
R
Fteste
Não significativo
a um α = 5%
• Como hmod e hm foram signficativas quando
consideradas em modelos de regressão linear simples,
e quando colocadas simultaneamente somente uma é
significativa?
• Multicolinearidade!!
Multicolinearidade
• Ocorre quando duas variáveis explicativas são
altamente correlacionadas.
• Neste caso elas fornecerão informações semelhantes
para explicar a variável dependente.
• Isso dificulta entender qual a contribuição de cada
uma, prejudicando a capacidade preditiva do modelo.
• Sintoma: R2ajustado elevado mas com poucos
coeficientes (bi) estatisticamente significativos
• No nosso exemplo, R2ajustado é alto, mas o coeficiente
de hmod não é significativamente diferente de zero.
Multicolinearidade
• Podemos observar o coeficiente de correlação entre as
variáveis explicativas.
• Excel: Ferramentas – Análise de Dados – Correlação
• Um dos métodos mais utilizados pelos pesquisadores
para detectar a multicolinearidade é o FIV (Fator de
Inflação da Variância)
CIF HMOD HM
CIF 1
HMOD 0,882914 1
HM 0,919862 0,845405 1
Detectando a Colinearidade
FIV - Fator Inflacionário da Variância
FIVj é usado para medir a colinearidade:
Se FIVj > 5, Xj é altamente correlacionado
com as outras variáveis independentes
onde R2j é o coeficiente de determinação de um modelo de
regressão que usa Xj como variável dependente e todas as demais
variáveis X como variáveis independentes
21
1
j
jR
FIV
Utilizando Variáveis Binárias
Dummy
• Uma variável dummy é uma variável independente categórica com dois níveis:
– Sim ou não, masculino ou feminino, presente ou não, etc…
– Codificada com 0 ou 1
• Assume-se iguais coeficientes para as demais variáveis
• Se há mais de duas possibilidades, o número de variáveis dummy necessário será (número de possibilidades - 1)
Exemplo de variáveis Dummy
Considere:
Y = vendas de tortas
X1 = preço
X2 = feriado (X2 = 1 se houve feriado durante a semana)
(X2 = 0 se não houve feriado naquela semana)
210 XbXbbY21
Exemplo de variáveis Dummy
Mesma Inclinação
X1 (Preço)
Y (vendas)
b0 + b2
b0
1010
12010
Xb b (0)bXbbY
Xb)b(b(1)bXbbY
121
121
Com feriado
Sem feriado
Diferentes Interceptos
Se H0: β2 = 0 é
rejeitada, então
“Feriado” tem
efeito significativo
nas vendas de
tortas
Exemplo de variáveis Dummy
Vendas: número de tortas vendidas por semana
Preço: preço da torta em $
Feriado: 1 Se houve feriado naquela semana
0 Se não houve feriado
b2 = 15: em média, as vendas são maiores em 15
unidades nas semanas com feriado do que nas semanas
sem feriado, dado o mesmo preço
)15(Feriado 30(Preço) - 300 Vendas
Modelo com variável Dummy
Mais do que dois níveis
• O número de variáveis dummy é o no. de possibilidades
menos um
• Exemplo:
Y = preço do imóvel ; X1 = área do imóvel
• Se o estilo da casa é algo que também influencia o
preço
Estilo = casa um andar, casa duplex, apartamento
• Três níveis, então duas variáveis dummy são necessárias
Modelo com variável Dummy
Mais do que dois níveis
Exemplo: Assuma que “um andar” é a categoria base, e use X2 e X3 para as outras categorias:
Y = preço da casa
X1 = área da casa
X2 = 1 se casa duplex, 0 caso contrário
X3 = 1 se apartamento, 0 caso contrário
A equação do modelo de regressão múltipla é:
3322110 XbXbXbbY
Modelo com variável Dummy
Mais do que dois níveis
18,840,045X20,43Y 1
23,530,045X20,43Y 1
Para uma mesma área, uma
casa duplex terá uma
estimativa de preço médio
23,53 milhares de dólares mais
que uma casa de um andar.
Para uma mesma área, um
apartamento terá uma estimativa
de preço médio 18,84 milhares
de dólares a mais que uma casa
de um andar.
Considere a equação da regressão:
321 18,84X23,53X0,045X20,43Y
10,045X20,43Y
Para casa um andar: X2 = X3 = 0
Para casa duplex: X2 = 1; X3 = 0
Para apartamento: X2 = 0; X3 = 1
Interações entre Variáveis Independentes
• Permite avaliar interações entre pares de variáveis X
– A resposta a uma variável X pode ser diferente para
diferentes níveis de outra variável X
• Considera o produto de dois termos
–
)X(XbXbXbb
XbXbXbbY
21322110
3322110
Efeito da Interação
• Dado:
• Sem o termo de interação, o efeito de X1 em Y é
medido por β1
• Com o termo de interação, o efeito de X1 em Y é
medido por β1 + β3 X2
• O efeito muda à medida que X2 muda
εXβXβXββY 21322110 X
Exemplo de Interação
X2 = 1:
Y = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1
X2 = 0:
Y = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1
As inclinações são diferentes se o efeito de X1 em Y depende do valor de X2
X1
4
8
12
0
0 1 0.5 1.5
Y
= 1 + 2X1 + 3X2 + 4X1X2 Suponha que X2 é uma variável dummy a equação da
regressão estimada é Y
Exemplo
• A Cia Leite Black deseja conhecer
a relação entre a evolução das
quantidades vendidas (q) e preços
(p). Para isso, selecionou uma
amostra com valores relativos aos
últimos 14 meses. A empresa
enfrentou uma greve do quinto ao
sétimo mês. Como a greve
influenciou o modelo formado
pelas variáveis p e q?
Qde. Vendida Preço
Meses (q) (p)
1 98 0,79
2 100 0,80
3 103 0,82
4 105 0,82
5 80 0,93
6 87 0,95
7 94 0,96
8 113 0,88
9 116 0,88
10 118 0,90
11 121 0,93
12 123 0,94
13 126 0,96
14 128 0,97