Download - Kap 12 Korrelasjon / Regresjon
11
Kap 12 Korrelasjon / RegresjonKap 12 Korrelasjon / RegresjonKap 12 Korrelasjon / RegresjonKap 12 Korrelasjon / Regresjon
22
BegrepBegrep
Korrelasjon : Et mål for lineær samvariasjon.
Regresjon : Tilpasning av en rett linje til et sett punkter.
Estimere den avhengige variableut fra den uavhengige variable.
Regresjonsanalyse : Inferens.
33
Minste kvadraters metode (MKM)Tilpasning av en rett linjeMinste kvadraters metode (MKM)Tilpasning av en rett linje
xi
0
Y
X
dibaxy (xi, yi)
22 )(),( ybaxdbaFF
Best mulig tilpassede rette linje
Ønsker å minimalisere
ybnxa
xyxbxa
ybax
ybaxx
ybaxybaxb
ybaxbb
F
ybaxxybaxa
ybaxaa
F
0 )(
0)(
)(2)()(
)(2)()(
2
22
22
44
Minste kvadraters metode (MKM)Minste kvadraters metode (MKM)
xi
0
Y
X
dibaxy (xi, yi)
22 )(),( ybaxdbaFF
Best mulig tilpassede rette linje
Ønsker å minimalisere denne
ybnxa
xyxbxa
2
22
2
22
xxn
xyxxyb
xxn
yxxyna
55
Minste kvadraters metode (MKM)Minste kvadraters metode (MKM)
xi
0
Y
X
dibaxy (xi, yi)
22 )(),( ybaxdbaFF
Best mulig tilpassede rette linje
Ønsker å minimalisere denne
22
2
22
xxn
xyxxyb
xxn
yxxyna
2
2
2
2
2
xx
xyxxy
xx
yxxy
SnS
SSSSb
SnS
SSnSa
zS z
66
Minste kvadraters metode (MKM)Minste kvadraters metode (MKM)
xi
0
Y
X
baxy (5,4) Best mulig tilpassede rette linje
831.1251515
692515113
154.0251515
1325695
22
22
2
2
2
xx
xyxxy
xx
yxxy
SnS
SSSSb
SnS
SSnSa
(2,1)
(3,3)
(7,2)
(8,3)
1516449259487532
69241420923827453312
1332431
2587532
222222
x
xy
y
x
S
S
S
S
831.1154.0 xbaxy
EksEks
77
Et mål for lineær samvariasjon:KorrelasjonEt mål for lineær samvariasjon:Korrelasjon
1978 1986
100
150
200Kurs
År 1400 4400
20
25
30Dødsfall pr 100000 innb.
Sigaretter pr person
Aksjekurs for Bergen Bank og DNC 1978-86
Røyking og kreft
88
Korrelasjon / KryssproduktsumKorrelasjon / Kryssproduktsum
-60 60
-30
60
DNC - DNCsnitt
BB - BBsnitt
Aksediagram
1978 1986
100
150
200Kurs
År
Aksjekurs for Bergen Bank og DNC 1978-86
122xBergen Bank BBsnitt:
DNC DNCsnitt: 134y
Kryssproduktsum:
))(( yyxx
),( yx
99
KryssproduktsumKryssproduktsum
BB - DNC : nekvadratkro 42529))(( yyxx
Kreft:
Presse :
dsfallsigarettdø 65330))(( yyxx
neprosentkro 43411))(( yyxx
Styrke : - Fortegn (positiv eller negativ samvariasjon)Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum)
- Intetsigende benevning
Samvariasjon i aksjekurser
Samvariasjon irøyking og kreft
Samvariasjon ipressestøtte og opplag
1010
Kryssproduktsum / KovariansKryssproduktsum / Kovarians
ktsumkryssprodu1
2
))((1
2)(
1
1)(
1
1
)])((2)()(1
1
)]()[(1
1)]()[(
1
1)(
1
1
22
22
22
2222
nss
yyxxn
yyn
xxn
yyxxyyxxn
yyxxn
yxyxn
zzn
s
yxz
yx
z
Kovarians = gjennomsnittlig kryssproduktsum
)])([()(),(
),(2)()()(
21 YXEVEYXCov
YXCovYVarXVarYXVar
1111
KovariansKovarians DefDef
X, Y Stokastiske variable )])([()(),(
),(2)()()(
21 YXEVEYXCov
YXCovYVarXVarYXVar
I (X-1) > 0 (X-2) > 0 V > 0 Positiv samvariasjon
(X-1) < 0 (X-2) < 0 V > 0
II (X-1) > 0 (X-2) < 0 V < 0 Negativ samvariasjon
(X-1) < 0 (X-2) > 0 V < 0
21
),(),(
YXCov
YX 1),(1 YX
Korrelasjonskoeffisient
nær 1 : Høy positiv korrelasjon nær -1 : Høy negativ korrelasjon nær 0 : Svært liten korrelasjon
1212
Estimering av korrelasjonskoeffisientEstimering av korrelasjonskoeffisient
n
ii
n
ii
n
iii
YX
XY
YYXX
YYXX
SS
SR
1
2
1
2
1
)()(
))((
Som estimator for korrelasjonskoeffisienten basert på n par av observasjoner av X og Ybrukes den empiriske korrelasjonskoeffisienten R gitt ved:
n
iiiXY YYXX
nS
1
))((1
n
iiX XX
nS
1
2)(1
n
iiY YY
nS
1
2)(1
1313
Estimering av korrelasjonskoeffisientEstimering av korrelasjonskoeffisient EksEks
Xi (cm) 164 167 170 171 166 169168 171 168 168
Yi (kg) 51 56 51 62 54 56 56 59 5754
Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere:
160 165 170
50
60
70Y
X
09.2)(1
1
2
n
iiX XX
nS 20.3)(
1
1
2
n
iiY YY
nS
18.4))((1
1
n
iiiXY YYXX
nS
625.0YX
XY
SS
SR
Klar positiv korrelasjonmellom høyde og vektfor kvinnelige toppidrettsutøvere.
1414
KorrelasjonskoeffisientAlternative uttrykkKorrelasjonskoeffisientAlternative uttrykk
n
iii
n
iiiXY YXYX
nYYXX
nS
11
1))((
1
n
ii
n
iiX XX
nXX
nS
1
22
1
22 1)(
1
n
ii
n
iiY YY
nYY
nS
1
22
1
22 1)(
1
1515
RegresjonsanalyseRegresjonsanalyse
Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X.
Eks: Y = Avlingsmengde X = Gjødselsmengde
Y = Solgt kvantum av et produkt X = Reklameinnsats
UXY 10 Enkel regresjonsmodell
Konstantledd
Regresjonskoeffisient
Feilledd (med forventning 0)
1616
Enkel regresjonsmodellEnkel regresjonsmodell
Y Uavhengig NormalfordeltX Ikke-stokastisk ( = x)
n par av observasjoner av x og Y:(x1,Y1) - (x2,Y2) -…- (xn,Yn)
variableestokastisk eltenormalford og uavhengige ,...,, 21 nYYYModell-antakelser:
n1,2,..., i 10 iii UxY
n1,2,...,i )( 10 ii xYE
n1,2,..., i )( 2 iYVar
U1, U2, …, Un er uavhengige og normalfordeltemed forventning 0 og varians 2.
1717
Enkel regresjonsmodellEnkel regresjonsmodell
x1 x2 x3
0
Y
X
0 + 1 xY1
Y2
Y3
xYE 10)(
Y
Regresjonsmodell:
Spredningsdiagram:
Skal estimere 0 og 1
1818
Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)
xi
0
Y
X
Yi - (0 + 1 xi)
n
iii xYQQ
1
21010 )]([),(
0 010
n
ii
n
iii
xxM
xY
YxxM
1
2
10
11
)(
ˆˆ
)(1ˆ
1919
22
2
22
22
2
2110
22222
22
222222
222221
2
2
2
2
2
2
22
2
2
2
1
11)(1
111ˆ1ˆˆ
1
1
1
11
2
1
2
1
2)2(
)(
)(
)()(
1ˆ
xx
xyxxy
xx
xyxxy
xx
yxxyxxyxyx
xx
yxxy
xx
xxy
x
xx
yxxyy
xx
yxxy
SnS
SSSS
SnS
SnSSnS
n
SnS
SSSnSSSSnS
nS
nSnS
SSnS
SnS
SnSS
n
SnSnS
SSnSS
nx
ny
nxy
SnS
SSnS
xxn
yxxyn
xn
x
yxn
xy
xn
nx
yxn
xy
xnx
yxn
xy
xnxnxx
yxn
xy
xxxx
yxn
xy
xxxx
yxxy
xxxx
yxxy
xx
yxxyxx
M
Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)
2020
elte.normalford ˆ og ˆ bådeer Derfor
ene.-Y av funksjoner lineæreer ˆ og ˆ
)(
ˆˆ
)(1ˆ
og for (MKE)r estimatore kvadraters minsteer ˆ og ˆ
10
10
1
2
10
11
1010
n
ii
n
iii
xxM
xY
YxxM
Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)
2121
)ˆ( )ˆ(
)ˆ( )ˆ(
2
111
1
2
2000
MVarE
nM
xVarE
n
ii
xY 10ˆˆˆ Den estimerte
regresjonslinjen:
Forventning / Varians :
Enkel regresjonsmodellEnkel regresjonsmodell
2222
2
2)(
111
)(1
)ˆ(1
)ˆ()1()()ˆ()ˆ(
1)(
1)()(
1)(
1)ˆ(
1)(
1 )(
1
)ˆ(1
)ˆ()E( )xˆ()ˆ(
)(
11
))((1
)()(1
)(1
)ˆ(
1
2
22222
2222
222
22
2
22
222
222
2
22
212
12
10
22
222
22
21
01101101
1110
122
221
12
100212
100
101
nM
x
nM
xnxnxnx
nM
xnxxxx
nM
xnxx
nM
xnM
M
x
nMx
nMxn
n
MxYVar
nVarxY
nVarxVarYVarxYVarVar
MM
Mxx
MYVarxx
MYxx
MVarVar
xxnnn
xxn
xYEn
ExYn
ExEYYEE
xnx
xnxxnxxxnxn
xxxxxxx
M
xxxM
YExxM
YxxM
EE
n
ii
Enkel regresjonsmodellEnkel regresjonsmodellUtledning avuttrykk forestimator og varians
Utledning avuttrykk forestimator og varians
2323
En ny type gjødsel skal prøves ut ved dyrking av mais.Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker,hvert på 4 mål.Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes somen normalfordelt stokastisk variabel.Forventet avlingsmengde er avhengig av hvor mye gjødselsom blir brukt, og vi antar
E(Y) = 0 + 1x
når det blir gjødslet med x hundre kg gjødsel.Standardavviket = 0.40 er kjent, og avlingsmengder på forskjelligejordstykker er uavhengige variable.
Xi 1 1 1 2 2 2 3 3 3 4 4 45 5 5
Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80
Eks:Gjødsel og avlingEks:Gjødsel og avling
Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)
2424
Xi 1 1 1 2 2 2 3 3 3 4 4 45 5 5
Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80
95.1ˆˆ
441.0)(1ˆ
30)(
27.3 0.3
0
11
1
2
xY
YxxM
xxM
Yx
n
iii
n
ii
xxY 441.095.1ˆˆˆ10
Eks:Gjødsel og avlingEstimering
Eks:Gjødsel og avlingEstimering
Beregning av estimatene:
Estimert regresjonslinje:
Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)
2525
Xi 1 1 1 2 2 2 3 3 3 4 4 45 5 5
Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80
xxY 441.095.1ˆˆˆ10
]584.0,298.0[073.096.1441.096.1ˆ)ˆ(ˆ11025.01
MSDu
Et 95% konfidensintervall for 1 er gitt ved:
Estimert regresjonslinje:
Eks:Gjødsel og avlingKonfidensintervall
Eks:Gjødsel og avlingKonfidensintervall
Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)
2626
HypotesetestHypotesetest
Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden.Vi stiller altså spørsmålet om 1 > 0.25.
Nullhypotesen:
Alternativ hypotese:
25.0: 10 H
25.0: 11 H
Påstår H1 dersom:(5% signifikansnivå)
k1̂
Kritisk verdi :105.010
ˆ441.0370.030
40.0645.125.0
Mu
Muk
Resultatene tyder på at den nye gjødseltypen gir større avling.
Mk
GkP
25.01)25.0|ˆ(05.0 11
2727
SignifikanssannsynlighetSignifikanssannsynlighet
Vi kan alternativt regne ut signifikanssannsynligheten:
Siden p = 0.0044 < 0.05 påstår vi H1.Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.
0044.0)62.2(13040.0
25.0441.01
)25.0|441.0ˆ()| Påstå( 1101
GG
PHHPp
2828
Estimator / Varians:
Konfidensintervall for YKonfidensintervall for Y
xYE 10)(
xY 10ˆˆˆ
M
xx
nYVar
YYE2
2 )(1)ˆ(
)ˆ(
215.005.330
)0.35.2(
15
196.105.3
)(1ˆ)ˆ(ˆ
2
2
2/2/
M
xx
nuYYSDuY95% konfidensintervall
for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :
05.35.2441.0947.1ˆˆˆ10 xY
Estimert avling ved gjødselmengde x:
Forventet avling ved gjødselmengde x:
Estimert avling ved gjødselmengde 2.5kg :
2929
Estimator / Varians:
Konfidensintervall for YKonfidensintervall for Y
M
xx
nMxx
nVarxxYVarxxYVarYVar
xxYxxYxY
Yxx
xEExEExEYE
22
22
2
12
1
11110
1010
101010
)(1)()ˆ()()())(ˆ()ˆ(
)(ˆˆ)ˆ(ˆˆˆ
)ˆ()ˆ()ˆ()ˆ()ˆˆ()ˆ(
Utledning avuttrykk forestimator og varians
Utledning avuttrykk forestimator og varians
3030
PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for YPrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y
En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling.
Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet.
Det å anslå størrelsen på uobserverte stokastiske variablerer en form for estimering som vi kaller prediksjon,i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsenav ukjente parametre.
Vi sier at vi skal predikere Y for en gitt verdi av x,og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y.
Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabelVanlig konfidensintervall : Konfidensintervall for en ukjent parameter
Prediksjonsintervall : Gjelder en enkelt Y-verdiKonfidensintervall : Gjelder populsjonsgjennomsnittet
3131
PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for YPrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y
Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt).Denne differensen er normalfordelt siden Y og Yhatt
begge er normalfordelte.Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.
3232
PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for YPrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y
0)()()ˆ()()ˆ( 1010 xxYEYEYYE
813.005.330
)0.35.2(
15
1140.096.105.3
)(11ˆˆ
2
2
2/2/
M
xx
nuYuY
22
2
222
)(11
))(1
()ˆ()()ˆ(
M
xx
n
M
xx
nYVarYVarYYVar
1)ˆˆ(),0(~ˆ2/2/
2 uYYuYPNYY
Forventningtil differensen :
Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y
:
xY 10ˆˆˆ
Varians:
Prediksjonsintervall for Y.Inneholder Y med sannsynlighet 1- :
3333
Standardestimator for variansen 2 i regresjonsmodellen:
Ukjent Ukjent
n
iii xY
nS
1
210
2 ))ˆˆ((2
1
derfrihetsgra 2-n medfordelt - tˆ
11 MS
T
3434
Standardestimator for variansen 2 i regresjonsmodellen:
Ukjent Ukjent
215
1
210
1
210
2 403.0))ˆˆ((215
1))ˆˆ((
2
1
iii
n
iii xYxY
nS
derfrihetsgra 13 medfordelt - tˆ
11 MS
T
95% konfidensintervall for 1
:
]600.0,282.0[159.0441.030
403.0160.2441.0ˆ
1302501 M
St ,.
Test med nivå 5% ved å påstå H1 dersom :
25.0: 25.0: 1110 HH
771.125.0ˆ
13,05.01
0
tMS
T
Regner ut T0 : 60.230403.0
25.0441.00
T
Påstår H1 fordi : 771.160.2 13,05.00 tT
3535
Standardestimator for variansen 2
i regresjonsmodellen:
Oppsummering IOppsummering I
n
iii xY
nS
1
210
2 ))ˆˆ((2
1 derfrihetsgra 2-n medfordelt - tˆ
11 MS
T
Korrelasjon :
22
21
),(),(
YXCov
YX 1),(1 YX
n
ii
n
ii
n
iii
YX
XY
YYXX
YYXX
SS
SR
1
2
1
2
1
)()(
))((
UXY 10 Enkel regresjonsmodell :
n
ii
n
iii
xxM
xY
YxxM
1
2
10
11
)(
ˆˆ
)(1ˆ
)ˆ( )ˆ(
)ˆ( )ˆ(
2
111
1
2
2000
MVarE
nM
xVarE
n
ii
MuSDu
2/112/1ˆ)ˆ(ˆ Konfidensintervall for
1 :M
uM
uk 10
3636
Estimator / Varians :Konfidensintervall
xYE 10)(
xY 10ˆˆˆ
M
xx
nYVar
YYE2
2 )(1)ˆ(
)ˆ(
M
xx
nuYYSDuY
2
2/2/
)(1ˆ)ˆ(ˆ
Estimert Y :
Forventning til Y :
M
xx
nuYuY
2
2/2/
)(11ˆˆ
xY 10
ˆˆˆ Prediksjon :Prediksjonsintervall
Oppsummering IIOppsummering II
3737
ENDENDENDEND