statisztika i. 12. előadás -...

34
Statisztika I. 12. előadás Előadó: Dr. Ertsey Imre

Upload: hakhanh

Post on 13-Aug-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Statisztika I.12. előadás

Előadó:Dr. Ertsey Imre

Regresszió analízis

A korrelációs együttható megmutatja a

kapcsolat irányát és szorosságát. A kapcsolat

vizsgálata során a gyakorlatban ennél messzebb

menő kérdésekre is választ kell adni így:

adott x értékhez milyen y tartozik,

x egységnyi változása milyen y változással

jár, illetve megfordítva

Ezekre választ az un. regresszió elemzés ad.

Regresszió:

az összetartozó x és y értékpárok által meghatározott ponthalmazhoz legszorosabban illeszkedő vonalat kifejező analitikus függvény meghatározása,

regressziós függvény (az így meghatározott függvény),

elméleti regresszió vonal (a függvény grafikus vonala),

Korrelációs kapcsolatban x és y valamilyen mennyiségi ismérv érték. A kapcsolat típusától függően a regressziós függvény lehet:

egyenes vonalú (lineáris): lineáris regresszió elméleti vonala a regressziós egyenes,görbe vonalú (nem lineáris),a) exponenciális,b) parabolikus,c) hiperbolikus.

1. Lineáris regresszió

y’=a+bxAz egyenest úgy kell illeszteni, hogy →minimum (a regressziós egyenes pontjai és az eredeti értékek közötti eltérések négyzetösszege minimális legyen).

∑∑ += xbnay

∑∑∑ += 2xbxaxy

( )∑ − 2'yy

a = az origónál az egyenes által lemetszett részb = az egyenes meredekségét kifejező iránytangens

1. Lineáris regresszió

A koordináta tengely kezdőpontját az „x” és „y”

változók által meghatározott pontba helyezzük – a

tengelyek az eredeti tengelyekkel párhuzamosak –

és így a változók átlagtól való eltéréseinek

összefüggéseit vizsgáljuk.

Lineáris regresszió számításának grafikus levezetése

αα

yy −

yy −

ay − xx −

x

x

y

x

y

a

btg =α

xayb −

=

ayxb −=*

xbya *−=

A normál egyenletekbe az x és y helyett az és az értékeket kell helyettesíteni

( )∑ −xx( )∑ − yy

( ) ( )∑∑ −+=− xxbanyy *

( )( ) ( ) ( )2* ∑∑∑ −+−=−− xxbxxayyxx

( ) 0=−∑ xx

( ) 0=−∑ yy

an *0 =

( ) ( )( )2xx

yyxxb−Σ

−⋅−Σ=

( )( ) ( )2∑∑ −=−− xxbyyxx

- a

( )yx ;

xbya −=

az új koordináta rendszerben =0- a regressziós egyenes átmegy a kezdőponton, amelynek koordinátái- mivel az pont az egyenesen fekszik( )yx ;

xbya −=

( ) ( )( )2xx

yyxxb−Σ

−⋅−Σ=

1.1. Regressziós egyenes: megmutatja, hogy bármely adott x értékhez átlagosan mekkora valószínű y érték illetve regressziós érték várható.

( )yyyy ′−+′=

( )yyyy ′−+′= 222 σσσ

( ) ySyy 22 =′−σ

( )n

yyyS

22 ∑ ′−

=

regressziós érték és a hiba

( )n

yySy ∑ −

=2' a regressziós becslés

standard hibája

%100⋅=ySyHr relatív hiba

( )yyyy ′−+′= 222 σσσ

yyS

yy

2

2

2

2

1σσ

σ+′

=( )n

yy∑ ′− 2

( )n

yy 2∑ −

A standard hibanégyzete

így az x változásával magyarázható és a nem megmagyarázható rész arányát kapjuk meg viszonyszámokban

mivel Dr2y

2y' == 2

σσ

Determinációs együttható

A korrelációs együttható négyzete megmutatja, hogy milyen mértékben, hány % -ban határozza meg az x változó az y változó nagyságát

( )

( )n

yynyy

yyr

2

2''

'

−Σ

−Σ

==σσ

A korrelációs együttható nem más, mint a számított regressziós értékek (y’) szórásának és a tényleges értékek (y) szórásának a hányadosa

A korrelációs együttható kifejezhető a tényleges értékek és a számított y’ regressziós értékek közötti négyzetes átlageltérés (az S2y) segítségével is

Minél kisebb az S2y érték annál nagyobb a korrelációs együttható

( )( )∑

∑−

−−= 2

2

yyy'y

1r

yyS1r

22

2σ−=y

ySr12

22σ

+=

Korrelációs index (I)

Az 1 főre jutó évi jövedelem és az élelmiszerre

fordított kiadás alakulása

)(*)( yyxx −−2)( xx − 2)( yy −xx − yy− y ′

1 főre jutó évi

jövedelem élelmiszer-kiadás

ezer Ftx y

1. 72 24 -38,60 -14,80 1489,9 219,0 571,28 25,282. 96 36 -14,60 -2,80 213,1 7,8 40,88 33,693. 120 42 9,40 3,20 88,3 10,2 30,08 42,094. 130 44 19,40 5,20 376,3 27,0 100,88 45,595. 135 48 24,40 9,20 595,3 84,6 224,48 47,34Σ 553 194 2763,2 348,8 967,60 194,0

Átlag 110,60 38,80 38,80

Ház-tartá-sok

sorszáma

Az 1 főre jutó évi jövedelem és az élelmiszerre fordított kiadás alakulása

2)( yy ′−′yy ′−′yy ′− 2)( yy ′−Háztartá-

soksorszáma

1. -1,28 1,65 -13,52 182,70

2. 2,31 5,35 -5,11 26,14

3. -0,09 0,01 3,29 10,83

4. -1,59 2,54 6,79 46,15

5. 0,66 0,43 8,54 73,00

Σ 10,0 338,83

A lineáris regressziós függvény meghatározása

0,352763,2967,6

)x(x)y)(yx(x

b 2 ==−

−−=

∑∑

0,07110,6*0,3538,8xbya =−=−=

0,35x0,07y +=′

0,35x0,07y +=′

A ’b’ paraméter azt mutatja, hogy ezer Ft jövedelem növekedés 350 Ft élelmiszer többletkiadást eredményezAz ’a’ paraméter szerint a kimutatható jövedelemmel nem rendelkezők átlagosan 70 Ft-ot költenek élelmiszerre (ebben az esetben ezt nem értelmezzük)

Az illesztett függvény megbízhatóságának ellenőrzése

1,412510

n)y(y

S2

y ==′−

= ∑

Az élelmiszerekre fordított kiadás 1412 Ft-tal tér el átlagosan a regressziós egyenes számított értékeitől

A relatív hiba értéke azt mutatja, hogy a regressziós egyenes jól illeszkedik

3,64%10038,81,412100

yS

Hr y =⋅=⋅=

A determinációs együttható meghatározása

0,9710,986rD 22 ===

Az egy főre jutó évi jövedelem 97%-ban magyarázza meg az egy főre jutó élelmiszerkiadás nagyságát (illetve annak szóródását), 3% az egyéb körülményeknek tulajdonítható hányad

A korrelációs együttható meghatározása a regressziós értékek és a függő változó

értékeinek szórása alapján

0,98618,718,4

348,80338,83

)y(y

)yy(r

2

2

===−

′−′=

∑∑

A korrelációs index meghatározása:

0,9860,0281348,8101

)y(y)y(y

1I 2

2

=−=−=−

′−−=∑∑

A jövedelem és az élelmiszerkiadás közötti kapcsolat

y = 0,07 + 0,35xR2 = 0,9714

20

25

30

35

40

45

50

60 70 80 90 100 110 120 130 140

jövedelem eFt/fő

élel

mis

zerk

iadá

s eF

t/fő

élelmiszerkiadáslineáris regresszió

2. Két változós nem lineáris regresszió

- a legmegfelelőbb görbetípust kell kiválasztani- pontdiagram

2.1. Exponenciális

az y érték logaritmusával számolunk

ha az y tengelyen logaritmikus skálát alkalmazunk

a görbe egyenessé változik

regressziós vizsgálatban ritkán szerepel (trendelemzésekben)

xaby' = bxay' lglglg +=

1b >

2. Két változós nem lineáris regresszió

2.2. Hatványkitevős regressziós görbe

transzformációval lineárissá tehető

mindkét tengelyen logisztikus lépték esetén egyenest kapunk

baxy = 1b0 <<

xbay lglglg +=

Számítás menete hasonló a lineárishoz,A b paraméter kifejezi:

1%-os okváltozás hány %-os okozatváltozást idéz elő,az egyes fogyasztói cikkek rugalmasságát vagy elaszticitását mérik vele.

a) árelaszticitás: 1%-os árváltozás hány %-osváltozást idéz elő a fogyasztásban.

b) jövedelem elaszticitás: 1%-os jövedelemváltozás hány %-os változást idéz elő a fogyasztásban.A korrelációs együtthatót úgy számoljuk, mint a lineárist, csak az eredeti értékek logaritmusát vesszük.

2.3. Parabolikus típusú összefüggéseka másodfokú parabolának egy maximuma vagy minimuma van (helyi szélső értéke)

a, b, c, paraméterek meghatározása (normál egyenletek alapján)

2cxbxay ++=

c < 0 c > 0

Ha valamelyik vagy mindkét változó egy meghatározott határérték felé közeledik, de azt teljesen nem érheti el (pl. termés növekedés önköltség csökkenést okoz)Parabola és hiperbola esetén az r-et az un. korrelációs indexszel fejezzük ki.

x1bay +=

( )( )2

2

yyΣy'yΣ1I

−−=

2.4. Hiperbola

3. Többváltozós kapcsolatvizsgálat

eddig csak két tényező kapcsolatát vizsgáltuk,többféle tényező együttes hatásának mérése és meghatározása valamely függő változóra:

Több változós korreláció számításha a függő és független változók közötti összefüggés lineáris, a regressziós egyenes egyenlete:

nn332211 xbxbxbxbay +++++= K

totális korreláció

parciális korreláció

a független változók hatása összegződik

a független változóknak egymástól függetlennek

kell lennie

a tényezőváltozók függetlensége úgy értelmezendő, hogy bármely tényezőváltozóértékét tetszés szerint megváltoztathatjuk anélkül, hogy ezzel a többi tényezőváltozóértékét befolyásolnánka tényezőváltozók közötti kapcsolat a multikollinearitása tényezőváltozók közötti kapcsolat esetén a számított paraméterek megbízhatósága kifogásolható.

a b együtthatók azt fejezik ki, hogy a kérdéses tényezőváltozók egységnyi változása mekkora növekedést vagy csökkenést idéz elő az eredményváltozónál, feltételezve, hogy a vizsgálatba bevont többi tényezőváltozó értéke nem változika b együtthatók az un. parciális regressziós együtthatók

Többszörös korrelációs együttható: az eredményváltozónak az összes tényezőváltozóval való együttes kapcsolatának mértékét fejezi kiTöbbszörös determinációs együttható:megmutatja, hogy a tényezőváltozók együttesen milyen mértékben határozzák meg az eredményváltozó szóródásátParciális korrelációs együttható: két változóösszefüggését fejezi ki úgy, hogy a többi változóbefolyásoló hatását kiszűrjük