tiesinĖ regresija

Post on 11-Jan-2016

73 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

TIESINĖ REGRESIJA. Pavyzdžiai. Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros? Kaip sistolinis kraujo spaudimas priklauso nuo KMI? Kaip išlaidos priklauso nuo pajamų? Ar gimstamumas priklauso nuo šeimos pajamų? - PowerPoint PPT Presentation

TRANSCRIPT

TIESINĖ REGRESIJA

Pavyzdžiai

• Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros?

• Kaip sistolinis kraujo spaudimas priklauso nuo KMI?

• Kaip išlaidos priklauso nuo pajamų?• Ar gimstamumas priklauso nuo šeimos pajamų?• Išmatavome IQ pirmame kurse. Ar galima

prognozuoti koks bus studento diplomo pažymių vidurkis?

• Kokį vidutinį VS studento baigiamojo darbo balą galima prognozuoti, jei visas studijų balų vidurkis 8,7?

Tiesinė regresija ir koreliacija

• Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę (stipri, silpna, teigiama, neigiama)

• Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu

• Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.

Skirtingos koreliacijos pavyzdys

• Koreliacija tarp išlaidų reklamai ir pajamų yra 0,99 – stiprus teigiamas ryšys.

• Ar naudinga firmai padidinti išlaidas reklamai?

• Atrodytu, kad taip!

• Tačiau tokį rezultatą gali duoti tiek įdėtas 1 Lt ir gautas kelių Lt pelnas, tiek kelių cnt. pelnas.

Kintamieji

• Kintamasis, kurio reikšmes norima prognozuoti, vadinamas priklausomu kintamuoju (dependent variable).

• Kintamasis, pagal kurio reikšmes norima prognozuoti priklausomo kintamojo reikšmes, vadinamas nepriklausomu kintamuoju (independent variable).

Regresijosmodeliai

Paprasta Daugialypė(multiple)

Tiesinė(linear)

Netiesinė(non-linear)

Tiesinė(linear)

Netiesinė(non-linear)

Vienas nepriklausomas kintamasis

Du ir daugiau nepriklausomų kintamųjų

Paprastos tiesinės regresijos modelis

y=a+bx+ey ir x kintamieji

a ir b konstantos (a- laisvasis narys (angl. intercept), b-tiesės krypties koeficientas (angl. slope))

e atsitiktinė paklaida

Regresijos grafinis vaizdas

Tiesinės regresijos žingsniai

1. Priklausomo ir nepriklausomo kintamojo nustatymas.

2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp

nepriklausomų kintamųjų.

3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų

grafikai).4. Galutinės lygties užrašymas, jos interpretacija.

Pavyzdys excel –Automobilio taisymo kainos

priklausomybė nuo ridos

Priklausomas kintamasis – remonto kainaNepriklausomas kintamasis – ridaDuomenys:

KORELIACIJA

Lygtis ir hipotezė

y=a+bx

Tikrinama H0: b=0

HA: b≠0

Excel – “Data analysis” → “Regression”

Analizės išklotinė

Grafiškai pagal duomenis(Automobilio taisymo kainos priklausomybė nuo ridos)

Išklotinės rezultatai – ką vertinti?

Determinacijos koeficientas,ANOVA,regresijos koeficientai

Paklaidų analizė

• Išskirtys (iš grafiko arba standartizuotų paklaidų)

• Vidurkiai lygūs nuliui

• Paklaidų skirstiniai normalūs

• Dispersija tolygi (homoskedatiška)

• Paklaidos atsitiktinės

(aiškinimas youtube: http://www.youtube.com/watch?v=vM13uarpcuQ)

Paklaidų vidurkiai lygūs nuliui

Paklaidų skirstiniai normalūs

Paklaidų dispersija tolygi (homoskedatiška)

Galutinės lygties užrašymas(Automobilio taisymo kainos priklausomybė nuo ridos)

Remonto kaina=-197,3+0,01*rida(km)

Jei nepriklausomas kintamasis (rida) padidėja vienu vienetu (1 km), priklausomas kintamasis (remonto kaina) padidės dydžiu, lygiu b įverčiui (0,01 USD).

Grafiškai(Automobilio taisymo kainos priklausomybė nuo ridos)

Tiesinė daugialypė regresija

Pavyzdžiai

• Ar poegzamininis dirglumas priklauso nuo gauto pažymio, nuo egzamino trukmės ir nuo ko labiau?

• Kaip antikvarinės keramikos kaina priklauso nuo jos senumo ir aukciono dalyvių skaičiaus?

• Ar diplomo pažymių vidurkis ir komunikabilumas gali padėti prognozuoti būsimą atlyginimą?

Tiesinė daugialypė regresija

y=a+b1x1+b2x2+b3x3+ …+ bjxj+e

Tikrinama H0: b=0

HA: bent vienas b≠0

Tiesinė daugialypė regresija

Prieš pradedant įvertinama:• Koreliacija• Multikolinearumas (nepriklausomų kintamųjų

priklausomybė vienas nuo kito)– Ryšys paprastai žinomas iš praktikos– Ryšio stiprumui nustatyti skaičiuojame koreliacijos

koeficientą• Stat. paketuose skaičiuojame VIF ir tolerance.

Kintamasis “perdaug multikolinearus”:– Jeigu VIF>4– Jei tolerance artėja prie nulio

Tiesinė daugialypė regresija

Tiesinė daugialypė regresija

Tiesinė daugialypė regresija

kaina=85,71+0,01*rida(km)-92,74*išsilavinimas

Tiesinės regresijos (paprastos ir daugialypės) atlikimo reziumė

1. Priklausomo ir nepriklausomo kintamojo nustatymas.

2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp

nepriklausomų kintamųjų.

3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų

grafikai).4. Galutinės lygties užrašymas, jos interpretacija.

Tiesinės regresijos prielaidos

– Stebėjimai:• Tiesinis ryšys• Normalūs skirstiniai (bet nebūtinai)• Dipersijos panašios

– Paklaidos• e normaliai pasiskirstę atsitiktiniai dydžiai;• visų e vidurkiai lygūs nuliui;• visų e dispersijos tolygios (homoskedatiškos);• visi e nepriklausomi.

Pagrindinės priežastys, dėl kurių tiesinė regresija gali netikti

1. Kintamųjų priklausomybė nėra tiesinė

2. Stebėjimai heteroskedatiški

3. Paklaidų skirstiniai nėra normalieji

4. Paklaidos nėra atsitiktinės

5. Duomenyse yra išskirčių

top related