bevezetés a korreláció & regressziószámításba
DESCRIPTION
Bevezetés a Korreláció & Regressziószámításba. Petrovics Petra Doktorandusz. Statisztikai kapcsolatok. A ss z oci áció – 2 minőségi/területi ismérv között Vegyes kapcsolat – minőségi/területi és egy mennyiségi ismérv között K orrel áció – mennyiségi ismérvek között. - PowerPoint PPT PresentationTRANSCRIPT
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Bevezetés a Korreláció &
Regressziószámításba
Petrovics PetraDoktorandusz
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Statisztikai kapcsolatok
• Asszociáció – 2 minőségi/területi ismérv között
• Vegyes kapcsolat – minőségi/területi és egy mennyiségi ismérv között
• Korreláció – mennyiségi ismérvek között
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• X (or X1, X2, … , Xp):
magyarázó változó(k), független változó(k)
• Y: eredményváltozó, függő változó
• Ok-okozati kapcsolat: X okozza Y változását
Korreláció Regresszió
Célja a kapcsolat szorosságának mérése.
Célja a kapcsolatban megfigyelhető törvényszerűség megfogalmazása, amelyet valamilyen függvény ír le.
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Korrelációs mutatószámok1.Kovariancia
– értéke - és + közötti;– C = 0, amikor X és Y között nincs
kapcsolat;– a kapcsolat irányát mutatja – nem mutatja a kapcsolat értékét!!!
1n
yyxx yx,Cov
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
2. Korrelációs együttható
• A kapcsolat irányát mutatja • a kapcsolat erősségét is mutatja• 0 < r < 1 sztochasztikus kapcsolat
r = 0 X és Y függetlenek r = -1 negatív ☻r = 1 pozitív ☺
• Csak lineáris kapcsolat esetében használható!
• r2 – determinációs együttható: %-os formában méri a kapcsolat erősségét – hány %-ban befolyásolja X az Y-t
yx ss
y,xCov r
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
3. Rangkorrelációs együttható
• Rangsorba rendezett adatok közötti kapcsolatot elemez
• n = elemszám,d = a rangszámok közötti különbség
• Függvényszerű pozitív kapcsolat = 1 Inverz kapcsolat = -1 Függetlenség = 0
)1 (nn
d6 - 1
2
2i
1 0
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
1. Feladat
File / Open / Employee data.sav
Van kapcsolat a - current salary és a - beginning salary között?
KORRELÁCIÓ
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Correlate / Bivariate…
r
C
Irányt és erősséget mutat
Csak irányt mutat!!!
0 I r I 0,3 Gyenge kapcsolat0,3 I r I 0,7 Közepesen erős kapcsolat0,7 I r I 1 Erős kapcsolat +
-
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Output Mean Std. Deviation NCurrent Salary $34,419.57 $17,075.661 474Beginning Salary $17,016.09 $7,870.638 474
Current SalaryBeginning
SalaryCurrent Salary
Pearson Correlation 1 ,880(**)
Sig. (2-tailed) ,000Sum of Squares and Cross-products 137916495436,340 55948605047,73
Covariance 291578214,45 118284577,27N 474 474
Beginning Salary
Pearson Correlation ,880(**) 1
Sig. (2-tailed) ,000 Sum of Squares and Cross-products 55948605047,73 29300904965,45
Covariance 118284577,27 61946944,96
N 474 474
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
2. Feladat
Van kapcsolat a: • current salary • previous experience (month)• month since hire• beginning salary között?
Többváltozós KORRELÁCIÓ
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Correlate / Bivariate…
r
C
Irányt és erősséget mutat
Csak irányt mutat!!!
0 I r I 0,3 Gyenge kapcsolat0,3 I r I 0,7 Közepesen erős kapcsolat0,7 I r I 1 Erős kapcsolat
+ -
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
OutputCorrelations
1 -,097* ,084 ,880**
,034 ,067 ,000
1,379E+011 -82332343,5 6833347,5 5,59E+010
291578214,5 -174064,151 14446,823 118284577
474 474 474 474
-,097* 1 ,003 ,045
,034 ,948 ,327
-82332343,54 5173806,810 1482,241 17573777
-174064,151 10938,281 3,134 37153,862
474 474 474 474
,084 ,003 1 -,020
,067 ,948 ,668
6833347,489 1482,241 47878,295 -739866,50
14446,823 3,134 101,223 -1564,200
474 474 474 474
,880** ,045 -,020 1
,000 ,327 ,668
55948605048 17573776,7 -739866,5 2,93E+010
118284577,3 37153,862 -1564,200 61946945
474 474 474 474
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Current Salary
Previous Experience(months)
Months since Hire
Beginning Salary
Current Salary
PreviousExperience(months)
Monthssince Hire
BeginningSalary
Correlation is significant at the 0.05 level (2-tailed).*.
Correlation is significant at the 0.01 level (2-tailed).**.
Mátrix
r
C
Negatív irányú (inverz) kapcsolat
Pozitív irányú kapcsolat
Negatív irányú (inverz) & gyenge kapcsolat
Direkt (pozitív irányú) & erős kapcsolat
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Lineáris regressziós modell• X és Y közötti kapcsolatot ábrázoló egyenes.
• Az Y függ: • x1, x2, …, xp – p db magyarázó változótól• A véletlen ingadozásától (ε)• β0, β1, …, βp regressziós együtthatóktól.
y = β0 + β1x + εahol: y – függő vagy eredményváltozó
x – független vagy magyarázó változóε – véletlen hibatagβ0 – x=0 helyenβ1 – a függvény meredeksége
E (y)
x
β 0
β1
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Legkisebb négyzetek módszere
y
x
Véletlen
ŷi = b0 + b1X i
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• A legkisebb négyzetek módszere becsült mutatói:
b0 - β0
b1 - β1
• Regressziós egyenesŶ = b0 + b1X
• Kétváltozós normálegyenletΣy = nb0 + b1ΣxΣxy = b0Σx + b1Σx2
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Scatter diagram
Direkt kapcsolatPozitív kapcsolat
0
10
20
30
40
50
0 10 20 30 40
Production (number of products per day)
wastage
0
400
800
1200
1600
0 10 20 30 40
Advertising in $
Sales in $ 0
1000
2000
3000
4000
5000
0 2 4 6 8 10 12Age of a house (year)
Selling
price
0
1000
2000
3000
4000
0 5 10 15Age of a car (year)
Selling
price
linear
nemlineáris
Inverz kapcsolatNegatív kapcsolat
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Nincs kapcsolat
0
1000
2000
3000
4000
0 10 20 30 40Number of storks
Number of births
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Hatványkitevős regresszió
(Power)Y = a Xb
logY = loga + b logX ↓ ↓ ↓
V = b0 + b1 ∙ x
b1 = bb0 = lga
xbxbyx
xbnby2
10
10
lglglglg
lglg
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Exponenciális regresszió(Compound)
Y = a bx
logY = loga + logb x↓ ↓ ↓
V = b0 + b1 ∙ x
b1 = lgb
b0 = lga
xbxbyx
xbnby
10
10
lg
lg
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
2. Feladat
File / Open / Employee data.sav
Milyen természetű a kapcsolat a fizetés és az életkor között?
?
Új változó létrehozása!
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Compute Variable…
This year
Új változó: életkor = adott év – születési dátum (ÉV!) (date of birth)
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Lineáris• Compound• Power
Analyze / Regression / Curve Estimation…
Diagram
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Output
Lineáris
Compound
Power
Model Summary
,146 ,021 ,019 16928,804R R Square
AdjustedR Square
Std. Error ofthe Estimate
The independent variable is age.
Model Summary
,215 ,046 ,044 ,389R R Square
AdjustedR Square
Std. Error ofthe Estimate
The independent variable is age.
Model Summary
,156 ,024 ,022 ,393R R Square
AdjustedR Square
Std. Error ofthe Estimate
The independent variable is age.
Itt a legnagyobb az R2
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Mi az oka a szóródásnak?
• Nemek szerinti megoszlás /
• Munkatípus szerinti megoszlás!
Melyik regresszió-függvény illeszkedik a legjobban?
Output View…
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Graphs / Scatter/Dot / Simple
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Nemek szerint csoportosítva
Általánosságban véve a férfiak fizetése magasabb, de a szórás itt nagyon magas.
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Munkatípus szerinti csoportosításban:
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
A 3 munkakategóriát elkülönítve Data / Split File...
Graphs / Scatter/Dot… / Simple
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Fit line…Output View: Dupla kattintás az ábrába – Chart Editor
Elements / Fit Line at Total
(„Csúsztatott”)
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
A hivatalnokok esetében a regressziófüggvény csökken, a többi esetben nő.
MIÉRT?
(A hivatalnokok fizetése teljesítmény alapú.)
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Regresszió
Analyze / Regression / Linear…
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Model Summary
,146a ,021 ,019 $16,928.804Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), agea.
Gyenge kapcsolat
A függő változót (current salary) 2,1%-ban határozza meg ez a regressziós modell.
)1(1
11 22 R
pn
nR
Összehasonlíthatóvá teszi a többszörös determinációs együtthatót a sokaságon belül. Kiszűri a különböző nagyságú mintákból eredő, különböző függő változó számú, különböző elemszámú (n) és független változó számú (p) sokaságokból eredő hibákat.
Megmutatja, hogy a függő változó hány %-át határozza meg az összes független változó együttvéve.
212
122122
21
1
2
r
rrrrrR yyyy
Az összes változónak a függő változóra gyakorolt hatását fejezi ki
Többszörös korrelációs együttható
Többszörös determinációs együttható
Korrigált többszörös determinációs együttható
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Coefficientsa
41543,805 2358,686 17,613 ,000
-211,609 66,124 -,146 -3,200 ,001
(Constant)
age
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Current Salarya.
Regresszió egyenes: ŷ = b0 + b1X
b0: X = 0 helyen mennyi az Y.
Ha 0 évesek a dolgozók, akkor a keresetük 41543,805$. (Nincs értelme.)
b1: ha az X 1 egységgel nő, mennyivel változik az Y.
Ha a dolgozók életkora 1 évvel nőne, a fizetésük 211,609$-ral csökkenne.
b0b1
Minden szignifikanciaszinten elfogadható a modell.
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Köszönöm a figyelmet!