basİt regresyon ve korelasyon analİzİ

56
Ders 11 - 1 Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin derecesi ve yönü ise korelasyon analizi ile açıklanır. Değişkenler arasındaki ilişkilere bazı örnekler vermek gerekirse; -İnsanların boyları ile kiloları -Futbol takımlarının çalışma süreleri ve maç skorları toplamları -Öğrencilerin çalışma miktarları ve sınav

Upload: jayme-branch

Post on 04-Jan-2016

80 views

Category:

Documents


5 download

DESCRIPTION

BASİT REGRESYON VE KORELASYON ANALİZİ. Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin derecesi ve yönü ise korelasyon analizi ile açıklanır. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 1

Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin

matematiksel bir fonksiyonla incelenmesidir. Değişkenler

arasındaki ilişkinin derecesi ve yönü ise korelasyon analizi ile

açıklanır.

Değişkenler arasındaki ilişkilere bazı örnekler vermek gerekirse;

-İnsanların boyları ile kiloları

-Futbol takımlarının çalışma süreleri ve maç skorları toplamları

-Öğrencilerin çalışma miktarları ve sınav notları

-Bir malın fiyatı ve talep miktarı

-Bir ürünün verimi ve verilen gübre miktarı, vb.

Page 2: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 2

Değişkenler arasındaki ilişkiler aşağıdaki gibi sınıflandırılabilir:

i) Belirleyici (deterministik) ilişkiler

ii) Yarı belirleyici ilişkiler

iii) Deneysel (ampirik, stokastik) ilişkiler

Kesin (Deterministik) Model

Değişkenler arasında kesin bir ilişki olduğunu varsayan modeller, kesin

(deterministik) modeller olarak adlandırılmaktadır.

Örneğin arz miktarı y'nin, fiyat düzeyi x'in tam bir buçuk katı olduğuna

inanıyorsak:

y=1.5x

Bu denklem, x ve y değişkenleri arasındaki kesin bir ilişkiyi temsil etmektedir.

Bu tahminde hata payı yoktur.

Page 3: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 3

Stokastik (Olasılıklı) Model

Eğer arz miktarında, önemli fakat ele alınmayan değişkenlerin veya tesadüfi

olguların yol açtığı açıklanmayan değişimlerin olacağına inanıyorsak, kesin

model yerine tesadüfi hataya yer veren modelden yararlanmamız gerekir.

Olasılıklı model hem kesin öğeyi hem de tesadüfi hata öğesini içerir.

Örneğin eğer arz miktarı y'nin, fiyat düzeyi x ile:

y = 1.5x + Tesadüfi Hata

şeklinde bir ilişkisi olduğunu düşünüyorsak, x ile y arasında olasılıklı bir ilişki

olduğunu anlarız. Görüldüğü gibi, olasılıklı modelin kesin öğesi

1.5x’tir.

Page 4: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 4

Kesin (Deterministik) ve StokastikOlasılıklı Model...

Bu kez grafikten yararlanalım:

Kesin Model: y=1.5x Olasılıklı Model: y=1.5x + Tesadüfi hata

Page 5: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 5

Yarı belirleyici ve deneysel ilişkilerin (stokastik) incelenmesi regresyon analizinin kapsamına girmektedir.

Regresyon analizinde değişkenler iki grup altında incelenir:

-Bağımsız değişkenler (açıklayıcı değişkenler)-Bağımlı değişkenler

Bağımlı değişken: Modelin ifade ettiği olay tarafından belirlenirken,

Bağımsız değişken: Modelin ifade edilen olaydan bağımsız olan verileridir.

Page 6: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 6

Örneğin kişilerin gelirlerinin değişmesi, harcama miktarlarının da

değişmesine neden olur. Bu durumda gelir bağımsız değişken,

harcama miktarı ise bağımlı değişkendir.

Regresyon analizinde genellikle bağımsız değişkenler (X) , bağımlı

değişkenler (Y) ile gösterilirler.

Page 7: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 7

Basit doğrusal regresyondaki basit kelimesi iki değişken arasındaki ilişkiyi açıklamak için kullanılır. Doğrusal kelimesi, kurulan modelin parametreleri açısından doğrusal bir model olmasındandır.

İki değişken arasındaki en basit ilişki, bir doğru ile açıklanabilen ilişkidir.

X

Y Genel olarak bir doğrunun matematik gösterimi:

Y=0+ 1X şeklindedir. Burada 1 ,

eğimdir ve X’teki 1 birimlik değişmenin Y’de yaptığı değişikliği gösterir.

0 ise X’in değeri 0 olduğunda Y’nin almış olduğu değerdir ve Y ekseninin kesme noktası olarak isimlendirilir.

Page 8: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 8

0 1

0 1 1 2 2

Y X

Y X X

Doğrusal ilişki Doğrusal olmayan ilişki2

0 1 2

20 1

0 1 2

0 1 1

Eğrisel ilişki : Y

Logaritmik ilişki : log

Katlı ortak doğrusal ilişki : Y

Gecikmiş (lag) ilişki : t t

Y X X

X

Y X

X Z

Y X

Değişkenler arasındaki ilişki

Page 9: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 9

Regresyon Parametrelerinin Tahmininde Kullanılan Metod

EKK Metodu

Normal Denklemlerle

Klasik Çözüm Yolu

Determinantlarla

Çözüm Yolu

Orjin kaydırma

Çözüm Yöntemi

Page 10: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 10

EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE BİR DOĞRUNUN UYUMU

Gözlemleri en iyi açıklayan doğrunun belirlenmesi için çeşitli yöntemler ileri sürülebilir. Fakat günümüzde en çok kullanılan yöntem “En Küçük Kareler” adı verilen yöntemdir. Bu yöntem gözlemlerin belirlenen doğrudan uzaklıklarının (hata terimlerinin) karelerinin toplamının en küçük yapılmasına dayanır.

eXY 10 modelinde hata terimi:

XYe 10 olarak yazılabilir. Bu ifadenin karesi alınıp tüm gözlemler için toplanırsa:

2

110

1

2

n

i

n

ii XYe

ifadesi elde edilir. EKK yöntemine göre bu ifadeyi minimize eden b0 ve b1 değerleri 0 ve 1’in tahmincileri olur.

1. NORMAL DENKLEMLER

Page 11: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 11

2

110

1

2

n

i

n

ii XYe

İfadesini minimize eden parametre tahmincilerinin değerlerini bulabilmek için eşitliğin 0 ve 1’e göre türevleri alınıp 0’a eşitlenir.

2

110

01

2

0

n

i

n

ii XYe

n

i

XY1

102

2

110

11

2

1

n

i

n

ii XYe

n

i

XYX1

102

Her iki denklemi de 0’a eşitlersek;

0

02

110

110

n

i

n

i

XbbY

XbbY

0.

0..2

110

110

n

i

n

i

XbbYX

XbbYX

0’a göre türev alınırsa; 1’e göre türev alınırsa;

Page 12: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 12

0

02

110

110

n

i

n

i

XbbY

XbbY

0.

0..2

110

110

n

i

n

i

XbbYX

XbbYX

Parantezleri açarsak;

0. 10 XbbnY 0210 XbXbXY

Bu denklemlere doğrunun NORMAL DENKLEMLERİ denir. Normal denklemler alt alta yazılıp birlikte çözüldüklerinde b0 ve b1 tahmincileri bulunur.

XbbnY 10.

210 XbXbXY n

XX

nYX

XYb 2

21 )(

)).((

XbYb 10

şeklindeki formüller yardımıyla da tahminciler bulunabilir.

Page 13: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 13

2.DETERMİNANT METODU

0 1

20 1

Normal Eşitlikleri i

i i i i

Y nb b X

X Y b X b X

2 2

2 2

2

( )ˆ i i i i

i i

i i

i i

i i

o

i

i i

Y

Y X X X Y

X

X

X Y Xb

n X

X

X

X

1

2

2 2(ˆ

)

i

i i i i i i i

ii

i i

i

n Y

X X Yb

n X

X X

n X Y X Y

n X X

0 1ˆ ˆY b b X

Page 14: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 14

3.ORJİN KAYDIRMA YÖNTEMİ

0 1Y b b X

0 1Y b b X

0 1( )Y Y b X X

y Y Y

x X X Olarak gösterirsek

1y b xOlur.

Burada hata karelerini minimum yapmak

için aşağıdaki yol izlenir.

1 2

21

11

21

( )

ˆ2 ( ) 0

ˆ 0

ˆ

S y b x

dSx y b x

db

xy b x

xyb

x

Orjini kaydırsakta kaydırmasakta doğrunun eğimi

değişmeyeceğinden istersek modele tekrar b0’ ı

ekleyebiliriz.

0 1b Y b X

0 xolacağından

x X X alınarak

0 1

xb Y b

n

0b̂ Y 0ˆ Yb

n

yerine konulursa

veya

Bulunur.

0 1ˆ ˆY b b x

Page 15: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 15

Bir fabrikada taşıma işleri için kullanılan tırların yaşı ile bakım harcamaları arasındaki ilişkiyi ele alalım. Verilerin grafiği çizildiğinde tam olarak düz bir doğrunun üzerinde olmadıkları, fakat tırlar eskidikçe bakım harcamalarının da arttığı görülmektedir. Burada bağımsız değişken yaş, bağımlı değişken ise bakım harcamalarıdır, çünkü yaş değiştikçe bakım harcamaları değişiklik göstermektedir. Pratiklik olması açısından yaş ve bakım harcaması arasındaki ilişkinin bir doğru şeklinde olduğunu varsayarsak, bu modelin matematik gösterimi:

eXY 10 Bakım harcaması

yaş

Hata terimi

yaş (yıl)bakım

harcaması

2.0 25004.5 92004.5 49504.0 44005.0 79005.5 105005.0 97000.5 19506.0 80001.0 20251.0 37003.0 6800

yaş-bakım harcaması grafiği

0100020003000400050006000700080009000

100001100012000

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

yaş

bak

ım h

arca

mas

ı

Page 16: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 16

yaş-bakım harcaması grafiği

0100020003000400050006000700080009000

100001100012000

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

yaş

bak

ım h

arca

mas

ı

e hata terimi, tır için yapılan harcamanın, ilişkiyi açıklayan doğrudan ne kadar saptığını gösterir.

Tırların yaşı ile yapılan bakım harcamaları arasındaki gerçek ilişkiyi belirleyen model henüz belirlenmiş değildir. Bunun için modelde bulunan parametrelerin (0 ve 1) bilinmesi gerekir.

0 ve 1 birer parametre olduklarından, gerçek değerlerinin bulunması için taşıma işinde kullanılan tüm tırların (populasyonun) bakım harcamaları ve yaşlarının bilinmesi gerekmektedir. Bu da çoğu zaman imkansız olduğundan elimizdeki örneği kullanarak parametreleri tahminleriz veya başka bir ifade şekliyle grafikteki noktalara en iyi uyan bir doğruyu buluruz.

Page 17: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 17

Böylece veri noktalarımızdan geçen en iyi doğru denklemi:

XbbY 10ˆ

Gerçek Y’nin tahmincisi

Traktör örneğimiz için gereken hesaplamaları yapıp normal denklemleri oluşturalım: XbbnY 10.

210 XbXbXY

72725 = 12b0+42b1

311525= 42b0 +188b1

254537.5 =42b0 +147b1

311525 = 42b0 + 188b1--56988 = -41b1

yaş (yıl) (x)

bakım harcaması

(y)x y xy

2.0 2500 4 6250000 50004.5 9200 20.25 84640000 414004.5 4950 20.25 24502500 222754.0 5500 16 30250000 220005.0 7900 25 62410000 395005.5 10500 30.25 110250000 577505.0 9700 25 94090000 485000.5 1950 0.25 3802500 9756.0 8000 36 64000000 480001.0 2025 1 4100625 20251.0 3700 1 13690000 37003.0 6800 9 46240000 20400

toplam 42.0 72725.0 188.0 544225625.0 311525.0ortalama 3.5 6060.4

b1=1390

35*(72725 = 12b0+42b1)

311525= 42b0 +188b1

Page 18: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 18

72725 =12b0 +42b1

72725 =12b0 +42*1390

b0 = 1195

Doğrunun denklemi:

XY 13901195ˆ Hesaplanan bu denklem kullanılarak yaşını bildiğimiz bir tır için yapılacak ortalama bakım masrafını tahmin edebiliriz. Örneğin x=4 yaşındaki bir tır için bakım masrafları:

6755)4)(1390(1195ˆ

13901195ˆ

Y

XY

olarak bulunur.

Tahmincileri elde etmek için normal denklemler yerine formüller kullanılırsa da aynı sonuçlar elde edilir.

Page 19: BASİT REGRESYON VE KORELASYON ANALİZİ

Örnek: Firmanın 1993-1999 yılları arasındaki yıllık satışları aşağıda verildiği gibidir.

Bu verilere dayanarak regresyon (yalın regresyon) denkleminin tahminlenmesi istenmektedir.(satışlar 1000 br olarak)

2X

Yıllar Satışlar (Y) X XY

1993 15 1 15 1

1994 18 2 36 4

1995 25 3 75 9

1996 30 4 120 16

1997 40 5 200 25

1998 60 6 360 36

1999 82 7 574 49

270 28 1380 140

Paremetrelerin E.K.K.tahminlerini elde etmek için

1 2 22

0 1

(28)(270)1380

7 10.7( ) (28)

1407

270 28(10.7) 4.2

7 7

X YXY

nbX

Xn

b Y b X

Y = - 4.2 +10.7 x şeklinde

regresyon denklemi elde edilir.

0 1

20 1

0 1

0 1

0 1

0 1

1 1

270 7 28

1380 28 140

1080 28 112

1380 28 140

300 28 300 / 28 10.7

i i

i i i i

Y nb b X

X Y b X b X

b b

b b

b b

b b

b b

Page 20: BASİT REGRESYON VE KORELASYON ANALİZİ

Determinant metodu ile parametre tahminlerinin hesaplaması ise ;

2

0 2 2 2

270(140) 28(1380) 30

7( ) 7(140) (28)

Y X X XYb

n X X

1 2 2 2

7(1380) 28(270) 75

7( ) 7(140) (28)

n XY X Yb

n X X

XY7

75

7

30

orjin kaydırma ile parametre tahmini ise; 1 2

xYb

x

0

Yb

n

1993 15 -3 -45 9 225

1994 18 -2 -36 4 324

1995 25 -1 -25 1 625

1996 30 0 0 0 900

1997 40 1 40 1 1600

1998 60 2 120 4 3600

1999 82 3 246 9 6724

270 300 28 13998

Yıllar Y x xY x2

Y2

0

27038.5

7

Yb Y

n

1 2

300 7510.7

28 7

xYb

x

Y = 38.5 + 10.7 x

Page 21: BASİT REGRESYON VE KORELASYON ANALİZİ

tg = b 1 =10.7

Y

X

Y

38.5

- 4.2

Y=-4.2+10.7X

Y=38,5+10,7x

0

3

x

0

30 75

7 7Y x

a) 2001 yılı satışları ne olacaktır?

Y2001=-4.2+10.7(9)=92.1

b) Hangi yıl 100 birim satar?100 = -4.2 + 10.7 x

x = 9.7

Modeli için Y=38.5+10.7x modeli de yapılacak aynı tahminler de aynı sonucu

verecektir.a) 2001 yılı satışları ne olacaktır?

Y=38.5+10.7(5)=92 br.

b) Hangi yıl 100 birim satar?

100=38.5+10.7 x

x=5.7 (2001 yılı 8 inci ayı ortaları) 2001 yılı 8 inci ayın ortalarında

Page 22: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 22

REGRESYON DENKLEMİNİN İNCELENMESİ

Regresyon denklemini incelerken genellikle bizi en çok ilgilendiren soru incelediğimiz iki değişken arasında gerçekten bir ilişki olup olmadığı sorusudur. Bu soru aslında basit doğrusal regresyonda 1’in değerinin 0 olup olmadığının araştırılmasıdır. Bu araştırmayı yaparken istatistiksel testle kullanmak gerektiğinden hata terimi ve parametre tahmincilerinin dağılışları hakkında bazı varsayımlarda bulunmak gerekir.Hata terimi e’ler, ortalaması 0 ve varyansı olan birbirinden bağımsız normal dağılışlar gösterirler.

E(e)=0 Var(e)= s2

- Tahminin Standart Hatası ve VaryansıTahminin standart hatası s, noktaların regresyon doğrusu etrafındaki dağılımlarının ortalama bir ölçüsünü verir.

2

2

kn

es

kn

es

2

Page 23: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 23

Tahminlenen Regresyonun Duyarlılığı

Y ortalama doğrusu

Gözlem değeri (Y)

Regresyon doğrusu XbbY 10ˆ

Yi tahmin değeri

)( YY )ˆ( YY

)ˆ( YY

Regresyon denklemi tahminlendikten sonra bu denklemin ilişkiyi ne derece açıkladığı ve bu denklem kullanılarak yapılacak tahminlerin ne derece hassas olacağının araştırılması gerekir. Bunun için gözlenen değerler ile tahmini değerleri arasındaki farkı yazıp y’lerin ortalamasını buna ekleyip çıkarırsak aşağıdaki ifadeyi elde ederiz. Bu ifadenin grafiksel karşılığı şekilde görülmektedir.

e)YY()YY()YY(

Page 24: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 24

Daha sonra her iki tarafın kareleri alınıp tüm gözlemler için toplanırsa;

İfade tekrar düzenlenirse:

Ortalama etrafındaki kareler toplamı

(genel KT)Regresyon kareler

toplamıRegresyondan sapmalar (hata) kareler toplamı

Y ortalama doğrusu

Gözlem değeri (Y)

Regresyon doğrusuXbbY 10

ˆ

Yi tahmin değeri

)( YY )ˆ( YY

)ˆ( YY

222 )YY()YY()YY(

)YY()YY()YY(

22

2)YY()YY()YY(

Page 25: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 25

Eğer gözlenen değerlerin hepsi tahmin edilen doğru üzerinde olsaydı, hata kareler toplamı “0” olacak ve uyumun çok iyi olduğu söylenebilecektir. Bu bilgiyi kullanarak, regresyon doğrusunun ne derece iyi tahminlenmiş olduğunu regresyon kareler toplamının ortalama etrafındaki kareler toplamına oranına bakarak söyleyebiliriz. Bu orana BELİRLEME KATSAYISI adı verilir ve R2 ile gösterilir.

2

22

)YY(

)YY(

plamıkareler to genel

plamıkareler toregresyon R

R2’nin 1’e yaklaşan değerleri bize uyumun iyi olduğunu belirtir. (0<R2<1)

Y ortalama doğrusu

Gözlem değeri (Y)

Regresyon doğrusuXbbY 10

ˆ

Yi tahmin değeri

)( YY )ˆ( YY

)ˆ( YY

Şekilden de görüldüğü gibi, regresyon kareler toplamının büyümesi, gözlem değerinin tahminlenmiş regresyon doğrusuna yaklaşması anlamına gelmektedir ve bu da belirleme katsayısını arttırır.

Page 26: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 26

Hesaplama kolaylığı açısından kareler toplamları formülleri aşağıdaki şekilde de kullanılabilir:

farkıikisinin ilk )YY(

n/)X(Xb)YY(

n/)Y(Y)YY(

2

2221

2

222

Genel kareler toplamı (GKT)

Regresyon kareler toplamı (RKT)

Hata kareler toplamı (HKT)

Page 27: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 27

Korelasyon KatsayısıKorelasyon katsayısı, regresyon modeli ile bulunan tahmini Y değerlerinin, gerçek değerlere uygunluğunu ölçmede kullanılır. Korelasyon katsayısı -1 ile 1 arasında değişir.

Katsayının -1 çıkması, iki değişken arasında ters yönlü tam bir ilişkinin olduğunu, 1 çıkması ise doğru yönlü tam bir ilişkinin olduğunu ifade eder.

Katsayının -1’e doğru yaklaşması, değişkenler arasında ters yönlükuvvetli bir ilişkiyi gösterirken, 1’e yaklaşması değişkenler arasındadoğru yönlü kuvvetli bir ilişkiyi ifade eder.

Korelasyon katsayısının işareti, regresyon doğru veya eğrisine aiteğim katsayısının işaretidir.

Korelasyon katsayısının karesi, belirleme katsayısını determinasyon katsayısını) verir.

Page 28: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 28

Sınırlı sayıda veri üzerinden hesaplanan korelasyon katsayısı bir istatistiktir ve r ile gösterilir.Bu istatistiğin anakütle parametresi olarak karşılığı ’dur.

Korelasyon katsayısı için genel formül;

2

2

)(

)ˆ(

YY

YYr

))(( 22 yx

xyryada

n

YXXYxy

))((n

XXx

222 )(

n

YYy

222 )(

Bu formülde;

Page 29: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 29

Bütün bu değerler n katsayısı ile çarpılırsa sonuç değişmez ve korelasyon katsayısı;

2222 )()(

))((

YYnXXn

YXXYnr

Hesaplanan korelasyon katsayısının gerçekten önemli olup olmadığını anlamak için belirli bir önem seviyesinde test etmek gerekir. Doğrusal korelasyon katsayısının önemli olup olmadığını test ederken test hipotezleri,

0:

0:

1

0

H

H

Page 30: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 30

v=n-2 sd. ve değerlerine göre t kritik değerleri tespit edilir.

Test istatistiği;

korelasyon katsayısının standart hatasıdır.

2

rh s

rt

rs

2

1 2

n

rsr

Page 31: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 31

Test istatistiği, mutlak olarak kritik değerden büyük çıktığında X ile Y değişkenleri arasında önemli bir ilişki olduğunu söyleyebiliriz. Bununla birlikte bu değişkenlerin arasında mantıki bir ilişkinin bulunması şarttır. Bazen hiç alakası olmayan değişkenler arasında da yüksek bir korelasyon çıkabilmektedir.Bu tip korelasyonlara sahte korelasyon denir.

ÖRNEKBir süper market yöneticisi tesadüfi olarak seçilen bir saatlik sürelerde kasaya gelen müşteri sayısını ve ödedikleri toplam para miktarını aşağıdaki gibi kaydetmiştir.

Müşteri Sayısı 25 20 50 35 40Ödenen Para 12.5 10.4 25.3 20.2 24.1(10000 TL)

Page 32: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 32

Müşteri sayısını bağımsız (X), kasalara ödenen para miktarını bağımlı değişken olarak kabul ederek, doğrusal korelasyon katsayısı;

2222 )()(

))((

YYnXXn

YXXYnr

formülü ile kolayca hesaplanabilir.

X Y XY X2 Y2

25 12.5 312.5 625 156.2

20 10.4 208 400 108.1

50 25.3 1265 2500 640.09

35 20.2 707 1225 408.04

40 24.1 964 1600 580.81

170 92.5 3456.5 6350 1893.3Toplam

Page 33: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 33

9669.0)5.92()3.1893(51706350(5

)5.92(170)5.3456(522

r

Korelasyon katsayısının önemli olup olmadığı %5 önem düzeyinde test edilirse, test hipotezleri

0:

0:

1

0

H

H

şeklinde kurulur.

v=n-2=5-2=3 sd. ve önem seviyesine göre kritik değerler ‘dir.

025.0205.02 182.3

Page 34: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 34

5635.6

25)9669.0(1

9669.0

21 22

nr

rth

Test istatistiği, kritik t değerinden büyük olduğu için %5 önem seviyesinde H0 hipotezi red edilerek hesaplanan doğrusal korelasyon katsayısının önemli olduğuna karar verilir.

Page 35: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 35

E(b0)=0 nXX

sbVar

/)()(

22

2

0

2

2

0 .)ˆ(xn

Xsbs

E(b1)=1 nXXn

XsbVar

/)()(

22

22

1

21)ˆ(

x

sbs

Katsayıların Standart Hataları

Katsayıların Güven Aralıkları

)ˆ(ˆ00 bstb tab

)ˆ(ˆ11 bstb tab

Page 36: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 36

Parametrelerin teker teker anlamlılığı testi:

Sabit terim 0’ın testi için hipotezler:

H0 :0=0 test istatistiği:

H1 :00

Eğim katsayısı 1‘in testi için hipotezler:

H0 :1=0 test istatistiği:

H1 :10

)(

ˆ

0

00

bVar

bbt

)(

ˆ

1

11

bVar

bbt

t istatistiği değerleri genelde paket programlar tarafından hesaplanıp verilmektedir. Hesaplanan test istatistikleri (n-2) serbestlik dereceli t dağılışı değeri ile kontrol edilir.

Page 37: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 37

Regresyon doğrusunun tüm parametrelerinin istatistiksel açıdan anlamlı olup olmadığını test etmek için önce Varyans Analizi Tablosu aşağıdaki şekilde oluşturulur:

Varyasyonkaynağı

Serbestlikderecesi

Kareler toplamı Kareler ortalaması

Regresyon 1 RKT RKO=RKT/1Hata n-2 HKT=GKT-RKT HKO=HKT/(n-2)Genel(toplam)

n-1 GKT

Daha sonra sabit terim dışındaki parametrelerin 0’dan farklı olup olmadığı hipotezi test edilir.

H0 : 0= 1=0

H1 : 0= 10OrtalamasıKareler Hata

OrtalamasıKareler Regresyon FTest İstatistiği:

Serbestlik derecesi: 1, (n-2)

Page 38: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 38

TAHMİNİN VARYANSI VE GÜVEN ARALIĞININ BULUNMASI

Regresyon denkleminin elde edilmesinin en önemli amaçlarından biri bağımsız değişkenin herhangi bir değeri için Y’nin alacağı değerin tahminlenmesidir.

kk XbbY 10ˆ şeklinde hesaplanan bu tahminin, varyansı ve o

noktadaki gerçek değer için güven aralıklarının bulunması istenir. Bu tahminin varyansı:

222

22ˆ .

/)(

)(1s

nXX

XX

ns k

yk

Hatanın varyansı

Xk noktasında Y’nin alacağı ortalama değer için güven % (1- )’lık güven aralığı:

kynk stY ˆ2,2/ .ˆ

2

2

ˆ

)(11

x

XX

nss k

ykyada

Page 39: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 39

Örnek:1996-2005 yıllarındaki Türkiye’nin turizm gelirleri ile Türkiye’ye gelen turist sayısı tabloda verilmiştir.

Yıllar Turizm Gelirleri

Yabancı Ziyaretçi Sayısı

1996 5.650 8.614

1997 7.008 9.689

1998 7.177 9.752

1999 5.193 7.464

2000 7.636 10.412

2001 8.090 11.569

2002 8.481 13.247

2003 9.677 14.030

2004 12.125 17.517

2005 13.929 21.122

Page 40: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 40

Turizm Gelirleri

0

2

4

6

8

10

12

14

16

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Yabancı Ziyaretçi Sayısı

Turizm Gelirleri ile Yabancı Ziyaretçi Sayısı verileri arasındaki dağılma diyagram

Page 41: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 41

Y X Y*X X2

5.650 8.614 48.6691 74.201

7.008 9.689 67.9005 93.8767

7.177 9.752 69.9901 95.1015

5.193 7.464 38.7605 55.7113

7.636 10.412 79.5060 108.4097

8.090 11.569 93.5932 133.8418

8.481 13.247 112.3478 175.4830

9.677 14.030 135.7683 196.8409

12.125 17.517 212.3936 306.8452

13.929 21.122 294.2083 446.1388

Y=84.966 X=123.416 YX=1153.138 X2=1686.4501

Doğrusal tüketim fonksiyonunun normal denklemler yoluyla tahmini:

Tablo 2: Verilerin normal denklemler ile çözüm için düzenlenmesi

Page 42: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 42

Y = b0.n + b1.XYX = b0.X + b1.

X2 84.96 = b0.10 + b1. 123.4

1153.13= b0.123.4 + b1. 1686.4

b0=0.597 b1=0.640

XY 640.0597.0ˆ

Doğrusal tüketim fonksiyonunun normal denklemler yoluyla tahmini:

Yabancı ziyaretçi sayısı arttıkça turizm geliri artmaktadır.

Page 43: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 43

22

2

0̂XXn

YXXYXb

597.0)416.123()45.1686(*10

)138.1153(*)416.123()966.84(*)45.1686(2

221̂

XXn

YXYXnb

640.0)416.123()45.1686(*10

)966.84(*)416.123()138.1153(*102

Doğrusal tüketim fonksiyonunun formülden tahmini:

(

Page 44: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 44

-2.8466 -3.7276 10.6109 13.8950 8.1031

-1.4886 -2.6526 3.9486 7.0362 2.2159

-1.3196 -2.5896 3.4172 6.7060 1.7413

-3.3036 -4.8776 16.1136 23.7909 10.9137

-0.8606 -1.9296 1.6606 3.7233 0.7406

-0.4066 -0.7726 0.3141 0.5969 0.1653

-0.0156 0.9054 -0.0141 0.8197 0.0002

1.1804 1.6884 1.9929 2.8506 1.3933

3.6284 5.1754 18.7784 26.7847 13.1652

5.4324 8.7804 47.6986 77.0954 29.5109

y=0.0000 x=0.0000 yx=104.5212 x2=163.2991 y2=67.9499

YYy XXx yx 2x 2y

Doğrusal gelir fonksiyonunun ortalamadan farklara göre tahmini

Page 45: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 45

2991.163

5212.10421

x

yxb

590.03416.12*)640.0(4966.810 XbYb

Page 46: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 46

Tahminin standart hatası ve varyansı:

XY 640.0597.0ˆ YYe ˆ 2e

966.84ˆ Y

kn

es

2

kn

es

2

2

Y Y2

5.65 31.92 0.597 + 0.640(8.614) = 6.1099 -0.460 0.2115

7.008 49.11 0.597 + 0.640(9.689) = 6.7979 0.210 0.0441

7.177 51.51 0.597 + 0.640(9.752) = 6.8382 0.339 0.1147

5.193 26.96 0.597 + 0.640(7.464) = 5.3739 -0.181 0.0327

7.636 58.31 0.597 + 0.640(10.412) = 7.2606 0.375 0.1408

8.09 65.45 0.597 + 0.640(11.569) = 8.0011 0.089 0.0078

8.481 71.93 0.597 + 0.640(13.247) = 9.0750 -0.594 0.3529

9.677 93.65 0.597 + 0.640(14.030) = 9.5762 0.101 0.0101

12.125 147.02 0.597 + 0.640(17.517) = 11.8078 0.317 0.1005

13.929 194.02 0.597 + 0.640(21.122) = 14.1150 -0.186 0.0346

Y2 =789.8721 0.010 e2 = 1.0501

Page 47: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 47

367.0299.163*10

45.1686*362.0.)ˆ(

2

2

0

xn

Xsbs

362.0210

0501.12

kn

es

131.0)362.0( 22 s

Katsayıların standart hata ve varyansları:

028.0299.163

362.0)ˆ(

21 x

sbs

134.0)367.0()ˆ( 20 bVar

00078.0)028.0()ˆ( 21 bVar

XY 640.0597.0ˆ (0.367) (0.028)(1.626) (2.306)

Page 48: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 48

Katsayıların güven aralıkları

)ˆ(ˆ00 bstb tab )ˆ(ˆ

11 bstb tab

0.597 2.306. (0.367)

0.597 0.8463

0.2493 b0 1.4433

0.640 2.306 . (0.028)

0.640 0.0645

0.5755 b1 0.7045

Katsayıların anlamlılıklarını testi

H0 : b0= 0 H1 : b0 0

t0.05/2 , 8 = 2.306

626.1367.0

0597.0

)ˆ(

ˆ

0

00

bs

bbthes

= 1.626

thes =1.626 < t0.05/2 , 8= 2.306

H0 Kabul

b0 istatistiki olarak anlamsız

Page 49: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 49

H0 : b1= 0H1 : b1 0

thes =22.85 > t0.05/2 , 8= 2.306

t0.05/2 , 8 = 2.306

85.22028.0

0640.0

)ˆ(

ˆ

1

11

bs

bbthes

H0 Red

b1istatistiki olarak anlamlı

Page 50: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 50

farkıikisinin ilk )YY(

n/)X(Xb)YY(

n/)Y(Y)YY(

2

2221

2

222

Genel kareler toplamı (GKT)

Regresyon kareler toplamı (RKT)

Hata kareler toplamı (HKT)

XY 640.0597.0ˆ (0.367) (0.028)(1.626) (2.306)

8873.6610

)416.123(4501.1686)640.0(

)((ˆ

22

222

1

n

XXbRKT

9499.6710229.72198721.789/)()( 222 nYYYYGKT

X2=1686.4501 X=123.416 Y=84.966 Y2 =789.8721

Page 51: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 51

R2 Belirlilik Katsayısı:

9844.09499.67

8873.66

)(

)(

plamıkareler to genel

plamıkareler toregresyon 2

22

YY

YYR

YORUM: Bu sonuç bize, turizm gelirlerindeki değişkenliğin (varyasyonun) %98.44’ünün gelen ziyaretçi sayısı ile açıklanabildiğini göstermektedir.

9922.044.98.0 rTurizm geliri ile gelen ziyaretçi değişkenleri arasında pozitif yönde kuvvetli bir ilişki vardır.

Korelasyon Katsayısı

Page 52: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 52

Turizm örneği için varyans analizi tablosunu oluşturup regresyonun anlamlılığını test edersek:

H0 : 0= 1=0H1 : 0= 10

81.5091312.0

8873.66F

sd KT KORegresyon 1 66.8873 66.8873

Hata 8 1.0501 0.1312Genel 9 67.9499

F0.05,1,8 = 5.32

Fhesap> Ftablo ; H0 reddedilir, katsayılar istatistiksel olarak topluca anlamlıdır

8873.6610

)416.123(4501.1686)640.0(

22

RKT

9499.6710229.72198721.789/)()( 222 nYYYYGKT

0501.12 eHKT

Page 53: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 53

2

2)(11.ˆ

x

XX

nstY k

tabk

Xk = 8.614 1099.6ˆ kY

6.1099 2.306 (0.362) . 2991.163

)3416.12614.8(

10

11

2

5.20124 YkXk 7.0185

Tahminin Güven Aralığı

sd. 82

025.02

05.0

n

306.2tabt

Page 54: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 54

süre (x) not (y) x kare x.y y kare5 4.1 25 20.5 16.813 3.5 9 10.5 12.251 2 1 2 46 4.5 36 27 20.25

10 4.9 100 49 24.01toplam 25 19 171 109 77.32ort 5 3.8

ÖRNEK:

İstatistik dersi sınavına çalışmak için 5 öğrencinin etkin olarak harcadıkları süreler ve sınav sonuçları aşağıda verilmiştir. Bu veriler ışığında çalışılan süre ile sınav notu arasındaki ilişkiyi çiziniz, denklemini tahmin ediniz. Belirleme katsayısını hesaplayarak yorumlayınız. Daha sonra varyans analizi tablosunu hazırlayarak belirlediğiniz doğrunun eğiminin 0 olup olmadığını kontrol ediniz. Aynı hipotezi t testi ile tekrar kontrol ediniz ve bulgularınızı karşılaştırınız.

Page 55: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 55

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7 8 9 10 11

süre

no

t0. 10 XbbnY

0210 XbXbXY

19 - 5. b0 - 25b1 = 0

109-25b0 - 171b1 =05*(19 - 5b0 - 25b1 = 0)

109 - 25b0 - 171b1 =0

95 - 25b0 - 125b1 = 0

109 - 25b0 - 171b1 =0--14 + 46b1=0

b1 = 0.3

19 - 5. b0 - 25b1 = 0

19-5b0 -25*0.3=0

b0 = 2.3

3.046

14

5625

171

519*25

109

)(

)).((

22

1

nX

X

nYX

XYb 3.25*3.08.310 XbYb

Formülle hesaplarsak:

Page 56: BASİT REGRESYON VE KORELASYON ANALİZİ

Ders 11 - 56

Böylece doğrunun denklemi:

XXbbY 3.03.2ˆ10

14.45/251713.0/)()ˆ(

12.55/1932.77/)()(22222

12

2222

nXXbYY

nYYYY

81.012.5

14.4

)(

)ˆ(

plamıkareler to genel

plamıkareler toregresyon 2

22

YY

YYR

YORUM: Bu sonuç bize, sınavdan alınan notların değişkenliğinin (varyasyonunun) %81’inin çalışılan saatler arasındaki farklılıklar ile açıklanabildiğini göstermektedir.