contoh makalah regresi ridge , analisis regresi merupakan salah satu teknik analisis statistika...

20
REGRESI RIDGE Regresi Ridge 0

Upload: yusrianti-hanike

Post on 24-Nov-2015

169 views

Category:

Documents


45 download

DESCRIPTION

Analisis regresi merupakan salah satu teknik analisis statistika yang paling banyak digunakan. Salah satu tujuan dalam analisis regresi adalah mengestimasi koefisien regresi dalam model regresi. Metode kuadrat terkecil (MKT) atau ordinary least square (OLS) merupakan salah satu metode yang sering digunakan untuk mendapatkan nilai-nilai penduga parameter dalam pemodelan regresi. Namun, metode ini mensyaratkan bahwa distribusi data harus memenuhi asumsi klasik dari regresi, yaitu linear dalam parameter, galat berdistribusi normal dengan rataan nol dan ragam konstan, antar galat tidak berkorelasi, dan antara prediktor tidak bermultikolinearitas. Myers menyatakan bahwa apabila asumsi klasik itu terpenuhi, maka penduga parameter yang diperoleh bersifat best linear unbiased estimator (BLUE). Jika data tidak memenuhi salah satu asumsi klasik regresi, maka penduga Metode Kuadrat Terkecil tidak lagi efisien. Model regresi yang baik memerlukan data yang baik pula. Suatu data dapat dikatakan baik apabila data tersebut berada disekitar garis regresi. Namun kenyataannya terkadang terdapat data yang terletak jauh dari garis regresi dan data keseluruhan, data ini disebut pencilan. Penyajian dan pendeteksian pencilan dapat dilakukan dengan cara metode grafik dan pendeteksian berdasarkan nilai TRES, SRES, Leverage, DFITS, Cook’s Distance, dan Hii. Adanya pencilan dalam data dapat mengakibatkan estimasi koefisien regresi yang diperoleh tidak tepat. Hal ini dapat ditunjukkan dengan nilai standar error yang besar dan interpretasi hasil yang diberikan juga menjadi tidak valid apabila menggunakan metode kuadrat terkecil. Namun demikian tindakan membuang begitu saja suatu pencilan bukanlah tindakan yang bijaksana karena ada kalanya pencilan memberikan informasi yang cukup berarti. Oleh karena itu, diperlukan suatu estimasi yang bersifat robust atau tahan terhadap pencilan yang dikenal dengan regresi robust

TRANSCRIPT

REGRESI RIDGE

PROGRAM STUDI STATISTIKA

PROGRAM PASCA SARJANA

INSTITUT PERTANIAN BOGOR

2006

REGRESI RIDGE

Pendahuluan

Dalam pendugaan parameter populasi (metode klasik), inferensi mengenai populasi didasarkan sepenuhnya pada informasi yang diperoleh dari sample acak yang diambil dari populasi. Penduga yang baik adalah penduga yang tak bias, dan diantara penduga-penduga yang tak bias, penduga yang memberikan ragam minimumlah yang merupakan penduga yang efisien.

Dalam penelitian yang menggunakan regresi linear berganda, terkadang peneliti langsung melakukan pendugaan terhadap koefisien regresi untuk menemukan model regresinya. Sementara salah satu asumsi yang harus dipenuhi dalam regresi linear berganda adalah tidak adanya korelasi antar variable prediktor. Jika terjadi korelasi diantara variebel prediktor (terjadi multikolinear), maka model regresi menjadi tidak tepat lagi, karena dengan adanya multikolinear ini akan mengakibatkan ragamnya menjadi besar, dan nilai statistik t kecil, sehingga cenderung menerima H0.

Menurut Montgomery & Peck, beberapa penyebab multikolinear antara lain :

1. Dalam pengumpulan data, nilai variabel prediktor yang digunakan dibatasi.

2. Penentuan banyaknya variabel predictor lebih banyak dari pada banyaknya observasi.

3. Data time series, dimana nilai trend yang tercakup dalam variabel regresor mempunyai tingkat penurunan atau peningkatan yang sama, sejalan dengan waktu.

4. Spesifikasi model, misalnya penammbahan bentuk polynomial terhadap model regresi, khusunya ketika nilai jarak antar variabel prediktor sangat kecil.

Beberapa indikasi adanya multikolinear

1. Nilai koefisien determinasi R2 tinggi, tetapi signifikansi statistik uji t dari koefisien penduga parameter rendah.

2. Nilai koefisien determinasi R2 tinggi, tetapi koefisien korelasi parsial rendah.

3. Untuk model regresi linear berganda 2 variabel prediktor : nilai koefisien korelasi antara 2 variabel prediktornya tinggi.

4. Nilai Rj2 tinggi, indikasi variabel prediktor ke-j berkorelasi tinggi dengan sisa variabel bebas lainnya.

5. Tanda dari koefisien korelasi (antara variabel respon dengan variabel prediktor) berlawanan tanda dengan tanda dari koefisien parameter regresi.

6. Nilai VIF yang besar. Myers [1990] nilai VIF > 10 indikasi adanya multikolinear.

Besarnya kolinearitas dapat diukur dengan Variance Inflation Factor (VIF). VIF akan mengukur seberapa besar kenaikan ragam dari koefisien penduga regresi dibandingkan dengan variabel predictor yang orthogonal jika dihubungkan secara linear (Fox dan Monette, 1992). Semakin besar nilai VIF menunjukkan korelasi diantara variabel predictor tinggi. Nilai VIF > 10 menunjukkan adanya adanya kolinearitas ( Neter, Waserrman and Kutner, 1990).

Regresi Ridge

Model regresi linear berganda

Matriks X berukuran nxp, (selain baris pertama) baris ke-i menyatakan nilai pengamatan x yang menimbulkan respon ke-i. vector y menyatakan respon amatan ke-i. Vektor berukuran px1 adalah vector parameter populasi dan vektor berukuran nx1 merupakan vector galat pengamatan yang mempunyai sifat dan .

Persamaan regresi tersebut mempunyai penyelesaian

Jika kolinearitas diantara variabel prediktor kuat, maka element-element diagonal matriks besar sekali dan matriksnya menjadi singular. Sehingga pendugaan dengan metode kuadrat terkecil menghasilkan penduga koefisien regresi yang tak bias tetapi ragamnya menjadi besar. Hal ini mengakibatkan pendugaan koefisien regresi menjadi tidak akurat lagi. Dalam penelitian seringkali semua predictor harus diikutsertakan, di sisi lain korelasi diantara variabel predictor sulit dihindari.

Adanya multikolinear tersebut dapat diatasi dengan menambahkan sejumlah bias tertentu sehingga penduga ragamnya dapat diminimumkan. Karena matriks simetris dengan akar ciri maka terdapat matriks orthogonal P sehingga

Karena matriks P orthogonal, maka persamaan regresi berganda dapat dituliskan dalam bentuk kanonik,

atau

Dengan dan

Penduga dari adalah sehingga diperoleh penduga regresi ridge yaitu :

Untuk meminimumkan jumlah kuadrat galat model kanonik , ditambahkan (k+1) pengali lagrange yaitu , dimana , untuk Dengan metode kuadrat terkecil diperoleh , yang memberikan penyelesaian :

dengan , dan .

Hal tersebut sama artinya dengan menambahkan konstanta tertentu pada element-element diagonal , dan akan mengakibatkan penduga koefisien regresinya menjadi bias. Disisi lain penambahan konstanta tersebut akan membuat matriks tersebut seolah-olah orthogonal. Element-element diagonal menjadi lebih kecil, sehingga penduga koefisien regresinya menjadi lebih stabil.

Model regresi akan optimum jika minimum. Hal ini akan dipenuhi jika , untuk . Dimana diduga dengan , dan diduga dengan .

Algoritma regresi ridge

1. menentukan

2. Menentukan

3. Menentukan

4. solusi persamaan adalah

5.

6. Ulangi iterasi dari langkah 3 sampai 5, dengan pada langkah 4 dan tentukan

7. Iterasi dilakukan sampai diperoleh kestabilan

8. Diperoleh koefisien regresi ridge

Regresi ridge dilakukan dengan tujuan memperkecil ragam dari penduga koefisien regresi, walaupun penduga yang diperoleh berbias. Penduga regresi ridge dapat diperoleh dengan meminimumkan jumlah kuadrat galat dari model

dengan , . Dengan metode pengali Langrange,

diturunkan terhadap dan disamakan dengan nol maka diperoleh

Dan penduga koefisien regresi ridge adalah

Pendugaan koefisien regresi ridge dimulai dari c = 0 , sampai diperoleh nilai c yang memberikan semua koefisien regresi yang stabil. Dalam menentukan nilai c yang mana yang memberikan nilai koefisien regresi yang stabil, dapat dilakukan dengan menggambarkan grafik nilai-nilai koefisien regresi dengan tetapan c padanannya, (disebut jejak ridge).

Tahapan-tahapan dalam runut regresi adalah sebagai berikut :

1. Variabel prediktor dan variabel respon ditransformasi pembakuan menjadi variabel Z dan y*.

2. Menghitung yang merupakan matriks korelasi dari variabel prediktor.

3. Menghitung , yang merupakan matriks korelasi variabel predictor terhadap respon.

4. menghitung penduga parameter untuk berbagai tetapan c, (dimulai dari c =0).

5. Menghitung nilai dan dari berbagai tetapan c.

6. Menggambarkan jejak ridge dengan berbagai tetapan c.

7. Menetapkan nilai tetapan bias c dengan mempertimbangkan nilai VIF serta plot jejak ridge.

8. Menentukan penduga koefisien regresi ridge dari tetapan c yang memberikan pendugaan yang stabil.

Aplikasi regresi ridge

Berikut adalah data survey ekonomi di Pakistan tahun 2000-2001.

YX1X2X3X4X5

20.3019.550.2671328668.92422.2

20.0819.820.1166324871.03322.5

21.8919.760.1178337373.20522.8

22.7321.100.0779367675.44423.2

23.6219.980.0663371577.51623.4

24.1520.230.1072375080.13023.7

24.7020.300.1237381582.58024.0

25.2720.420.1000388284.25426.2

25.8520.310.0448393187.75826.5

26.4020.330.0836404790.48026.9

26.9620.610.0746442393.28627.2

27.9320.670.0483434996.18027.5

28.7021.920.0387454499.16227.9

28.9920.660.38844573102.23028.0

29.9920.730.30874595105.40928.1

30.8220.730.38544543108.67828.3

31.7820.770.38864589111.93828.6

31.7820.960.29104656111.93834.9

31.9421.060.41124849113.61036.0

32.4521.400.21294809116.47037.2

33.2921.510.61214852119.39038.4

33.6021.550.42914998122.36139.6

34.4221.680.12315072125.38740.9

36.8421.980.51204992128.42142.2

37.7321.960.40014924131.51043.6

38.5921.930.40144992134.51145.0

40.4021.990.44235081137.51247.1

41.2021.990.43285128140.47352.0

Sumber : G.R. Pasha and Muhammad Akbar Ali Shah (2004) Application of Ridge Regression to Multicollinear Data , Research, 15, 97-106.

Keterangan :Y = jumlah pekerja (juta)

X1 = luas tanah yang didirikan bangunan ( juta hektar)

X2 = tingkat inflasi (%)

X3 = jumlah bangunan

X4 = jumlah penduduk (juta)X5 = tingkat literasi (%)

Dengan program minitab, dapat diperoleh : korelasi antar variabel predictor, persamaan regresi dan anova dari data tersebut sebagai berikut :

Correlations: Y, X1, X2, X3, X4, X5

Y X1 X2 X3 X4

X1 0.892

0.000

X2 0.712 0.544

0.000 0.003

X3 0.944 0.883 0.659

0.000 0.000 0.000

X4 0.993 0.890 0.729 0.963

0.000 0.000 0.000 0.000

X5 0.957 0.870 0.681 0.867 0.951

0.000 0.000 0.000 0.000 0.000

Cell Contents: Pearson correlation

P-Value

Regression Analysis: Y versus X1, X2, X3, X4, X5

The regression equation is

Y = - 1.22 + 0.353 X1 - 1.16 X2 - 0.00201 X3 + 0.312 X4 + 0.0152 X5

Predictor Coef SE Coef T P VIF

Constant -1.217 7.119 -0.17 0.866

X1 0.3532 0.4211 0.84 0.411 6.2

X2 -1.162 1.197 -0.97 0.342 2.5

X3 -0.002007 0.001108 -1.81 0.084 26.1

X4 0.31157 0.04818 6.47 0.000 67.2

X5 0.01524 0.06405 0.24 0.814 18.5

S = 0.6700 R-Sq = 99.0% R-Sq(adj) = 98.7%

Analysis of Variance

Source DF SS MS F P

Regression 5 945.01 189.00 420.98 0.000

Residual Error 22 9.88 0.45

Total 27 954.89

Untuk mencari persamaan regresi ridge dapat digunakan program SAS sebagai berikut;SAS PROGRAMdata ridge;

input y x1 x2 x3 x4 x5;

cards;

20.3019.550.2671328668.92422.2

20.0819.820.1166324871.03322.5

21.8919.760.1178337373.20522.8

22.7321.100.0779367675.44423.2

23.6219.980.0663371577.51623.4

24.1520.230.1072375080.13023.7

24.7020.300.1237381582.58024.0

25.2720.420.1000388284.25426.2

25.8520.310.0448393187.75826.5

26.4020.330.0836404790.48026.9

26.9620.610.0746442393.28627.2

27.9320.670.0483434996.18027.5

28.7021.920.0387454499.16227.9

28.9920.660.38844573102.23028.0

29.9920.730.30874595105.40928.1

30.8220.730.38544543108.67828.3

31.7820.770.38864589111.93828.6

31.7820.960.29104656111.93834.9

31.9421.060.41124849113.61036.0

32.4521.400.21294809116.47037.2

33.2921.510.61214852119.39038.4

33.6021.550.42914998122.36139.6

34.4221.680.12315072125.38740.9

36.8421.980.51204992128.42142.2

37.7321.960.40014924131.51043.6

38.5921.930.40144992134.51145.0

40.4021.990.44235081137.51247.1

41.2021.990.43285128140.47352.0

;

proc reg;

model y=x1 x2 x3 x4 x5/collin VIF;

run;

proc reg outest=temp outstb noprint;

model y=x1 x2 x3 x4 x5/

ridge=(0 to 0.8 by 0.01)

outvif;

run;

title 'Ridge Trace';

symbol1 v=x h=0.5 c=black;

symbol2 v=circle h=0.5 c=red;

symbol3 v=square h=0.5 c=green;

symbol4 v=triangle h=0.5 c=blue;

symbol5 v=plus h=0.5 c=magenta;

legend1 label=none position=(top center inside)

mode=share;

axis1 label=(angle=90 'Ridge Coefficients');

proc gplot;

where _type_='RIDGESTB';

plot (x1 x2 x3 x4 x5)*_ridge_/ overlay legend=legend1

vaxis=axis1 vref=0;

run;

proc print;

where _type_='RIDGESTB';

where _type_='RIDGEVIF';

var _ridge_ x1 x2 x3 x4 x5;

run;

quit;

1

The REG Procedure

Model: MODEL1

Dependent Variable: y

Analysis of Variance

Sum of MeanSource DF Squares Square F Value Pr > F

Model 5 945.01288 189.00258 420.98 |t| Inflation

Intercept 1 -1.21704 7.11945 -0.17 0.8658 0

x1 1 0.35316 0.42115 0.84 0.4107 6.15852

x2 1 -1.16178 1.19653 -0.97 0.3421 2.54041

x3 1 -0.00201 0.00111 -1.81 0.0836 26.09372

x4 1 0.31157 0.04818 6.47