anreg forward

PENYELESAIAN MULTIKOLINEARITAS DENGAN METODE

FORWARD SELECTION PADA DATA PROSENTASE

KEMENANGAN TIM BASEBALL

Disusun untuk memenuhi tugas mata kuliah Analisi Regresi

yang dibimbing oleh Bapak Hendro Permadi

Oleh:

Nindy Sagita (408312409123)

Lisa Dewi P (407312409128)

Dewi Ratna A.W (407312409132)

Dyah Ayu P. (407312409601)

UNIVERSITAS NEGERI MALANG

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

JURUSAN MATEMATIKA

Desember, 2010

BAB I

PENDAHULUAN

1.1. Latar Belakang

Untuk memenangkan pertandingan baseball maka suatu tim baseball harus

memperhatikan hal-hal yang mempengaruhi perolehan nilai timnya. Prosentase

kemenangan suatu tim baseball sangat dipengaruhi oleh banyak hal beberapa

diantaranya adalah rata-rata pukulan, rata-rata perolehan lari, total base yang diambil,

total lari, total pukulan dan home runs. Pada data prosentase kemenangan tim baseball

tersebut terjadi diduga terjadi multikolinearitas. Dalam hal ini akan digunakan metode

forward selection untuk menyelesaikannya sehingga diperoleh model terbaik.

1.2. Rumusan Masalah

Berdasarkan latar belakang masalah, maka rumusan masalahnya sebagai berikut:

1. Bagaimana cara mengidentifikasi adanya multikolinearitas?

2. Bagaimana cara mengatasi multokolinearitas dengan metode forward selection?

3. Bagaimana model terbaik dari data yang dianalisis?

1.3. Tujuan

Berdasarkan rumusan masalah, maka tujuannya sebagai berikut:

1. Mengetahui cara mengidentifikasi adanya multikolinearitas.

2. Mengetahui cara mengatasi multokolinearitas dengan metode forward selection.

3. Mengetahui model terbaik dari data yang dianalisis.

BAB II

LANDASAN TEORI

2.1. Analisis Regresi Linear Berganda

Analisis regresi linier berganda merupakan bentuk umum, sedangkan regresi

linier sederhana merupakan bentuk khusus dari regresi linier berganda yaitu apabila satu

peubah bebas yang dilibatkannya. Dengan regresi linier berganda persamaan dalam X

memberikan prediksi yang terbaik terhadap Y.

Model regresi linier berbentuk

Y=β0+ β1X1+ β2X2+…+βkXk+ ε

Dengan Xi, i = 1,2,…,k merupakan peubah bebas dan βi, i=1,2,…,k parameter regresi,

dan ε sebagai error. Dan sebarang model yang tidak berbentuk seperti persamaan di atas

disebut model tak linier. Jika pada suatu model regresi tersebut terdapat satu peubah

bebas , maka model itu disebut regresi linier sederhana. Sedangkan jika terdapat lebih

dari satu peubah bebas, maka model itu disebut regresi linier berganda.

Dalam melakukan analisis harus diperhatikan beberapa asumsi yang

mendasarinya:

1. Nilai harapan bersyarat galat yang disebabkan oleh peubah bebas X yang

harus sama dengan nol.

2. Setiap galat yang disebabkan peubah bebas mempunyai varian yang sama.

3. Tidak ada multikolinieritas yang berarti tidak ada hubungan linier antara

peubah bebas.

Drapper n Smith (1992), menyatakan beberapa kriteria yang digunakan untuk

melihat tepat tidaknya model regresi yang diperoleh, salah satunya yaitu dengan melihat

koefisien determinasi berganda (Rk2).

Sebuah masalah penting dalam penerapan analisis regresi linier berganda adalah

pemilihan peubah – peubah bebas yang dapat digunakan dalam model agar diperoleh

persamaan regresi “terbaik “ yang mengandung sebagian atau seluruh peubah bebas.

2.2 Multikolinieritas

Multikolinieritas ditemukan oleh Ragner Frisch yang berarti adanya hubungan

linier yang sempurna atau pasti diantara beberapa atau semua variabel yang

menjelaskan (X1, X2,…,Xk) dari model regresi.

Akibat terjadinya multikolinieritas antara lain:

1) Nilai koefisien regresi berganda bias.

2) Terjadi perubahan tanda pada koefisien regresi berganda seharusnya positif

menjadi negatif.

Untuk mendeteksi adanya multikolinieritas digunakan beberapa metode yaitu:

1) Koefisien korelasi antara peubah bebas. Adanya multikolinieritas seringkali

diduga apabila nilai R2 cukup besar (antara 0,7 dan 1).

2) Dengan melihat elemen matrik korelasi. Jika korelasi antar variable bebas lebih

besar daripada korelasi antara variabel bebas dan variabel terikatnya

menandakan adanya multikolinearitas pada variable bebasnya.

3) VIF (Variance Inflation Factor )

Jika nilai VIF lebih besar atau sama dengan 10, menandakan adanya

multikolinieritas pada variabel bebas.

BAB III

PEMBAHASAN

Berikut adalah data presentase menang dalam pertandingan baseball profesional

dengan 6 faktor yang diprediksi mempengaruhinya.

No y BA (x1) ERA (x2) SB (x3) R (x4) H (x5) HR (x6)

1. 0,556 0,258 3,33 152 708 1,404 133

2. 0,547 0,257 3,41 213 684 1,390 115

3. 0,488 0,264 4,05 110 664 1,461 72

4. 0,469 0,254 3,42 80 633 1,404 121

5. 0,426 0,249 3,58 97 600 1,351 79

6. 0,407 0,245 3,87 100 607 1,332 86

7 0,586 0,264 3,12 137 727 1,435 149

8. 0,571 0,256 3,81 137 710 1,378 136

9. 0,549 0,248 3,30 87 613 1,331 117

10. 0,519 0,252 3,28 152 591 1,349 75

11. 0,457 0,258 3,63 178 605 1,408 70

12. 0,426 0,244 4,08 90 600 1,312 123

13. 0,613 0,267 3,18 98 735 1,489 125

14. 0,607 0,267 3,54 74 796 1,463 172

15. 0,500 0,276 3,67 95 804 1,530 173

16. 0,559 0,258 3,57 75 659 1,397 154

17. 0,531 0,271 3,64 90 714 1,520 129

18. 0,434 0,261 3,97 64 639 1,400 106

19. 0,366 0,250 4,55 28 590 1,358 98

20. 0,568 0,268 3,44 216 743 1,469 98

21. 0,537 0,259 3,65 86 691 1,417 108

22. 0,537 0,253 3,36 196 692 1,353 132

23. 0,451 0,267 3,69 99 666 1,472 82

24. 0,441 0,264 4,22 83 634 1,423 106

25. 0,426 0,245 3,62 144 532 1,304 100

26 0,350 0,248 4,70 123 614 1,327 97

Sumber: data diambil dari buku regresion and correlation analysis hal. 326.

Keterangan:

Y = prosentase menang kalah(%)

X1 = rata-rata pukulan

X2= rata-rata perolehan lari

X3= total base yang diambil

X4= total lari

X5= total pukulan

X6 = home runs

3.1. Analisis Regresi Linier Berganda

Data diolah dengan bantuan minitab dan SPSS, diperoleh penyajian sebagai berikut:

1. Dengan Minitab:

Correlations (Pearson) y x1 x2 x3 x4 x5

x1 0,505

0,008

x2 -0,771 -0,239

0,000 0,240

x3 0,304 -0,001 -0,414

0,131 0,995 0,035

x4 0,715 0,807 -0,361 0,116

0,000 0,000 0,070 0,572

x5 0,474 0,975 -0,241 -0,066 0,784

0,014 0,000 0,236 0,749 0,000

x6 0,561 0,378 -0,286 -0,152 0,686 0,335

0,003 0,057 0,157 0,459 0,000 0,094

Cell Contents: Correlation

P-Value

Regression Analysis The regression equation is

y = 0,509 + 3,31 x1 - 0,114 x2 -0,000090 x3 +0,000675 x4 - 0,627

x5

-0,000030 x6

Predictor Coef StDev T P

Constant 0,5088 0,3478 1,46 0,160

x1 3,314 4,052 0,82 0,424

x2 -0,11441 0,02232 -5,13 0,000

x3 -0,0000899 0,0002173 -0,41 0,684

x4 0,0006750 0,0002918 2,31 0,032

x5 -0,6267 0,5910 -1,06 0,302

x6 -0,0000298 0,0004622 -0,06 0,949

S = 0,03476 R-Sq = 83,0% R-Sq(adj) = 77,6%

Analysis of Variance

Source DF SS MS F P

Regression 6 0,112094 0,018682 15,46 0,000

Residual Error 19 0,022957 0,001208

Total 25 0,135051

Source DF Seq SS

x1 1 0,034506

x2 1 0,060483

x3 1 0,000061

x4 1 0,015430

x5 1 0,001609

x6 1 0,000005

Unusual Observations

Obs x1 y Fit StDev Fit Residual

St Resid

15 0,276 0,50000 0,57369 0,01982 -0,07369

-2,58R

R denotes an observation with a large standardized residual

2. Dengan SPSS:

Correlations

Y x1 x2 x3 x4 x5 x6

Y Pearson Correlation 1 .707** -.570

* .083 .808

** .615

* .693

**

Sig. (2-tailed) .003 .027 .769 .000 .015 .004

N 15 15 15 15 15 15 15

x1 Pearson Correlation .707** 1 -.220 .007 .868

** .979

** .542

*

Sig. (2-tailed) .003 .430 .979 .000 .000 .037

N 15 15 15 15 15 15 15

x2 Pearson Correlation -.570* -.220 1 -.213 -.200 -.174 -.224

Sig. (2-tailed) .027 .430 .446 .475 .535 .423

N 15 15 15 15 15 15 15

x3 Pearson Correlation .083 .007 -.213 1 -.106 -.090 -.281

Sig. (2-tailed) .769 .979 .446 .706 .749 .311

N 15 15 15 15 15 15 15

x4 Pearson Correlation .808** .868

** -.200 -.106 1 .823

** .833

**

Sig. (2-tailed) .000 .000 .475 .706 .000 .000

N 15 15 15 15 15 15 15

x5 Pearson Correlation .615* .979

** -.174 -.090 .823

** 1 .486

Sig. (2-tailed) .015 .000 .535 .749 .000 .066

N 15 15 15 15 15 15 15

x6 Pearson Correlation .693** .542

* -.224 -.281 .833

** .486 1

Sig. (2-tailed) .004 .037 .423 .311 .000 .066

N 15 15 15 15 15 15 15

**. Correlation is significant at the 0.01 level (2-tailed).

*. Correlation is significant at the 0.05 level (2-tailed).

Regression Analysis: y versus x1, x2, x3, x4, x5, x6,

Regression

[DataSet1] D:\KULIAH\KULIAH\semester 5\anReG\FORWARD\datanew.sav

Variables Entered/Removedb

Model

Variables

Entered

Variables

Removed Method

1 x6, x3, x5, x2,

x4, x1a

. Enter

a. All requested variables entered.

b. Dependent Variable: y

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 .911a .830 .776 .034760

a. Predictors: (Constant), x6, x3, x5, x2, x4, x1

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression .112 6 .019 15.463 .000a

Residual .023 19 .001

Total .135 25

a. Predictors: (Constant), x6, x3, x5, x2, x4, x1

b. Dependent Variable: y

Coefficientsa

Model

Unstandardized

Coefficients

Stand

ardiz

ed

Coeffi

cients

t Sig.

95% Confidence

Interval for B Correlations

Collinearity

Statistics

B

Std.

Error Beta

Lower

Bound

Upper

Bound

Zero-

order Partial Part Tolerance VIF

1 (Constant) .509 .348

1.463 .160 -.219 1.237

X1 3.314 4.052 .395 .818 .424 -5.167 11.795 .505 .184 .077 .038 26.012

X2 -.114 .022 -.612 -5.127 .000 -.161 -.068 -.771 -.762 -.485 .628 1.593

X3 -8.986E-5 .000 -.057 -.414 .684 .000 .000 .304 -.094 -.039 .465 2.151

X4 .001 .000 .613 2.313 .032 .000 .001 .715 .469 .219 .127 7.857

X5 -.627 .591 -.539 -1.061 .302 -1.864 .610 .474 -.236 -.100 .035 28.908

X6 -2.980E-5 .000 -.012 -.064 .949 .000 .001 .561 -.015 -.006 .273 3.667

a. Dependent Variable:

y

Collinearity Diagnosticsa

Model

Dimen

sion Eigenvalue

Condition

Index

Variance Proportions

(Constant) x1 x2 x3 x4 x5 x6

1 1 6.809 1.000 .00 .00 .00 .00 .00 .00 .00

2 .133 7.144 .00 .00 .00 .40 .00 .00 .01

3 .048 11.867 .00 .00 .03 .02 .00 .00 .21

4 .007 30.529 .00 .00 .44 .15 .03 .00 .23

5 .002 56.904 .06 .00 .35 .01 .27 .00 .09

6 .000 153.072 .55 .01 .11 .25 .68 .07 .36

7 2.639E-5 507.927 .38 .98 .07 .17 .01 .93 .10

a. Dependent Variable: y

Dari data di atas dibuat suatu hubungan linier antara peubah y (variabel terikat) dan

peubah-peubah x (variabel bebas) secara bersama-sama dengan analisis regresi linier

berganda. Dan diperoleh persamaan:

y = 0,509 + 3,31 x1 - 0,114 x2 -0,000090 x3 +0,000675 x4 - 0,627 x5

-0,000030 x6

Sementara itu hubungan linier antara peubah y dan masing-masing peubah bebas x

adalah sebagai berikut:

y = - 0,598 + 4,25 x1

y = 1,03 - 0,144 x2

y = 0,442 +0,000476 x3

y = - 0,025 +0,000787 x4

y = - 0,276 + 0,551 x5

y = 0,334 + 0,00143 x6

Dan terlihat bahwa terjadi perubahan tanda pada x3, x5, x6, jadi dari sini dapat diduga

telah terjadi multikolinieritas. Disamping itu multikolinieritas juga dapat dilihat dari

nilai-nilai VIFnya, yaitu jika nilai VIFnya lebih dari atau sama dengan 10 maka terjadi

multikolinieritas. Dalam hal ini juga terjadi pada data x1, dan x5, dengan nilai 26,012,

28,908.

3.2. Pengolahan Data Dengan Metode Forward Selection

Berdasarkan analisis berganda yang telah dilakukan data tersebut terjadi

multikolinieritas, maka untuk mengatasinya akan digunakan metode forward selection.

Berikut pengolahannya dengan menggunakan Minitab dan SPSS:

1. MINITAB

Stepwise Regression F-to-Enter: 4,00 F-to-Remove: 4,00

Response is y on 6 predictors, with N = 26

Step 1 2

Constant 1,0270 0,5354

x2 -0,144 -0,110

T-Value -5,92 -6,10

x4 0,00055

T-Value 5,20

S 0,0478 0,0331

R-Sq 59,37 81,32

Regression Analysis The regression equation is

y = 0,535 - 0,110 x2 +0,000553 x4

Predictor Coef StDev T P

Constant 0,5354 0,1133 4,73 0,000

x2 -0,11014 0,01807 -6,10 0,000

x4 0,0005529 0,0001064 5,20 0,000

S = 0,03312 R-Sq = 81,3% R-Sq(adj) = 79,7%

Analysis of Variance

Source DF SS MS F P

Regression 2 0,109824 0,054912 50,06 0,000

Residual Error 23 0,025227 0,001097

Total 25 0,135051

Source DF Seq SS

x2 1 0,080183

x4 1 0,029641

Unusual Observations

Obs x2 y Fit StDev Fit Residual StResid

15 3,67 0,50000 0,57574 0,01623 -0,07574 -2,62R

R denotes an observation with a large standardized residual

2. SPSS

Regression

Variables Entered/Removeda

Model

Variables

Entered

Variables

Removed Method

1

x2 .

Forward

(Criterion:

Probability-

of-F-to-

enter <=

,050)

2

x4 .

Forward

(Criterion:

Probability-

of-F-to-

enter <=

,050)


Model Summary

Model R R Square

Adjusted R

Square

Std. Error of

the Estimate

Change Statistics

R Square

Change F Change df1 df2

Sig. F

Change

1 .771a .594 .577 .047814 .594 35.073 1 24 .000

2 .902b .813 .797 .033119 .219 27.024 1 23 .000

a. Predictors: (Constant), x2

b. Predictors: (Constant), x2, x4

ANOVAc

Model Sum of Squares df Mean Square F Sig.

1 Regression .080 1 .080 35.073 .000a

Residual .055 24 .002

Total .135 25

2 Regression .110 2 .055 50.064 .000b

Residual .025 23 .001

Total .135 25

a. Predictors: (Constant), x2

b. Predictors: (Constant), x2, x4

c. Dependent Variable: y

Coefficientsa

Model

Unstandardized

Coefficients

Standar

dized

Coeffici

ents

t Sig.

95% Confidence

Interval for B Correlations

Collinearity

Statistics

B

Std.

Error Beta

Lower

Bound

Upper

Bound

Zero-

order Partial Part

Tolera

nce VIF

1 (Constant) 1.027 .090 11.412 .000 .841 1.213

x2 -.144 .024 -.771 -5.922 .000 -.194 -.094 -.771 -.771 -.771 1.000 1.000

2 (Constant) .535 .113 4.727 .000 .301 .770

x2 -.110 .018 -.589 -6.097 .000 -.148 -.073 -.771 -.786 -.549 .870 1.150

x4 .001 .000 .502 5.198 .000 .000 .001 .715 .735 .468 .870 1.150

a. Dependent Variable:

y

Excluded Variablesc

Model Beta In t Sig.

Partial

Correlation

Collinearity Statistics

Tolerance VIF

Minimum

Tolerance

1 x1 .341a 2.916 .008 .519 .943 1.060 .943

x3 -.018a -.123 .903 -.026 .829 1.207 .829

x4 .502a 5.198 .000 .735 .870 1.150 .870

x5 .306a 2.524 .019 .466 .942 1.062 .942

x6 .371a 3.227 .004 .558 .918 1.089 .918

2 x1 -.118b -.762 .454 -.160 .345 2.898 .318

x3 .002b .022 .983 .005 .827 1.209 .729

x5 -.163b -1.122 .274 -.233 .383 2.613 .353

x6 .091b .729 .474 .154 .528 1.895 .500

a. Predictors in the Model: (Constant), x2

b. Predictors in the Model: (Constant), x2, x4

c. Dependent Variable: y

Collinearity Diagnosticsa

Model

Dimensi

on Eigenvalue Condition Index

Variance Proportions

(Constant) x2 x4

1 1 1.995 1.000 .00 .00

2 .005 19.143 1.00 1.00

2 1 2.984 1.000 .00 .00 .00

2 .014 14.621 .00 .35 .29

3 .002 36.937 1.00 .65 .71


Dari hasil forward selection terpilih model terbaik dengan menggunakan dua variable

yaitu x2 dan x4 dengan persamaan regresi linier berganda

y = 0,535 - 0,110 x2 +0,000553 x4

Dari hasil analisis terbaru R-Sq = 81,3% dengan Std. error of estimate= 0,33119 lebih

kecil dari Std. error of estimate sebelumnya yaitu 0,34760. Nilai VIF yang dihasilkan

oleh semua variable yang terpilih adalah kurang dari 10, sehingga tidak menunjukkan

tanda-tanda terjadinya multikolinieritas. Dapat disimpulkan bahwa dua peubah bebas

yang sangat mempengaruhi Y yaitu X2 dan X4 artinya yang sangat mempengaruhi

prosentase menang kalah adalah rata-rata perolehan lari dan total lari.

BAB IV

KESIMPULAN

Berdasarkan hasil pembahasan dapat disimpulkan sebagai berikut:

1. Dari data pengaruh rata-rata pukulan, rata-rata perolehan lari, total base yang

diambil, total lari, total pukulan dan home runs terhadap prosentase menang kalah

ternyata terjadi multikolinearitas, maka untuk mengatasinya digunakan metode

forward selection sehingga model regresi terbaik.

2. Dari hasil analisis menggunakan metode forward selection diperoleh model regresi

yang terbaik adalah y = 0,535 - 0,110 x2 +0,000553 x4

DAFTAR PUSTAKA

Drapper N. and Smith H. 1992. Analisis Regresi Terapan. Penerbit Gramedia Pustaka

Utama, Jakarta.

Permadi, Hendro. 1999. Teknik Analisis Regresi. Universitas Negeri Malang: JICA.

Susiswo. 2002. Analisis Regresi dan Aplikasinya Disertai dengan Penerapannya pada

Minitab 12. Universitas Negeri Malang: JICA.

anreg forward

Documents