anreg forward
DESCRIPTION
Offering GG 2008 - Matematika - Universitas Negeri MalangTRANSCRIPT
PENYELESAIAN MULTIKOLINEARITAS DENGAN METODE
FORWARD SELECTION PADA DATA PROSENTASE
KEMENANGAN TIM BASEBALL
Disusun untuk memenuhi tugas mata kuliah Analisi Regresi
yang dibimbing oleh Bapak Hendro Permadi
Oleh:
Nindy Sagita (408312409123)
Lisa Dewi P (407312409128)
Dewi Ratna A.W (407312409132)
Dyah Ayu P. (407312409601)
UNIVERSITAS NEGERI MALANG
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
JURUSAN MATEMATIKA
Desember, 2010
BAB I
PENDAHULUAN
1.1. Latar Belakang
Untuk memenangkan pertandingan baseball maka suatu tim baseball harus
memperhatikan hal-hal yang mempengaruhi perolehan nilai timnya. Prosentase
kemenangan suatu tim baseball sangat dipengaruhi oleh banyak hal beberapa
diantaranya adalah rata-rata pukulan, rata-rata perolehan lari, total base yang diambil,
total lari, total pukulan dan home runs. Pada data prosentase kemenangan tim baseball
tersebut terjadi diduga terjadi multikolinearitas. Dalam hal ini akan digunakan metode
forward selection untuk menyelesaikannya sehingga diperoleh model terbaik.
1.2. Rumusan Masalah
Berdasarkan latar belakang masalah, maka rumusan masalahnya sebagai berikut:
1. Bagaimana cara mengidentifikasi adanya multikolinearitas?
2. Bagaimana cara mengatasi multokolinearitas dengan metode forward selection?
3. Bagaimana model terbaik dari data yang dianalisis?
1.3. Tujuan
Berdasarkan rumusan masalah, maka tujuannya sebagai berikut:
1. Mengetahui cara mengidentifikasi adanya multikolinearitas.
2. Mengetahui cara mengatasi multokolinearitas dengan metode forward selection.
3. Mengetahui model terbaik dari data yang dianalisis.
BAB II
LANDASAN TEORI
2.1. Analisis Regresi Linear Berganda
Analisis regresi linier berganda merupakan bentuk umum, sedangkan regresi
linier sederhana merupakan bentuk khusus dari regresi linier berganda yaitu apabila satu
peubah bebas yang dilibatkannya. Dengan regresi linier berganda persamaan dalam X
memberikan prediksi yang terbaik terhadap Y.
Model regresi linier berbentuk
Y=β0+ β1X1+ β2X2+…+βkXk+ ε
Dengan Xi, i = 1,2,…,k merupakan peubah bebas dan βi, i=1,2,…,k parameter regresi,
dan ε sebagai error. Dan sebarang model yang tidak berbentuk seperti persamaan di atas
disebut model tak linier. Jika pada suatu model regresi tersebut terdapat satu peubah
bebas , maka model itu disebut regresi linier sederhana. Sedangkan jika terdapat lebih
dari satu peubah bebas, maka model itu disebut regresi linier berganda.
Dalam melakukan analisis harus diperhatikan beberapa asumsi yang
mendasarinya:
1. Nilai harapan bersyarat galat yang disebabkan oleh peubah bebas X yang
harus sama dengan nol.
2. Setiap galat yang disebabkan peubah bebas mempunyai varian yang sama.
3. Tidak ada multikolinieritas yang berarti tidak ada hubungan linier antara
peubah bebas.
Drapper n Smith (1992), menyatakan beberapa kriteria yang digunakan untuk
melihat tepat tidaknya model regresi yang diperoleh, salah satunya yaitu dengan melihat
koefisien determinasi berganda (Rk2).
Sebuah masalah penting dalam penerapan analisis regresi linier berganda adalah
pemilihan peubah – peubah bebas yang dapat digunakan dalam model agar diperoleh
persamaan regresi “terbaik “ yang mengandung sebagian atau seluruh peubah bebas.
2.2 Multikolinieritas
Multikolinieritas ditemukan oleh Ragner Frisch yang berarti adanya hubungan
linier yang sempurna atau pasti diantara beberapa atau semua variabel yang
menjelaskan (X1, X2,…,Xk) dari model regresi.
Akibat terjadinya multikolinieritas antara lain:
1) Nilai koefisien regresi berganda bias.
2) Terjadi perubahan tanda pada koefisien regresi berganda seharusnya positif
menjadi negatif.
Untuk mendeteksi adanya multikolinieritas digunakan beberapa metode yaitu:
1) Koefisien korelasi antara peubah bebas. Adanya multikolinieritas seringkali
diduga apabila nilai R2 cukup besar (antara 0,7 dan 1).
2) Dengan melihat elemen matrik korelasi. Jika korelasi antar variable bebas lebih
besar daripada korelasi antara variabel bebas dan variabel terikatnya
menandakan adanya multikolinearitas pada variable bebasnya.
3) VIF (Variance Inflation Factor )
Jika nilai VIF lebih besar atau sama dengan 10, menandakan adanya
multikolinieritas pada variabel bebas.
BAB III
PEMBAHASAN
Berikut adalah data presentase menang dalam pertandingan baseball profesional
dengan 6 faktor yang diprediksi mempengaruhinya.
No y BA (x1) ERA (x2) SB (x3) R (x4) H (x5) HR (x6)
1. 0,556 0,258 3,33 152 708 1,404 133
2. 0,547 0,257 3,41 213 684 1,390 115
3. 0,488 0,264 4,05 110 664 1,461 72
4. 0,469 0,254 3,42 80 633 1,404 121
5. 0,426 0,249 3,58 97 600 1,351 79
6. 0,407 0,245 3,87 100 607 1,332 86
7 0,586 0,264 3,12 137 727 1,435 149
8. 0,571 0,256 3,81 137 710 1,378 136
9. 0,549 0,248 3,30 87 613 1,331 117
10. 0,519 0,252 3,28 152 591 1,349 75
11. 0,457 0,258 3,63 178 605 1,408 70
12. 0,426 0,244 4,08 90 600 1,312 123
13. 0,613 0,267 3,18 98 735 1,489 125
14. 0,607 0,267 3,54 74 796 1,463 172
15. 0,500 0,276 3,67 95 804 1,530 173
16. 0,559 0,258 3,57 75 659 1,397 154
17. 0,531 0,271 3,64 90 714 1,520 129
18. 0,434 0,261 3,97 64 639 1,400 106
19. 0,366 0,250 4,55 28 590 1,358 98
20. 0,568 0,268 3,44 216 743 1,469 98
21. 0,537 0,259 3,65 86 691 1,417 108
22. 0,537 0,253 3,36 196 692 1,353 132
23. 0,451 0,267 3,69 99 666 1,472 82
24. 0,441 0,264 4,22 83 634 1,423 106
25. 0,426 0,245 3,62 144 532 1,304 100
26 0,350 0,248 4,70 123 614 1,327 97
Sumber: data diambil dari buku regresion and correlation analysis hal. 326.
Keterangan:
Y = prosentase menang kalah(%)
X1 = rata-rata pukulan
X2= rata-rata perolehan lari
X3= total base yang diambil
X4= total lari
X5= total pukulan
X6 = home runs
3.1. Analisis Regresi Linier Berganda
Data diolah dengan bantuan minitab dan SPSS, diperoleh penyajian sebagai berikut:
1. Dengan Minitab:
Correlations (Pearson) y x1 x2 x3 x4 x5
x1 0,505
0,008
x2 -0,771 -0,239
0,000 0,240
x3 0,304 -0,001 -0,414
0,131 0,995 0,035
x4 0,715 0,807 -0,361 0,116
0,000 0,000 0,070 0,572
x5 0,474 0,975 -0,241 -0,066 0,784
0,014 0,000 0,236 0,749 0,000
x6 0,561 0,378 -0,286 -0,152 0,686 0,335
0,003 0,057 0,157 0,459 0,000 0,094
Cell Contents: Correlation
P-Value
Regression Analysis The regression equation is
y = 0,509 + 3,31 x1 - 0,114 x2 -0,000090 x3 +0,000675 x4 - 0,627
x5
-0,000030 x6
Predictor Coef StDev T P
Constant 0,5088 0,3478 1,46 0,160
x1 3,314 4,052 0,82 0,424
x2 -0,11441 0,02232 -5,13 0,000
x3 -0,0000899 0,0002173 -0,41 0,684
x4 0,0006750 0,0002918 2,31 0,032
x5 -0,6267 0,5910 -1,06 0,302
x6 -0,0000298 0,0004622 -0,06 0,949
S = 0,03476 R-Sq = 83,0% R-Sq(adj) = 77,6%
Analysis of Variance
Source DF SS MS F P
Regression 6 0,112094 0,018682 15,46 0,000
Residual Error 19 0,022957 0,001208
Total 25 0,135051
Source DF Seq SS
x1 1 0,034506
x2 1 0,060483
x3 1 0,000061
x4 1 0,015430
x5 1 0,001609
x6 1 0,000005
Unusual Observations
Obs x1 y Fit StDev Fit Residual
St Resid
15 0,276 0,50000 0,57369 0,01982 -0,07369
-2,58R
R denotes an observation with a large standardized residual
2. Dengan SPSS:
Correlations
Y x1 x2 x3 x4 x5 x6
Y Pearson Correlation 1 .707** -.570
* .083 .808
** .615
* .693
**
Sig. (2-tailed) .003 .027 .769 .000 .015 .004
N 15 15 15 15 15 15 15
x1 Pearson Correlation .707** 1 -.220 .007 .868
** .979
** .542
*
Sig. (2-tailed) .003 .430 .979 .000 .000 .037
N 15 15 15 15 15 15 15
x2 Pearson Correlation -.570* -.220 1 -.213 -.200 -.174 -.224
Sig. (2-tailed) .027 .430 .446 .475 .535 .423
N 15 15 15 15 15 15 15
x3 Pearson Correlation .083 .007 -.213 1 -.106 -.090 -.281
Sig. (2-tailed) .769 .979 .446 .706 .749 .311
N 15 15 15 15 15 15 15
x4 Pearson Correlation .808** .868
** -.200 -.106 1 .823
** .833
**
Sig. (2-tailed) .000 .000 .475 .706 .000 .000
N 15 15 15 15 15 15 15
x5 Pearson Correlation .615* .979
** -.174 -.090 .823
** 1 .486
Sig. (2-tailed) .015 .000 .535 .749 .000 .066
N 15 15 15 15 15 15 15
x6 Pearson Correlation .693** .542
* -.224 -.281 .833
** .486 1
Sig. (2-tailed) .004 .037 .423 .311 .000 .066
N 15 15 15 15 15 15 15
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
Regression Analysis: y versus x1, x2, x3, x4, x5, x6,
Regression
[DataSet1] D:\KULIAH\KULIAH\semester 5\anReG\FORWARD\datanew.sav
Variables Entered/Removedb
Model
Variables
Entered
Variables
Removed Method
1 x6, x3, x5, x2,
x4, x1a
. Enter
a. All requested variables entered.
b. Dependent Variable: y
Model Summary
Model R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 .911a .830 .776 .034760
a. Predictors: (Constant), x6, x3, x5, x2, x4, x1
ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression .112 6 .019 15.463 .000a
Residual .023 19 .001
Total .135 25
a. Predictors: (Constant), x6, x3, x5, x2, x4, x1
b. Dependent Variable: y
Coefficientsa
Model
Unstandardized
Coefficients
Stand
ardiz
ed
Coeffi
cients
t Sig.
95% Confidence
Interval for B Correlations
Collinearity
Statistics
B
Std.
Error Beta
Lower
Bound
Upper
Bound
Zero-
order Partial Part Tolerance VIF
1 (Constant) .509 .348
1.463 .160 -.219 1.237
X1 3.314 4.052 .395 .818 .424 -5.167 11.795 .505 .184 .077 .038 26.012
X2 -.114 .022 -.612 -5.127 .000 -.161 -.068 -.771 -.762 -.485 .628 1.593
X3 -8.986E-5 .000 -.057 -.414 .684 .000 .000 .304 -.094 -.039 .465 2.151
X4 .001 .000 .613 2.313 .032 .000 .001 .715 .469 .219 .127 7.857
X5 -.627 .591 -.539 -1.061 .302 -1.864 .610 .474 -.236 -.100 .035 28.908
X6 -2.980E-5 .000 -.012 -.064 .949 .000 .001 .561 -.015 -.006 .273 3.667
a. Dependent Variable:
y
Collinearity Diagnosticsa
Model
Dimen
sion Eigenvalue
Condition
Index
Variance Proportions
(Constant) x1 x2 x3 x4 x5 x6
1 1 6.809 1.000 .00 .00 .00 .00 .00 .00 .00
2 .133 7.144 .00 .00 .00 .40 .00 .00 .01
3 .048 11.867 .00 .00 .03 .02 .00 .00 .21
4 .007 30.529 .00 .00 .44 .15 .03 .00 .23
5 .002 56.904 .06 .00 .35 .01 .27 .00 .09
6 .000 153.072 .55 .01 .11 .25 .68 .07 .36
7 2.639E-5 507.927 .38 .98 .07 .17 .01 .93 .10
a. Dependent Variable: y
Dari data di atas dibuat suatu hubungan linier antara peubah y (variabel terikat) dan
peubah-peubah x (variabel bebas) secara bersama-sama dengan analisis regresi linier
berganda. Dan diperoleh persamaan:
y = 0,509 + 3,31 x1 - 0,114 x2 -0,000090 x3 +0,000675 x4 - 0,627 x5
-0,000030 x6
Sementara itu hubungan linier antara peubah y dan masing-masing peubah bebas x
adalah sebagai berikut:
y = - 0,598 + 4,25 x1
y = 1,03 - 0,144 x2
y = 0,442 +0,000476 x3
y = - 0,025 +0,000787 x4
y = - 0,276 + 0,551 x5
y = 0,334 + 0,00143 x6
Dan terlihat bahwa terjadi perubahan tanda pada x3, x5, x6, jadi dari sini dapat diduga
telah terjadi multikolinieritas. Disamping itu multikolinieritas juga dapat dilihat dari
nilai-nilai VIFnya, yaitu jika nilai VIFnya lebih dari atau sama dengan 10 maka terjadi
multikolinieritas. Dalam hal ini juga terjadi pada data x1, dan x5, dengan nilai 26,012,
28,908.
3.2. Pengolahan Data Dengan Metode Forward Selection
Berdasarkan analisis berganda yang telah dilakukan data tersebut terjadi
multikolinieritas, maka untuk mengatasinya akan digunakan metode forward selection.
Berikut pengolahannya dengan menggunakan Minitab dan SPSS:
1. MINITAB
Stepwise Regression F-to-Enter: 4,00 F-to-Remove: 4,00
Response is y on 6 predictors, with N = 26
Step 1 2
Constant 1,0270 0,5354
x2 -0,144 -0,110
T-Value -5,92 -6,10
x4 0,00055
T-Value 5,20
S 0,0478 0,0331
R-Sq 59,37 81,32
Regression Analysis The regression equation is
y = 0,535 - 0,110 x2 +0,000553 x4
Predictor Coef StDev T P
Constant 0,5354 0,1133 4,73 0,000
x2 -0,11014 0,01807 -6,10 0,000
x4 0,0005529 0,0001064 5,20 0,000
S = 0,03312 R-Sq = 81,3% R-Sq(adj) = 79,7%
Analysis of Variance
Source DF SS MS F P
Regression 2 0,109824 0,054912 50,06 0,000
Residual Error 23 0,025227 0,001097
Total 25 0,135051
Source DF Seq SS
x2 1 0,080183
x4 1 0,029641
Unusual Observations
Obs x2 y Fit StDev Fit Residual StResid
15 3,67 0,50000 0,57574 0,01623 -0,07574 -2,62R
R denotes an observation with a large standardized residual
2. SPSS
Regression
Variables Entered/Removeda
Model
Variables
Entered
Variables
Removed Method
1
x2 .
Forward
(Criterion:
Probability-
of-F-to-
enter <=
,050)
2
x4 .
Forward
(Criterion:
Probability-
of-F-to-
enter <=
,050)
a. Dependent Variable: y
Model Summary
Model R R Square
Adjusted R
Square
Std. Error of
the Estimate
Change Statistics
R Square
Change F Change df1 df2
Sig. F
Change
1 .771a .594 .577 .047814 .594 35.073 1 24 .000
2 .902b .813 .797 .033119 .219 27.024 1 23 .000
a. Predictors: (Constant), x2
b. Predictors: (Constant), x2, x4
ANOVAc
Model Sum of Squares df Mean Square F Sig.
1 Regression .080 1 .080 35.073 .000a
Residual .055 24 .002
Total .135 25
2 Regression .110 2 .055 50.064 .000b
Residual .025 23 .001
Total .135 25
a. Predictors: (Constant), x2
b. Predictors: (Constant), x2, x4
c. Dependent Variable: y
Coefficientsa
Model
Unstandardized
Coefficients
Standar
dized
Coeffici
ents
t Sig.
95% Confidence
Interval for B Correlations
Collinearity
Statistics
B
Std.
Error Beta
Lower
Bound
Upper
Bound
Zero-
order Partial Part
Tolera
nce VIF
1 (Constant) 1.027 .090 11.412 .000 .841 1.213
x2 -.144 .024 -.771 -5.922 .000 -.194 -.094 -.771 -.771 -.771 1.000 1.000
2 (Constant) .535 .113 4.727 .000 .301 .770
x2 -.110 .018 -.589 -6.097 .000 -.148 -.073 -.771 -.786 -.549 .870 1.150
x4 .001 .000 .502 5.198 .000 .000 .001 .715 .735 .468 .870 1.150
a. Dependent Variable:
y
Excluded Variablesc
Model Beta In t Sig.
Partial
Correlation
Collinearity Statistics
Tolerance VIF
Minimum
Tolerance
1 x1 .341a 2.916 .008 .519 .943 1.060 .943
x3 -.018a -.123 .903 -.026 .829 1.207 .829
x4 .502a 5.198 .000 .735 .870 1.150 .870
x5 .306a 2.524 .019 .466 .942 1.062 .942
x6 .371a 3.227 .004 .558 .918 1.089 .918
2 x1 -.118b -.762 .454 -.160 .345 2.898 .318
x3 .002b .022 .983 .005 .827 1.209 .729
x5 -.163b -1.122 .274 -.233 .383 2.613 .353
x6 .091b .729 .474 .154 .528 1.895 .500
a. Predictors in the Model: (Constant), x2
b. Predictors in the Model: (Constant), x2, x4
c. Dependent Variable: y
Collinearity Diagnosticsa
Model
Dimensi
on Eigenvalue Condition Index
Variance Proportions
(Constant) x2 x4
1 1 1.995 1.000 .00 .00
2 .005 19.143 1.00 1.00
2 1 2.984 1.000 .00 .00 .00
2 .014 14.621 .00 .35 .29
3 .002 36.937 1.00 .65 .71
a. Dependent Variable: y
Dari hasil forward selection terpilih model terbaik dengan menggunakan dua variable
yaitu x2 dan x4 dengan persamaan regresi linier berganda
y = 0,535 - 0,110 x2 +0,000553 x4
Dari hasil analisis terbaru R-Sq = 81,3% dengan Std. error of estimate= 0,33119 lebih
kecil dari Std. error of estimate sebelumnya yaitu 0,34760. Nilai VIF yang dihasilkan
oleh semua variable yang terpilih adalah kurang dari 10, sehingga tidak menunjukkan
tanda-tanda terjadinya multikolinieritas. Dapat disimpulkan bahwa dua peubah bebas
yang sangat mempengaruhi Y yaitu X2 dan X4 artinya yang sangat mempengaruhi
prosentase menang kalah adalah rata-rata perolehan lari dan total lari.
BAB IV
KESIMPULAN
Berdasarkan hasil pembahasan dapat disimpulkan sebagai berikut:
1. Dari data pengaruh rata-rata pukulan, rata-rata perolehan lari, total base yang
diambil, total lari, total pukulan dan home runs terhadap prosentase menang kalah
ternyata terjadi multikolinearitas, maka untuk mengatasinya digunakan metode
forward selection sehingga model regresi terbaik.
2. Dari hasil analisis menggunakan metode forward selection diperoleh model regresi
yang terbaik adalah y = 0,535 - 0,110 x2 +0,000553 x4
DAFTAR PUSTAKA
Drapper N. and Smith H. 1992. Analisis Regresi Terapan. Penerbit Gramedia Pustaka
Utama, Jakarta.
Permadi, Hendro. 1999. Teknik Analisis Regresi. Universitas Negeri Malang: JICA.
Susiswo. 2002. Analisis Regresi dan Aplikasinya Disertai dengan Penerapannya pada
Minitab 12. Universitas Negeri Malang: JICA.