bab 2 landasan teori - thesis.binus.ac.idthesis.binus.ac.id/doc/bab2/2006-2-01278-mtif-bab 2.pdf ·...
TRANSCRIPT
7
BAB 2
LANDASAN TEORI
2.1 Bootstrap
Bootstrap adalah prosedur statistika yang melakukan sampling dari sebuah
populasi yang dikerjakan dengan cara resampling dari sampel.
(http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf).
Ada dua cara yang digunakan dalam proses resampling, yaitu sampel diambil
dengan pengembalian dan sampel diambil tanpa pengembalian. Sampling dengan
pengembalian mengambil sebuah observasi dari sampel dan kemudian
meletakkan kembali dalam sampel untuk kemungkinan dijadikan sampel lagi.
Sampel tanpa pengembalian mengambil sebuah observasi dari sampel, tetapi
sekali diambil tidak dapat dijadikan sampel lagi.
Metode bootstrap mendapatkan sampelnya dengan cara sampling dengan
pengembalian dari sampel asli. Kuncinya adalah pengembalian dari observasi
setelah sampling, yang mengijinkan para peneliti untuk membuat sebanyak
apapun sampel yang dibutuhkan dan tidak pernah khawatir akan penduplikasian
sampel kecuali kebetulan. Setiap sampel dapat dianalisis secara bebas dan
hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean
adalah rata-rata dari semua mean yang diestimasi dari sampel. Selang
kepercayaan juga dapat langsung dihitung dari sampel terpilih.
8
2.1.1 Teori Dasar Bootstrap
Statistik nonparametrik umumnya memainkan peranan yang penting bagi
data yang tidak kontinyu dan tidak bisa menggunakan distribusi probabilitas
normal dalam menduga parameter dan estimasi selang kepercayaan. Tapi
sekarang ada perpekstif baru dalam estimasi nonparametrik yang juga
berhubungan dengan parameter dan bisa digunakan untuk estimasi selang
kepercayaan. Dengan itu, kita tidak harus menerima bahwa parameter mengikuti
distribusi normal . Kita bahkan bisa menciptakan nilai-nilai untuk parameter
seperti misalnya median, yang secara umum sulit untuk ditetapkan dengan teknik
inferensia statistika tradisional. Nonparametrik ini secara umum dikenal sebagai
bootstrap, telah banyak digunakan sebagai sebuah alternatif untuk metode
inferensia statistik. Bootstrap mengesampingkan sampling distribusi dari
parameter dan menghitung distribusi empiris, melewati ratusan atau ribuan
sampel. Dengan perkataan lain, bootstrap tidak harus bertumpu pada asumsi
distribusi sehingga kita bisa menghitung sebuah distribusi nyata dari parameter
sampel. (Hair Joseph F et al, 1998)
Bootstrap, tidak menggunakan distribusi probabilitas, tapi menghitung distribusi
empiris dari estimasi parameter. Dengan menciptakan bermacam–macam sampel
dari sampel asli, bootstrap sekarang hanya membutuhkan kemampuan
komputasional untuk mengestimasi nilai parameter dari masing – masing sampel.
Sekali mereka semua sudah dihitung, kita bisa memeriksa histogram dari nilai dan
bahkan menghitung selang kepercayaan dari estimasi parameter
9
Bootstrap merupakan metode simulasi berbasiskan data yang bisa
digunakan untuk inferensia statistika. Istilah “bootstrap” didapat dari sebuah frase
“untuk menarik seseorang keatas dengan menggunakan satu tali sepatu
(bootstrap) sendiri, yang diperoleh dari sebuah buku pada abad ke-18 yang
berjudul “ Adventure of Baron Munchausen” karya Rudolph Erich Raspe (Efron
and Tibshirani, 1998).
Bootstrap yang kita kenal sekarang dikembangkan oleh Bradley Efron,
profesor statistika di Stanford pada tahun 1979. Sejak itu metode bootstrap
banyak diaplikasikan dalam bidang statistika karena memiliki banyak keunggulan,
diantaranya bootstrap tidak harus dibentuk dari asumsi statistik parametrik,
dengan kata lain, parameternya tidak harus mengikuti distribusi normal.
Salah satu tujuan dari bootstrap menurut Davidson
(http://statwww.epfl.ch/Davidson/BMA) adalah mencoba dan mempelajari
tentang parameter statistika dari sebuah distribusi, misalnya mean dan standard
error ketika distribusi yang sesungguhnya tidak diketahui dan kita hanya
mempunyai sekumpulan observasi.. Ide utamanya adalah menggunakan
sekumpulan observasi sebagai gambaran empiris dari distribusi yang
sesungguhnya. Menurut Neter John et al (1996, p429 ) tujuan dari bootstrap
adalah memperbaiki ukuran sampel untuk mengevaluasi kebenaran dalam situasi
yang tidak standar. Misalnya ketika terjadi heteroskedastisitas, atau ketika
estimasi Robust digunakan, sehingga estimasi hanya bisa didekati jika ukuran
sampel besar. Jadi bisa disimpulkan tujuan penggunaan metode bootstrap dalam
penulisan ini adalah untuk memperbaiki ukuran sampel untuk meningkatkan
10
keakuratan estimasi dan untuk mengevaluasi kebenaran dari estimasi. Jika
parameter bisa dinyatakan sebagai sebuah fungsi dari distribusi yang tidak
diketahui, maka estimator bootstrapnya merupakan fungsi yang sama dari fungsi
distribusi empiris.
2.1.2 Batasan Metode Bootstrap
Ada beberapa batasan dalam metode bootstrap. Pertama, dan mungkin
yang paling penting, sampel harus cukup besar dan diambil secara random
sehingga dapat mewakili keseluruhan populasi. Sampel yang dimaksud disini
mengikuti kaidah teorema limit pusat yaitu 30≥ karena teknik bootstrap tidak
dapat mengatasi beberapa bias untuk sampel yang tidak mewakili, dan dalam
beberapa kasus akan memperumit masalah.
Kedua, bagaimanapun metode parametrik lebih baik dalam banyak kasus untuk
membuat pendugaan titik (point estimation), seperti mean. Jadi, prosedur
bootstrap bisa menambah pendugaan titik dari metode parametrik dengan
menyediakan estimasi yang lebih akurat.
2.1.3 Prosedur Umum Bootstrap
Inferensia statistik didasarkan pada distribusi sampling dari sampel
statistik. Bootstrap, merupakan sebuah cara untuk menemukan distribusi
sampling, setidaknya mendekati, dari hanya satu sampel. Berikut ini adalah
prosedurnya :
11
2.1.3.1 Resample
Menurut Ronald E.Walpole et al (2002, p3), sampel adalah suatu
himpunan bagian dari populasi. Istilah sampel asli digunakan untuk menyebut
himpunan bagian yang pertama diambil dari populasi, sebelum dilakukan
resampling, yaitu proses pengambilan sampel kembali dari sampel yang telah
kita ambil dari populasi, sedangkan istilah sampel bootstrap (resample)
digunakan untuk menyebut sampel yang telah kita resampling dari sampel asli.
Sampel asli dilambangkan dengan
x = { x1,....xn } n = 1,2,3,...., n (2.1)
dan sampel bootstrap dilambangkan dengan
x* = { x1*,....xB
* } B = 1,2,3,...., B (2.2)
Sampel bootstrap diperoleh dengan cara sampling secara random dengan
pengembalian, dari sampel asli.
Sampling secara random dengan pengembalian berarti setelah kita secara
random mengambil sebuah observasi dari sampel asli, kita meletakkannya
kembali sebelum kita mengambil observasi berikutnya. Sampel dengan
pengembalian memungkinkan kita untuk mendapatkan jumlah data yang sama
dengan ketika pertama kali kita melakukan sampling, dan memungkinkan satu
data diambil beberapa kali.
Peluang sampel dengan pengembalian dapat dinotasikan
P ( x1* = xj | x ) =
n1 (2.3)
untuk i,j = 1,...,n
12
Ini adalah distribusi seragam untuk sampling bootstrap. Masing-masing sampel
bootstrap yang diambil setiap kali pengambilan adalah sama banyaknya dengan
sampel asli.
Jumlah dari sampel bootstrap yang diseleksi bergantung pada keadaan khusus
dari masing-masing pemakaian. Kadang-kadang 50 sampel bootstrap sudah
cukup, seringkali 200-500 sampel bootstrap baru cukup bahkan untuk kasus-
kasus tertentu bootstrap memerlukan ribuan sampel.
(http://bcs.whfreeman.com/pbs/cat_160/PBS18.pdf)
Proses sampling bootstrap dilakukan dengan menggunakan bantuan
program komputer, mengingat besarnya jumlah resampling yang bisa mencapai
ribuan kali sehingga sangatlah sulit untuk melakukan perhitungan secara manual.
Gambar 2.1 Skema Resample
2.1.3.2 Perhitungan Distribusi Bootstrap
Hitunglah statistik yang kita perlukan untuk tiap resample. Inferensia
statistik untuk resample disebut distribusi bootstrap. Untuk mengestimasi nilai
Populasi
x2
x1 x2 xn
xB x1
Sx1 Sx2 SxB
. . .
Sampling
Resampling
sampel bootstrap
ket : B = jumlah iterasi bootstrap
13
tengah dari suatu populasi (μ), maka yang menjadi estimatornya adalah nilai
tengah dari sampel ( ), sama halnya, estimator bootstrap dari ragam populasi
adalah ragam sampel yang bersesuaian. Estimator bootstrap dari koefisien
korelasi populasi adalah koefisien korelasi sampel yang bersesuaian dan
seterusnya. Inferensia statistik paling umum yang sering diperoleh dengan
menggunakan prosedur bootstrap adalah mean :
Contoh perhitungan mean menggunakan prosedur bootstrap
(http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf) :
Diketahui mean, diambil dengan cara sampling secara random dari sebuah
populasi dengan fungsi distribusi C
μ = ∫ x dC(x) (2.4)
mean nya adalah fungsi yang sama dari fungsi distribusi empiris Fn
yaitu dari
Ĉ(x) = n1 ∑
=
≤n
ixXiI
1)( (2.5)
dimana X1,...Xn menunjukkan data
karena itu, estimasi bootstrap mean populasi (μ) adalah mean sampel ( ) :
= ∫ x d Ĉ (x) = n1 ∑
=
n
iXi
1 (2.6)
Prosedur untuk menghitung mean berlaku juga untuk menghitung
distribusi bootstrap yang lainnya
14
2.1.3.3 Penggunaan Distribusi Bootstrap
Gunakan distribusi bootstrap untuk mencari nilai-nilai yang diinginkan
seperti mean, selang kepercayaan, standard error dan lain sebagainya. Distribusi
bootstrap memberikan banyak informasi mengenai inferensia statistik.
2.1.4 Pengulangan Iterasi Bootstrap
Kita bisa mengulang prosedur bootstrap sesering yang kita inginkan.
Dari persamaan (2.1) untuk sampel asli, dilakukan prosedur bootstrap sehingga
didapat persamaan (2.2) untuk sampel bootstrap . Untuk mengulang iterasi
bootstrap, kita harus melakukan resampling dari sampel yang telah disampling,
dengan cara yang sama yaitu sampling secara random dengan pengembalian,
sehingga didapat persamaan
x** = { x1**,..., xB** } (2.7)
Persamaan diatas disebut resample bootstrap.
Tapi mengingat perhitungan yang sangat kompleks untuk prosedur ini, biasanya
bootstrap mencegah lebih dari satu iterasi.
2.1.5 Prosedur Bootstrap untuk Model Regresi
Bootstrap bisa juga diterapkan dalam model regresi. Untuk model regresi,
biasanya jumlah replikasi bootstrap adalah 1000 kali (J.Faraway, 2002). Menurut
Efron dan Tibshirani (1998, p113), ada dua prosedur bootstrap yang bisa
digunakan dalam regresi. Prosedur ini berlaku untuk semua model regresi.
15
2.1.5.1 Bootstrap Residual
Prinsip bootstrap residual adalah mencocokkan model linier dan
memperoleh residual n. Prosedur pada bootstrap residual sama dengan prosedur
bootstrap pada umumnya, hanya saja dalam bootstrap residual nilai residualnya
ikut diresampling. Residual dalam regresi artinya selisih nilai antara Y sebenarnya
dengan Y estimasi(Ŷ).
Langkah-langkah dalam prosedur bootstrap residual menurut Norman R.Drapper
dan Harry Smith (1998, p585), adalah sebagai berikut :
• Hitung koefisien regresi. Hasilkan nilai residual. Pilih sampel berukuran n dari
residual, hasilkan dengan probabilitas 1/n untuk masing-masing residual, dan
sampling dengan pengembalian.
• Gabungkan nilai-nilai sampel itu ke n yang diprediksikan oleh Ŷi untuk
memberikan sekumpulan resample dari Y’s.
Oleh karena itu, jika modelnya adalah Y = Xβ + є dan Ŷ = Xb, nilai Y yang baru
adalah Y* = Xb + e* (2.8)
dimana e* adalah kumpulan resample dari vektor
e = Y - Ŷ (2.9)
• Persamaan regresi sekarang ditunjukkan dengan model
Y* = Xβ + є (2.10)
Gunakan metode kuadrat terkecil untuk memperoleh estimasi bi* .
16
2.1.5.2 Bootstrap Pairs
Prosedur bootstrap kedua dalam regresi adalah metode pairs (Yi,xi’)
dimana Yi adalah observasi ke i dan xi’ adalah baris ke i dari matrik X.
Langkah-langkah dalam prosedur bootstrap pairs menurut Norman R.Drapper
dan Harry Smith (1998, p586) adalah sebagai berikut :
• Resampling sejumlah n dari (Yi,xi’), masing-masing diseleksi dengan probabilitas
1/n, dan sampling dengan pengembalian. Hasilkan nilai Yi baru dan xi baru.
Dinotasikan dengan Yi** dan Xi**.
Model regresinya menjadi
Y** = X**β + є (2.11)
• Cari nilai bi baru dengan metode kuadrat terkecil, notasikan dengan bi**.
2.1.6 Prosedur Bootstrap untuk Mengestimasi Standard error
Menurut Efron dan Tibshirani (1998, p15) standard error merupakan
ukuran yang paling sederhana untuk mengukur keakuratan dalam perhitungan
statistika. Dalam model regresi, standard error adalah kesalahan baku atau
simpangan baku dari e, dimana e adalah residual atau selisih antara Y(Y yang
sebenarnya) dengan Ŷ(Y estimasi).
Bootstrap yang pertama kali diperkenalkan pada tahun 1979 merupakan
sebuah metode yang berbasiskan komputer untuk mengestimasi standard error
dari ∧
θ (nilai dugaan bagi parameter populasi θ ). Bootstrap menyediakan
keakuratan estimasi dengan menggunakan prinsip plug-in yaitu menggantikan
populasi dengan sampel yang dianggap mewakili. Estimasi bootstrap untuk
17
standard error tidak memerlukan perhitungan teori dan selalu tersedia walaupun
sekompleks apapun perhitungan statistika untuk estimator ∧
θ , artinya prosedur
bootstrap untuk standard error selalu sama untuk semua bentuk distribusi data.
2.1.7 Algoritma Bootstrap untuk Mengestimasi Standard error
Algoritma bootstrap untuk mengestimasi standard error menurut Efron dan
Tibshirani (1998, p47) adalah sebagai berikut :
a. Pilih sampel bootstrap, yaitu sampel yang telah kita resampling dari sampel asli.
Dinotasikan dengan x1*, x2*,..., xB*, masing-masing berisi nilai data yang telah
disampling secara random dengan pengembalian dari sampel x.
b. Evaluasi hasil bootstrap yang diperoleh untuk masing-masing sampel bootstrap
∧
θ *(b) = s(x*b) b = 1,2 , ... , B (2.12)
c. Estimasi standard error untuk sampel bootstrap
∧
se B = ∑=
B
b 1
(∧
θ *(b) - ∧
θ *(.))2/ (B - 1) 2/1 (2.13)
dimana ∧
θ *(.) = ∑=
B
b 1
∧
θ *(b)/B (2.14)
2.2 Regresi Linier
Menurut Sir Francis Galton (Walpole et al, 2002), persamaan regresi
adalah persamaan matematik yang memungkinkan kita meramalkan nilai-nilai
atau variabel-variabel suatu peubah tak bebas dari nilai-nilai satu atau lebih
18
peubah bebas. Jika nilai peubah tak bebas dinyatakan dengan konotasi Y dan nilai
peubah bebas dengan konotasi X maka bentuk hubungan antara X dan Y adalah
merupakan suatu hubungan linier, yang dinotasikan dengan
xY βα += , untuk satu peubah bebas dan
nni xxxY βββα ++++= ...221 , untuk dua atau lebih peubah bebas
Fungsi linier xY βα += apabila digambarkan, akan tampak seperti gambar 2.2
Gambar 2.2 Fungsi linier xY βα +=
α = jarak titik asal O dengan perpotongan antara sumbu tegak Y dan garis fungsi
linier atau besarnya nilai Y kalau X = 0 sering disebut “intercept
coefficient.”
β = koefisien arah = koefisien regresi = besarnya pengaruh X terhadap Y,
apabila X naik 1 unit. Sering disebut “slope coefficient.”
Persamaan xY βα += juga bisa ditulis Y = B0 + B1X1, atau dengan simbol
lainnya. Beberapa simbol yang sering digunakan dalam fungsi linier ini adalah
∆ = delta, simbol pertambahan
Y
X α
yx
ΔΔ
=βxΔ
yΔ
O
19
xΔ = delta X, pertambahan X
∆Y = delta Y, pertambahan y
β = adalah rata-rata pertambahan y per 1 unit (satuan) pertambahan X, atau
pertambahan X sebesar 1 unit akan mengakibatkan pertambahan
pertambahan Y sebesar B
Model regresi harus mempunyai variabel penduga yang linier serta
parameter yang linier. Linier dalam parameter karena tidak ada parameter yang
muncul sebagai pangkat dua, perkalian atau pembagian oleh parameter lainnya.
Dalam praktek model regresi, yang mempengaruhi Y bukan hanya X saja,
melainkan masih ada faktor lain yang tidak dimasukkan dalam persamaan. Faktor-
faktor tersebut secara keseluruhan disebut error atau “disturbance error”. Error
tersebut yang menyebabkan suatu ramalan sering tidak tepat.
Dengan memperhitungkan error є maka bentuk persamaan fungsi linier tersebut
diatas menjadi sebagai berikut :
εβα ++= xY
dimana α dan β adalah konstanta yang harus diestimasi, dan є adalah error.
2.2.1 Regresi Linier Berganda
Regresi linier berganda adalah persamaan regresi untuk meramalkan
hubungan antara satu peubah tak bebas dengan dua atau lebih peubah bebas, yang
akan ditentukan hubungan antara Y dan X1, X2,...Xk sehingga didapat regresi Y =
f(X1, X2,...Xk ).
20
2.2.1.1 Persamaan Regresi Linier Berganda
Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui,
dipergunakan persamaan regresi linier berganda. Hubungan Y dan X1, X2,... ,Xk
adalah sebagai berikut :
(2.15)
( untuk populasi )
(2.16)
( untuk sampel )
dimana :
i = 1,2,...,n
b0, b1, b2 ,. . . , bk dan ei adalah pendugaan atas B0, B1, B2 ,. . . , Bk dan εi
Biasanya fungsi regresi dalam regresi linier berganda disebut regression surface
atau response surface yang bisa digambarkan dalam suatu bidang. Apabila fungsi
regresi terdiri dari lebih dari tiga penduga variabel maka dinamakan fungsi
hyperplane, dimana fungsi ini tidak bisa lagi digambarkan dalam suatu bidang
(Neter John et al, 1996)
Fungsi regresi apabila dinyatakan dalam bentuk persaman matriks, akan diperoleh
rumus berikut,
(2.17)
dimana :
Y , B , ε = vektor
X = matriks
Y i = B0 + B1X1i + B2X2i + … + BkXki + εi
Y i = b0 + b1X1i + b2X2i + … + bkXki + ei
Y = X B + ε
21
sedangkan
2.2.1.2 Pendugaan Koefisien Regresi Linier Berganda
Koefisien B harus diestimasi berdasarkan data hasil penelitian sampel
acak. Prosedur estimasi tergantung pada asumsi mengenai variabel X dan error ε.
Beberapa asumsi yang penting adalah sebagai berikut :
1 Nilai harapan setiap error sama dengan nol = 0 → E(εi) = 0,
untuk semua i.
1(εE1(εE
. . .
1(εE
. .
1(εE
= = 0 ( vektor nol )
0 0 . . 0 . . 0
y1 y2 . . . . .
. yn
B0B1. . . .
.
. Bn
ε0ε1 . . . . εn
Y = B= ε =
1 X11 X21 ... Xk11 X12 X22 ... Xk2. . . .. . . . 1 X1i X2i ... Xki . . . .. . . .. . . .1 X1n X2n ... Xkn
X=
22
Nilai harapan suatu vektor/matriks adalah nilai harapan dari masing-
masing komponen vektor/matriks tersebut.
2 Error yang satu (εi) tidak berkorelasi (bebas) terhadap error lainnya (εi),
akan tetapi mempunyai varians yang sama (Homoskedastisitas).
3 X1i, X2i,... ,Xki merupakan bilangan riil, tanpa mengandung kesalahan.
Dengan perkataan lain matriks merupakan himpunan angka-angka
konstan.
4 Matriks X mempunyai rank k < n (ada kolom dari matriks X yang bebas
linier).
Jumlah observasi n harus lebih banyak dari jumlah variabel, atau lebih
banyak dari koefisien regresi linier yang akan diestimasi
Ŷ = b0 + b1X1 + b2X2 + … + bkXk (2.18)
Jika asumsi yang disebut diatas dapat dipenuhi, maka penggunaan metode kuadrat
terkecil akan menghasilkan Best Liniar Unbiased Estimator terhadap koefisien B.
Misalkan b sebagai penduga β :
Y = Xb + e
e = Y - Xb
ei = Yi - b1X1i - b2X2i - ... – bkXki (2.19)
maka jumlah pangkat dua simpangan yang harus diminimumkan :
∑ ei2 = ∑ ( Yi - b1X1i - b2X2i - ... - bkXki)2 (2.20)
Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b
sedemikian rupa sehingga jumlah kuadrat error :
eTe = ∑ ei2 minimum
23
(2.21)
Caranya ialah dengan penurunan parsial ∑ ei2 terhadap setiap komponen vektor b
dan menyamakannya dengan 0, sehingga didapat persamaan normal :
Bila dinyatakan dalam bentuk matriks, persamaan normal diatas akan menjadi
XTXb = XTY (2.23)
Dengan demikian, b sebagai penduga B dapat diperoleh melalui rumus berikut
b = (XTX)-1 XTY (2.24)
sehingga dapat diselesaikan dengan persamaan matriks.
Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam
bentuk vektor matrik adalah sebagai berikut :
Var (b) = σ²(XTX)-1 (2.25)
karena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga
perkiraan varians (b) adalah
Var (b) = Sb² = Se²(XTX)-1 (2.26)
dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut
nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi
b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i
+ … + bk∑X1iXki = ∑X1iYi
b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi
. .
. .
b0 ∑Xki + b1∑X1i Xki + b2∑X2i Xki + … + bk∑Xki
2 = ∑kiYi
(2.22)
24
11
22
−−=
−−= ∑
kne
knee i
T
eS (2.27)
dimana : n = banyaknya observasi, k = banyaknya variabel bebas
2.2.1.3 Standard error pada Regresi Linier Berganda
Kesalahan baku regresi sama dengan simpangan baku (standard deviation)
atau standard error dinyatakan dengan
S e = 2Se = ∑−−
2
11 eikn
(2.28)
Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan
jjebjdSS 22 = (2.29)
dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal
utama.
Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan
2SS bjbj= (2.30)
2.2.1.4 Masalah (Penyimpangan) pada Regresi Linier Berganda
2.2.1.4.1 Otokorelasi
Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi
,di mana i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain
bahwa kesalahan observasi yang berikutnya diperoleh secara bebas terhadap
kesalahan sebelumnya. Jadi apabila asumsi tersebut tidak dipenuhi maka akan
25
terjadi otokorelasi dan apabila metode kuadrat terkecil diterapkan untuk
memperkirakan parameter / koefisien regresi, maka penduga yang dihasilkan
bukan lagi penduga tak bias yang terbaik. Selain itu, apabila terjadi otokorelasi di
antara kesalahan pengganggu maka pengujian nyata berdasarkan statistik uji t dan
F sebetulnya tidak berlaku lagi. Solusi untuk masalah otokorelasi adalah data asli
harus ditransformasikan terlebih dahulu untuk menghilangkan otokorelasi di
antara kesalahan pengganggu tersebut. Untuk menguji ada tidaknya otokorelasi
dapat menggunakan Statistik d Durbin-Watson (The Durbin-Watson d Statistics).
2.2.1.4.2 Heterokedastisitas
Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :
E( Tεε ) = 22 σσ =v
Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu
(Vii≠1), maka kesalahan pengganggu tersebut disebut heteroskedastisitas.
Dengan kata lain kesalahan pengganggu merupakan variabel bebas, tetapi
kesalahan pengganggu tersebut mempunyai varians yang berbeda untuk setiap
nilai X yang berbeda, di mana X merupakan variabel bebas.
Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik
kovarian menjadi matrik yang memenuhi homokedastisitas
V11
0 V22
0 0 Vnn
0
0 0 …
…
…
26
2.2.1.4.3 Multikolinieritas
Multikolinieritas adalah masalah yang timbul pada regresi linier apabila
terdapat suatu hubungan atau korelasi di antara beberapa atau semua dari
peubah-peubah bebas. Jika peubah-peubah bebas tersebut saling berkorelasi,
maka akan sangat sulit untuk memisahkan pengaruh mereka masing-masing
terhadap peubah tak bebas dan untuk mendapatkan penaksir yang baik bagi
koefisien-koefisien regresi.
2.3 R Language
R adalah suatu sistem untuk komputasi statistika dan grafik yang dapat
dijalankan pada platform UNIX, Windows, dan MacOS. R menyediakan banyak
hal diantaranya, sebuah bahasa pemrograman, teknik statistika dan grafik tingkat
tinggi (model linier dan nonlinier), pengujian statistika, analisis deret waktu,
klasifikasi, kluster, akses ke bahasa pemrograman yang lainnya dan fasilitas
perbaikan kesalahan (debug).
Beberapa hal yang dimiliki oleh R antara lain
• Pengaturan data dan fasilitas penyimpanan yang efektif
• Operator yang cocok untuk perhitungan array dan matrik
• Tools Colection yang bisa digunakan untuk analisis data
• Fasilitas grafik untuk analisis data dan menyediakannya pada komputer atau
hardcopy
• Bahasa pemrograman yang sederhana, efektif dan dikembangkan dengan baik
yang meliputi syarat, pengulangan, fungsi rekursif dan fasilitas input serta output.
27
R-Language adalah versi lain dari S. R dikembangkan pada laboratorium
Bell oleh John M Chambers dan rekan-rekan pada tahun 1980 dan sejak itu telah
dipakai secara luas dalam komunitas statistika. John M Chambers sendiri telah
mendapat penghargaan “1998 ACM Software Systems For S”. Ada banyak
kesamaan antara S dan R, namun ada juga beberapa perbedaan yang penting. S
dipakai jika kita ingin menggunakan software yang sifatnya komersial, karena R –
Language merupakan suatu software yang bisa diperoleh secara gratis dengan
cara men”download” dari http://www.r-project.org .Versi terbaru dari R Language
adalah versi {2.2.1} (download tanggal 20 Desember 2005). Untuk mengikuti
perkembangan software R, maka penelitian ini menggunakan R versi terbaru.
Sintaks yang digunakan dalam R memiliki sedikit kesdamaan dengan C
Language. Kelebihan dari R adalah menyediakan “computing on the language”
yang memungkinkan untuk membuat suatu fungsi yang mengambil sebuah
ekspresi sebagai input, sesuatu yang sangat sering digunakan dalam permodelan
statistika dan grafik. R sudah menyediakan banyak paket-paket fungsi yang bisa
digunakan untuk komputasi statistik, tetapi fungsi-fungsi tersebut bisa dikodekan
sendiri, mengingat beberapa pengguna lebih suka menulis sendiri fungsi yang
akan dipakai.