bab 2 landasan teori - thesis.binus.ac.idthesis.binus.ac.id/doc/bab2/2006-2-01278-mtif-bab 2.pdf ·...

21
7 BAB 2 LANDASAN TEORI 2.1 Bootstrap Bootstrap adalah prosedur statistika yang melakukan sampling dari sebuah populasi yang dikerjakan dengan cara resampling dari sampel. (http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf ). Ada dua cara yang digunakan dalam proses resampling, yaitu sampel diambil dengan pengembalian dan sampel diambil tanpa pengembalian. Sampling dengan pengembalian mengambil sebuah observasi dari sampel dan kemudian meletakkan kembali dalam sampel untuk kemungkinan dijadikan sampel lagi. Sampel tanpa pengembalian mengambil sebuah observasi dari sampel, tetapi sekali diambil tidak dapat dijadikan sampel lagi. Metode bootstrap mendapatkan sampelnya dengan cara sampling dengan pengembalian dari sampel asli. Kuncinya adalah pengembalian dari observasi setelah sampling, yang mengijinkan para peneliti untuk membuat sebanyak apapun sampel yang dibutuhkan dan tidak pernah khawatir akan penduplikasian sampel kecuali kebetulan. Setiap sampel dapat dianalisis secara bebas dan hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean adalah rata-rata dari semua mean yang diestimasi dari sampel. Selang kepercayaan juga dapat langsung dihitung dari sampel terpilih.

Upload: vuongkhue

Post on 10-Mar-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

7

BAB 2

LANDASAN TEORI

2.1 Bootstrap

Bootstrap adalah prosedur statistika yang melakukan sampling dari sebuah

populasi yang dikerjakan dengan cara resampling dari sampel.

(http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf).

Ada dua cara yang digunakan dalam proses resampling, yaitu sampel diambil

dengan pengembalian dan sampel diambil tanpa pengembalian. Sampling dengan

pengembalian mengambil sebuah observasi dari sampel dan kemudian

meletakkan kembali dalam sampel untuk kemungkinan dijadikan sampel lagi.

Sampel tanpa pengembalian mengambil sebuah observasi dari sampel, tetapi

sekali diambil tidak dapat dijadikan sampel lagi.

Metode bootstrap mendapatkan sampelnya dengan cara sampling dengan

pengembalian dari sampel asli. Kuncinya adalah pengembalian dari observasi

setelah sampling, yang mengijinkan para peneliti untuk membuat sebanyak

apapun sampel yang dibutuhkan dan tidak pernah khawatir akan penduplikasian

sampel kecuali kebetulan. Setiap sampel dapat dianalisis secara bebas dan

hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

adalah rata-rata dari semua mean yang diestimasi dari sampel. Selang

kepercayaan juga dapat langsung dihitung dari sampel terpilih.

Page 2: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

8

2.1.1 Teori Dasar Bootstrap

Statistik nonparametrik umumnya memainkan peranan yang penting bagi

data yang tidak kontinyu dan tidak bisa menggunakan distribusi probabilitas

normal dalam menduga parameter dan estimasi selang kepercayaan. Tapi

sekarang ada perpekstif baru dalam estimasi nonparametrik yang juga

berhubungan dengan parameter dan bisa digunakan untuk estimasi selang

kepercayaan. Dengan itu, kita tidak harus menerima bahwa parameter mengikuti

distribusi normal . Kita bahkan bisa menciptakan nilai-nilai untuk parameter

seperti misalnya median, yang secara umum sulit untuk ditetapkan dengan teknik

inferensia statistika tradisional. Nonparametrik ini secara umum dikenal sebagai

bootstrap, telah banyak digunakan sebagai sebuah alternatif untuk metode

inferensia statistik. Bootstrap mengesampingkan sampling distribusi dari

parameter dan menghitung distribusi empiris, melewati ratusan atau ribuan

sampel. Dengan perkataan lain, bootstrap tidak harus bertumpu pada asumsi

distribusi sehingga kita bisa menghitung sebuah distribusi nyata dari parameter

sampel. (Hair Joseph F et al, 1998)

Bootstrap, tidak menggunakan distribusi probabilitas, tapi menghitung distribusi

empiris dari estimasi parameter. Dengan menciptakan bermacam–macam sampel

dari sampel asli, bootstrap sekarang hanya membutuhkan kemampuan

komputasional untuk mengestimasi nilai parameter dari masing – masing sampel.

Sekali mereka semua sudah dihitung, kita bisa memeriksa histogram dari nilai dan

bahkan menghitung selang kepercayaan dari estimasi parameter

Page 3: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

9

Bootstrap merupakan metode simulasi berbasiskan data yang bisa

digunakan untuk inferensia statistika. Istilah “bootstrap” didapat dari sebuah frase

“untuk menarik seseorang keatas dengan menggunakan satu tali sepatu

(bootstrap) sendiri, yang diperoleh dari sebuah buku pada abad ke-18 yang

berjudul “ Adventure of Baron Munchausen” karya Rudolph Erich Raspe (Efron

and Tibshirani, 1998).

Bootstrap yang kita kenal sekarang dikembangkan oleh Bradley Efron,

profesor statistika di Stanford pada tahun 1979. Sejak itu metode bootstrap

banyak diaplikasikan dalam bidang statistika karena memiliki banyak keunggulan,

diantaranya bootstrap tidak harus dibentuk dari asumsi statistik parametrik,

dengan kata lain, parameternya tidak harus mengikuti distribusi normal.

Salah satu tujuan dari bootstrap menurut Davidson

(http://statwww.epfl.ch/Davidson/BMA) adalah mencoba dan mempelajari

tentang parameter statistika dari sebuah distribusi, misalnya mean dan standard

error ketika distribusi yang sesungguhnya tidak diketahui dan kita hanya

mempunyai sekumpulan observasi.. Ide utamanya adalah menggunakan

sekumpulan observasi sebagai gambaran empiris dari distribusi yang

sesungguhnya. Menurut Neter John et al (1996, p429 ) tujuan dari bootstrap

adalah memperbaiki ukuran sampel untuk mengevaluasi kebenaran dalam situasi

yang tidak standar. Misalnya ketika terjadi heteroskedastisitas, atau ketika

estimasi Robust digunakan, sehingga estimasi hanya bisa didekati jika ukuran

sampel besar. Jadi bisa disimpulkan tujuan penggunaan metode bootstrap dalam

penulisan ini adalah untuk memperbaiki ukuran sampel untuk meningkatkan

Page 4: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

10

keakuratan estimasi dan untuk mengevaluasi kebenaran dari estimasi. Jika

parameter bisa dinyatakan sebagai sebuah fungsi dari distribusi yang tidak

diketahui, maka estimator bootstrapnya merupakan fungsi yang sama dari fungsi

distribusi empiris.

2.1.2 Batasan Metode Bootstrap

Ada beberapa batasan dalam metode bootstrap. Pertama, dan mungkin

yang paling penting, sampel harus cukup besar dan diambil secara random

sehingga dapat mewakili keseluruhan populasi. Sampel yang dimaksud disini

mengikuti kaidah teorema limit pusat yaitu 30≥ karena teknik bootstrap tidak

dapat mengatasi beberapa bias untuk sampel yang tidak mewakili, dan dalam

beberapa kasus akan memperumit masalah.

Kedua, bagaimanapun metode parametrik lebih baik dalam banyak kasus untuk

membuat pendugaan titik (point estimation), seperti mean. Jadi, prosedur

bootstrap bisa menambah pendugaan titik dari metode parametrik dengan

menyediakan estimasi yang lebih akurat.

2.1.3 Prosedur Umum Bootstrap

Inferensia statistik didasarkan pada distribusi sampling dari sampel

statistik. Bootstrap, merupakan sebuah cara untuk menemukan distribusi

sampling, setidaknya mendekati, dari hanya satu sampel. Berikut ini adalah

prosedurnya :

Page 5: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

11

2.1.3.1 Resample

Menurut Ronald E.Walpole et al (2002, p3), sampel adalah suatu

himpunan bagian dari populasi. Istilah sampel asli digunakan untuk menyebut

himpunan bagian yang pertama diambil dari populasi, sebelum dilakukan

resampling, yaitu proses pengambilan sampel kembali dari sampel yang telah

kita ambil dari populasi, sedangkan istilah sampel bootstrap (resample)

digunakan untuk menyebut sampel yang telah kita resampling dari sampel asli.

Sampel asli dilambangkan dengan

x = { x1,....xn } n = 1,2,3,...., n (2.1)

dan sampel bootstrap dilambangkan dengan

x* = { x1*,....xB

* } B = 1,2,3,...., B (2.2)

Sampel bootstrap diperoleh dengan cara sampling secara random dengan

pengembalian, dari sampel asli.

Sampling secara random dengan pengembalian berarti setelah kita secara

random mengambil sebuah observasi dari sampel asli, kita meletakkannya

kembali sebelum kita mengambil observasi berikutnya. Sampel dengan

pengembalian memungkinkan kita untuk mendapatkan jumlah data yang sama

dengan ketika pertama kali kita melakukan sampling, dan memungkinkan satu

data diambil beberapa kali.

Peluang sampel dengan pengembalian dapat dinotasikan

P ( x1* = xj | x ) =

n1 (2.3)

untuk i,j = 1,...,n

Page 6: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

12

Ini adalah distribusi seragam untuk sampling bootstrap. Masing-masing sampel

bootstrap yang diambil setiap kali pengambilan adalah sama banyaknya dengan

sampel asli.

Jumlah dari sampel bootstrap yang diseleksi bergantung pada keadaan khusus

dari masing-masing pemakaian. Kadang-kadang 50 sampel bootstrap sudah

cukup, seringkali 200-500 sampel bootstrap baru cukup bahkan untuk kasus-

kasus tertentu bootstrap memerlukan ribuan sampel.

(http://bcs.whfreeman.com/pbs/cat_160/PBS18.pdf)

Proses sampling bootstrap dilakukan dengan menggunakan bantuan

program komputer, mengingat besarnya jumlah resampling yang bisa mencapai

ribuan kali sehingga sangatlah sulit untuk melakukan perhitungan secara manual.

Gambar 2.1 Skema Resample

2.1.3.2 Perhitungan Distribusi Bootstrap

Hitunglah statistik yang kita perlukan untuk tiap resample. Inferensia

statistik untuk resample disebut distribusi bootstrap. Untuk mengestimasi nilai

Populasi

x2

x1 x2 xn

xB x1

Sx1 Sx2 SxB

. . .

Sampling

Resampling

sampel bootstrap

ket : B = jumlah iterasi bootstrap

Page 7: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

13

tengah dari suatu populasi (μ), maka yang menjadi estimatornya adalah nilai

tengah dari sampel ( ), sama halnya, estimator bootstrap dari ragam populasi

adalah ragam sampel yang bersesuaian. Estimator bootstrap dari koefisien

korelasi populasi adalah koefisien korelasi sampel yang bersesuaian dan

seterusnya. Inferensia statistik paling umum yang sering diperoleh dengan

menggunakan prosedur bootstrap adalah mean :

Contoh perhitungan mean menggunakan prosedur bootstrap

(http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf) :

Diketahui mean, diambil dengan cara sampling secara random dari sebuah

populasi dengan fungsi distribusi C

μ = ∫ x dC(x) (2.4)

mean nya adalah fungsi yang sama dari fungsi distribusi empiris Fn

yaitu dari

Ĉ(x) = n1 ∑

=

≤n

ixXiI

1)( (2.5)

dimana X1,...Xn menunjukkan data

karena itu, estimasi bootstrap mean populasi (μ) adalah mean sampel ( ) :

= ∫ x d Ĉ (x) = n1 ∑

=

n

iXi

1 (2.6)

Prosedur untuk menghitung mean berlaku juga untuk menghitung

distribusi bootstrap yang lainnya

Page 8: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

14

2.1.3.3 Penggunaan Distribusi Bootstrap

Gunakan distribusi bootstrap untuk mencari nilai-nilai yang diinginkan

seperti mean, selang kepercayaan, standard error dan lain sebagainya. Distribusi

bootstrap memberikan banyak informasi mengenai inferensia statistik.

2.1.4 Pengulangan Iterasi Bootstrap

Kita bisa mengulang prosedur bootstrap sesering yang kita inginkan.

Dari persamaan (2.1) untuk sampel asli, dilakukan prosedur bootstrap sehingga

didapat persamaan (2.2) untuk sampel bootstrap . Untuk mengulang iterasi

bootstrap, kita harus melakukan resampling dari sampel yang telah disampling,

dengan cara yang sama yaitu sampling secara random dengan pengembalian,

sehingga didapat persamaan

x** = { x1**,..., xB** } (2.7)

Persamaan diatas disebut resample bootstrap.

Tapi mengingat perhitungan yang sangat kompleks untuk prosedur ini, biasanya

bootstrap mencegah lebih dari satu iterasi.

2.1.5 Prosedur Bootstrap untuk Model Regresi

Bootstrap bisa juga diterapkan dalam model regresi. Untuk model regresi,

biasanya jumlah replikasi bootstrap adalah 1000 kali (J.Faraway, 2002). Menurut

Efron dan Tibshirani (1998, p113), ada dua prosedur bootstrap yang bisa

digunakan dalam regresi. Prosedur ini berlaku untuk semua model regresi.

Page 9: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

15

2.1.5.1 Bootstrap Residual

Prinsip bootstrap residual adalah mencocokkan model linier dan

memperoleh residual n. Prosedur pada bootstrap residual sama dengan prosedur

bootstrap pada umumnya, hanya saja dalam bootstrap residual nilai residualnya

ikut diresampling. Residual dalam regresi artinya selisih nilai antara Y sebenarnya

dengan Y estimasi(Ŷ).

Langkah-langkah dalam prosedur bootstrap residual menurut Norman R.Drapper

dan Harry Smith (1998, p585), adalah sebagai berikut :

• Hitung koefisien regresi. Hasilkan nilai residual. Pilih sampel berukuran n dari

residual, hasilkan dengan probabilitas 1/n untuk masing-masing residual, dan

sampling dengan pengembalian.

• Gabungkan nilai-nilai sampel itu ke n yang diprediksikan oleh Ŷi untuk

memberikan sekumpulan resample dari Y’s.

Oleh karena itu, jika modelnya adalah Y = Xβ + є dan Ŷ = Xb, nilai Y yang baru

adalah Y* = Xb + e* (2.8)

dimana e* adalah kumpulan resample dari vektor

e = Y - Ŷ (2.9)

• Persamaan regresi sekarang ditunjukkan dengan model

Y* = Xβ + є (2.10)

Gunakan metode kuadrat terkecil untuk memperoleh estimasi bi* .

Page 10: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

16

2.1.5.2 Bootstrap Pairs

Prosedur bootstrap kedua dalam regresi adalah metode pairs (Yi,xi’)

dimana Yi adalah observasi ke i dan xi’ adalah baris ke i dari matrik X.

Langkah-langkah dalam prosedur bootstrap pairs menurut Norman R.Drapper

dan Harry Smith (1998, p586) adalah sebagai berikut :

• Resampling sejumlah n dari (Yi,xi’), masing-masing diseleksi dengan probabilitas

1/n, dan sampling dengan pengembalian. Hasilkan nilai Yi baru dan xi baru.

Dinotasikan dengan Yi** dan Xi**.

Model regresinya menjadi

Y** = X**β + є (2.11)

• Cari nilai bi baru dengan metode kuadrat terkecil, notasikan dengan bi**.

2.1.6 Prosedur Bootstrap untuk Mengestimasi Standard error

Menurut Efron dan Tibshirani (1998, p15) standard error merupakan

ukuran yang paling sederhana untuk mengukur keakuratan dalam perhitungan

statistika. Dalam model regresi, standard error adalah kesalahan baku atau

simpangan baku dari e, dimana e adalah residual atau selisih antara Y(Y yang

sebenarnya) dengan Ŷ(Y estimasi).

Bootstrap yang pertama kali diperkenalkan pada tahun 1979 merupakan

sebuah metode yang berbasiskan komputer untuk mengestimasi standard error

dari ∧

θ (nilai dugaan bagi parameter populasi θ ). Bootstrap menyediakan

keakuratan estimasi dengan menggunakan prinsip plug-in yaitu menggantikan

populasi dengan sampel yang dianggap mewakili. Estimasi bootstrap untuk

Page 11: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

17

standard error tidak memerlukan perhitungan teori dan selalu tersedia walaupun

sekompleks apapun perhitungan statistika untuk estimator ∧

θ , artinya prosedur

bootstrap untuk standard error selalu sama untuk semua bentuk distribusi data.

2.1.7 Algoritma Bootstrap untuk Mengestimasi Standard error

Algoritma bootstrap untuk mengestimasi standard error menurut Efron dan

Tibshirani (1998, p47) adalah sebagai berikut :

a. Pilih sampel bootstrap, yaitu sampel yang telah kita resampling dari sampel asli.

Dinotasikan dengan x1*, x2*,..., xB*, masing-masing berisi nilai data yang telah

disampling secara random dengan pengembalian dari sampel x.

b. Evaluasi hasil bootstrap yang diperoleh untuk masing-masing sampel bootstrap

θ *(b) = s(x*b) b = 1,2 , ... , B (2.12)

c. Estimasi standard error untuk sampel bootstrap

se B = ∑=

B

b 1

(∧

θ *(b) - ∧

θ *(.))2/ (B - 1) 2/1 (2.13)

dimana ∧

θ *(.) = ∑=

B

b 1

θ *(b)/B (2.14)

2.2 Regresi Linier

Menurut Sir Francis Galton (Walpole et al, 2002), persamaan regresi

adalah persamaan matematik yang memungkinkan kita meramalkan nilai-nilai

atau variabel-variabel suatu peubah tak bebas dari nilai-nilai satu atau lebih

Page 12: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

18

peubah bebas. Jika nilai peubah tak bebas dinyatakan dengan konotasi Y dan nilai

peubah bebas dengan konotasi X maka bentuk hubungan antara X dan Y adalah

merupakan suatu hubungan linier, yang dinotasikan dengan

xY βα += , untuk satu peubah bebas dan

nni xxxY βββα ++++= ...221 , untuk dua atau lebih peubah bebas

Fungsi linier xY βα += apabila digambarkan, akan tampak seperti gambar 2.2

Gambar 2.2 Fungsi linier xY βα +=

α = jarak titik asal O dengan perpotongan antara sumbu tegak Y dan garis fungsi

linier atau besarnya nilai Y kalau X = 0 sering disebut “intercept

coefficient.”

β = koefisien arah = koefisien regresi = besarnya pengaruh X terhadap Y,

apabila X naik 1 unit. Sering disebut “slope coefficient.”

Persamaan xY βα += juga bisa ditulis Y = B0 + B1X1, atau dengan simbol

lainnya. Beberapa simbol yang sering digunakan dalam fungsi linier ini adalah

∆ = delta, simbol pertambahan

Y

X α

yx

ΔΔ

=βxΔ

O

Page 13: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

19

xΔ = delta X, pertambahan X

∆Y = delta Y, pertambahan y

β = adalah rata-rata pertambahan y per 1 unit (satuan) pertambahan X, atau

pertambahan X sebesar 1 unit akan mengakibatkan pertambahan

pertambahan Y sebesar B

Model regresi harus mempunyai variabel penduga yang linier serta

parameter yang linier. Linier dalam parameter karena tidak ada parameter yang

muncul sebagai pangkat dua, perkalian atau pembagian oleh parameter lainnya.

Dalam praktek model regresi, yang mempengaruhi Y bukan hanya X saja,

melainkan masih ada faktor lain yang tidak dimasukkan dalam persamaan. Faktor-

faktor tersebut secara keseluruhan disebut error atau “disturbance error”. Error

tersebut yang menyebabkan suatu ramalan sering tidak tepat.

Dengan memperhitungkan error є maka bentuk persamaan fungsi linier tersebut

diatas menjadi sebagai berikut :

εβα ++= xY

dimana α dan β adalah konstanta yang harus diestimasi, dan є adalah error.

2.2.1 Regresi Linier Berganda

Regresi linier berganda adalah persamaan regresi untuk meramalkan

hubungan antara satu peubah tak bebas dengan dua atau lebih peubah bebas, yang

akan ditentukan hubungan antara Y dan X1, X2,...Xk sehingga didapat regresi Y =

f(X1, X2,...Xk ).

Page 14: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

20

2.2.1.1 Persamaan Regresi Linier Berganda

Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui,

dipergunakan persamaan regresi linier berganda. Hubungan Y dan X1, X2,... ,Xk

adalah sebagai berikut :

(2.15)

( untuk populasi )

(2.16)

( untuk sampel )

dimana :

i = 1,2,...,n

b0, b1, b2 ,. . . , bk dan ei adalah pendugaan atas B0, B1, B2 ,. . . , Bk dan εi

Biasanya fungsi regresi dalam regresi linier berganda disebut regression surface

atau response surface yang bisa digambarkan dalam suatu bidang. Apabila fungsi

regresi terdiri dari lebih dari tiga penduga variabel maka dinamakan fungsi

hyperplane, dimana fungsi ini tidak bisa lagi digambarkan dalam suatu bidang

(Neter John et al, 1996)

Fungsi regresi apabila dinyatakan dalam bentuk persaman matriks, akan diperoleh

rumus berikut,

(2.17)

dimana :

Y , B , ε = vektor

X = matriks

Y i = B0 + B1X1i + B2X2i + … + BkXki + εi

Y i = b0 + b1X1i + b2X2i + … + bkXki + ei

Y = X B + ε

Page 15: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

21

sedangkan

2.2.1.2 Pendugaan Koefisien Regresi Linier Berganda

Koefisien B harus diestimasi berdasarkan data hasil penelitian sampel

acak. Prosedur estimasi tergantung pada asumsi mengenai variabel X dan error ε.

Beberapa asumsi yang penting adalah sebagai berikut :

1 Nilai harapan setiap error sama dengan nol = 0 → E(εi) = 0,

untuk semua i.

1(εE1(εE

. . .

1(εE

. .

1(εE

= = 0 ( vektor nol )

0 0 . . 0 . . 0

y1 y2 . . . . .

. yn

B0B1. . . .

.

. Bn

ε0ε1 . . . . εn

Y = B= ε =

1 X11 X21 ... Xk11 X12 X22 ... Xk2. . . .. . . . 1 X1i X2i ... Xki . . . .. . . .. . . .1 X1n X2n ... Xkn

X=

Page 16: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

22

Nilai harapan suatu vektor/matriks adalah nilai harapan dari masing-

masing komponen vektor/matriks tersebut.

2 Error yang satu (εi) tidak berkorelasi (bebas) terhadap error lainnya (εi),

akan tetapi mempunyai varians yang sama (Homoskedastisitas).

3 X1i, X2i,... ,Xki merupakan bilangan riil, tanpa mengandung kesalahan.

Dengan perkataan lain matriks merupakan himpunan angka-angka

konstan.

4 Matriks X mempunyai rank k < n (ada kolom dari matriks X yang bebas

linier).

Jumlah observasi n harus lebih banyak dari jumlah variabel, atau lebih

banyak dari koefisien regresi linier yang akan diestimasi

Ŷ = b0 + b1X1 + b2X2 + … + bkXk (2.18)

Jika asumsi yang disebut diatas dapat dipenuhi, maka penggunaan metode kuadrat

terkecil akan menghasilkan Best Liniar Unbiased Estimator terhadap koefisien B.

Misalkan b sebagai penduga β :

Y = Xb + e

e = Y - Xb

ei = Yi - b1X1i - b2X2i - ... – bkXki (2.19)

maka jumlah pangkat dua simpangan yang harus diminimumkan :

∑ ei2 = ∑ ( Yi - b1X1i - b2X2i - ... - bkXki)2 (2.20)

Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b

sedemikian rupa sehingga jumlah kuadrat error :

eTe = ∑ ei2 minimum

Page 17: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

23

(2.21)

Caranya ialah dengan penurunan parsial ∑ ei2 terhadap setiap komponen vektor b

dan menyamakannya dengan 0, sehingga didapat persamaan normal :

Bila dinyatakan dalam bentuk matriks, persamaan normal diatas akan menjadi

XTXb = XTY (2.23)

Dengan demikian, b sebagai penduga B dapat diperoleh melalui rumus berikut

b = (XTX)-1 XTY (2.24)

sehingga dapat diselesaikan dengan persamaan matriks.

Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam

bentuk vektor matrik adalah sebagai berikut :

Var (b) = σ²(XTX)-1 (2.25)

karena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga

perkiraan varians (b) adalah

Var (b) = Sb² = Se²(XTX)-1 (2.26)

dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut

nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi

b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i

+ … + bk∑X1iXki = ∑X1iYi

b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi

. .

. .

b0 ∑Xki + b1∑X1i Xki + b2∑X2i Xki + … + bk∑Xki

2 = ∑kiYi

(2.22)

Page 18: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

24

11

22

−−=

−−= ∑

kne

knee i

T

eS (2.27)

dimana : n = banyaknya observasi, k = banyaknya variabel bebas

2.2.1.3 Standard error pada Regresi Linier Berganda

Kesalahan baku regresi sama dengan simpangan baku (standard deviation)

atau standard error dinyatakan dengan

S e = 2Se = ∑−−

2

11 eikn

(2.28)

Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan

jjebjdSS 22 = (2.29)

dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal

utama.

Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan

2SS bjbj= (2.30)

2.2.1.4 Masalah (Penyimpangan) pada Regresi Linier Berganda

2.2.1.4.1 Otokorelasi

Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi

,di mana i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain

bahwa kesalahan observasi yang berikutnya diperoleh secara bebas terhadap

kesalahan sebelumnya. Jadi apabila asumsi tersebut tidak dipenuhi maka akan

Page 19: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

25

terjadi otokorelasi dan apabila metode kuadrat terkecil diterapkan untuk

memperkirakan parameter / koefisien regresi, maka penduga yang dihasilkan

bukan lagi penduga tak bias yang terbaik. Selain itu, apabila terjadi otokorelasi di

antara kesalahan pengganggu maka pengujian nyata berdasarkan statistik uji t dan

F sebetulnya tidak berlaku lagi. Solusi untuk masalah otokorelasi adalah data asli

harus ditransformasikan terlebih dahulu untuk menghilangkan otokorelasi di

antara kesalahan pengganggu tersebut. Untuk menguji ada tidaknya otokorelasi

dapat menggunakan Statistik d Durbin-Watson (The Durbin-Watson d Statistics).

2.2.1.4.2 Heterokedastisitas

Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :

E( Tεε ) = 22 σσ =v

Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu

(Vii≠1), maka kesalahan pengganggu tersebut disebut heteroskedastisitas.

Dengan kata lain kesalahan pengganggu merupakan variabel bebas, tetapi

kesalahan pengganggu tersebut mempunyai varians yang berbeda untuk setiap

nilai X yang berbeda, di mana X merupakan variabel bebas.

Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik

kovarian menjadi matrik yang memenuhi homokedastisitas

V11

0 V22

0 0 Vnn

0

0 0 …

Page 20: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

26

2.2.1.4.3 Multikolinieritas

Multikolinieritas adalah masalah yang timbul pada regresi linier apabila

terdapat suatu hubungan atau korelasi di antara beberapa atau semua dari

peubah-peubah bebas. Jika peubah-peubah bebas tersebut saling berkorelasi,

maka akan sangat sulit untuk memisahkan pengaruh mereka masing-masing

terhadap peubah tak bebas dan untuk mendapatkan penaksir yang baik bagi

koefisien-koefisien regresi.

2.3 R Language

R adalah suatu sistem untuk komputasi statistika dan grafik yang dapat

dijalankan pada platform UNIX, Windows, dan MacOS. R menyediakan banyak

hal diantaranya, sebuah bahasa pemrograman, teknik statistika dan grafik tingkat

tinggi (model linier dan nonlinier), pengujian statistika, analisis deret waktu,

klasifikasi, kluster, akses ke bahasa pemrograman yang lainnya dan fasilitas

perbaikan kesalahan (debug).

Beberapa hal yang dimiliki oleh R antara lain

• Pengaturan data dan fasilitas penyimpanan yang efektif

• Operator yang cocok untuk perhitungan array dan matrik

• Tools Colection yang bisa digunakan untuk analisis data

• Fasilitas grafik untuk analisis data dan menyediakannya pada komputer atau

hardcopy

• Bahasa pemrograman yang sederhana, efektif dan dikembangkan dengan baik

yang meliputi syarat, pengulangan, fungsi rekursif dan fasilitas input serta output.

Page 21: BAB 2 LANDASAN TEORI - thesis.binus.ac.idthesis.binus.ac.id/doc/Bab2/2006-2-01278-MTIF-Bab 2.pdf · hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean

27

R-Language adalah versi lain dari S. R dikembangkan pada laboratorium

Bell oleh John M Chambers dan rekan-rekan pada tahun 1980 dan sejak itu telah

dipakai secara luas dalam komunitas statistika. John M Chambers sendiri telah

mendapat penghargaan “1998 ACM Software Systems For S”. Ada banyak

kesamaan antara S dan R, namun ada juga beberapa perbedaan yang penting. S

dipakai jika kita ingin menggunakan software yang sifatnya komersial, karena R –

Language merupakan suatu software yang bisa diperoleh secara gratis dengan

cara men”download” dari http://www.r-project.org .Versi terbaru dari R Language

adalah versi {2.2.1} (download tanggal 20 Desember 2005). Untuk mengikuti

perkembangan software R, maka penelitian ini menggunakan R versi terbaru.

Sintaks yang digunakan dalam R memiliki sedikit kesdamaan dengan C

Language. Kelebihan dari R adalah menyediakan “computing on the language”

yang memungkinkan untuk membuat suatu fungsi yang mengambil sebuah

ekspresi sebagai input, sesuatu yang sangat sering digunakan dalam permodelan

statistika dan grafik. R sudah menyediakan banyak paket-paket fungsi yang bisa

digunakan untuk komputasi statistik, tetapi fungsi-fungsi tersebut bisa dikodekan

sendiri, mengingat beberapa pengguna lebih suka menulis sendiri fungsi yang

akan dipakai.