· tesjs pe !uhan sandw/othuntuk regresi...

· TESJS

PE !UHAN SANDW/OTHUNTUK REGRESI NON.PAAAMETRIK KeRNEL OEI'JGAN ETOD~

RULE OF THIJM " SHJSArA OA CROSS VALIDA nON

0/eh:

PERPUSTAK.-\AN

t T S

Terihla Dari

PROGRAM STVDI MAGISTER JURUSAN STA TIS1'JKA

FAKULTAS MATEMATIKA DAN IL P NGETAitUAN Al.AM . INSTITUTTEKNOLOOJ SEPULUH NOPEMBER

SUitABAYA 2006

PEMJL,.·~~ r....,..n

NONP · oWt&ltu ICON£ RULE OF THUMJJ,

T:elah dis · un.

is:

5.Dr.Pm Nl:P. l)l 52

6.pr.~~.i. NIP. i3l 843 380

VK REGitESI --~.,.., ~ 0 .

. .,.,~r VALIDATION

Tan gal \Jjian : l I J • 2006 Periode Wisuda: S tembet 2 6

(Pembimbing I)

(Pembirdb~g II)

(J>enguji)

(Penguji)

BANDWIDTH SELECTOR FOR NONPARAMETRIC KERNEL REGRESSION WITH RULE OF THUMB METHOD,

SHIBATA AND CROSS VALIDATION

By Supervisor Co-Supervisor

: Moh. Hafiyusholeh : Dr. Drs. I Nyoman Budiantara, MS. :Jr. Mutiah Sal:umth Chamid, M.Kcs.

ABSTRACT

The choice of bandwidth is crucial in the nonparametric estimation procedure. When bandwidth is too small, the resulting curve is too under smoothing. When bandwidth is too large, the resulting curve is over smoothing.

In this research we study three existing bandwidth selectors for nonparametric kernel regression. The first method is based on Mean Squared Error estimate. With penalize Shibata and leave-one-out estimate, bias term of Mean Square Error cancel

asymptotically. The other method is based on Q= E[rn11 (x)-m(x)f by combining bias

and variance and then derive it to h, we obtained Rule of Thumb bandwidth selector

hliOT.

With illustrate three methods to the data we examine represent the voltage drops in the battery of a guided missile motor during its flight (Eubank, 1988). We obtained

hopt Shibata 0.9500, huor 0,3402 and hopr Cross Validation 0,3050. The value of MSE

and R2 is 0,0137 and 0,9978 for Cross Validation, 0,0617 and 0, 9898 for Rule of Thumb and 0,0727, 0,9878 for Shibata.

Key words: Nonparametric kernel regression, Rule-of-Thumb bandwidth, Penalize Shibata, Cross Validation

ii

PEMILIHAN BANDWIDTH UNTUK REGRESI NONPARAMETRIK KERNEL DENGAN METODE

RULE OF THUMB, SHIBA 1:.4 DAN CROSS VALIDATION

Nama mahasiswa : Mob. Hafiyusholeh NRP : 1304 201 019 Pembimbing : Dr. Drs. I Nyoman Budiantara, MS. Co-Pembimbing : Ir. Mutiah Salamah Chamid, M.Kes.

ABSTRAK

Pemilihan bandwidth dalam estimasi nonparametrik merupakan sesuatu yang sangat krusial, jika ditetapkan bandwidth yang terlalu kecil, maka akan berakibat estimasi kurva regresi undersmoothing. Begitu juga sebaliknya jika ditetapkan bandwidth yang terlalu besar, maka akan menyebabkan estimasi kurva oversmoothing.

Dalam penelitian ini kita mengkaji tiga metode pemilihan bandwidth untuk regresi nonparametrik kernel . Metode pertama berdasar pada estimasi Mean Square Error. Dengan menetapkan penalize Shibata dan leave-one-out estimate, maka bias dari Mean Square Error (MSE) akan terhapuskan. Metode lain berdasar pada

Q=E[mh(x)-m(x)]2 dengan mengkombinasikan antara bias dan varians dan

menurunkannya terhadap h didapatkan bandwidth Rule ofThumb hum .

Dengan menerapkan ketiga metode tersebut ke dalam data penurunan voltage baterai dari motor peluru kendali selama waktu penerbangan (Eubank, 1988) diperoleh hopr Shibata sebesar 0.9500, Rule ofThumb sebesar 0,8170 dan Cross Validation sebesar 0,3050. Nilai MSE dan R2 masing-masing metode sebesar 0,0137 dan 0,9978 untuk Cross Validation, sedangkan untuk ROT sebesar 0,0617 dan 0,9898 serta Shibata sebesar 0,0727, dan 0,9878.

Kata kunci: Regresi nonparametrik kernel, Rule-of-Thumb bandwidth, Penalize Shibata, Cross Validation

Ill

KATA J>ENGANTAR

~'~'~-~

.-1/lullnrlu/il/uu!Ji Nuhhi/ :l!umii11 . Sl' l'.:d:1 p11ji h:wi /\ ILd1 S WT. v:11w ll·Ld1

mcmhcrikan rahmat. hidayah. pdunjuk. kl·kualan dan kcsah;1ran pada pcnuli s sl'11ingga

dapat menyelesaikan tesis ini dengan judul : Pemilihan Bandwidth untuk Regresi

Nonparametrik Kernel dengan Metode Rule of Thumb, Shibata dan Cross

Validation. Shalawat dan salam penulis haturkan kepada Nabi besar Muhammad SAW

yang telah membawa dienul Islam. Tesis ini disusun untuk memenuhi salah satu

persyaratan mencapai jenjang Magister Sains (M.Si.) pada Program Magister Statistika,

Fakultas Matematika dan Ilmu Pengetahuan Alam, ITS Surabaya.

Penulis menyadari sepenuhnya bahwa tesis ini dapat diselesaikan, tidak terlepas

dari berbagai pihak baik secara langsung maupun tidak, dengan memberikan dorongan,

bantuan dan bimbingan kepada penulis. Untuk itu pada kesempatan ini penulis

mengucapkan banyak terima kasih yang sedalam-dalamnya kepada :

1. Bapak Dr. Drs. I Nyoman Budiantara, MS. selaku Koordinator Program Studi S2

Statistika ITS, sekaligus sebagai dosen pembimbing utama, yang dengan penuh

kesabaran dan tidak kenallelah, memberikan bimbingan, arahan serta motivasi.

2. Ibu Ir. Mutiah Salamah Chamid, M.Kes. , selaku Ketua Jurusan Statistika ITS

sekaligus dosen pembimbing kedua yang juga telah ban yak memberikan pengarahan

dan motivasi selama proses penulisan.

3. Para dosen pengajar yang dengan tulus telah memberikan wacana keilmuan kepada

penulis, beserta staf administrasi akademik, laboratorium komputasi dan ruang baca

Jurusan Statistika yang telah banyak membantu penulis selama masa studi .

IV

4. lbu Evawati Alisah, M.Pd dan Pimpinan STIMIK Malang yang telah memberikan

bantuan dan kesempatan kcpada penulis untuk melanjutkan pcndidikan di Program

Magister Jurusan Statistika ITS.

5. Orang tua dan istriku yang tercinta. Siti Shun'ah llasanah yang tclah hanyak

berkorban dengan segala kasih sayang, do'a dan motivasi kepada penulis. Semoga

Allah SWT memberikan yang terbaik untuk mereka.

6. Saudara- saudariku yang telah banyak memberikan pelajaran akan kehidupan.

7. Saudara-saudaraku seangkatan 2004 di Program Magister Statistika ITS yang

narnanya tidak sempat penulis sebutkan satu persatu, atas kcbcrsamaan,

kekompakan, bantuan dan masukannya selama masa perkuliahan. Semoga kita

mendapat ilmu yang Nafi', diberi ke-Sclamet-an, Maunah. dan diberi kehidupan

yang Sriyani.

Akhirnya penulis berharap dan memohon semoga bantuan yang telah diberikan

mendapat Ridho serta balasan yang setimpal dari-Nya. Sebagai suatu karya ilmiah

penulis berharap masukan dan kritikan. Semoga tesis ini dapat memberikan manfaat dan

mendapat ridho dari Allah S WT. Am in.

Surabaya, Agustus 2006

Penulis

v

LEMBAR PENGESAHAN

ABSTRACK

ABSTRAK

KATA PENGANTAR

DAFTAR lSI

DAFT ART ABEL

DAFT AR GAM BAR

DAFTRA LAMPIRAN

BABI.PENDAHULUAN

1.1. Latar Belakang

1.2. Rumusan Masalah

1.3. Tujuan Penelitian

1.4. Manfaat Pene1itian

1.5. Batasan Masalah

BAB II TINJAUAN PUSTAKA

2.1. Regresi Nonparametrik

2.1.1. Estimator Kernel

DAFTAR lSI

2.1.2. Regresi Nonparametrik Kernel

2.1.3. Estimator Least Square

2.2. Rule ofThumb (ROT) Bandwidth

2.2.1. Rumus Taylor

2.2.2. Turunan Matriks

2.2.3. Kriteria Asimtotik

2.3. Fungsi Penalize

2.4. Cross Validation (CV)

VI

1-lahtman

ll

iii

iv

vi

viii

ix

X

3

4

4

4

5

5

6

7

8

9

10

10

11

12

12

BAB III METODOLOGI J>ENELITIAN

3 .1 . Bahan dan Alat

3.1. Metode Penelitian

BAB IV HASIL DAN PEMBAHASAN

4.1. Rule ofThumb (ROT)

4.2. Bandwidth Shibata


4.4. Aplikasi

4.3.1. Bandwidth Shibata

4.3 .2. Rule of Thumb Bandwidth

4.3.3. Metode Cross Validation

BAB V KESIMPULAN DAN SARAN

5.1. Kesimpulan

5.2. Saran

DAFTAR PUST AKA

Vll

13

13

13

15

15

29

39

42

45

4R

50

55

55

57

58

DAFTAR TABEL

Tabel Keterangan hal

Tabel4. 1 Berbagai nilai bandwidth yang diperoleh dengan metode Shibata 45

Tabel 4. 2 Berbagai nilai CV dan Bandwidth (h) 50

Tabel 4. 3 Nilai SSE, MSE dan R2 dari masing-masing metode 54

Vlll

DAFT AR GAM BAR

Gam bar Keterangan hal

Gambar4.1 Plot antara voltage drop dengan waktu 42

Gambar4.2 Estimasi kurva regresi nonparametrik dengan h = 0,100 43

Gambar4.3 Estimasi kurva regresi nonparametrik dengan h = 3,000 44

Gambar 4.4 Plot antara bandwidth dengan Shibata 46

Gambar 4.5 Plot estimasi nonparametrik kernel dengan h = 0,9500 47

Gambar4.6 Plot estimasi kurva regresi dengan bandwidth ROT 49

Gambar4.7 Nilai CV dan bandwidth 51

Gambar4.8 Estimasi kurva regresi dengan bandwidth CV 52

Gambar4.9 Plot gabungan taksiran kurva regresi 53

IX

DAFTAR LAMPIRAN

Lamp iran Keterangan hal

A Data penurunan voltage baterai dari motor peluru kendali 60

selama waktu penerbangan

B Program Regresi Nonparametrik Kernel, SSE, MSE, dan R2 61

c Program mencari bandwidth optimal dengan:

0 Rule of Thumb 62

0 Shibata 63

0 Cross Validation 64

D Pengujian Asumsi Residual 65

E Pengujian Data dengan Kuadratik dan Kubik 71

X

BABI

PENDAHULUAN

BABI

PENDAHULUAN

1.1. Latar Belakang

Analisis regresi merupakan salah satu alat statistik yang banyak digunakan

untuk mengetahui hubungan antara sepasang variabel atau lebih. Hubungan yang

didapat pada umumnya dinyatakan dalam bentuk persamaan yang menyatakan

hubungan fungsional antara variabel-variabel. Misalkan Y adalah variabel respon

m(X) adalah variabel prediktor, maka untuk n pengamatan hubungan variabel

dapat dinyatakan dalam bentuk :

I; =m(X,)+c,, i=1,2, .. . ,n ( 1.1)

dimana m(X;) adalah fungsi regresi atau kurva regresi , dan £ , adalah suatu variabel

random yang diasumsikan independen identik dengan mean 0 dan varians CY2

•

Ada dua pendekatan yang dapat digunakan untuk mengestimasi m yaitu

pendekatan parametrik dan nonparametrik. Pendekatan parametrik digunakan bila

bentuk fungsi m diketahui berdasarkan pada teori atau pengalaman masa lalu.

Sedangkan pendekatan nonparametrik digunakan bila tidak ada asumsi tentang

bentuk kurva atau fungsi regresi .

Dalam regresi nonparametrik, ada beberapa pendekatan yang dapat

digunakan antara lain histogram, kernel, deret orthogonal , spline, dan lain-lain

(Hardie, 1990). Pendekatan kernel diperkenalkan oleh Rosenblatt (1956) untuk

mengestimasi fungsi densitas.f{x) yaitu :

J;, (X) = _1 I K (X- X; ) . nh i=J h

(1.2)

dengan K(.) adalah fungsi kernel dan h adalah bandwidth.

Dalam pendekatan kernel, bentuk estimasinya dipengaruhi oleh fungsi kernel

K(.) dan bandwidth h. Bandwidth h adalah parameter penghalus yang berfungsi

untuk mengontrol kemulusan dari kurva estimasi. Bandwidth yang terlalu kecil akan

menghasilkan kurva yang undersmoothing, yaitu sangat kasar dan sangat fluktuatif

dan sebaliknya jika bandwidth terlalu besar, maka akan menghasilkan kurva yang

over smoothing.

Cara untuk menentukan bandwidth dapat dilakukan dengan cara coba-coba,

sehingga yang harus dilakukan adalah mencoba beberapa nilai ham/width kemudian

ni lai tersebut dimasukkan dalam taksiran fungsi kernelnya. Namun cara ini kurang

efektif karena memerlukan sense yang eukup tinggi untuk mengamhil keputusan

bahwa taksiran cukup halus. Dari sinilah kemudian para ahli berusaha

mengembangkan metode pcmilihan bandwidth yang bisa digunakan untuk

mendapatkan taksiran yang tepat.

Metode yang dimaksud adalah dengan menurunkan suatu formula untuk

mendapatkan suatu bandwidth yang optimal melalui Q = E[m 11 (x)- m(x) 12 • Tapi

sayangnya hasil bandwidth optimal yang diperoleh masih mengandung suatu fungsi

m dan cr yang tidak diketahui. Silverman (1986) menawarkan metode pemilihan

bandwidth yang kemudian dikenal dengan Rule l~{ Thumb ( R07) . Prinsip yang

mendasarinya adalah dengan mendekati fungsi yang tidak diketahui tersebut dengan

pendekatan parametrik biasa.

Selain dengan metode diatas, bandwidth yang optimal dapat juga diperoleh

melalui pendekatan fungsi Loss (L(h)), Rice (R(h)) atau Prediction Rice (p(h)). tapi

sayangnya diantara ketiganya tidak satupun yang dapat dihitung karena mengandung

2

fungsi m(x) yang tidak diketahui. Oleh karena itu, hal yang memungkinkan agar

didapatkan bandwidth yang optimal adalah dengan mengganti fungsi m(x) tersebut

dengan Y yang oleh Hardie (1990) disebut dengan istilah resuhslilution estimate atau

Mean Square Error (MSE). Tapi temyata dengan pendekatan MSE tersebut masih

mengandung bias untuk p(h).

Shibata (1980) dan Shibata (1981) mengkonstruksi suatu penalize pada

Mean Square Error (MSE) agar taksiran yang dihasilkan tidak bias terhadap p(h),

atau dengan kata lain bias pada MSE setelah diberi penalize Shibata akan

terhapuskan. Cara lain untuk menghilangkan bias dari MSE adalah dengan

menggunakan leave-one-out estimate yang kemudian lebih dikenal dengan istilah

Cross Validation (Hardie, 1991 ).

Untuk mendapatkan gambaran seberapa baik masing-masing metode

pemilihan bandwidth, maka akan diterapkan pada data penurunan voltase baterai

motor peluru kendalai selama waktu penerbangan. Data diambil dari Eubank ( 1988).

1.2. Rumusan Masalah

Berdasarkan ura1an diatas, maka rumusan masalah yang dapat penulis

kemukakan adalah:

I. Bagaimana mendapatkan bandwidth dengan metode Rule-of-Thumb ?

2. Bagaimana mendapatkan bandwidth dengan metode Shibata?

3. Bagaimana mendapatkan bandwidth dengan metode Cross Validation?

4. Bagaimana penerapan pemilihan bandwidth diatas untuk regresi

nonparametrik kernel dalam data penurunan voltase baterai motor peluru

kendali?

3

1.3. Tujuan Penelitian

Berdasarkan rumusan masalah diatas. maka tujuan dari penclitian ini adalah:

I. Mengkaji pemilihan bandwidth dengan metode Rule-of~l'humh untuk model

regresi nonparametrik kernel.

2. Mengkaji pemilihan bandwidth dengan metode Shibata.

3. Mengkaji pemilihan bandwidth dengan metode Cross Validation.

4. Menerapkan metode pemilihan bandwidth untuk regresi nonparametrik kernel

pada data penurunan voltase baterai motor peluru kendali.

1.4. Manfaat Penelitian

Manfaat yang diharapkan dari hasil penelitian 1111 adalah mampu

mcningkatkan wawasan keilmuan khususnya yang berkaitan dengan model regrcs1

nonparametrik dengan menggunakan estimator kernel. Disamping itu juga dengan

adanya penelitian ini diharapkan dapat memberikan informasi alternatif metode

pemilihan bandwidth yang optimal dari estimator kernel.

1.5. Batasan Masalah

Mengacu pada rumusan masalah diatas, maka ruang lingkup dari penelitian

1m akan dibatasi pada regresi nonparametrik kernel dengan menggunakan

pendekatan lokal konstan dengan metode Rule of Thumb, Shibata dan Cross

Validation.

BABII

TINJAUAN PUSTAKA

2.1 Regresi Nonparamctrik

BAB II

TIN.JAUAN J>USTAKA

Istilah regresi diperkenalkan pertama kali olch Franci s Galtom pada talmn

1885 berkaitan dengan eksperimen antara hubungan tinggi orangtua dengan anaknya

(Draper and Smith, 1966). Dalam regresi parametrik diasumsikan bahwa bentuk

kurva regresi diketahui . Pembuatan asumsi tersebut berdasarkan pada teori,

pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberikan

pengetahuan atau informasi yang terperinci.

Estimasi dapat juga dilakukan berdasarkan suatu pendekatan yang tidak

terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan t1eksibilitas

yang lebih besar. Metode dengan pendekatan ini dinamakan dengan pendekatan

nonparametrik yang mulai dikenal sejak abad ke-19.

Misalkan y adalah variabel respon dan x adalah variabel prediktor. Secara

umum hubungan variabel dapat dinyatakan sebagai Y; = m(XJ + r:;. i = I , 2. 3 . ... n

dimana &; adalah variabel random yang diasumsikan identik independent dengan

mean nol dan variansi d . Fungsi m(x) adalah fungsi yang tidak diketahui yang

disebut sebagai fungsi regresi atau kurva regresi. Fungsi regresi m(x) hanya

diasumsikan termuat dalam suatu ruang fungsi yang berdimensi tidak hingga.

Kemudian estimasi m(x) dilakukan berdasarkan data pengamatan dengan teknik

penghalus tertentu (Hardie, 1990).

Ada beberapa tehnik penghalus dalam regresi non paramctrik, antara lain

hi stogram, estimasi kernel, estimasi deret orthogonal, estimasi spline, k-NN, deret

Fourier, dan Wavelet.

2.1.1 Estimator Kernel

Estimator kernel diperkenalkan pertamakali oleh Rosenblatt pada tahun 1956

dan Parzen pada tahun 1962 dengan menentukan pembobot pada masing-masing

observasi dalarn himpunan data (Kweon dan Koekelman, 2004). Salah satu kelebihan

dari estimator kernel adalah bentuknya lebih fleksibel dan mudah disesuaikan .

Beberapajenis fungsi kernel dapat disajikan scbagai berikut: (llardle, 1990):

a. Kernel Gaussian: K(u) = .5; exp(- ~ u2) 1(-oo,oo)(u)

b. Kernel Epanechnikov: K(u) = % (1 - u2) 1[-I ,l](u)

15 2 2 c. Kernel Kuadrat : K(u): g (1 --4u ) 11-05: o.st(u)

d. Kernel Uniform: K(u) = ± 1t-I.I[(u)

e. Kernel Segitiga: K(u) = 0-lul) 1r-I .IJ(u)

Secara umum fungsi kernel untuk dimensi satu didefinisikan sebagai berikut :

(2.1)

Kernel K merupakan fungsi yang kontinu, terbatas, simetrik, dan terintegral

"' ke satu, J K(u)du=1. (Hardie, 1990).

- co

Jika suatu kernel memenuhi syarat berikut,: (Silverman, 1986)

<f)

1. J K(u)du=l

<Xl

11. J u K ( u) du = 0

"' Ill. J u 2 K(u)du :t: 0

"' IV. J K(u)2 du <oo,

maka kernel K disebut bcrordo 2.

2.1.2 Rcgrcsi Nunpanamctl'ik Kernel

Estimasi regresi nonparametrik kernel dengan menggunakan

linear konstan menggunakan sam pel random (x;, y;), i = 1, ... , n. Estimasi

y = m(x) diperoleh dengan meminimumkan:

n n

~~>-/Kh(x-X;) = l)Y; -[50 +o1(x-X;)+ .... +of'(x-X;)"]}2 K,(x-X;) i=l i=l

K disebut fungsi kernel dan h disebut sebagai bandwidth. Estimator o

hasil dari optimasi least square yang terboboti.

Pemilihan bandwidth yang optimal tergantung pada kriteria yang digunakan

Kriteria yang biasa digunakan adalah: (Eubank, 1988) dan (Hardie, 1990)

(Rice, 1984 ).

n

a. Fungsi Loss L(h) = n-1L(m(X1)-mh(X))2

J=l

n

b. Fungsi Risk R(h) = E[n- 1I(m(X1)-m11 (X)) 2

]

J=l

7

2.1.3 Estimator Least Square

Ide yang melatar belakangi metode Least Square adalah untuk mcmilih

estimator dengan jalan meminimumkan sum of square residual guna mendapatkan

estimator jJ0,/31, fJ2, ... , fJ* . Misal diberikan model :

y =X~+ E

Dimana y adalah vektor n x 1, E adalah vektor random n x 1 dari residual dan ~

adalah vektor (k + 1) x 1 dari estimator untuk koefisien flo, fJ~' /J2 , ... , fJk, serta X

adalah matrik full rank n x (k + 1) dari bilangan riil.

Untuk mendapatkan /30 ,/J,, ... ,A dengan metode least square,

diperoleh dengan ·cara meminimumkan sum ofsquare dari residual.

II

t/t: = LB;2 i=l

Teorema 2.1

Jika y =X~+ E dimana X adalah matrikfull rank n x (k+ 1), fJ adalah vektor (k + I

x 1 dari parameter yang tidak diketahui, dan t: adalah vektor random n x 1 de

mean 0 dan variansi d! Estimator least square untuk P dinotasikan

oleh p = (X~'Xr' X~'y (Myers dan Milton, 1991)

Bukti:

Vektor dari residual t:dapat ditulis sebagai: E = y- X~. Sehingga:

Karena ~1X1y adalah I x I , ~ 1X 1y = (~1X 1y)1 = y ' X~, maka dcngan substitusi

Untuk meminimumkan 1/£ sebagai fungsi dari fJ. maka kita turunkan

terhadap fJ kemudian menyamakannya dengan no!

untuk mendapatkan ~ kita kalikan kedua ruas dengan (X1 Xr1,

sehingga didapat :

2.2. Rule of Thumb (ROT) Bandwidth

Taksiran fungsi regresi rnh(x) bergantung pada h. Lebih khusus, jika nilai h

semakin kecil, maka bias juga semakin kecil akan tetapi varians akan bertambah

besar. Begitujuga sebaliknya jika nilai h semakin besar, maka bias akan cenderung

besar dan varian akan semakin kecil. Berkaitan dengan bias dan varian, maka h yang

optimal dapat diperoleh dengan meminimumkan Q= E[m11 (x) - rn(x)]2 terhadap h.

Rule of Thumb pertamakali ditemukan oleh Silverman (1986) kaitannya dengan

kernel. Prinsip yang mendasarinya adalah dengan mendekati fungsi yang tidak

diketahui dengan parametrik, sehingga

2.2.1. Rumus Taylor (Purcell dan Varberg, 1995)

Andaikanfadalah suatu fungsi dengan turunan ke (n + l), f<" ' ') (x) ada untuk

setiap x pada suatu sclang buka I yang mcngandung a, maka untuk sctiap x di I

f(x) = f(a)+ f'(a)(x-a) + f"(a) (x - a) 2 + .. . + f"(a) (x - a)" + R" (x) 2! 11!

/ (n+IJ( ) Dimana sisa R, (x) diberikan oleh rum us R" (x) = a (x- a)"+1 + ...

(n + l)!

2.2.2. Turunan Matriks

Misal

A= [ aij J simetris orde p serta B = [ b;1 J berukuran p x q.

I. Jika Z = arx , maka tunman Z ke x diberikan oleh:

2. Jika Z = arBy , maka turunan Z ke B diberikan oleh:

3. Jika Z = xrAx , maka turunan Z ke x diberikan oleh:

az =2Ax ax

4. Jika Z = xrAx, maka turunan Z ke A diberikan oleh :

az r T - = 2.xx - diag(.xx ) a A

2.2.3. Kriteria asimtotik

Dalam teori estimasi, terdapat beberapa pendekatan untuk mengetahui sifat

sifat baik suatu estimator. Dalam banyak kasus, tidak semua persoalan teori esti

dapat didekati dengan sampel berukuran kecil (eksak). Tetapi sering suatu persoal

estimasi , menyarankan kita menggunakan sampel berukuran besar.

Bcrkaitan dcngan kriteria asimtotik estimator bandwidth, maka akan dibah

mcngcnai kritcria asimtotik hig Oh dan lillie Oh, scrta sil~tt kckonvcrgcnannya.

Big Oh dan Little Oh (Rohatgi, 1976)

Notasi yang sering digunakan dari Big Oh dan Little Oh adalah 0(.) dan o(.

Misalkan.fdan g dua fungsi yang terdefinisikan pada bilangan real x.

a. Fungsi j(x) dikatakan most of order dari g(x), x ~co, ditulis dengan simbol

f(x) = O[g(x)], x ~co, jika terdapat suatu konstan M <co sehingga f(x) < M g(x)

b. Fungsi j(x) dikatakan smaller order dari g(x), x ~co, ditulis dengan

f(x) = o[g(x)], x ~co, jika lim f(x) = 0. x->oo g(x)

Beberapa sifat yang dimiliki oleh 0(.) dan o(.) adalah sebagai berikut :

(i) Jika.fi(x) = O[g1(x)], h(x) = O[g2(x)] maka.fi(x) + h(x) = O[g,(x) + g2(x)]

(ii) Jika a> 0 konstan,j(x) = O[ag(x)] makaj(x) = O[g(x)]

(iii) Jika.fi(x) = O[g1(x)] danh(x) = O[g2(x)] maka.fi(x).fi(x) = O[g,(x) g2(x)]

(iv) Jikaj(x) = o[g(x)] makaj(x) = O[g(x)]

(v) Jika.fi(x) = O[g1(x)],.f2(x) = o[g2(x)] maka .fi(x)h(x) = o[g,(x) g2(x)]

2.3. Fungsi Penalize

Beberapa fungsi penalize antara lain : (Hardie, 1990)

I. Shibata's model selector 2s ( u) = 1 + 2u

2. Generalized cross validation 2 c;a (u) = (1 - u) 2

3. Akaike's information criterion 2 A1c (u) = exp(2u)

4. Finite prediction error 2FJ'J: (u) = 1 + u

1-u

5. Rice's T 2 1 (u) = (1- 2uf1


Metode cross validation pertama kali diperkenalkan oleh Rudemo pada la

1982 (Silverman, 1986). Cross validation merupakan leave-one-out method

berdasar pada regression smoother dimana observasi ke-j dihilangkan.

1990).

m,)X1) = (n-I)- 1LWh;(X)Y; l'l'j

Sehingga:

CV(h) = n-1 ICY;- mh,;CXJ ))2

i'l'j

BAB III

METODOLOGI PENELITIAN

BAB Ill

METODOLOGI PENELITIAN

3.1 Bahan dan Alat

Bahan dan alat yang digunakan dalam penelitian ini adalah :

1. Jurnal dan referensi yang terkait dengan permasalahan di atas.

2. Softwere minitab, matlab, dan microsoft excel.

3. Data penurunan voltase baterai motor peluru kendali selama w

penerbangan dengan data sebanyak 41 (Eubank, 1988).

3.2 Metode Penelitian

Metode yang akan dilakukan berkaitan dengan penelitian ini adalah:

1. Mendapatkan Rule of Thumb (ROT) dengan langkah-langkah seb

berikut:

a. Mendefinisikan Q dimana :

Q= E[(m,(x) - m(x)f] = ([Bias{m11 (x)} f + Var{m;, (x)})

b. Memperlihatkan bahwa;

Bias{m,(x)} = { Jx2 K(x)dx}-1-m" h2

+o(h) (2)!

c. Meminimumkan Q terhadap h sehingga didapat hopt :

2. Mengkaji ketidakbiasan metode Shibata dengan langkah-langkah se

berikut:

II

a. Mendefinisikan fungsi Loss L(h)=n-1I(m(X, ) - ti711 (X , )) 2

j=l

b. Mendefinisikan fungsi Risk R(h) = E[L(h)]

c. Mendefinisikan prediction risk p(h) = a 2 + R(h)

II

d. Menunjukkan bias dari MSE terhadap p(h) adalah -2n-2a 2I~.,(X, ) I I

e. Memberikan penalize Shibata kcdalam model , schingga dipcrolc

unbias estimate untuk p(h).

3. Mengkaji ketidakbiasan CV, dengan langkah-langkah sebagai berikut:

a. Mendefinisikan CV dimana:

n

CV(h) = n- 1 L[}~ -m11./X)] 2

J=l

b. Mendapatkan unbias estimate untukp(h).

4. Membandingkan metode Rule of Thumb, Shibata dan Cross Validation pad

data penurunan voltase baterai motor peluru kendali dengan langkah .~ ......... ~.

sebagai berikut:

a. Plot data antara variabel prediktor (x) dengan variabel respon (y).

b. Mendapatkan bandwidth optimal dengan metode Shihala dan Rule

Thumb (ROT) serta Cross Validation (CV).

c. Mendapatkan estimasi kurva regresi nonparametrik kernel.

d. Menghitung dan membandingkan nilai MSE dan R2 dari meto

Shibata, Rule ofThumb (ROT), dan Cross Validation (CV) .

BABIV

HASIL DAN PEMBAHASAN

BABIV

HASIL DAN PEMBAHASAN

Pemilihan bandwidth dalam regresi nonparametrik kernel mcrupakan suatu

hal yang sangat pcnting. Jika handwidth h tcrlalu kcciL muka cstimasi kurva yan

dihasilkan akan cenderung kasar, sebaliknya jika handwidth h tcrlalu bcsar,

akan menghasilkan estimasi yang oversmoothing Bcrikut ini dibcrikan pcmili

bandwidth optimal dengan metode Rule ldThumh, S'hihata dan ('ross Validation.

4.1 Rule of Thumb (ROT)

Rule of . Thumb memilih bandwidth optimal dengan memm1m

Q = E[m11 (x) -m(x)f terhadap h. Pertama ditunjukkan Q dapat dikompos·

menjadi bias kuadrat dan varians, sebagai berikut:

Q=E[m~r(x)-m(x)]2

= E[m11 (x)- E(m11 (x)) + E(mh(x)) -m(x)f

= E[(mh(x)-E(m11 (x))) 2 +(E(m11 (x))-m(x))2 +

+ 2(m11 (x)- E(m11 (x)))(E(m11 (x))- m(x))]

= E[(m11 (x)- E(m11 (x)))2] + (E(m11 (x)- m(x))2 +

+2(E(m11 (x)) - E(m11 (x))(E(m11 (x))- m(x))

= E[(m~r(x)-E(mh(x))) 2 ]+(E(mh(x)-m(x))2 +0

= (E(m11 (x))- m(x)) 2 + E[(mh(x)- E(mh (x))2]

= (Bias(m11 (x))) 2 + Var(m11 (x)).

dengan

(Bias(m11 (x))) 2 = (E(m11 (x))- m(x)/ ( 4 .1)

(4.2)

Untuk mendapatkan h11m terlebih dahulu akan dikaji bias dan varians dari

m11 (x). Merujuk pada hasil penguraian Q diatas, maka perlu untuk mengetah

m11 (x). Misal diberikan data (X;. Y;) dan diasumsikan mengikuti model regrcsi :

Y, = m(X,)+c, , c,- iid(O,a2), i = I, 2, 3, ... , n. (4.3)

Fungsi m(Xi) didekati dengan polinomial derajad p (Jia dan Schucany, 2004).

I'

m(XJ= Io;<x-XY j =O

= 00 + o1(x- X;)+o2(x- X,) 2 + ... +o"(x- X,)"

dengan oi konstan yang tidak diketahui.

Untuk mendapatkan estimasi model tersebut, digunakan metode weight

least square, dengan meminimumkan :

11 /J

I&/K~r(x-X;) = L{Y; -m(XJ}2 K 11 (x-X;)

i=l i=l

II f'

= L{Y;- Io/x-XJ'}2K11 (x-X,) (4.4)

1=1 j =O

dimana K adalah fungsi kernel dan h adalah bandwidth.

Misalkan

Kr = diag[ K11 (x-X;), i = 1, 2, 3, ... , n ],

dan

x, ...

(\' - .\ ',)

(X . . \'., )

(x-X11

)

(\' -- .\', ) ''

(.\' .\', ) ' '

(x-XJ ''

maka persamaan ( 4.4) dapat ditulis dalam bentuk matriks:

M = (Y - Xp.x 8} T Kx(Y - ~>.x 8}

T T = (Y - (Xp.x 8) ) l(r(Y- ~J.x 8)

T T T 5\IT s: = Y /(~ Y- ( Xp.x 8} Kx Y- (Xp.x 8} /(\. Y + (Xp .. r u; K, Xp.x V

T T T = Y Kx Y - 2(Xp.x 8} Kx Y + (Xp.x 8} Kx Xp.x 8

Untuk mendapatkan estimasi 8 maka kita turunkan M terdadap cS kemud

menyamakannya dengan 0.

oM T T --= -2X1, ,K .. Y + 2XP .K .XP xeS= 0 88 >' A >'' ,> 0

Dengan mengalikan masing-masing ruas dengan (X: .. xK,X,,.x r 1 , didapat:

Estimator untuk m(X) diberikan oleh:

T Dimana ~ 1 merupakan vektor ( 1, 0, 0, ... , 0) yang berukuran (p + I) x 1.

(Wand dan Jones, 1995).

Jika ditetapkan p = 0 maka

Estimator yang diperoleh disebut dengan estimator nonparametrik lo

constant (Jia dan Schucany, 2004) dengan ~r =(I) dan X = (I I · · · l)r o .•

Atau dengan perhitungan lcbih lanjut akan dipcrolch estimator nonparamctrik kcrnc

scbagai bcrikut:

II

n -1

" K (r- X )Y L..., h • I I

mh(x) = _ _.:.:1-::.!.:,-----n-II K 11 (x- X,)

1=1

II

Persamaan tersebut dapat ditulis: n1h (x) = n- 1 I w,/1 (x)}~ (4. 1=1

Dengan

dan

~ II

J;,(x) = n-1LK11 (x-XJ i=l

Berdasarkan persamaan (4.5), maka bias dari regresi nonparametrik

dapat dicari dengan :

Selanjutnya kita deretkan m(X;) berdasarkan ekspansi Taylor disekitar titik x

didapat:

rn'(x) rn"(x) rn(X;) = m(x)+--(X; - x)+--(X -x/ + ...

I! 2! I

(4 .8)

dimana i = 1, 2, 3, ... , n.

Jika ditulis dalam bcntuk matriks, maka pcrsamaan (4 .8) mcn,iadi :

0 = rn(x)Xo.x +rn'(x)X1.x + ~! rn"(x)X 2.x + .. . (4.9)

dim ana

m(X1

) (Xi - x) \ ' ' ( . I - x) -

m(X2 ) ( X 2 - x) \' ' n= X o,x = X I r = dan x 2,.r =

(. ) -xr '

,

m(X J (X - r) II ' (X, - x/

sehingga persamaan ( 4 . 7) menjadi :

Karena ~/ =(I), maka persamaan diatas dapat ditulis menjadi :

Dengan merujuk pada persamaan (4.1) hahwa Bias niJY) = r(IJ1"(x)) - m(x)

1naka dipnokiJ :

Untuk menyclesaikan persamaan (4.1 0) lcbih lanjut, maka dimisalkan :

- I =n [I I · · · I)

0

0 0

0

~n- ' (K,(x-X,) K,,(x-X,) ··· K,,(x-X,)j: l II

= n-'IK"(x-X,) = u0 i=l

K~r(x-X1 ) 0 0 (X1 -x)

-I [I I] 0 0 (X2 -x)

=n I ...

0 0 K11 (x-X") (X" -X)

(4. I 0)

(4. I I)

-I =n

(X1

- x)

(X) - x) [ K, (X - XI ) K, (X - X 2) . . . K, (X - X,J] -:

(X11 -x)

K 11 (x - X1) 0 0 (XI -x)2

- I [I 1]

0 0 (X2- x)2 = n I ...

0 0 K11 (x-X") (X"-X)2

- I =n [K11 (x-X 1) K 11 (x-X2 ) ••• K 11 (x - X,J]

= n-1 [fcx, -x)

2 K,(x- XJ] = v2

1= 1

(XI - x) l

(X2 -x)2

Secara umum persamaan ( 4.11 ), ( 4.12) dan ( 4.13) dapat ditulis :

n

vk = n- 1 ~)X; -xl K,(x-X;) , k = 0, 1, 2, ... i=l

1 (X -x) Karena Kh(x-X;) = h K 'h , maka:

~ _ -I~(X _ )k ~K(X; - x) vk - n ~ ; x . i= l h h

(4.12)

(4.13

M o I X, -x k " 0 tsa u = , ma ·a /\ - x = hu . sehmgga I ~~ I I

.. ", I J. I u, = L II (/Ill , ) - I\ (Ill)

1 ~ 1 h

0 X -x X -x X X Selan]utnya Au . = ' - ,_1 ; - ,_1 seho111gga h Au - X X

o /_). I h h = h ' /_). I - I - 1-l

Karena fungsi K merupakan fungsi yang kontinu, terbatas, simetrik dan terintegral

maka:

II

= ~)hu;)k K(u;)6.u; 1~1

n

= fChu)k K(u)du dengan syarat lim ~)hui)k K(ui)6.ui t:.u~o i=l

(401

Dengan memperhatikan syarat kernel berordo 2 yaitu: JK(u)du = 1 dan

fuK(u)du = 0, maka (4011), (4012) dan (4013) menjadi :

(4015)

( 4016)

(4017

Selanjutnya dengan merujuk pada persamaan ( 4.15), ( 4.16) dan ( 4.17) m

persamaan ( 4.1 0) menjadi :

'( ) A-11> I "( ) A-1/ . =m x. u+-m x. ~....-+ ... 2

=m'(x).(lr 1 .0+~m"(x).(lr 1 h 2 f u 2 K(u)du+ ...

I 2 f , =2.m"(x)h u-K(u)du+ ...

= ~h2m"(x) Ju 2 K(u)du + o(h) , h---f 0

Jadi Bias[mh(x)] = ~h2m"(x) Ju2 K(u)du + o(h) ( 4.1

Langkah selanjutnya akan ditentukan variansi dari estimator nonparametri

kemel/oca/ constan. Dari persamaan ( 4.5), maka :

Dengan menggunakan pendekatan yang sama, maka varians dapat di

sebagai berikut:

Misal:

R- - 1 I I - n X 0 .. K .. K .. X 0 .. ,. . . ,.

maka

/\"(x - .\'1)"

0

0

II

= n-1 I K 11 (x- X,) 2

1=1

II .

= In-1(hu;) 0 h-2K(u;)2

i=l

n

=I h!J.u;(hu; )0 h-2 K ( u; )2

i= l

II

= Ih-IK(u;)2t1.u; i=l

()

0

()

0

Dengan memperhatikan persamaan ( 4.15) dan ( 4.19) maka diperoleh :

_ 2 - I;:TA- IRA-1;: -an '=>I '=>I

( 4.19)

(4.20)

24

Dari bias dan varians yang diperoleh dari persarnaan ( 4.18) dan ( 4.20), maka

Q = (Bias(m(x))) 2 + Var(rrz(x))

Dengan memisalkan

dan

maka

(4.21

Bandwidth (h) yang optimal diperoleh dari meminimumkan Q terhadap

kemudian menyarnakannya dengan 0.

2

~ h3(p2(K))2 (m"(x))2 = (j' 2

II K I~ nh

hs = 0'2

II K I~ n(J.L2 (K))2 (m "(x))2

I ( 2 2 )1 /5 · · _ -5 (j' II K II:; Jad1 d1peroleh hopt - n J J

(J.LJ (K))- (m "(x )) -(4.22

I ( 1 J )1 /5 Jadi diperoleh h""' = n -5 cr I~ K 112

1 (p1(K)) (m"(x)t

(4.22)

Berdasarkan uraian di atas, penentuan bandwidth optimal tergantung

m"(x) dan cr2 yang pada kenyataannya tidak diketahui, sehingga pendekatan ini suli

dilakukan. Untuk megatasi hal ini maka Lee dan Hill (200 I) serta Ye, et al (20

mendekati m dengan polinomial derajat p.

(4.23)

Untuk mendapatkan estimator dari fJ, maka digunakan metode least sq

sehingga didapat :

(4.24

Akibatnya diperoleh estimasi untuk m :

Untuk mendapatkan m "(x), kita turunkan m(x) sebanyak dua kali terhadap X.

(4.25

Sedangkan untuk taksiran variansnya

A 2 1 ~ ( A )2 CJ' = --~ Y,- Y;

n- P i=l

(4.2

Dengan mensubstitusikan persamaan (4.25) dan (4.26) ke dalam (4.2

didapat :

Langkah selanjutnya adalah mendapatkan nilai IIKII~ = J K(u)2 du d

J.L2 (K) = Ju 2 K(u)du pada persamaan (4.27). Jika digunakan kernel Gaussian

diperoleh:

1 - - 112

{ 1 ]2

= J2; e 2 du

J 1 _112d = -e u 2Jr

1 J -112 =- e du 2Jr

Misalkan

~ ~

I= J e-u2 du maka I= 2 Je-u

2 du

-~ 0

~ ~

I = 2 e-u du · 2 e-v dv 2 J 2 J 2

0 0

00 00

= 4 J Je-<u2

+v2

)dudv 0 0

= n

sehingga didapat

IIKII~ = _1 Je _"l du - 2Jr

=-1 J; 2Jr

1 = 2£

(4.2

Sedangkan

)12 ( K) = Ju 2 K (11 )du

I I 2

f 2 - - u

= u --e 2 du &

1 f _ _!_11 2 =-- u·ue 2 du

&

Persamaan diatas dapat diselesaikan dengan integral parsial :

fUdV=U·V- fvdU

I l _ \11

2

Misal untuk U = u maka dU = du dan dV = ue-2" . maka V = -e 2 du ole

karena itu,

1 f _ _!_112 f.12 ( K) = r;:;-= u · ue 2 du

"21l"

=1 (4.29

Selanjutnya untuk mendapatkan Rule of Thumb (R07) maka ki

substitusikan persamaan (4.28) dan (4.29) ke dalam persamaan (4.27) didapat:

(4.30)

4.2 Bandwidth Shibata

Pada bagian kedua ini, kita akan menunjukkan prosedur pemilihan bandwidt

yang lain. Pertama-tama kita definisikan dulu fungsi loss.

Fungsi Loss didefinisikan sebagai

II

L(h) = n- 1 ~)m(X1 )- m"(X1 )f ( 4.31) J= l

Rata-rata atau nilai harapan dari [,oss adalah R(h) = Hf /,(h) I yang dischu

s~.:bagai Risk.

II

R(h)= /:,"(n 1L)mtX1

) - rit11 (X,)l"') {4.32) J = l

Baik R(h) maupun L(h) merupakan kriteria yang digunakan untuk men

kebaikan suatu estimator. Nilai terkecil dari kriteria adalah indikasi dari

yang terbaik. Menurut Eubank (1988), pengukuran yang lain yang berhubungan e

dengan R(h) adalah prediksi risk yang kadang-kadang disebut prediksi mean

error yang berhubungan erat dengan R(h), yaitu:

p(h) = a- 2 + R(h). (4.33

Sehingga sebuah estimator yang meminimumkan R(h) JUga

meminimumkan p(h) dan juga sebaliknya estimator yang meminimumkan p(h) j

akan meminimurnkan R(h).

Jadi hal yang mungkin untuk mengestimasi p(h) adalah dengan mean sq

error.

II

MSI~'(h)=n- 1 L(Y, -1n11 (X)) 2 (4.34) ; =I

Akan tctapi MSL'.'(h) ini merupakan estimator yang bias tl:rhadap p(h). Untuk

melihat bahwa MSE(h) bias terhadap p(h), kita uraikan sebagai berikut :

II

MSE(h) = n- 1 L)~ -m11 (X)f ; =I

II

= n- 1 ~)Y/ + m1~(X)- 2(Y,m11 (X1 ))J ; =I

Dengan memperhatikan Y = m(X .) + £ . , maka : J J )

II

MSE(h) = n-1L[ (m(X1) + £)2 + m1~(X;) -2( (m(X) + c)n111 (X)) J J=l

=n-1I[ m2(X)+c/ +2m(X)£1 +m,~(X)+

; =I

II

= n-1L[ m2 (X1 )+£/ +2m(X)£1 +m1~(X)+ J=l

II

= n-1L[ c/ +m2 (X;)+m1~(X)-2m(X1 )m11 (X) J=l

n

= n-1L[ c/ +m2 (X)+m,~(X)-2m(X)m11 (X)+ J=l

(4.3

Karen a

II

L(h) = n-1 ~)m(X)- m11 (X)f J=l

II

= n- 1 ~)m2 (X1 )+m~(X)-2m(X1 )m11 (X)] J=l

maka persamaan ( 4035) menjadi :

n n

MSE(h) = n-1 L e1

2 + L(h)- 2n- 1 L e1 (m11 (X

1 )) - rn(X

1 )) 0

; =I ; =I

Dengan memperhatikan bahwa error e, adalah iid dengan ekspektasi no!

variansi a 2 maka :

= a 2 + R(h)+EC1,, (403

dengan

EC1" = -2n-1 E(It:1(mh(X1)- rn(X1))J 0

;=I

(403

Selanjutnya untuk menguraikan persamaan (4037) lebih lanjut, maka peri

diperhatikan kembali persamaan (406) yaitu:

II

m~~cx) = n-1 I~,;(x)Y; i=l

yang berakibat:

II

m11 (X)=n- 1 L~11 (X1 )Y,, /=I

sehingga persamaan (4037) dapat ditulis:

31

Karena Yi = m(X;) + t:; , maka

(

II [ II II ]) = - 2n-1 E ~ t:1

n-1 ~ ~~~ (X1 )m(X,) + n-

1 ~ ~~~ (X1 )t:,- m(X1 )

IJ IJ

= -2n- 1 IE(t:1 )n-1 I~,;(X)m(X; )+

) =1 i=1

Selanjutnya dengan memperhatikan bahwa E(t:) = 0 dan E(t:/) = cr2

, m

persamaan ( 4.38) menjadi :

" = -2n-2a-

2 LW,,/X1

)

J=l

sehinga

E[MSE(h)] = a- 2 + R(h) + EC1,

" = a- 2 + R(h) - 2n-2a- 2 LW11J(X) J= l

II

= p(h)-2n-2a- 2 IW,,,(X) J= l

;I; p(h)

Dari persamaan diatas terlihat bahwa MSE(h) adalah bias untuk p(h) ,

nilai biasnya :

II

-2n-2a- 2LW,u(X). (4.39) J=l

Untuk mengatasi hal ini maka kita harus memodifikafi MSE(h) sedemiki

rupa sehingga suku bias seperti pada persamaan ( 4.39) terhapuskan (Hardie, 1

dan Rice (1984) serta Hardie, 1991). Untuk cara ini, MSE (h) diberi penaliz

function sibata 's sehingga MSE (h) menjadi:

II

G(h) = n-1 I(~- mit (Xi ))2• (1 + 2n-1W,I/ (X,))

J=l

n

= n- 1L0'/ +mh\X)-2f;m11 (X) · (1 +2n-1W,Ij(X)))

J=l

n .

= n- 1 I[ (m(X j ) + £ } )2 + mh

2(XJ)- 2(m(XJ) + £ } )mlt(X, ) (I+ 2n-

1W,!i (X )) J

i= l

II

= n-1 ~)(m~ (X1

) + c:/ + 2m(X)c:1 + n1112 (X,)+

j = l

n

= n- 1 ~)c:/ +m2(X;)+m 11\X)-2m(X)m11 (X)+ j = l

II

= n-1 _L)t:1

2 + m2(X1

) + m112 (X,)- 2m(X

1 )rn11 (X,) +

J=l

n

=n- 1 ~)c:/ +(m(X;)-mh(X1))2 +2t:/m(X;)-m11 (X;)) (1+2n- 1 ~u(X; ]

J=l

II

= n-1L[ c:/ +(m(X;)-mh(X))2 +2t:/m(X)-m11 (X1 ))+ J=l

11 n

+2n-2L c:/~u(X;)+2n- 1 L (m(X;)-m 11 (X)) 2 ·n- 1~11 (X)+ j = l j = l

Dengan cara yang sarna, karena error 8 adalah iid dengan ekspektasi nol

variansi c/ maka persamaan diatas menjadi:

II II

+2n-1 I E{t:1(m(X) -1n11 (X))} + 2n-2I E(t:) 2

W11,(X) + p i ;=I

II

+2n- 1 I E{(m(XJ) - m,(XJ )) 2}. n- 1 ~1/ (X, )+

;=I

+4n-' ~ E{e, (m(X1 )- ril,, (X, ))W,,, (X,)}]

= CY2 + R(h)+ P+Q+ R +S,

dimana

II

P = 2n-1 I E{t:;Cm(X)-m,(X))} j=l

II

Q = 2n-2I E(t:) 2 ~"(X)

;=I

II

R = 2n-1LE{(m(X)-m,(X))2} ·n- 1 ~y(X)

j=l

II

s = 4n-2 LE{t:1(m(X)-m"(X))W";CX)} }=1

Dengan menguraikan masing-masing persamaan didapat:

II

P = -2n-2CY 2 L~IJ(X1 ) j=l

II

Q = 2n-2 LE(c/)~u(X) j=l

n

= 2n-2 CY 2 L~IJ(X) } =1

sedangkan

(4.40)

( 4.41)

(4.42)

Karen a

II

R = 2n-l L E{(m(X,)- mh(X, )) 2}. n-'w,IJ ( x,)

J=l

maka dengan memperhatikan juga bahwa :

II

R(h) = n-'LE{(m(X) -m11 (X)) 2},

J=l

maka persamaan ( 4.2.18a) dapat ditulis

dan

II

s = 4n-2 LE{e/m(X1)-m11 (X1))W11/X)}

J=l

n 11

= 4n-2IE{e1m(X

1)w;uCX)}- 4n-2I E{e1m11 (X)w;lj (X, )}

J=l j=l

n

= -4n-2 LE{e1m11 (X)w;IJCX)}, J=l

Karen a

II

mh(x)=n-'~)r;/l(x)Y;' i = l

maka

Dengan memperhatikan bahwa Yi = m(X;) + e; maka :

(4.43a)

(4.43

n II

= -4n -2 ~)v,u (X) E {c: 1n _, L)v;,; ( X)m( X,)} +

J=l i= l

II II

- 4n-2 I ~u (X1 )E{c:1n-1 I W," (X, )l:, } j = l 1=1

Karena E(c:1) = 0 maka suku pertama sama dengan nol, sehingga

II II

s = - 4n-2IW,u(X1 )E{c:1n-'Ic:,W,)X;)} 1=1

II = -4n-3 I~u(X1 )E{c:1 ( c:,W,,,(X;)+ ... +t:11~111 (X) )}

j=l

II = -4n-3 EI ( c:1c:1Wh 1(X)Wh/X

1)+ ... +&1&11W"11 (X)W,u(X))

j = l

- 3 ( 2 2 ) 2 2 ( ) ) = -4n E c:, whl (X, + ... +&n whn XII

-3 ( 2 2 2 2 ) = -4n a ~, 1 (X1)+ ... +a ~111 (X,)

II = -4n-2a 2In-'W,,/(X;)

j= l

II = -4n-2a 2In-1 (h- 'K(O)I };,(X))2

J=l

3

(4.44

Dengan mensubstitusikan persamaan (4.41), (4.42), (4.43b) dan (4.44) kcualaJI

persamaan ( 4.40) akan didapat

tr II

E[G(h)] = a- 2 + R(h)- 2n-2 I ~,1 (X, )a-2 + 2n-2 I~,, (X, )0"2 +

j =l

Selanjutnya dengan mengabaikan lower order term (Rice, 1984), (Hardl

1990) dan (Hardie, 1991) maka persamaan diatas menjadi :

E[G(h)] = a- 2 + R(h)

= p(h)

Dari sini dapat disimpulkan bahwa dengan menambahkan penalize Shibat

maka G(h) merupakan estimator unbias untuk p(h).


Hampir sama dengan metode shibata, ide dari cross validation adalah untu

menghilangkan suku bias pada mean square error (MSE).

II

CV(h) = n-1 I(~- mh_j(X;)) 2

' ( 4.46) J=l

dengan mh.;(X;) adalah leave-one-out method dimana observasi ke-j dihilangkan.

mh.j(X;) = (n -1)-1 Iwhi(Xj )Y, ,,;. J

Selanjutnya untuk menunjukkan bahwa dengan leave-one-out estimate pad

m11 (X;) maka bias pada MSE akan sama dengan nol, dibawah ini dibcri

pengura1annya.

II

CV(h) = n-1" (Y

1- m" (X ))2

~ ,j J J=l

II

= n-1 I[ ~2 + m~.;CX;)- 2~mh,j (X) J' karena YJ = m(X) + &} maka:

J=l

n

= n-1 I[ (m(X;) + &;)2 + m,~)X;)- 2(m(X;) + &./ )mh,j (X) J J=l

II

= n-1 I[ m(X;)

2 + e/ +2m( X) )&j + m;)X;) + J=l

-2(m(X )m" (X ) + & m, (X ))] J ,j J .I 1,} J

II

=n-1I[s/ +m(X;)2 +m,~)X)-2m(X)m11)X)+ J=l

II

= n-1 I[&} 2 + (m(Xj)- mh,j (X, ))2 -2&} (m(X,) + (ifh,J (X./)) J J=l

Dengan mengambil ekspektasi dari masing-masing persamaan didapat :

Denga memperhatikan bahwa error E adalah iicl clengan mean no! clan va ·

cr2 maka cliperoleh

(4.47

dengan

( 4.48)

selanjutnya karena

mh./X) = (n-tr'Iwhi(X)Y; , i"'J

maka persamaan (4.48) menjadi:

Karena Yi = m(Xi) + Ei maka:

C112 = -2n-1E[I t:1 [m(X1 )+(n-If 1 I~~~(X,)m(X1 )+(n-Ir 1 I~~~(X,)t:1 ]J j ; l "J "'

n n

= -2n- 1 IE(t:)m(X)-2n-1 IE(t:)(n-If 1 I~~~(X,)m(X1 ) + j = l j=l I~)

n n

= -2n-1 I E(t:1

)m(X1)- 2n-1 (n -1)-1 I E(t:

1) L ~~~ (X

1 )m(X1 )

j=l j = l I~ j

II

-2n-1 (n -1)-1 L L ~~~ (X)E(t:1 t:,) j=l I~)

Karena E(t:;) = 0 dan E(t:;t:;) = 0, j:;; i maka persan1aan diatas akan

dengan 0

Sehingga persan1aan (4.47) menjadi:

Dari sini dapat dibuat kesimpulan bahwa dengan leave-one-out estimate

/n 11 (Xi) akan menyebabkan bias pada MSE sama dengan no!.

41

4A. Aplikasi

Untuk mencrapkan pemilihan bandwidth yang optimal pada regres1

nonparametrik kernel, maka berikut ini akan diaplikasikan dalam data penurunan

voltase baterai dari motor peluru kendali selama waktu penerbangan (Eubank, 1988).

Dalam pembahasan ini akan dilihat seberapa tepat bandwidth yang dikaji

akan memberikan pengaruh terhadap pengestimasian model regresi nonparametrik.

Schagai variahcl prcdiktor (x) adalah waktu (dalam satuan seconds) scdangkan

variahd rcspon (y) adalah penurunan voltase haterai . lluhungan kedua variahd

diherikan okh mmkl sehagai herikut :

>: 1/t(.\" , )tt. , . t 1, .' , 1. ·II

Lkngan error diasumsikan idl!nlik. indepl!ndl!ll dengan llll!all no! dan varians rr ,. . Plot

antara x (waktu) dan y (penurunan voltase baterai) dibcrikan dalam liambar 4.1.

Scatterplot of Voltage Drop vs Time

16

15 • • C' • • • •• Ill • II. 14 • • Ql •• .... .! 13 • •• Ql • Ill Ill 12 •• ~ 0 •• >

11 •• c • Ill c • •• :J 10 ••• II. :J • • c 8. 9 •• ........ >- •• • 8 • •

7 ••• 0 5 10 15 20

x{waktu)

Gambar 4.1. Plot antara penurunan voltase baterai (y) dengan waktu (x)

42

I )ari (lam bar 4. 1 tcr1ihat bahwa plot data antara penurunan ,-o1tase bate

dcngan waktu ccndcrung tidak berpola. dalam

memberikan informasi yang pasti mengenai bentuk dari kurva regresi. Ini terl'

pada interval \vaktu antara 0 detik pcrtama sampai 5 dctik. Begitujuga pada interv

\\aktu antara 8 dctik hingga 1-l detik dan interval waktu antara 16 detik sampai 2

detik tidak ada informasi atau asumsi yang kuat untuk mengestimasi kurva regresi.

Karcna tidak ada informasi mcngcnai bentuk kurva regresi, yang diperk

dengan basil estimasi parametrik pada lampiran. maka akan dicoba den

menggunakan pendekatan regresi nonparametrik kernel yang notabene

dipcngaruhi olch nilai bandwidth. Akan tetapi sebelum diterapkan pemili

bandwidth yang optimal, tcrlebih dahulu akan diilustrasikan estimasi kurva regres

yang dihasilkan dari pemilihan handwidth yang tidak optimal.

16

15 ..... \ ... \

-·· 14

... ~ ·~ ...

·;;; I Q;

13 ·~ cv ..c l '\ .. Q)

"' 12 / ._ .. "' \ 0 ,_ .. > I

~~-.. c ' f

"' 11 _,. c 2 i \ ::J . ·~ .... c 10 / . Q)

I .e. r ._ ..

,.., ,/

9 ·-i

8 '\ / . data . . - Yhed(h=0.1 00) 'L.-· .

7 0 2 4 6 8 10 12 14 16 18 20

x (waktu)

Gam bar 4.2. Estimasi kurva regresi dengan h = 0.100

4

16

15

14

'f! -----..

~ 13 ·· .. .... ..0 Q)

::l 12 =: 0

... .. ·· >

~ 11 c ... 2 :>

~ 10 .e.

( . .. .. >-- /

9 .. _.,._.,.,.·

8

I • data I

- Yhed(h=3.000)

7 ..

0 2 4 6 8 10 12 14 16 18 20 x (waktu)

Gambar 4.3. Estimasi kurva regrcsi dengan h = 3,000

Untuk h yang terlalu keciL misal diambil h = 0,200 (Gambar 4.2),

estimasi kurva regresi akan cenderung menuju ke data, seluruh data d"

oleh garis regresi sehinga diperoleh model yang kasar (undersmooth). Sebalikn

jika h yang kita pilih terlalu besar, misalkan dalam kasus ini kita pilih h = 3.

(Gambar 4.3), maka akan mengakibatkan estimasi kurva sangat halus (oversmooth).

Dari ilustrasi diatas, maka tampak bahwa bandwidth optimal sangat penf

di dalam cstimasi regn.:si nonparametrik kernel. Selanjutnya dari plot yang

(Gambar 4.1) akan diestimasi bcntuk kurva regresinya dengan menggu

pemilihan bandwidth yang sudah dikaji diawal pembahasan kedalam estima

nonparamdrik kernel.

Pada pcmbahasan ini akan dikaji aplikasi dari bamlwidlh den

menggunakan mctode shibala dan Rule oj"Thwnb se1ta Cross Validalion. l)andwidl

optimal yang sudah dipilih akan digunakan untuk mengestimasi kurva regresi. Hasil

dari estimasi akan dilihat nilai MSE dan R2 nya yang kemudian akan dibandingkan

mana diantara ketiga metode yang memiliki MSE terkecil serta R2 terhesar.

4.3.1. Bandwidth Shibata

Sebagaimana sebagian metode pemilihan bandwidth yang ada, bandwidth

yang optimal dengan menggunakan metode Shibala juga diperoleh dari nilai Shi

yang paling kccil. Selanjutnya setelah dilakukan perhitungan (program

memperoleh bandwid!h optimal dengan mctodc ,\'hihala diherikan dalam lampiran

diperoleh bcrbagai nilai Shibata dan bandwidth (h) sebagai bcrikut:

Tabel 4.1 Berbagai nilai bandwidth yang diperoleh dengan menggunakan

metode Shibata

Dari hasil perhitungan terlihat bahvva nilai terkecil dari shibata ada!

133,9133 dengan bandwidth sebesar 0.9500. Untuk lebih jelasnya dibawah ·

dibcrikan plot antara nilai Shibata dcngan bandwidth

1' 14 114

1)4 02

1 14

133 92

bondw1d l h (11) VS S1bala(h) -- "1- ,--- ~-

1 I

I \ \

~---~-1 1.5 2 2.5

\ JJ~'----~ 0 0.5

bandwidth (h)

Gambar 4.4 . Plot antara bandwidth dengan Shibata

Dari plot diatas dipcroleh nilai bandwidth optimal dengan men

metode Shibata's adalah 0.9500. sehinga hubungan antara waktu dengan penurun

voltase batcrai pada motor peluru kendali akan memenuhi persamaan:

-II J ( · \ ' ) 4 I I I -- K .\ ~...::_ _!_ }'

,11

(x) = ,= 1 o. 9500 o. 9500 '

" , 41 -II I K( x-~~ ) I = I 0. 9500 0. 9500

l Jntuk lll\.!llgL:slilllasi kurva rL:grL:Sl, pL:llU!is 11H.:nggunakall fungsi kand

< Ia ussian ~

L ' I I ' n (II ) = --eX p( - - II

& 2

I lasil plot cstimasi nonparamctrik kernel dcngan menggunakan bandwidth

shibata sebesar 0,9500 diberikan dalam Gambar 4.5 berikut:

15

14

~ ~ 13 C1:l ...0

Q) (/)

2! 12 0 >

~ 11 c: 2 ::::l

/ . ...... ~

... ..

•

· -· ---+ - . • . . .. .. •

•· .. .. .... .

. ... ~

.. - . . --. __ . ~ 10 8

,fli ,/

~· . · -----.

9

• 8 -... __

---- --·· .

.. ..

~ - . f_· data I I - YhedShibata(h=0.9500)

• 7 L--·_·-L--~L----L--~----~--~----~--~----~--~

20 0 2 4 6 8 10 12 14 16 18 x (waktu)

Gambar 4.5. Plot estimasi nonparametrik kernel dengan bandwidth 0,9500

Dari Gan1bar 4.5 telihat bahwa dengan menggunakan bandwidth 0,95

kurva regresi yang dihasilkan cenderung smooth (halus). Artinya kurva regresi ti

kasar dan tidak oversmoothing, sebagaian besar data terwakili oleh estimasi k

regresi. Ini diperkuat oleh nilai MSE sebesar 0,0727 dan R2 0,9878.

4.3.2. Rule of Thumb Bandwidth

Dengan menggunakan metode rule vfthumh. kita bisa langsung mendapatk

nilai bandwidth yang optimal tanpa mencari nilai yang paling minimal dari meto

yang bersangkutan sebagaimana metode shihata.

Deng.an memperhatikan plot data antara penurunan voltase baterai (y) d

waktu (x), maka kita coba dengan mcnggunakan pendckatan polinomial derajad

Persamaan tersebut kemudian diturunkan dua kali terhadap x untu

mendaatkan :

Sclanj utnya dcngan pcrhitungan sedcrhana didapat (1i1 "( x) )c = 0.1 006 da

a- ~ = 0,8977 yangjika disubstitusikan kedalam hH111 ,

maka akan didapat bandwidth optimal sebesar 0,8170, sehingga estimasi

rcgrcsi atau pola hubungan anatar waktu dengan pcnurunan voltasc baterai

memcnuh i persamaan:

Dimana K adalah fungsi kernel.

Sebagaimana aplikasi metodc Shibata pada (4.3.1), untuk mengestimasi k

rcgresi diguanakan fungsi kernel Gaussian yaitu :

K I ( I , (u) = --exp --u- ) 5 2

Estimasi kurva regrcsi dcngan menggunakan metode pemilihan bandwidth

Rule vf7'humh dibcrikan scbagai berikut :

16

15

14 ,..... ~ Q)

13 -cu ..0 Q) (I)

12 cu -0 > c

11 cu c 2 :J c 10 Q)

0.. ......... >-.

9

• 8 -.

7 0

.... ·

.. 2

... /

~- .

4

• ...

6

,/ . /

. / •

...

8

.. . .

10 x (waktu)

•

•· . •···-~·

·. ... ~\\ .

\\

..... ·~ ... _ . . ·---

I • data l

-- YhedROT(h=0.8170) I 12 14 16 18 20

Gambar 4.6. Plot estimasi kurva regresi dengan bandwidth ROT sebesar 0,8170

Dari Gambar 4.6 terlihat bahwa estimasi kurva yang dihasilkan cukup halus

Selanjutnya dengan perhitungan yang sama diperoleh nilai MSE sebesar 0,0617

R 2 nya sebesar 0, 9898

-LL1 Mctodc Cross Validation (CV)

Schagai bahan rcrhandingan. dihawah ini akan dihcrikan pcngcstimasian

kurva rq~rc s i dcngan mcnggunakan 111L'todc rcmililwn bandv.idth yang lain. Mctodc

:-ang dimabud adalah mctodc CY.

digurwkan dalam mcndukung hasil pcnclitian yang ada yang tcrkait lkngan masalah

l'ri' '" 'f1 :- <111g tnctldtt sarin:~t Scll ll ct ~.k11ga n .\'l!ihutu )<litu nilai tcrh.ccil dari ('V

tltcntlll.iuh.h. .llt hwlih l'idth :ang ()rtim,!l. SclwJjuttJya sctclah dilakubn pcrhitungan

dih,l\\ah i11i dikrikan hcrht~gai nilai hand\\ idth dan sJ.;,or ( ·v.

Tahcl ..t.2. lkrh' 't!-''i 11ilai ( ' \ d:tn hundll ·tclth (It)

50

.lika dilakukan pint antara nilai-11ilai CV dcngan hunJwidth (h), mab akun

tampak scpcrti gambar bcrikut:

bandwidth (h) YS CV1 (h) 134 .58.---~-~~-~~~-~----.---,

134.57

['--, 134.56 "'

13.4 55 '' ·.

E: 134.54

~ 134.53

134.52

134.51

13.4 5

'· I /

'--- // 134.49 L__,___..___.__ __ .______J_.==__. _ ___J

0.275 0 26 0.295 0.29 0 295 0.3 0 D5 0.31 0 315 bandwidth (h)

Gambar 4.7. Nilai CV dan bandwidth

Dari Tabel 4.2 dan hasil plot seperti pada Gambar 4.7 diatas, ternyata ni

CV yang paling minimum adalah 134,4906. lni menunjukkan bahwa bandwidth

optimal ada pada nilai 0,3050, sehingga hubungan antara penurunan vo1tase

motor peluru kendali selama waktu penerbangan akan memenuhi persamaan:

41-II 1 K( x-X, )r A ( ) - 1=1 0,3050 0,3050 I

mh x - 41 ( ) 4rii I K x-X, 1=1 0, 3050 0, 3050

Selanjutnya untuk membandingkan dengan metode yang sudah dikaji (4.3.

dan 4.3.2), maka berikut diberikan estimasi kurva regresi dan ni1ai MSE serta R2

Dengan menggunakan fungsi kernel Gaussian dan bandwidth CV sebesar

0.3050, maka estimasi kurva regresinya seperti tampak pada gambar berikut:

16

15 • ._ .... • • · ..

14 .-. ........ ~ ~ 13 rn ..0 Q) C/)

12 rn -0 > c:

11 rn c:

~ :·

...... .. ..

... ·.\ .•..

.. . 2 :::l c: 10 Q)

• •• . 0.. .__. >. r ..

...--.---., .. ,

9 . / ·-·· ~

-• .~ ·

8

7 l • data I

- YhedCV(h=0.3050) \

'· • . - .... 0 2 4 6 8 10 12 14 16 18 20

x (waktu)

Gambar 8. Estimasi kurva regresi dengan bandwidth CY sebesar 0,3050

Nilai MSE dan R2 dari hasil estimasi dengan menggunakan metodc pemili

bandwidth Cross Va/idtion berturut-turut 0,0137 dan 0,9978

Lebih jelasnya, untuk melihat perbandingan antara metode Rule of Thumb,

Shibata, dan metode Cross Validation, maka dibawah ini diberikan plot gabungan

antara data yang disimbolkan dengan titik wama bini, taksiran kurva regresi dengan

menggunakan bandwidth Rule of Thumb yang disimbolkan dengan garis berwama

52

mcrah, dan taksiran kurva regresi dcngan mcnggunakan metodc Shihata yang

disimholkan clcngan garis berwarna hitam serta taksiran kurva regresi dengan

handwidth ( 'V dengan garis warna hijau.

16

15

14 _,....._

~ Q)

13 (0 ...0 Q) (J)

co 12 - • • 0 > c:

11 co c:

• •

2 :::5 c:

10 Q)

c.. .___ :>...

9 • data

• YhedCV 8 YhedROT

YhedShib

7 •• 0 2 4 6 8 10 12 14 16 18 20

x (waktu)

Gambar 4.9. Plot gabungan taksiran kurva regresi dengan

bandwidth ROT , Shibata dan CY

Dari Gambar 4.9 tampak bahwa estimasi kurva regresi dengan menggunakan

mctodc Rule of' Thumh dan Shihata hampir sama didalam mendekati data. lni

herhecla dengan metode ('ross Validation yang cenderung sensitif didalam mendekati

data.

SJ

Untuk melihat lebih lanjut pcrbedaan antara ketiga metode pemilihan

bandwidth, dibawah ini diberikan nilai MSE, dan R2.

Tahel4.3. Nilai SSE, MSE dan R2 dari masing-masing metode

Bandwidth " MSE R2

CV Bandwidth 0,3050 0,0137 0,9978

Rule of Thumb (ROT) 0,8170 0,0617 0,9898

Shibata,s Bandwidth 0,9500 0,0727 0,9878

Dari Tabel 4.3 diatas terlihat bahwa nilai MSE untuk CV lebih kecil

1

di bandingkan dengan ROT dan Shibata yaitu sebesar 0,0137 dengan R~ se

0,9978. Adapun perbandingan antara ROT dan Shibata sendiri menunjukkan bah

MSE dari metode Rule of Thumb cenderung lebih kecil dibanding dengan

Shibata yaitu 0,0617. Begitujuga dengan R1 nya, terlihat bahwa koeiis·

determinasi model dengan menggunakan ROT cenderung agak besar dengan ni

0,9898 dibandingkan dengan metode shihata yang memiliki nilai R2 sebesar 0,9878

dan MSE scbesar 0,0727 .

Secara umum, walaupun dalam Tabel 4.3 terdapat perbedaan nilai MSE

R? dari masing-masing metode pemilihan bandwidth, akan tetapi perbedaan

ada tidak terlalu signifikan karena hanya terpaut beberapa angka dibelakang koma.

BABV

KESIMPULAN DAN SARAN

5.1. Kcsimpulan

BABY

KESIMPULAN DAN SARAN

Diberikan model regresi: Y, =m(X,)+e,. e, -iid(O.a 2) dengan i= L 2. 3 .

.. .. n. dimana m(X, ) adalah kurva rcgrcsi yang diasumsikan tidak dikctahui. Dari

analisis dan pcmbahasan yang tclah dilakukan, maka dapat diambil bcbcrapa

kcsimpulan scbagai bcrikut:

I. Bandwidth optimal yang diperoleh dari meminimumkan Q masih

mengandung fungsi m dan a yang tidak diketahui. Metode Rule of Thumb

(ROT) mendekati fungsi yang tidak diketahui tersebut dengan pendekatan

parametrik sehingga diperoleh :

2. Dengan menggunakan penalize shibata, diperoleh sifat :

E[G(h)] = a 2 + R(h)= p(h),

dengan

11

G(h) = n-1 I(~-m,(X, )) 2 ·(1 + 2n-lw;v(X)) j =l

dan

11

R(h) = n-1EL(m(X)-m,(X1

))2

.J=I

55

3. Dengan n1enggunakan leave-one-out estinlale diperoleh:

fl H

l:..'C'V(h) = n-! 2:: E(cl2) + n -

11:'2: (m(X I)- rnh .I (X I ))2 +

1=1 1=1

II

-2n- 1 EL £1 (m(X

1) + m11 .1

(X1 ))

1=1

= fJ,.(h)

4. Untuk data penurunan voltage baterai dari motor peluru kendali selama waktu

pencrbangan, diperoleh bandwidth untuk masing-masing metode sebagai

bcrikut:

o MctoJc Shibata Jipcrolch ham/width schcsar 0,9500 schinga pcrsamaan

kurva rcgrcsinya:

41 -'I I K( x-X~ - )r ,1111

(x)= I=:1

0.9500 0,9500 I

4 r' L- I _ K ( :_r_=-~i ) i=l 0, 9500 0, 9500

dan nilai MSE yang diperoleh adalah 0,0727 dengan R2 sebesar 0,9878.

o Metode ROT diperoleh bandwidth sebesar 0,8170. Persamaan kurva

rcgrcsmya :

41-'I 1 K( x-X~ )r fYzh(x) = 1=:

1

0,8170 0,8170 I

41-'L -- ~-K( -~--~- ) 1=1 0,81 70 0,81 70

dengan nilai MSE sebesar 0,0617 dan R2 sebesar 0,9898.

56

-- · - - - - - -- -- - I

o Metode CV diperoleh bandwidth sebesar 0,3050. Persamaan kurva

regresmya :

- ~:t I K( x-X, )y mh(x) = n l = ifl 0,3050 0,3050 I

_1L 1 K( x-X,) n ,=1 0 ,3050 0,3050

dengan MSE dan R 2 masing-masing sebesar 0,013 7, dan 0, 9978.

Dari nilai MSE dan R2 yang diperoleh, maka dapat disimpulkan untuk

aplikasi data riil ini metode Cross Validation relatif lebih baik dari pada Rule

of Thumb dan Shibata. Namun begitu, perbedaan nilai MSE dan R2 dari

masing-masing metode tidak terlalu signifikan. Masing-masing nilai hanya

terpaut beberapa angka dibelakang koma.

5.2. Saran

Saran yang dapat diberikan untuk penelitian selanjutnya adalah :

I. Perlu kiranya dikaji lagi metode plug-in yang mendekati fungsi yang tidak

diketahui pada bandwidth optimal (yang diperoleh dengan meminimumkan

MSE atau MISE terhadap h) dengan pendekatan pilot kernel.

2. Perlu dilakukan simulasi untuk membandingkan metode pemilihan bandwidth

yang optimal agar hasil yang dipcrolch lchih mcnccrminkan kondisi

sesungguhnya dari prilaku bandwidth.

57

DAFTAR PUSTAKA

DAFTAR PUSTAKA

Draper, N.R., dan Smith, (1966), Aplied Rewession Analysis, Second Edition (alih Bahasa Jr. l3ambang Sumantri. Ana/isis ReKresi Terapan, PT Gramedia Pustaka Utama, Jakarta, 1992).

Luhank, R.L. (I 988). Spline Smoothing and Nonparmnetric Regression. Marcel Dekker, Inc. New York

llan.llc, W. (I Y<JO). Aplied Nonparwnetric Regression, Cambridge University Press. New York

____ . (I 991 ). Smoothing Techniques With Implementation in S. SpringerVerlag. New York

Jia, A. dan Schucany, W. R. (2004) Recursive Partitioning for Kernel Smoother: A tree-based Approach for Estimating Variable Bandwidths in Local Linear Regression. hllp://www.smu.edu/Statistics/TechReports/TR3 1 6.pdf

Kwcon, Y. J., dan Kockelman, K. M., (2004) Nonparamctric regression estimation of household YMT, Submilled for Presentation & Publication at the 2004 Annual Meeting ofthe Transportation Research Board.

Lee, K.S. dan Hill, CR .. Performance of Bandwidth selection rules for the local linear regression ,

Myers, R. H., dan Milton, J. S., (1991 ), A first course in the theory of linear statistical Models, PWS- KENT Publishing Company, Boston

Purcell, E. J., dan Yarberg, D., (1995), Kalkulus dan Geometri Analitis, jilid 1, (alih Bahasa Drs. I. Nyoman Susila, M.Sc., Banu Kartasasmita, Ph.D dan Drs. Rawuh, Erlangga, Jakarta).

Rice, J. (1984), Bandwidth choice for nonparametric regressiOn, The Annal of Statistics, Vo/.12, No.4, 1215-1230.

Rohatgi, Y. K., (1976), An Introduction to Probability TheOlJ' and Mathematical Statistics, John Wiley & Sons, USA.

58

Rosen blat, M. ( 1956), Remark on some Nonparametric Estimates of a Density Function, Annals of Mathematical Statistics, 27, 642-669.

Shibata, R (I 980), Asymptotically efficient selection of the order of the model for estimating parameters of a linear process, The Annals of Statistics, Vol. 8, No. I, 1-17- 164.

( 1981 ), An optimal selection of regression variables, Biometrika, 68, 45 - 54.

Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis, Chapman and Hall, New York

Wand, M.P. dan Jones, M.C. (1995), Kernel Smoothing. Chapman and Hall, New York

Ye, A., Hyndman, R. J., dan Li, Z., (2006) Local linear multiple regression with variable bandwidth in the presence ofheteroscedasticity,

. Februari 2006

59

LAMP IRAN

Lampiran A

Data penurunan Voltage Baterai dari Motor Peluru Kendali selama Waktu penerbangan

Nomor Time Voltage Drop 1 0.000 8.330 2 0.500 8.230 3 1.000 7.170 4 1.500 7.140 5 2.000 7.310 6 2.500 7.600 7 3.000 7.940 8 3.500 8.300 9 4.000 8.760 10 4.500 8.710 11 5.000 9.710 12 5.500 10.260 13 6.000 10.910 14 6.500 11 .670 15 7.000 11 .760 16 7.500 12.810 17 8.000 13.300 18 8.500 13.880 19 9.000 14.590 20 9.500 14.050 21 10.000 14.480 22 10.500 14.920 23 11 .000 14.370 24 11 .500 14.630 25 12.000 15.180 26 12.500 14.510 27 13.000 14.340 28 13.500 13.810 29 14.000 13.790 30 14.500 13.050 31 15.000 13.040 32 15.500 12.060 33 16.000 12.050 34 16.500 11 .150 35 17.000 11 .150 36 17.500 10.140 37 18.000 10.080 38 18.500 9.780 39 19.000 9.800 40 19.500 9.950 41 20.000 9.510

60

Lampiran B

Program Regresi Nonparametrik Kernel SSE, MSE dan R2

h=input('h= ') n=41; fu=zeros(l,n); for i=l:n

for j=l:n d 1 (i,j)=(x(i)-x(j) ); da(i,j)=d 1 (i,j)/h; kerl (i,j)=exp( ( -( da( i,j))"2 )/2 )/sq rt(2 *pi); fu(j)=fbU)+(ker 1 (i,j))/n; rh(j)=rh(j)+((kcr 1 (i,j) )/n)*y(i);

end end for j=l:n

LC(j)=rh(j)/fu(j); end Yhed_LC=LC'; plot(x,y,'.' ,x,LC,'-'); %%R Kuadrat dan MSE%% residual= y-Yhed_LC; ybar= sum(y)/n; jke=(y-Yhed_LC)'*(y-Yhed_LC) mse=jke/n jkr=(Yhed_LC-ybar)'*(Yhed_LC-ybar); jktot= jke+jkr; Rsquare= jkt/jktot

61

Lampiran C

Program mencari Bandwidth Optimal dengan ROT, Shibata, dan CV

n=41; for i=l:n

I(i)=l; end

Program mencari Bandwidth Optimal dengan ROT

X= (I' x x./\2 x./\31; S =X'* X; bhet = inv (S) * X' * y; yhet =X* bhct; p =length(bhct); mhet2 = 2*bhct(3) + 6 * bhet(4) *mean(x) skuadrat= I /(n-p )*(y-yhct)' *(y-yhct) hrotgaus= n/\(-0.2) * (( 1/(2 * sqrt(pi)) * skuadrat )/mhet21\2)1\(0.2)

62

z=length( x 1) for I=l:z

Mcncari Bandwidth Optimal dengan Shibata

xl kecil=ones(size(h( I)) )*h(l); k l =(x l·x l kccil); K=kl./h(l); u=K."(2)/·2; Kh=exp( u)./(sqrt(2 *pi)); kernel=diag(Kh); p=kl '*kcrnel*kl; Pin=inv(p); xw=kl '*kernel; al =eye(size(kl )); Hh=al *(Pin. *xw); aa=eyc(size(kcrncl)); het=aa-Hh; msein=y' *hct' *het*y; msc=mscin/z; trcl=trace(Hh); trl =trc 1/z; Sibata(l)=msc* I +2*trl;

end Sib=Sibata'; s=min(Sib); disp(' ----- '); disp('bandwidth (h) Sibata(h)'); dis p('=--====---==========='); disp((h Sibl); disp('==============='); figure(2); plot(h,Sib ); title('bandwidth (h) VS Sibata(h)'); xlabel('bandwidth (h)'); ylabei('Sibata (h)'); for i=l :z

if Sib(i)==s h2=h(i)

end; end;

z=length(x) for 1=1 :z

Mencari Bandwidth Optimal dengan CV

xl,ccil=oncs(sizc( h(l)) )* h( I); kl =(x-xkccil); K=kl./h(l); u=K. A(2)/-2; Kh=exp( u)./(sqrt(2 *pi)); kernel=d iag( Kh ); p=k 1 '*kcrncl*k 1; l'in=inv( p ); xw=k1 '*kernel; a 1 =eyc(size(kl )); Hh=a 1 *(Pin. *xw); aa=cyc(sizc( kernel)); het=aa-Hh; atas=y' * hct; bawah=cye(size(x))' *(1-Hh); C=atas./bawah; CC=1/z*(C*C'); CV1(1)=CC';

end g=CV1'; disp('---------------'); disp('bandwidth (h) CV1(h)'); disp(' '); disp(lh gl); disp('=--=====--===--=='); k=min(g); figure(1); plot(h,g); title('bandwidth (h) VS CVl(h)'); xlabel('bandwidth (h)'); ylabei('CV1 (h)'); for i=l :z

ifg(i)=k h1=h(i)

end; end;

64

I ,ampinm D

Pcngujian Asumsi J{csidual

Bandwidth Sibata

1. Uji Identik

0.75

0.50

0 .25

... u

0.00

·0 .25

·0 .50

• • •

• •

• • •

Scatterplot of e2 vs Yhed5b2

•

• • • • .,.

• • • • • • • • • • • •

•• • • • •

• • 9 10 11 12 13 14

YhedSb2

Regression Analysis: Abs_e2 versus Time

The regression equation is Abs e2 = 0.250 - 0.00302 Time

Predictor Coef Constant 0.25020 Time -0 . 003023

SE Coef 0 . 0 4872

0 . 00 4193

T 5 . 14

- 0 . 72

p

0.000 0.475

•

•

• • •

15

s 0 . 158830 R-Sq 1. 3% R-Sq(adj) 0.0 %

Analysis of Variance

Source OF ss Regression 1 0 . 01311 Residual Error 39 0 . 98385 Total 40 0 . 99696

Unusual Observations

Obs 19 25

Time 9.0

12.0

Abs e2 0.5794 0 . 5949

Fit 0 . 2230 0 . 2139

MS F 0 . 01311 0.52 0 . 02523

SE Fit 0.0252 0.0262

Residual 0.3564 0.3810

p

0.475

St Resid 2 . 27R 2. 43R

R denotes an observation with a large standardized residual .

65

2. (!jj lrulqH.' IIIkll

Autocorrelation Function for e2 (wilt\ 5% significance limits for the autocorrelations)

1.0

0.8

0.6

c 0.4 R - - -· ll 0.2

I ~ 0.0 0

~ ·0.2

"' ·0 .4

·0 .6

·0.8

·1.0

6 lag

Autocorrelation Function: e2

Lag ACF 1 - 0 . 031681 2 0 .074824 3 0 . 013605 4 0 . 019277 5 0 . 050808 6 0 .15 9520 7 0 .00 8301 8 -0.017661 9 - 0 .15 0876

10 -0 . 039 174

3. Uji Normal

99.9 .. 95 90

10

I 70 .. so

l .., JO 20

T LBQ - 0.20 0 . 04

0 . 4 8 0.30 0 . 09 0.31 0.12 0.32 0.32 0 . 45 1. 01 1. 73 0.05 1. 74

-0.11 1. 75 -0.93 3.01 - 0 . 24 3 . 09

Probability Plot of errorS Normal

. ./

10

... . / ,/ //

0.1 ·100 · SO so

errorS

I

Mun 0.4J'tJ SlOtv 27.9 .. N 133 .. 0.071 P · V~II.Ie 0.098

100

66

,-

Rule of Thumb Bandwidth

1. Uji ldcntik

Scatter plot of ResiROT vs YhedROT

• • 0.50 •

• • • • •

0.25 • • • • b • •

a: • • • •

·;;; • • ~ 0.00 • • • • • • • • -0.25 • • • • • • • •

• • • -0.50 •

7 8 9 10 11 12 13 14 IS YhedROT

Regression Analysis: AbsResROT versus Time

The reg r r;ssion e qu a ti o n i s Abs ResROT = 0 . 239 - 0 . 00259 Time

Pred i clor Cons t ant Time

Coef 0 . 23895

-0 . 002593

s 0 . 1)407? R- Sq

Analysis of Variance

Source OF Regression 1 Residual ErLor 39 Total 40

Unusual Observation s

Oll: ; 'J ' j /! \1' 1\ I>~; I< ( ' ~; I< ()'I'

1 9 'J . ll O. J)/9 ?.S I? . ) 0 . ~i -, 11 h

SE Coef 0 . 04726

0 . 00 406 7

T 5 . 06

- 0 . 64

1. 0% R- Sq(a d j)

ss MS 0 . 00965 0 . 00965 0 . 92579 0 . 02374 0 . 935 44

, .. i l ::1·: l,.i I

O. Ll)b 0 . 024 4 0 . ?.O'If1 () . (1) ~ ) ,,

p

0 . 000 0 . 527

0 . 0 '/,

F p

0 . 41 0 . 527

I < <·~ ; i d tJ.t I :;t

u. 342.3 o. :ltd n

I{ ( ' ~i i d

L' . 2JH ? . 4/H

!\ dc' Jivl.( :; ,J !I ~l l J:i (' I IJtJliurl w LLh ( ! L.J l ljl~ :....ild!ICi d tdl:!.eli te~iJu.._ J l .

2. Uji Independent

1.0

0.8

0.6

c .Q

0.4 .... 0.2 -..!!1 Cll .. 0.0 -.. 8

-0.2 0 '5 "' -0.4

·0.&

-0.8 -

I

· 1.0

Autocorrelation Function for ResiROT (with 5% significance limits for the autocorrelations)

- J

Lr----.----,----,----,-----,----.---.----.---2 3 4 6 7 8 9 10

L_ Lag

Autocorrelation Function: ResiROT

Lag ACF 1 -0 . 0839 4 6 ?. o. o •,(,l?.'l J 0 . 0022Jl 4 0 . 009302 5 0 . 039821 6 0 . 157538 7 0 . 003019 8 - 0 . 013381 9 -0.147206

10 -0.028998

T LBQ -0 .54 0.31

0. :Jc; 0. ~ r, (). () 1 (). ~ ~

0 . 06 0 . 4 6 0 . 25 0 . 54 1. 00 1. 79 0 . 02 1. 79

-0 . 08 1. 80 -0.91 2 .9 9 -0. 18 3.04

Probability Plot of ResiROT Normal

~.-------------------------------~--, r-------, Mean O.OOJOO.J

...

95

90

~

70 c 60

~ 50 ~ <0

))

20

10

•

-0.50

·"' I /J

• • •

-0.25 0.00 ResiROT

• StDev 0.26+1

• N 41

• .. K5 0.<11.) . . ,. P-Valuc >0. 150

0.25 0.50 0.75

Ml'loclt.· ( '.-oss Valiclation

I. ll_ji lclt.•nlik

Scatterplot of resCV vs YhedCV

0.2

• • • • • •

0.1 • • • • ~ • • Ill Ill 0.0 • .... • • • • • • •

• • -0.1 •

• • • • • • • -0.2

7 8 9 10 11 12 13 YhedC.V

Regression Analysis: AbsResCV versus Time

The rPq r r>:; ;;tun c quuLion i s 1\hsRe::;C\' 11 . 0711 1 0 . 00259 Time

/1 r f~d i (.I r I

ConSCCllll

T tme

r 'u(; I

U . ll/JO~,

0 . 002586

:;1·: CO("I

0 . 020 1 9 0 . 00 1 737

'I'

3 . S2 1. 4 9

I ' 0 . 001 0 . 1 4 5

•

•

14

() • i I ( ~ ' 1 :• i t ' I'- : :q h-: :q (. 1< I i l ? . c, '

~ ;fJl l r l · r • Ill-' ('(' M'' F , ) . ) ·' !{t ~q r ( •: . . ;! '" l () , ()()'; ',' • l 11 . 1111' • '•' ' l /. . )1

Hcsi d>r"; l·: r r '..Jt l'J () . 1 bfl'J'J l (J . till ~ l l?.

'l'ota.l 40 0 . I 'IW:J ~ ~

• • •

•

• • •

• •

15

p

0 . I ~, ,

69

2. ( l.ji lndt·pt·ncknl

1.0

0.8

O.fi

-~ tJ-1

.m 0.) IJ t 0.0

§ "3

-0.2

c( -OA -

0 .11

-O.!l

-1.0

Autoc.:onelatlon Function lor ro!liCV (w1U1 .'..1"/u ~kJIIIIk.diK...t~ hnnl'> tor lht! rtultx.turektUon.,)

4 5 6 8 lag

Autocorrelation Function: resCV

Lag ACF T LBQ L -O . b"i ~ OfJ<J - ~. ]/. 20 . 03 2 0 . 25888 1 1. 20 23 . 06 3 -0 . 057503 - 0 . 2 6 23 . 2 1 4 0 . 01 5473 0 . 07 23 . 2 2 5 - 0 . 06 4 663 - 0 .2 9 2 3 . 43 6 0 . L3 78 48 0 . 62 2 4. 38 7 - 0 . 108~50 - 0 .4 8 2 ~. 99

8 0 . 0 95122 0 . 42 25 . 48 9 -0 . 108562 -0 .4 8 26 . 13

10 0 . 0 59966 0 . 26 26 . 33

3. Uji Normalitas

Probability Plot of resCV l'txmal

~------------------------------------.

95

90

ao

10

• •

• •

f ...

•

IL,-----,----,-----,-----,-----,-----,J -0.3 -0.2 -0.1 0.0

resCV 0.1 0.2 0.3

Lampiran E

Pengujian Data dengan Kuadratik, dan Kubik

a. Kuadratik

Polynomial Regression Analysis: Voltage Drop versus Time

The r<"r'-'~ -·;ion equation is Volta q 1: L> r c r~ · '., . 271 • 1.484 Tim"- tJ.06:.,13 Ti.rne *• 2

I . IJ ·rl 1,11

f\ rJ ( li '/~; i : 1 ! V. 1 r i . Jrl <' ('

. ;() 'J r c ( • r~: · · • ' ( ' , ) . 1 :.! :·

I ' " II ' .,, .'I I 1 11 I ltH . ... ,, ' · . . II

I·.J I .,, ~ ~ ·, ·H ~ I , d I I ' ... 'l'(J I ,, I 'it I / I • I f llH

:;1: qur: 11Lidl f\n ,, l•; s i s of V iJrid r , c; r;

Sou r ev Lincdr

Uua dr ''

DF I

ss 4 / . 0B l

f p

8 . S6 0 . 006

Fitted Line: Voltage Drop versus Time

Fitted Line Plot

F

'•

Vo ltage Drop = 5.277 + 1.484 T ime - 0.065 13 Time .. 2

15.0

12.5 • c. 0 •• 0 .. cu

•

• • ..... .. • • •• --••

H/. . 1 ,

p

II . lllltl

R-Sq R·Sq(adj)

01

"' ~ 10.0 • • ••••••

0 > ••

7.5 ... • • -• 5.0 -'--.---- -,----,-----.------.--'

0 10 Tune

15 20

1.08054 83.00/o 82.1%

71

Normplot of Residuals for Voltage Drop

Probability Plot of RESI2 Normal

Wr----------------------------------,

10

· ) · 2 · 1 0 RESU

' •

•

Residuals vs Fits for Voltage Drop

r-----1

I

.. 1 . :g

Residuals Versus the Fitted Values (response 1s Voltage Drop)

Mc.tn

StDev

• ., PV.oluf'

I O'J/l~l 14

I O'Jo ) .. 00"1

·Ot·.O

. . . •• !'! . . ~ ...

· I

-~ ~-- I ---~-

.) ll I

h. Kuhik

. . 10

Ftt t e d Value

.. . . . .· ..

14

Polynomial Regression Analysis: Voltage Drop versus Time

'l' h< ~ r • ·• Jr< •:;:;ioll •· q >Jrl l i o 11 is

V o J LHJ'' ln () p ( , . ~ (,' > I lJ . '//.17 T irn< ~ I O. Olllfl T imr• " /.- O . tllll /. 1'/ Time " ]

I{- :;q }j '/ . j',' 1{ - : ;q(d<..lj) IJ(, . l ",

/\ n i l I y :; i .-; (J j V .1 r i . l !!C<'

~io u r c C' DF ss t--IS F [0

Re g r:c s o: i o n 3 2::'8 . 39 4 76 . 13 ~ ~ 44 . 1]1 0 . 00 0 E:r:r:or: 37 33 . 2L3 0 . 8977 'l' o lal h ) :) b I . b iW

~; c ~ q u ( , nt ' I /\lid 1 '/ :; i :; o f Vr1r itli! C f'

Sour: u~ ) F ss t:' ? Lincu~ 1 4 7 . 0 81 8 . sr, ') . 00 6 Qua d rali c 170 . 159 1 4 5 . 7 4 0 . 000 Cub ic 11 . 1 5:) 12 . 43 0 . 001

72

Fitted Line: Voltage Drop versus Time

15

14

13 c.

12 0 i!5 & 11 ..

10 ill 0 > 9 ..

~. . ...

Fitted line Plot Voltage Drop • 6.469 + 0 .72 11 T1me

t 0 .03138 Tunc• • 2- 0 .00 321 / Tun c • • 3

.. . . . . · .. ... ..

• ·· ... ·.

10 Time

I S }0

Normplot of Residuals for Voltage Drop

[ ___ ~

Probability Plot of RESIJ Norm dl

0 RESil

··' . ~ .

Residuals vs Fits for Voltage Drop

'"1 1.5

1.0

~ 0 .5

:a .. 0.0 "' • ·0 .5

- 1.0

Residuals Versus the Fitted Values (response IS Voltage D1op)

•

• -- • -

• . • • • . . • • • •

•

. '" R· SQ(adJ)

0 9-lN-1 6

8 ' J"'b

86 .3%

l.-;-." . ,.,.....-,..---;-;-] '.t t) r . O <ol!L J

" ., ( 0,. 0 10 '1

>' I 1 lu ~ • ~ L ~0

• •

•

• • • •• • ·.

• t .S r------r-----·-r-----.------,-----,------,-----.-----.----· 1, 10 11 12 13 14 15

Fitted Value

73

· tesjs pe !uhan sandw/othuntuk regresi...

Documents