· tesjs pe !uhan sandw/othuntuk regresi...
TRANSCRIPT
· TESJS
PE !UHAN SANDW/OTHUNTUK REGRESI NON.PAAAMETRIK KeRNEL OEI'JGAN ETOD~
RULE OF THIJM " SHJSArA OA CROSS VALIDA nON
0/eh:
PERPUSTAK.-\AN
t T S
Terihla Dari
PROGRAM STVDI MAGISTER JURUSAN STA TIS1'JKA
FAKULTAS MATEMATIKA DAN IL P NGETAitUAN Al.AM . INSTITUTTEKNOLOOJ SEPULUH NOPEMBER
SUitABAYA 2006
PEMJL,.·~~ r....,..n
NONP · oWt<u ICON£ RULE OF THUMJJ,
T:elah dis · un.
is:
5.Dr.Pm Nl:P. l)l 52
6.pr.~~.i. NIP. i3l 843 380
VK REGitESI --~.,.., ~ 0 .
. .,.,~r VALIDATION
Tan gal \Jjian : l I J • 2006 Periode Wisuda: S tembet 2 6
(Pembimbing I)
(Pembirdb~g II)
(J>enguji)
(Penguji)
BANDWIDTH SELECTOR FOR NONPARAMETRIC KERNEL REGRESSION WITH RULE OF THUMB METHOD,
SHIBATA AND CROSS VALIDATION
By Supervisor Co-Supervisor
: Moh. Hafiyusholeh : Dr. Drs. I Nyoman Budiantara, MS. :Jr. Mutiah Sal:umth Chamid, M.Kcs.
ABSTRACT
The choice of bandwidth is crucial in the nonparametric estimation procedure. When bandwidth is too small, the resulting curve is too under smoothing. When bandwidth is too large, the resulting curve is over smoothing.
In this research we study three existing bandwidth selectors for nonparametric kernel regression. The first method is based on Mean Squared Error estimate. With penalize Shibata and leave-one-out estimate, bias term of Mean Square Error cancel
asymptotically. The other method is based on Q= E[rn11 (x)-m(x)f by combining bias
and variance and then derive it to h, we obtained Rule of Thumb bandwidth selector
hliOT.
With illustrate three methods to the data we examine represent the voltage drops in the battery of a guided missile motor during its flight (Eubank, 1988). We obtained
hopt Shibata 0.9500, huor 0,3402 and hopr Cross Validation 0,3050. The value of MSE
and R2 is 0,0137 and 0,9978 for Cross Validation, 0,0617 and 0, 9898 for Rule of Thumb and 0,0727, 0,9878 for Shibata.
Key words: Nonparametric kernel regression, Rule-of-Thumb bandwidth, Penalize Shibata, Cross Validation
ii
PEMILIHAN BANDWIDTH UNTUK REGRESI NONPARAMETRIK KERNEL DENGAN METODE
RULE OF THUMB, SHIBA 1:.4 DAN CROSS VALIDATION
Nama mahasiswa : Mob. Hafiyusholeh NRP : 1304 201 019 Pembimbing : Dr. Drs. I Nyoman Budiantara, MS. Co-Pembimbing : Ir. Mutiah Salamah Chamid, M.Kes.
ABSTRAK
Pemilihan bandwidth dalam estimasi nonparametrik merupakan sesuatu yang sangat krusial, jika ditetapkan bandwidth yang terlalu kecil, maka akan berakibat estimasi kurva regresi undersmoothing. Begitu juga sebaliknya jika ditetapkan bandwidth yang terlalu besar, maka akan menyebabkan estimasi kurva oversmoothing.
Dalam penelitian ini kita mengkaji tiga metode pemilihan bandwidth untuk regresi nonparametrik kernel . Metode pertama berdasar pada estimasi Mean Square Error. Dengan menetapkan penalize Shibata dan leave-one-out estimate, maka bias dari Mean Square Error (MSE) akan terhapuskan. Metode lain berdasar pada
Q=E[mh(x)-m(x)]2 dengan mengkombinasikan antara bias dan varians dan
menurunkannya terhadap h didapatkan bandwidth Rule ofThumb hum .
Dengan menerapkan ketiga metode tersebut ke dalam data penurunan voltage baterai dari motor peluru kendali selama waktu penerbangan (Eubank, 1988) diperoleh hopr Shibata sebesar 0.9500, Rule ofThumb sebesar 0,8170 dan Cross Validation sebesar 0,3050. Nilai MSE dan R2 masing-masing metode sebesar 0,0137 dan 0,9978 untuk Cross Validation, sedangkan untuk ROT sebesar 0,0617 dan 0,9898 serta Shibata sebesar 0,0727, dan 0,9878.
Kata kunci: Regresi nonparametrik kernel, Rule-of-Thumb bandwidth, Penalize Shibata, Cross Validation
Ill
KATA J>ENGANTAR
~'~'~-~
.-1/lullnrlu/il/uu!Ji Nuhhi/ :l!umii11 . Sl' l'.:d:1 p11ji h:wi /\ ILd1 S WT. v:11w ll·Ld1
mcmhcrikan rahmat. hidayah. pdunjuk. kl·kualan dan kcsah;1ran pada pcnuli s sl'11ingga
dapat menyelesaikan tesis ini dengan judul : Pemilihan Bandwidth untuk Regresi
Nonparametrik Kernel dengan Metode Rule of Thumb, Shibata dan Cross
Validation. Shalawat dan salam penulis haturkan kepada Nabi besar Muhammad SAW
yang telah membawa dienul Islam. Tesis ini disusun untuk memenuhi salah satu
persyaratan mencapai jenjang Magister Sains (M.Si.) pada Program Magister Statistika,
Fakultas Matematika dan Ilmu Pengetahuan Alam, ITS Surabaya.
Penulis menyadari sepenuhnya bahwa tesis ini dapat diselesaikan, tidak terlepas
dari berbagai pihak baik secara langsung maupun tidak, dengan memberikan dorongan,
bantuan dan bimbingan kepada penulis. Untuk itu pada kesempatan ini penulis
mengucapkan banyak terima kasih yang sedalam-dalamnya kepada :
1. Bapak Dr. Drs. I Nyoman Budiantara, MS. selaku Koordinator Program Studi S2
Statistika ITS, sekaligus sebagai dosen pembimbing utama, yang dengan penuh
kesabaran dan tidak kenallelah, memberikan bimbingan, arahan serta motivasi.
2. Ibu Ir. Mutiah Salamah Chamid, M.Kes. , selaku Ketua Jurusan Statistika ITS
sekaligus dosen pembimbing kedua yang juga telah ban yak memberikan pengarahan
dan motivasi selama proses penulisan.
3. Para dosen pengajar yang dengan tulus telah memberikan wacana keilmuan kepada
penulis, beserta staf administrasi akademik, laboratorium komputasi dan ruang baca
Jurusan Statistika yang telah banyak membantu penulis selama masa studi .
IV
4. lbu Evawati Alisah, M.Pd dan Pimpinan STIMIK Malang yang telah memberikan
bantuan dan kesempatan kcpada penulis untuk melanjutkan pcndidikan di Program
Magister Jurusan Statistika ITS.
5. Orang tua dan istriku yang tercinta. Siti Shun'ah llasanah yang tclah hanyak
berkorban dengan segala kasih sayang, do'a dan motivasi kepada penulis. Semoga
Allah SWT memberikan yang terbaik untuk mereka.
6. Saudara- saudariku yang telah banyak memberikan pelajaran akan kehidupan.
7. Saudara-saudaraku seangkatan 2004 di Program Magister Statistika ITS yang
narnanya tidak sempat penulis sebutkan satu persatu, atas kcbcrsamaan,
kekompakan, bantuan dan masukannya selama masa perkuliahan. Semoga kita
mendapat ilmu yang Nafi', diberi ke-Sclamet-an, Maunah. dan diberi kehidupan
yang Sriyani.
Akhirnya penulis berharap dan memohon semoga bantuan yang telah diberikan
mendapat Ridho serta balasan yang setimpal dari-Nya. Sebagai suatu karya ilmiah
penulis berharap masukan dan kritikan. Semoga tesis ini dapat memberikan manfaat dan
mendapat ridho dari Allah S WT. Am in.
Surabaya, Agustus 2006
Penulis
v
LEMBAR PENGESAHAN
ABSTRACK
ABSTRAK
KATA PENGANTAR
DAFTAR lSI
DAFT ART ABEL
DAFT AR GAM BAR
DAFTRA LAMPIRAN
BABI.PENDAHULUAN
1.1. Latar Belakang
1.2. Rumusan Masalah
1.3. Tujuan Penelitian
1.4. Manfaat Pene1itian
1.5. Batasan Masalah
BAB II TINJAUAN PUSTAKA
2.1. Regresi Nonparametrik
2.1.1. Estimator Kernel
DAFTAR lSI
2.1.2. Regresi Nonparametrik Kernel
2.1.3. Estimator Least Square
2.2. Rule ofThumb (ROT) Bandwidth
2.2.1. Rumus Taylor
2.2.2. Turunan Matriks
2.2.3. Kriteria Asimtotik
2.3. Fungsi Penalize
2.4. Cross Validation (CV)
VI
1-lahtman
ll
iii
iv
vi
viii
ix
X
3
4
4
4
5
5
6
7
8
9
10
10
11
12
12
BAB III METODOLOGI J>ENELITIAN
3 .1 . Bahan dan Alat
3.1. Metode Penelitian
BAB IV HASIL DAN PEMBAHASAN
4.1. Rule ofThumb (ROT)
4.2. Bandwidth Shibata
4.3. Cross Validation (CV)
4.4. Aplikasi
4.3.1. Bandwidth Shibata
4.3 .2. Rule of Thumb Bandwidth
4.3.3. Metode Cross Validation
BAB V KESIMPULAN DAN SARAN
5.1. Kesimpulan
5.2. Saran
DAFTAR PUST AKA
Vll
13
13
13
15
15
29
39
42
45
4R
50
55
55
57
58
DAFTAR TABEL
Tabel Keterangan hal
Tabel4. 1 Berbagai nilai bandwidth yang diperoleh dengan metode Shibata 45
Tabel 4. 2 Berbagai nilai CV dan Bandwidth (h) 50
Tabel 4. 3 Nilai SSE, MSE dan R2 dari masing-masing metode 54
Vlll
DAFT AR GAM BAR
Gam bar Keterangan hal
Gambar4.1 Plot antara voltage drop dengan waktu 42
Gambar4.2 Estimasi kurva regresi nonparametrik dengan h = 0,100 43
Gambar4.3 Estimasi kurva regresi nonparametrik dengan h = 3,000 44
Gambar 4.4 Plot antara bandwidth dengan Shibata 46
Gambar 4.5 Plot estimasi nonparametrik kernel dengan h = 0,9500 47
Gambar4.6 Plot estimasi kurva regresi dengan bandwidth ROT 49
Gambar4.7 Nilai CV dan bandwidth 51
Gambar4.8 Estimasi kurva regresi dengan bandwidth CV 52
Gambar4.9 Plot gabungan taksiran kurva regresi 53
IX
DAFTAR LAMPIRAN
Lamp iran Keterangan hal
A Data penurunan voltage baterai dari motor peluru kendali 60
selama waktu penerbangan
B Program Regresi Nonparametrik Kernel, SSE, MSE, dan R2 61
c Program mencari bandwidth optimal dengan:
0 Rule of Thumb 62
0 Shibata 63
0 Cross Validation 64
D Pengujian Asumsi Residual 65
E Pengujian Data dengan Kuadratik dan Kubik 71
X
BABI
PENDAHULUAN
BABI
PENDAHULUAN
1.1. Latar Belakang
Analisis regresi merupakan salah satu alat statistik yang banyak digunakan
untuk mengetahui hubungan antara sepasang variabel atau lebih. Hubungan yang
didapat pada umumnya dinyatakan dalam bentuk persamaan yang menyatakan
hubungan fungsional antara variabel-variabel. Misalkan Y adalah variabel respon
m(X) adalah variabel prediktor, maka untuk n pengamatan hubungan variabel
dapat dinyatakan dalam bentuk :
I; =m(X,)+c,, i=1,2, .. . ,n ( 1.1)
dimana m(X;) adalah fungsi regresi atau kurva regresi , dan £ , adalah suatu variabel
random yang diasumsikan independen identik dengan mean 0 dan varians CY2
•
Ada dua pendekatan yang dapat digunakan untuk mengestimasi m yaitu
pendekatan parametrik dan nonparametrik. Pendekatan parametrik digunakan bila
bentuk fungsi m diketahui berdasarkan pada teori atau pengalaman masa lalu.
Sedangkan pendekatan nonparametrik digunakan bila tidak ada asumsi tentang
bentuk kurva atau fungsi regresi .
Dalam regresi nonparametrik, ada beberapa pendekatan yang dapat
digunakan antara lain histogram, kernel, deret orthogonal , spline, dan lain-lain
(Hardie, 1990). Pendekatan kernel diperkenalkan oleh Rosenblatt (1956) untuk
mengestimasi fungsi densitas.f{x) yaitu :
J;, (X) = _1 I K (X- X; ) . nh i=J h
(1.2)
dengan K(.) adalah fungsi kernel dan h adalah bandwidth.
Dalam pendekatan kernel, bentuk estimasinya dipengaruhi oleh fungsi kernel
K(.) dan bandwidth h. Bandwidth h adalah parameter penghalus yang berfungsi
untuk mengontrol kemulusan dari kurva estimasi. Bandwidth yang terlalu kecil akan
menghasilkan kurva yang undersmoothing, yaitu sangat kasar dan sangat fluktuatif
dan sebaliknya jika bandwidth terlalu besar, maka akan menghasilkan kurva yang
over smoothing.
Cara untuk menentukan bandwidth dapat dilakukan dengan cara coba-coba,
sehingga yang harus dilakukan adalah mencoba beberapa nilai ham/width kemudian
ni lai tersebut dimasukkan dalam taksiran fungsi kernelnya. Namun cara ini kurang
efektif karena memerlukan sense yang eukup tinggi untuk mengamhil keputusan
bahwa taksiran cukup halus. Dari sinilah kemudian para ahli berusaha
mengembangkan metode pcmilihan bandwidth yang bisa digunakan untuk
mendapatkan taksiran yang tepat.
Metode yang dimaksud adalah dengan menurunkan suatu formula untuk
mendapatkan suatu bandwidth yang optimal melalui Q = E[m 11 (x)- m(x) 12 • Tapi
sayangnya hasil bandwidth optimal yang diperoleh masih mengandung suatu fungsi
m dan cr yang tidak diketahui. Silverman (1986) menawarkan metode pemilihan
bandwidth yang kemudian dikenal dengan Rule l~{ Thumb ( R07) . Prinsip yang
mendasarinya adalah dengan mendekati fungsi yang tidak diketahui tersebut dengan
pendekatan parametrik biasa.
Selain dengan metode diatas, bandwidth yang optimal dapat juga diperoleh
melalui pendekatan fungsi Loss (L(h)), Rice (R(h)) atau Prediction Rice (p(h)). tapi
sayangnya diantara ketiganya tidak satupun yang dapat dihitung karena mengandung
2
fungsi m(x) yang tidak diketahui. Oleh karena itu, hal yang memungkinkan agar
didapatkan bandwidth yang optimal adalah dengan mengganti fungsi m(x) tersebut
dengan Y yang oleh Hardie (1990) disebut dengan istilah resuhslilution estimate atau
Mean Square Error (MSE). Tapi temyata dengan pendekatan MSE tersebut masih
mengandung bias untuk p(h).
Shibata (1980) dan Shibata (1981) mengkonstruksi suatu penalize pada
Mean Square Error (MSE) agar taksiran yang dihasilkan tidak bias terhadap p(h),
atau dengan kata lain bias pada MSE setelah diberi penalize Shibata akan
terhapuskan. Cara lain untuk menghilangkan bias dari MSE adalah dengan
menggunakan leave-one-out estimate yang kemudian lebih dikenal dengan istilah
Cross Validation (Hardie, 1991 ).
Untuk mendapatkan gambaran seberapa baik masing-masing metode
pemilihan bandwidth, maka akan diterapkan pada data penurunan voltase baterai
motor peluru kendalai selama waktu penerbangan. Data diambil dari Eubank ( 1988).
1.2. Rumusan Masalah
Berdasarkan ura1an diatas, maka rumusan masalah yang dapat penulis
kemukakan adalah:
I. Bagaimana mendapatkan bandwidth dengan metode Rule-of-Thumb ?
2. Bagaimana mendapatkan bandwidth dengan metode Shibata?
3. Bagaimana mendapatkan bandwidth dengan metode Cross Validation?
4. Bagaimana penerapan pemilihan bandwidth diatas untuk regresi
nonparametrik kernel dalam data penurunan voltase baterai motor peluru
kendali?
3
1.3. Tujuan Penelitian
Berdasarkan rumusan masalah diatas. maka tujuan dari penclitian ini adalah:
I. Mengkaji pemilihan bandwidth dengan metode Rule-of~l'humh untuk model
regresi nonparametrik kernel.
2. Mengkaji pemilihan bandwidth dengan metode Shibata.
3. Mengkaji pemilihan bandwidth dengan metode Cross Validation.
4. Menerapkan metode pemilihan bandwidth untuk regresi nonparametrik kernel
pada data penurunan voltase baterai motor peluru kendali.
1.4. Manfaat Penelitian
Manfaat yang diharapkan dari hasil penelitian 1111 adalah mampu
mcningkatkan wawasan keilmuan khususnya yang berkaitan dengan model regrcs1
nonparametrik dengan menggunakan estimator kernel. Disamping itu juga dengan
adanya penelitian ini diharapkan dapat memberikan informasi alternatif metode
pemilihan bandwidth yang optimal dari estimator kernel.
1.5. Batasan Masalah
Mengacu pada rumusan masalah diatas, maka ruang lingkup dari penelitian
1m akan dibatasi pada regresi nonparametrik kernel dengan menggunakan
pendekatan lokal konstan dengan metode Rule of Thumb, Shibata dan Cross
Validation.
BABII
TINJAUAN PUSTAKA
2.1 Regresi Nonparamctrik
BAB II
TIN.JAUAN J>USTAKA
Istilah regresi diperkenalkan pertama kali olch Franci s Galtom pada talmn
1885 berkaitan dengan eksperimen antara hubungan tinggi orangtua dengan anaknya
(Draper and Smith, 1966). Dalam regresi parametrik diasumsikan bahwa bentuk
kurva regresi diketahui . Pembuatan asumsi tersebut berdasarkan pada teori,
pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberikan
pengetahuan atau informasi yang terperinci.
Estimasi dapat juga dilakukan berdasarkan suatu pendekatan yang tidak
terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan t1eksibilitas
yang lebih besar. Metode dengan pendekatan ini dinamakan dengan pendekatan
nonparametrik yang mulai dikenal sejak abad ke-19.
Misalkan y adalah variabel respon dan x adalah variabel prediktor. Secara
umum hubungan variabel dapat dinyatakan sebagai Y; = m(XJ + r:;. i = I , 2. 3 . ... n
dimana &; adalah variabel random yang diasumsikan identik independent dengan
mean nol dan variansi d . Fungsi m(x) adalah fungsi yang tidak diketahui yang
disebut sebagai fungsi regresi atau kurva regresi. Fungsi regresi m(x) hanya
diasumsikan termuat dalam suatu ruang fungsi yang berdimensi tidak hingga.
Kemudian estimasi m(x) dilakukan berdasarkan data pengamatan dengan teknik
penghalus tertentu (Hardie, 1990).
Ada beberapa tehnik penghalus dalam regresi non paramctrik, antara lain
hi stogram, estimasi kernel, estimasi deret orthogonal, estimasi spline, k-NN, deret
Fourier, dan Wavelet.
2.1.1 Estimator Kernel
Estimator kernel diperkenalkan pertamakali oleh Rosenblatt pada tahun 1956
dan Parzen pada tahun 1962 dengan menentukan pembobot pada masing-masing
observasi dalarn himpunan data (Kweon dan Koekelman, 2004). Salah satu kelebihan
dari estimator kernel adalah bentuknya lebih fleksibel dan mudah disesuaikan .
Beberapajenis fungsi kernel dapat disajikan scbagai berikut: (llardle, 1990):
a. Kernel Gaussian: K(u) = .5; exp(- ~ u2) 1(-oo,oo)(u)
b. Kernel Epanechnikov: K(u) = % (1 - u2) 1[-I ,l](u)
15 2 2 c. Kernel Kuadrat : K(u): g (1 --4u ) 11-05: o.st(u)
d. Kernel Uniform: K(u) = ± 1t-I.I[(u)
e. Kernel Segitiga: K(u) = 0-lul) 1r-I .IJ(u)
Secara umum fungsi kernel untuk dimensi satu didefinisikan sebagai berikut :
(2.1)
Kernel K merupakan fungsi yang kontinu, terbatas, simetrik, dan terintegral
"' ke satu, J K(u)du=1. (Hardie, 1990).
- co
Jika suatu kernel memenuhi syarat berikut,: (Silverman, 1986)
<f)
1. J K(u)du=l
<Xl
11. J u K ( u) du = 0
"' Ill. J u 2 K(u)du :t: 0
"' IV. J K(u)2 du <oo,
maka kernel K disebut bcrordo 2.
2.1.2 Rcgrcsi Nunpanamctl'ik Kernel
Estimasi regresi nonparametrik kernel dengan menggunakan
linear konstan menggunakan sam pel random (x;, y;), i = 1, ... , n. Estimasi
y = m(x) diperoleh dengan meminimumkan:
n n
~~>-/Kh(x-X;) = l)Y; -[50 +o1(x-X;)+ .... +of'(x-X;)"]}2 K,(x-X;) i=l i=l
K disebut fungsi kernel dan h disebut sebagai bandwidth. Estimator o
hasil dari optimasi least square yang terboboti.
Pemilihan bandwidth yang optimal tergantung pada kriteria yang digunakan
Kriteria yang biasa digunakan adalah: (Eubank, 1988) dan (Hardie, 1990)
(Rice, 1984 ).
n
a. Fungsi Loss L(h) = n-1L(m(X1)-mh(X))2
J=l
n
b. Fungsi Risk R(h) = E[n- 1I(m(X1)-m11 (X)) 2
]
J=l
7
2.1.3 Estimator Least Square
Ide yang melatar belakangi metode Least Square adalah untuk mcmilih
estimator dengan jalan meminimumkan sum of square residual guna mendapatkan
estimator jJ0,/31, fJ2, ... , fJ* . Misal diberikan model :
y =X~+ E
Dimana y adalah vektor n x 1, E adalah vektor random n x 1 dari residual dan ~
adalah vektor (k + 1) x 1 dari estimator untuk koefisien flo, fJ~' /J2 , ... , fJk, serta X
adalah matrik full rank n x (k + 1) dari bilangan riil.
Untuk mendapatkan /30 ,/J,, ... ,A dengan metode least square,
diperoleh dengan ·cara meminimumkan sum ofsquare dari residual.
II
t/t: = LB;2 i=l
Teorema 2.1
Jika y =X~+ E dimana X adalah matrikfull rank n x (k+ 1), fJ adalah vektor (k + I
x 1 dari parameter yang tidak diketahui, dan t: adalah vektor random n x 1 de
mean 0 dan variansi d! Estimator least square untuk P dinotasikan
oleh p = (X~'Xr' X~'y (Myers dan Milton, 1991)
Bukti:
Vektor dari residual t:dapat ditulis sebagai: E = y- X~. Sehingga:
Karena ~1X1y adalah I x I , ~ 1X 1y = (~1X 1y)1 = y ' X~, maka dcngan substitusi
Untuk meminimumkan 1/£ sebagai fungsi dari fJ. maka kita turunkan
terhadap fJ kemudian menyamakannya dengan no!
untuk mendapatkan ~ kita kalikan kedua ruas dengan (X1 Xr1,
sehingga didapat :
2.2. Rule of Thumb (ROT) Bandwidth
Taksiran fungsi regresi rnh(x) bergantung pada h. Lebih khusus, jika nilai h
semakin kecil, maka bias juga semakin kecil akan tetapi varians akan bertambah
besar. Begitujuga sebaliknya jika nilai h semakin besar, maka bias akan cenderung
besar dan varian akan semakin kecil. Berkaitan dengan bias dan varian, maka h yang
optimal dapat diperoleh dengan meminimumkan Q= E[m11 (x) - rn(x)]2 terhadap h.
Rule of Thumb pertamakali ditemukan oleh Silverman (1986) kaitannya dengan
kernel. Prinsip yang mendasarinya adalah dengan mendekati fungsi yang tidak
diketahui dengan parametrik, sehingga
2.2.1. Rumus Taylor (Purcell dan Varberg, 1995)
Andaikanfadalah suatu fungsi dengan turunan ke (n + l), f<" ' ') (x) ada untuk
setiap x pada suatu sclang buka I yang mcngandung a, maka untuk sctiap x di I
f(x) = f(a)+ f'(a)(x-a) + f"(a) (x - a) 2 + .. . + f"(a) (x - a)" + R" (x) 2! 11!
/ (n+IJ( ) Dimana sisa R, (x) diberikan oleh rum us R" (x) = a (x- a)"+1 + ...
(n + l)!
2.2.2. Turunan Matriks
Misal
A= [ aij J simetris orde p serta B = [ b;1 J berukuran p x q.
I. Jika Z = arx , maka tunman Z ke x diberikan oleh:
2. Jika Z = arBy , maka turunan Z ke B diberikan oleh:
3. Jika Z = xrAx , maka turunan Z ke x diberikan oleh:
az =2Ax ax
4. Jika Z = xrAx, maka turunan Z ke A diberikan oleh :
az r T - = 2.xx - diag(.xx ) a A
2.2.3. Kriteria asimtotik
Dalam teori estimasi, terdapat beberapa pendekatan untuk mengetahui sifat
sifat baik suatu estimator. Dalam banyak kasus, tidak semua persoalan teori esti
dapat didekati dengan sampel berukuran kecil (eksak). Tetapi sering suatu persoal
estimasi , menyarankan kita menggunakan sampel berukuran besar.
Bcrkaitan dcngan kriteria asimtotik estimator bandwidth, maka akan dibah
mcngcnai kritcria asimtotik hig Oh dan lillie Oh, scrta sil~tt kckonvcrgcnannya.
Big Oh dan Little Oh (Rohatgi, 1976)
Notasi yang sering digunakan dari Big Oh dan Little Oh adalah 0(.) dan o(.
Misalkan.fdan g dua fungsi yang terdefinisikan pada bilangan real x.
a. Fungsi j(x) dikatakan most of order dari g(x), x ~co, ditulis dengan simbol
f(x) = O[g(x)], x ~co, jika terdapat suatu konstan M <co sehingga f(x) < M g(x)
b. Fungsi j(x) dikatakan smaller order dari g(x), x ~co, ditulis dengan
f(x) = o[g(x)], x ~co, jika lim f(x) = 0. x->oo g(x)
Beberapa sifat yang dimiliki oleh 0(.) dan o(.) adalah sebagai berikut :
(i) Jika.fi(x) = O[g1(x)], h(x) = O[g2(x)] maka.fi(x) + h(x) = O[g,(x) + g2(x)]
(ii) Jika a> 0 konstan,j(x) = O[ag(x)] makaj(x) = O[g(x)]
(iii) Jika.fi(x) = O[g1(x)] danh(x) = O[g2(x)] maka.fi(x).fi(x) = O[g,(x) g2(x)]
(iv) Jikaj(x) = o[g(x)] makaj(x) = O[g(x)]
(v) Jika.fi(x) = O[g1(x)],.f2(x) = o[g2(x)] maka .fi(x)h(x) = o[g,(x) g2(x)]
2.3. Fungsi Penalize
Beberapa fungsi penalize antara lain : (Hardie, 1990)
I. Shibata's model selector 2s ( u) = 1 + 2u
2. Generalized cross validation 2 c;a (u) = (1 - u) 2
3. Akaike's information criterion 2 A1c (u) = exp(2u)
4. Finite prediction error 2FJ'J: (u) = 1 + u
1-u
5. Rice's T 2 1 (u) = (1- 2uf1
2.4. Cross Validation (CV)
Metode cross validation pertama kali diperkenalkan oleh Rudemo pada la
1982 (Silverman, 1986). Cross validation merupakan leave-one-out method
berdasar pada regression smoother dimana observasi ke-j dihilangkan.
1990).
m,)X1) = (n-I)- 1LWh;(X)Y; l'l'j
Sehingga:
CV(h) = n-1 ICY;- mh,;CXJ ))2
i'l'j
BAB III
METODOLOGI PENELITIAN
BAB Ill
METODOLOGI PENELITIAN
3.1 Bahan dan Alat
Bahan dan alat yang digunakan dalam penelitian ini adalah :
1. Jurnal dan referensi yang terkait dengan permasalahan di atas.
2. Softwere minitab, matlab, dan microsoft excel.
3. Data penurunan voltase baterai motor peluru kendali selama w
penerbangan dengan data sebanyak 41 (Eubank, 1988).
3.2 Metode Penelitian
Metode yang akan dilakukan berkaitan dengan penelitian ini adalah:
1. Mendapatkan Rule of Thumb (ROT) dengan langkah-langkah seb
berikut:
a. Mendefinisikan Q dimana :
Q= E[(m,(x) - m(x)f] = ([Bias{m11 (x)} f + Var{m;, (x)})
b. Memperlihatkan bahwa;
Bias{m,(x)} = { Jx2 K(x)dx}-1-m" h2
+o(h) (2)!
c. Meminimumkan Q terhadap h sehingga didapat hopt :
2. Mengkaji ketidakbiasan metode Shibata dengan langkah-langkah se
berikut:
II
a. Mendefinisikan fungsi Loss L(h)=n-1I(m(X, ) - ti711 (X , )) 2
j=l
b. Mendefinisikan fungsi Risk R(h) = E[L(h)]
c. Mendefinisikan prediction risk p(h) = a 2 + R(h)
II
d. Menunjukkan bias dari MSE terhadap p(h) adalah -2n-2a 2I~.,(X, ) I I
e. Memberikan penalize Shibata kcdalam model , schingga dipcrolc
unbias estimate untuk p(h).
3. Mengkaji ketidakbiasan CV, dengan langkah-langkah sebagai berikut:
a. Mendefinisikan CV dimana:
n
CV(h) = n- 1 L[}~ -m11./X)] 2
J=l
b. Mendapatkan unbias estimate untukp(h).
4. Membandingkan metode Rule of Thumb, Shibata dan Cross Validation pad
data penurunan voltase baterai motor peluru kendali dengan langkah .~ ......... ~.
sebagai berikut:
a. Plot data antara variabel prediktor (x) dengan variabel respon (y).
b. Mendapatkan bandwidth optimal dengan metode Shihala dan Rule
Thumb (ROT) serta Cross Validation (CV).
c. Mendapatkan estimasi kurva regresi nonparametrik kernel.
d. Menghitung dan membandingkan nilai MSE dan R2 dari meto
Shibata, Rule ofThumb (ROT), dan Cross Validation (CV) .
BABIV
HASIL DAN PEMBAHASAN
BABIV
HASIL DAN PEMBAHASAN
Pemilihan bandwidth dalam regresi nonparametrik kernel mcrupakan suatu
hal yang sangat pcnting. Jika handwidth h tcrlalu kcciL muka cstimasi kurva yan
dihasilkan akan cenderung kasar, sebaliknya jika handwidth h tcrlalu bcsar,
akan menghasilkan estimasi yang oversmoothing Bcrikut ini dibcrikan pcmili
bandwidth optimal dengan metode Rule ldThumh, S'hihata dan ('ross Validation.
4.1 Rule of Thumb (ROT)
Rule of . Thumb memilih bandwidth optimal dengan memm1m
Q = E[m11 (x) -m(x)f terhadap h. Pertama ditunjukkan Q dapat dikompos·
menjadi bias kuadrat dan varians, sebagai berikut:
Q=E[m~r(x)-m(x)]2
= E[m11 (x)- E(m11 (x)) + E(mh(x)) -m(x)f
= E[(mh(x)-E(m11 (x))) 2 +(E(m11 (x))-m(x))2 +
+ 2(m11 (x)- E(m11 (x)))(E(m11 (x))- m(x))]
= E[(m11 (x)- E(m11 (x)))2] + (E(m11 (x)- m(x))2 +
+2(E(m11 (x)) - E(m11 (x))(E(m11 (x))- m(x))
= E[(m~r(x)-E(mh(x))) 2 ]+(E(mh(x)-m(x))2 +0
= (E(m11 (x))- m(x)) 2 + E[(mh(x)- E(mh (x))2]
= (Bias(m11 (x))) 2 + Var(m11 (x)).
dengan
(Bias(m11 (x))) 2 = (E(m11 (x))- m(x)/ ( 4 .1)
(4.2)
Untuk mendapatkan h11m terlebih dahulu akan dikaji bias dan varians dari
m11 (x). Merujuk pada hasil penguraian Q diatas, maka perlu untuk mengetah
m11 (x). Misal diberikan data (X;. Y;) dan diasumsikan mengikuti model regrcsi :
Y, = m(X,)+c, , c,- iid(O,a2), i = I, 2, 3, ... , n. (4.3)
Fungsi m(Xi) didekati dengan polinomial derajad p (Jia dan Schucany, 2004).
I'
m(XJ= Io;<x-XY j =O
= 00 + o1(x- X;)+o2(x- X,) 2 + ... +o"(x- X,)"
dengan oi konstan yang tidak diketahui.
Untuk mendapatkan estimasi model tersebut, digunakan metode weight
least square, dengan meminimumkan :
11 /J
I&/K~r(x-X;) = L{Y; -m(XJ}2 K 11 (x-X;)
i=l i=l
II f'
= L{Y;- Io/x-XJ'}2K11 (x-X,) (4.4)
1=1 j =O
dimana K adalah fungsi kernel dan h adalah bandwidth.
Misalkan
Kr = diag[ K11 (x-X;), i = 1, 2, 3, ... , n ],
dan
x, ...
(\' - .\ ',)
(X . . \'., )
(x-X11
)
(\' -- .\', ) ''
(.\' .\', ) ' '
(x-XJ ''
maka persamaan ( 4.4) dapat ditulis dalam bentuk matriks:
M = (Y - Xp.x 8} T Kx(Y - ~>.x 8}
T T = (Y - (Xp.x 8) ) l(r(Y- ~J.x 8)
T T T 5\IT s: = Y /(~ Y- ( Xp.x 8} Kx Y- (Xp.x 8} /(\. Y + (Xp .. r u; K, Xp.x V
T T T = Y Kx Y - 2(Xp.x 8} Kx Y + (Xp.x 8} Kx Xp.x 8
Untuk mendapatkan estimasi 8 maka kita turunkan M terdadap cS kemud
menyamakannya dengan 0.
oM T T --= -2X1, ,K .. Y + 2XP .K .XP xeS= 0 88 >' A >'' ,> 0
Dengan mengalikan masing-masing ruas dengan (X: .. xK,X,,.x r 1 , didapat:
Estimator untuk m(X) diberikan oleh:
T Dimana ~ 1 merupakan vektor ( 1, 0, 0, ... , 0) yang berukuran (p + I) x 1.
(Wand dan Jones, 1995).
Jika ditetapkan p = 0 maka
Estimator yang diperoleh disebut dengan estimator nonparametrik lo
constant (Jia dan Schucany, 2004) dengan ~r =(I) dan X = (I I · · · l)r o .•
Atau dengan perhitungan lcbih lanjut akan dipcrolch estimator nonparamctrik kcrnc
scbagai bcrikut:
II
n -1
" K (r- X )Y L..., h • I I
mh(x) = _ _.:.:1-::.!.:,-----n-II K 11 (x- X,)
1=1
II
Persamaan tersebut dapat ditulis: n1h (x) = n- 1 I w,/1 (x)}~ (4. 1=1
Dengan
dan
~ II
J;,(x) = n-1LK11 (x-XJ i=l
Berdasarkan persamaan (4.5), maka bias dari regresi nonparametrik
dapat dicari dengan :
Selanjutnya kita deretkan m(X;) berdasarkan ekspansi Taylor disekitar titik x
didapat:
rn'(x) rn"(x) rn(X;) = m(x)+--(X; - x)+--(X -x/ + ...
I! 2! I
(4 .8)
dimana i = 1, 2, 3, ... , n.
Jika ditulis dalam bcntuk matriks, maka pcrsamaan (4 .8) mcn,iadi :
0 = rn(x)Xo.x +rn'(x)X1.x + ~! rn"(x)X 2.x + .. . (4.9)
dim ana
m(X1
) (Xi - x) \ ' ' ( . I - x) -
m(X2 ) ( X 2 - x) \' ' n= X o,x = X I r = dan x 2,.r =
(. ) -xr '
,
m(X J (X - r) II ' (X, - x/
sehingga persamaan ( 4 . 7) menjadi :
Karena ~/ =(I), maka persamaan diatas dapat ditulis menjadi :
Dengan merujuk pada persamaan (4.1) hahwa Bias niJY) = r(IJ1"(x)) - m(x)
1naka dipnokiJ :
Untuk menyclesaikan persamaan (4.1 0) lcbih lanjut, maka dimisalkan :
- I =n [I I · · · I)
0
0 0
0
~n- ' (K,(x-X,) K,,(x-X,) ··· K,,(x-X,)j: l II
= n-'IK"(x-X,) = u0 i=l
K~r(x-X1 ) 0 0 (X1 -x)
-I [I I] 0 0 (X2 -x)
=n I ...
0 0 K11 (x-X") (X" -X)
(4. I 0)
(4. I I)
-I =n
(X1
- x)
(X) - x) [ K, (X - XI ) K, (X - X 2) . . . K, (X - X,J] -:
(X11 -x)
K 11 (x - X1) 0 0 (XI -x)2
- I [I 1]
0 0 (X2- x)2 = n I ...
0 0 K11 (x-X") (X"-X)2
- I =n [K11 (x-X 1) K 11 (x-X2 ) ••• K 11 (x - X,J]
= n-1 [fcx, -x)
2 K,(x- XJ] = v2
1= 1
(XI - x) l
(X2 -x)2
Secara umum persamaan ( 4.11 ), ( 4.12) dan ( 4.13) dapat ditulis :
n
vk = n- 1 ~)X; -xl K,(x-X;) , k = 0, 1, 2, ... i=l
1 (X -x) Karena Kh(x-X;) = h K 'h , maka:
~ _ -I~(X _ )k ~K(X; - x) vk - n ~ ; x . i= l h h
(4.12)
(4.13
M o I X, -x k " 0 tsa u = , ma ·a /\ - x = hu . sehmgga I ~~ I I
.. ", I J. I u, = L II (/Ill , ) - I\ (Ill)
1 ~ 1 h
0 X -x X -x X X Selan]utnya Au . = ' - ,_1 ; - ,_1 seho111gga h Au - X X
o /_). I h h = h ' /_). I - I - 1-l
Karena fungsi K merupakan fungsi yang kontinu, terbatas, simetrik dan terintegral
maka:
II
= ~)hu;)k K(u;)6.u; 1~1
n
= fChu)k K(u)du dengan syarat lim ~)hui)k K(ui)6.ui t:.u~o i=l
(401
Dengan memperhatikan syarat kernel berordo 2 yaitu: JK(u)du = 1 dan
fuK(u)du = 0, maka (4011), (4012) dan (4013) menjadi :
(4015)
( 4016)
(4017
Selanjutnya dengan merujuk pada persamaan ( 4.15), ( 4.16) dan ( 4.17) m
persamaan ( 4.1 0) menjadi :
'( ) A-11> I "( ) A-1/ . =m x. u+-m x. ~....-+ ... 2
=m'(x).(lr 1 .0+~m"(x).(lr 1 h 2 f u 2 K(u)du+ ...
I 2 f , =2.m"(x)h u-K(u)du+ ...
= ~h2m"(x) Ju 2 K(u)du + o(h) , h---f 0
Jadi Bias[mh(x)] = ~h2m"(x) Ju2 K(u)du + o(h) ( 4.1
Langkah selanjutnya akan ditentukan variansi dari estimator nonparametri
kemel/oca/ constan. Dari persamaan ( 4.5), maka :
Dengan menggunakan pendekatan yang sama, maka varians dapat di
sebagai berikut:
Misal:
R- - 1 I I - n X 0 .. K .. K .. X 0 .. ,. . . ,.
maka
/\"(x - .\'1)"
0
0
II
= n-1 I K 11 (x- X,) 2
1=1
II .
= In-1(hu;) 0 h-2K(u;)2
i=l
n
=I h!J.u;(hu; )0 h-2 K ( u; )2
i= l
II
= Ih-IK(u;)2t1.u; i=l
()
0
()
0
Dengan memperhatikan persamaan ( 4.15) dan ( 4.19) maka diperoleh :
_ 2 - I;:TA- IRA-1;: -an '=>I '=>I
( 4.19)
(4.20)
24
Dari bias dan varians yang diperoleh dari persarnaan ( 4.18) dan ( 4.20), maka
Q = (Bias(m(x))) 2 + Var(rrz(x))
Dengan memisalkan
dan
maka
(4.21
Bandwidth (h) yang optimal diperoleh dari meminimumkan Q terhadap
kemudian menyarnakannya dengan 0.
2
~ h3(p2(K))2 (m"(x))2 = (j' 2
II K I~ nh
hs = 0'2
II K I~ n(J.L2 (K))2 (m "(x))2
I ( 2 2 )1 /5 · · _ -5 (j' II K II:; Jad1 d1peroleh hopt - n J J
(J.LJ (K))- (m "(x )) -(4.22
I ( 1 J )1 /5 Jadi diperoleh h""' = n -5 cr I~ K 112
1 (p1(K)) (m"(x)t
(4.22)
Berdasarkan uraian di atas, penentuan bandwidth optimal tergantung
m"(x) dan cr2 yang pada kenyataannya tidak diketahui, sehingga pendekatan ini suli
dilakukan. Untuk megatasi hal ini maka Lee dan Hill (200 I) serta Ye, et al (20
mendekati m dengan polinomial derajat p.
(4.23)
Untuk mendapatkan estimator dari fJ, maka digunakan metode least sq
sehingga didapat :
(4.24
Akibatnya diperoleh estimasi untuk m :
Untuk mendapatkan m "(x), kita turunkan m(x) sebanyak dua kali terhadap X.
(4.25
Sedangkan untuk taksiran variansnya
A 2 1 ~ ( A )2 CJ' = --~ Y,- Y;
n- P i=l
(4.2
Dengan mensubstitusikan persamaan (4.25) dan (4.26) ke dalam (4.2
didapat :
Langkah selanjutnya adalah mendapatkan nilai IIKII~ = J K(u)2 du d
J.L2 (K) = Ju 2 K(u)du pada persamaan (4.27). Jika digunakan kernel Gaussian
diperoleh:
1 - - 112
{ 1 ]2
= J2; e 2 du
J 1 _112d = -e u 2Jr
1 J -112 =- e du 2Jr
Misalkan
~ ~
I= J e-u2 du maka I= 2 Je-u
2 du
-~ 0
~ ~
I = 2 e-u du · 2 e-v dv 2 J 2 J 2
0 0
00 00
= 4 J Je-<u2
+v2
)dudv 0 0
= n
sehingga didapat
IIKII~ = _1 Je _"l du - 2Jr
=-1 J; 2Jr
1 = 2£
(4.2
Sedangkan
)12 ( K) = Ju 2 K (11 )du
I I 2
f 2 - - u
= u --e 2 du &
1 f _ _!_11 2 =-- u·ue 2 du
&
Persamaan diatas dapat diselesaikan dengan integral parsial :
fUdV=U·V- fvdU
I l _ \11
2
Misal untuk U = u maka dU = du dan dV = ue-2" . maka V = -e 2 du ole
karena itu,
1 f _ _!_112 f.12 ( K) = r;:;-= u · ue 2 du
"21l"
=1 (4.29
Selanjutnya untuk mendapatkan Rule of Thumb (R07) maka ki
substitusikan persamaan (4.28) dan (4.29) ke dalam persamaan (4.27) didapat:
(4.30)
4.2 Bandwidth Shibata
Pada bagian kedua ini, kita akan menunjukkan prosedur pemilihan bandwidt
yang lain. Pertama-tama kita definisikan dulu fungsi loss.
Fungsi Loss didefinisikan sebagai
II
L(h) = n- 1 ~)m(X1 )- m"(X1 )f ( 4.31) J= l
Rata-rata atau nilai harapan dari [,oss adalah R(h) = Hf /,(h) I yang dischu
s~.:bagai Risk.
II
R(h)= /:,"(n 1L)mtX1
) - rit11 (X,)l"') {4.32) J = l
Baik R(h) maupun L(h) merupakan kriteria yang digunakan untuk men
kebaikan suatu estimator. Nilai terkecil dari kriteria adalah indikasi dari
yang terbaik. Menurut Eubank (1988), pengukuran yang lain yang berhubungan e
dengan R(h) adalah prediksi risk yang kadang-kadang disebut prediksi mean
error yang berhubungan erat dengan R(h), yaitu:
p(h) = a- 2 + R(h). (4.33
Sehingga sebuah estimator yang meminimumkan R(h) JUga
meminimumkan p(h) dan juga sebaliknya estimator yang meminimumkan p(h) j
akan meminimurnkan R(h).
Jadi hal yang mungkin untuk mengestimasi p(h) adalah dengan mean sq
error.
II
MSI~'(h)=n- 1 L(Y, -1n11 (X)) 2 (4.34) ; =I
Akan tctapi MSL'.'(h) ini merupakan estimator yang bias tl:rhadap p(h). Untuk
melihat bahwa MSE(h) bias terhadap p(h), kita uraikan sebagai berikut :
II
MSE(h) = n- 1 L)~ -m11 (X)f ; =I
II
= n- 1 ~)Y/ + m1~(X)- 2(Y,m11 (X1 ))J ; =I
Dengan memperhatikan Y = m(X .) + £ . , maka : J J )
II
MSE(h) = n-1L[ (m(X1) + £)2 + m1~(X;) -2( (m(X) + c)n111 (X)) J J=l
=n-1I[ m2(X)+c/ +2m(X)£1 +m,~(X)+
; =I
II
= n-1L[ m2 (X1 )+£/ +2m(X)£1 +m1~(X)+ J=l
II
= n-1L[ c/ +m2 (X;)+m1~(X)-2m(X1 )m11 (X) J=l
n
= n-1L[ c/ +m2 (X)+m,~(X)-2m(X)m11 (X)+ J=l
(4.3
Karen a
II
L(h) = n-1 ~)m(X)- m11 (X)f J=l
II
= n- 1 ~)m2 (X1 )+m~(X)-2m(X1 )m11 (X)] J=l
maka persamaan ( 4035) menjadi :
n n
MSE(h) = n-1 L e1
2 + L(h)- 2n- 1 L e1 (m11 (X
1 )) - rn(X
1 )) 0
; =I ; =I
Dengan memperhatikan bahwa error e, adalah iid dengan ekspektasi no!
variansi a 2 maka :
= a 2 + R(h)+EC1,, (403
dengan
EC1" = -2n-1 E(It:1(mh(X1)- rn(X1))J 0
;=I
(403
Selanjutnya untuk menguraikan persamaan (4037) lebih lanjut, maka peri
diperhatikan kembali persamaan (406) yaitu:
II
m~~cx) = n-1 I~,;(x)Y; i=l
yang berakibat:
II
m11 (X)=n- 1 L~11 (X1 )Y,, /=I
sehingga persamaan (4037) dapat ditulis:
31
Karena Yi = m(X;) + t:; , maka
(
II [ II II ]) = - 2n-1 E ~ t:1
n-1 ~ ~~~ (X1 )m(X,) + n-
1 ~ ~~~ (X1 )t:,- m(X1 )
IJ IJ
= -2n- 1 IE(t:1 )n-1 I~,;(X)m(X; )+
) =1 i=1
Selanjutnya dengan memperhatikan bahwa E(t:) = 0 dan E(t:/) = cr2
, m
persamaan ( 4.38) menjadi :
" = -2n-2a-
2 LW,,/X1
)
J=l
sehinga
E[MSE(h)] = a- 2 + R(h) + EC1,
" = a- 2 + R(h) - 2n-2a- 2 LW11J(X) J= l
II
= p(h)-2n-2a- 2 IW,,,(X) J= l
;I; p(h)
Dari persamaan diatas terlihat bahwa MSE(h) adalah bias untuk p(h) ,
nilai biasnya :
II
-2n-2a- 2LW,u(X). (4.39) J=l
Untuk mengatasi hal ini maka kita harus memodifikafi MSE(h) sedemiki
rupa sehingga suku bias seperti pada persamaan ( 4.39) terhapuskan (Hardie, 1
dan Rice (1984) serta Hardie, 1991). Untuk cara ini, MSE (h) diberi penaliz
function sibata 's sehingga MSE (h) menjadi:
II
G(h) = n-1 I(~- mit (Xi ))2• (1 + 2n-1W,I/ (X,))
J=l
n
= n- 1L0'/ +mh\X)-2f;m11 (X) · (1 +2n-1W,Ij(X)))
J=l
n .
= n- 1 I[ (m(X j ) + £ } )2 + mh
2(XJ)- 2(m(XJ) + £ } )mlt(X, ) (I+ 2n-
1W,!i (X )) J
i= l
II
= n-1 ~)(m~ (X1
) + c:/ + 2m(X)c:1 + n1112 (X,)+
j = l
n
= n- 1 ~)c:/ +m2(X;)+m 11\X)-2m(X)m11 (X)+ j = l
II
= n-1 _L)t:1
2 + m2(X1
) + m112 (X,)- 2m(X
1 )rn11 (X,) +
J=l
n
=n- 1 ~)c:/ +(m(X;)-mh(X1))2 +2t:/m(X;)-m11 (X;)) (1+2n- 1 ~u(X; ]
J=l
II
= n-1L[ c:/ +(m(X;)-mh(X))2 +2t:/m(X)-m11 (X1 ))+ J=l
11 n
+2n-2L c:/~u(X;)+2n- 1 L (m(X;)-m 11 (X)) 2 ·n- 1~11 (X)+ j = l j = l
Dengan cara yang sarna, karena error 8 adalah iid dengan ekspektasi nol
variansi c/ maka persamaan diatas menjadi:
II II
+2n-1 I E{t:1(m(X) -1n11 (X))} + 2n-2I E(t:) 2
W11,(X) + p i ;=I
II
+2n- 1 I E{(m(XJ) - m,(XJ )) 2}. n- 1 ~1/ (X, )+
;=I
+4n-' ~ E{e, (m(X1 )- ril,, (X, ))W,,, (X,)}]
= CY2 + R(h)+ P+Q+ R +S,
dimana
II
P = 2n-1 I E{t:;Cm(X)-m,(X))} j=l
II
Q = 2n-2I E(t:) 2 ~"(X)
;=I
II
R = 2n-1LE{(m(X)-m,(X))2} ·n- 1 ~y(X)
j=l
II
s = 4n-2 LE{t:1(m(X)-m"(X))W";CX)} }=1
Dengan menguraikan masing-masing persamaan didapat:
II
P = -2n-2CY 2 L~IJ(X1 ) j=l
II
Q = 2n-2 LE(c/)~u(X) j=l
n
= 2n-2 CY 2 L~IJ(X) } =1
sedangkan
(4.40)
( 4.41)
(4.42)
Karen a
II
R = 2n-l L E{(m(X,)- mh(X, )) 2}. n-'w,IJ ( x,)
J=l
maka dengan memperhatikan juga bahwa :
II
R(h) = n-'LE{(m(X) -m11 (X)) 2},
J=l
maka persamaan ( 4.2.18a) dapat ditulis
dan
II
s = 4n-2 LE{e/m(X1)-m11 (X1))W11/X)}
J=l
n 11
= 4n-2IE{e1m(X
1)w;uCX)}- 4n-2I E{e1m11 (X)w;lj (X, )}
J=l j=l
n
= -4n-2 LE{e1m11 (X)w;IJCX)}, J=l
Karen a
II
mh(x)=n-'~)r;/l(x)Y;' i = l
maka
Dengan memperhatikan bahwa Yi = m(X;) + e; maka :
(4.43a)
(4.43
n II
= -4n -2 ~)v,u (X) E {c: 1n _, L)v;,; ( X)m( X,)} +
J=l i= l
II II
- 4n-2 I ~u (X1 )E{c:1n-1 I W," (X, )l:, } j = l 1=1
Karena E(c:1) = 0 maka suku pertama sama dengan nol, sehingga
II II
s = - 4n-2IW,u(X1 )E{c:1n-'Ic:,W,)X;)} 1=1
II = -4n-3 I~u(X1 )E{c:1 ( c:,W,,,(X;)+ ... +t:11~111 (X) )}
j=l
II = -4n-3 EI ( c:1c:1Wh 1(X)Wh/X
1)+ ... +&1&11W"11 (X)W,u(X))
j = l
- 3 ( 2 2 ) 2 2 ( ) ) = -4n E c:, whl (X, + ... +&n whn XII
-3 ( 2 2 2 2 ) = -4n a ~, 1 (X1)+ ... +a ~111 (X,)
II = -4n-2a 2In-'W,,/(X;)
j= l
II = -4n-2a 2In-1 (h- 'K(O)I };,(X))2
J=l
3
(4.44
Dengan mensubstitusikan persamaan (4.41), (4.42), (4.43b) dan (4.44) kcualaJI
persamaan ( 4.40) akan didapat
tr II
E[G(h)] = a- 2 + R(h)- 2n-2 I ~,1 (X, )a-2 + 2n-2 I~,, (X, )0"2 +
j =l
Selanjutnya dengan mengabaikan lower order term (Rice, 1984), (Hardl
1990) dan (Hardie, 1991) maka persamaan diatas menjadi :
E[G(h)] = a- 2 + R(h)
= p(h)
Dari sini dapat disimpulkan bahwa dengan menambahkan penalize Shibat
maka G(h) merupakan estimator unbias untuk p(h).
4.3. Cross Validation (CV)
Hampir sama dengan metode shibata, ide dari cross validation adalah untu
menghilangkan suku bias pada mean square error (MSE).
II
CV(h) = n-1 I(~- mh_j(X;)) 2
' ( 4.46) J=l
dengan mh.;(X;) adalah leave-one-out method dimana observasi ke-j dihilangkan.
mh.j(X;) = (n -1)-1 Iwhi(Xj )Y, ,,;. J
Selanjutnya untuk menunjukkan bahwa dengan leave-one-out estimate pad
m11 (X;) maka bias pada MSE akan sama dengan nol, dibawah ini dibcri
pengura1annya.
II
CV(h) = n-1" (Y
1- m" (X ))2
~ ,j J J=l
II
= n-1 I[ ~2 + m~.;CX;)- 2~mh,j (X) J' karena YJ = m(X) + &} maka:
J=l
n
= n-1 I[ (m(X;) + &;)2 + m,~)X;)- 2(m(X;) + &./ )mh,j (X) J J=l
II
= n-1 I[ m(X;)
2 + e/ +2m( X) )&j + m;)X;) + J=l
-2(m(X )m" (X ) + & m, (X ))] J ,j J .I 1,} J
II
=n-1I[s/ +m(X;)2 +m,~)X)-2m(X)m11)X)+ J=l
II
= n-1 I[&} 2 + (m(Xj)- mh,j (X, ))2 -2&} (m(X,) + (ifh,J (X./)) J J=l
Dengan mengambil ekspektasi dari masing-masing persamaan didapat :
Denga memperhatikan bahwa error E adalah iicl clengan mean no! clan va ·
cr2 maka cliperoleh
(4.47
dengan
( 4.48)
selanjutnya karena
mh./X) = (n-tr'Iwhi(X)Y; , i"'J
maka persamaan (4.48) menjadi:
Karena Yi = m(Xi) + Ei maka:
C112 = -2n-1E[I t:1 [m(X1 )+(n-If 1 I~~~(X,)m(X1 )+(n-Ir 1 I~~~(X,)t:1 ]J j ; l "J "'
n n
= -2n- 1 IE(t:)m(X)-2n-1 IE(t:)(n-If 1 I~~~(X,)m(X1 ) + j = l j=l I~)
n n
= -2n-1 I E(t:1
)m(X1)- 2n-1 (n -1)-1 I E(t:
1) L ~~~ (X
1 )m(X1 )
j=l j = l I~ j
II
-2n-1 (n -1)-1 L L ~~~ (X)E(t:1 t:,) j=l I~)
Karena E(t:;) = 0 dan E(t:;t:;) = 0, j:;; i maka persan1aan diatas akan
dengan 0
Sehingga persan1aan (4.47) menjadi:
Dari sini dapat dibuat kesimpulan bahwa dengan leave-one-out estimate
/n 11 (Xi) akan menyebabkan bias pada MSE sama dengan no!.
41
4A. Aplikasi
Untuk mencrapkan pemilihan bandwidth yang optimal pada regres1
nonparametrik kernel, maka berikut ini akan diaplikasikan dalam data penurunan
voltase baterai dari motor peluru kendali selama waktu penerbangan (Eubank, 1988).
Dalam pembahasan ini akan dilihat seberapa tepat bandwidth yang dikaji
akan memberikan pengaruh terhadap pengestimasian model regresi nonparametrik.
Schagai variahcl prcdiktor (x) adalah waktu (dalam satuan seconds) scdangkan
variahd rcspon (y) adalah penurunan voltase haterai . lluhungan kedua variahd
diherikan okh mmkl sehagai herikut :
>: 1/t(.\" , )tt. , . t 1, .' , 1. ·II
Lkngan error diasumsikan idl!nlik. indepl!ndl!ll dengan llll!all no! dan varians rr ,. . Plot
antara x (waktu) dan y (penurunan voltase baterai) dibcrikan dalam liambar 4.1.
Scatterplot of Voltage Drop vs Time
16
15 • • C' • • • •• Ill • II. 14 • • Ql •• .... .! 13 • •• Ql • Ill Ill 12 •• ~ 0 •• >
11 •• c • Ill c • •• :J 10 ••• II. :J • • c 8. 9 •• ........ >- •• • 8 • •
7 ••• 0 5 10 15 20
x{waktu)
Gambar 4.1. Plot antara penurunan voltase baterai (y) dengan waktu (x)
42
I )ari (lam bar 4. 1 tcr1ihat bahwa plot data antara penurunan ,-o1tase bate
dcngan waktu ccndcrung tidak berpola. dalam
memberikan informasi yang pasti mengenai bentuk dari kurva regresi. Ini terl'
pada interval \vaktu antara 0 detik pcrtama sampai 5 dctik. Begitujuga pada interv
\\aktu antara 8 dctik hingga 1-l detik dan interval waktu antara 16 detik sampai 2
detik tidak ada informasi atau asumsi yang kuat untuk mengestimasi kurva regresi.
Karcna tidak ada informasi mcngcnai bentuk kurva regresi, yang diperk
dengan basil estimasi parametrik pada lampiran. maka akan dicoba den
menggunakan pendekatan regresi nonparametrik kernel yang notabene
dipcngaruhi olch nilai bandwidth. Akan tetapi sebelum diterapkan pemili
bandwidth yang optimal, tcrlebih dahulu akan diilustrasikan estimasi kurva regres
yang dihasilkan dari pemilihan handwidth yang tidak optimal.
16
15 ..... \ ... \
-·· 14
... ~ ·~ ...
·;;; I Q;
13 ·~ cv ..c l '\ .. Q)
"' 12 / ._ .. "' \ 0 ,_ .. > I
~~-.. c ' f
"' 11 _,. c 2 i \ ::J . ·~ .... c 10 / . Q)
I .e. r ._ ..
,.., ,/
9 ·-i
8 '\ / . data . . - Yhed(h=0.1 00) 'L.-· .
7 0 2 4 6 8 10 12 14 16 18 20
x (waktu)
Gam bar 4.2. Estimasi kurva regresi dengan h = 0.100
4
16
15
14
'f! -----..
~ 13 ·· .. .... ..0 Q)
::l 12 =: 0
... .. ·· >
~ 11 c ... 2 :>
~ 10 .e.
( . .. .. >-- /
9 .. _.,._.,.,.·
8
I • data I
- Yhed(h=3.000)
7 ..
0 2 4 6 8 10 12 14 16 18 20 x (waktu)
Gambar 4.3. Estimasi kurva regrcsi dengan h = 3,000
Untuk h yang terlalu keciL misal diambil h = 0,200 (Gambar 4.2),
estimasi kurva regresi akan cenderung menuju ke data, seluruh data d"
oleh garis regresi sehinga diperoleh model yang kasar (undersmooth). Sebalikn
jika h yang kita pilih terlalu besar, misalkan dalam kasus ini kita pilih h = 3.
(Gambar 4.3), maka akan mengakibatkan estimasi kurva sangat halus (oversmooth).
Dari ilustrasi diatas, maka tampak bahwa bandwidth optimal sangat penf
di dalam cstimasi regn.:si nonparametrik kernel. Selanjutnya dari plot yang
(Gambar 4.1) akan diestimasi bcntuk kurva regresinya dengan menggu
pemilihan bandwidth yang sudah dikaji diawal pembahasan kedalam estima
nonparamdrik kernel.
Pada pcmbahasan ini akan dikaji aplikasi dari bamlwidlh den
menggunakan mctode shibala dan Rule oj"Thwnb se1ta Cross Validalion. l)andwidl
optimal yang sudah dipilih akan digunakan untuk mengestimasi kurva regresi. Hasil
dari estimasi akan dilihat nilai MSE dan R2 nya yang kemudian akan dibandingkan
mana diantara ketiga metode yang memiliki MSE terkecil serta R2 terhesar.
4.3.1. Bandwidth Shibata
Sebagaimana sebagian metode pemilihan bandwidth yang ada, bandwidth
yang optimal dengan menggunakan metode Shibala juga diperoleh dari nilai Shi
yang paling kccil. Selanjutnya setelah dilakukan perhitungan (program
memperoleh bandwid!h optimal dengan mctodc ,\'hihala diherikan dalam lampiran
diperoleh bcrbagai nilai Shibata dan bandwidth (h) sebagai bcrikut:
Tabel 4.1 Berbagai nilai bandwidth yang diperoleh dengan menggunakan
metode Shibata
Dari hasil perhitungan terlihat bahvva nilai terkecil dari shibata ada!
133,9133 dengan bandwidth sebesar 0.9500. Untuk lebih jelasnya dibawah ·
dibcrikan plot antara nilai Shibata dcngan bandwidth
1' 14 114
1)4 02
1 14
133 92
bondw1d l h (11) VS S1bala(h) -- "1- ,--- ~-
1 I
I \ \
~---~-1 1.5 2 2.5
\ JJ~'----~ 0 0.5
bandwidth (h)
Gambar 4.4 . Plot antara bandwidth dengan Shibata
Dari plot diatas dipcroleh nilai bandwidth optimal dengan men
metode Shibata's adalah 0.9500. sehinga hubungan antara waktu dengan penurun
voltase batcrai pada motor peluru kendali akan memenuhi persamaan:
-II J ( · \ ' ) 4 I I I -- K .\ ~...::_ _!_ }'
,11
(x) = ,= 1 o. 9500 o. 9500 '
" , 41 -II I K( x-~~ ) I = I 0. 9500 0. 9500
l Jntuk lll\.!llgL:slilllasi kurva rL:grL:Sl, pL:llU!is 11H.:nggunakall fungsi kand
< Ia ussian ~
L ' I I ' n (II ) = --eX p( - - II
& 2
I lasil plot cstimasi nonparamctrik kernel dcngan menggunakan bandwidth
shibata sebesar 0,9500 diberikan dalam Gambar 4.5 berikut:
15
14
~ ~ 13 C1:l ...0
Q) (/)
2! 12 0 >
~ 11 c: 2 ::::l
/ . ...... ~
... ..
•
· -· ---+ - . • . . .. .. •
•· .. .. .... .
. ... ~
.. - . . --. __ . ~ 10 8
,fli ,/
~· . · -----.
9
• 8 -... __
---- --·· .
.. ..
~ - . f_· data I I - YhedShibata(h=0.9500)
• 7 L--·_·-L--~L----L--~----~--~----~--~----~--~
20 0 2 4 6 8 10 12 14 16 18 x (waktu)
Gambar 4.5. Plot estimasi nonparametrik kernel dengan bandwidth 0,9500
Dari Gan1bar 4.5 telihat bahwa dengan menggunakan bandwidth 0,95
kurva regresi yang dihasilkan cenderung smooth (halus). Artinya kurva regresi ti
kasar dan tidak oversmoothing, sebagaian besar data terwakili oleh estimasi k
regresi. Ini diperkuat oleh nilai MSE sebesar 0,0727 dan R2 0,9878.
4.3.2. Rule of Thumb Bandwidth
Dengan menggunakan metode rule vfthumh. kita bisa langsung mendapatk
nilai bandwidth yang optimal tanpa mencari nilai yang paling minimal dari meto
yang bersangkutan sebagaimana metode shihata.
Deng.an memperhatikan plot data antara penurunan voltase baterai (y) d
waktu (x), maka kita coba dengan mcnggunakan pendckatan polinomial derajad
Persamaan tersebut kemudian diturunkan dua kali terhadap x untu
mendaatkan :
Sclanj utnya dcngan pcrhitungan sedcrhana didapat (1i1 "( x) )c = 0.1 006 da
a- ~ = 0,8977 yangjika disubstitusikan kedalam hH111 ,
maka akan didapat bandwidth optimal sebesar 0,8170, sehingga estimasi
rcgrcsi atau pola hubungan anatar waktu dengan pcnurunan voltasc baterai
memcnuh i persamaan:
Dimana K adalah fungsi kernel.
Sebagaimana aplikasi metodc Shibata pada (4.3.1), untuk mengestimasi k
rcgresi diguanakan fungsi kernel Gaussian yaitu :
K I ( I , (u) = --exp --u- ) 5 2
Estimasi kurva regrcsi dcngan menggunakan metode pemilihan bandwidth
Rule vf7'humh dibcrikan scbagai berikut :
16
15
14 ,..... ~ Q)
13 -cu ..0 Q) (I)
12 cu -0 > c
11 cu c 2 :J c 10 Q)
0.. ......... >-.
9
• 8 -.
7 0
.... ·
.. 2
... /
~- .
4
• ...
6
,/ . /
. / •
...
8
.. . .
10 x (waktu)
•
•· . •···-~·
·. ... ~\\ .
\\
..... ·~ ... _ . . ·---
I • data l
-- YhedROT(h=0.8170) I 12 14 16 18 20
Gambar 4.6. Plot estimasi kurva regresi dengan bandwidth ROT sebesar 0,8170
Dari Gambar 4.6 terlihat bahwa estimasi kurva yang dihasilkan cukup halus
Selanjutnya dengan perhitungan yang sama diperoleh nilai MSE sebesar 0,0617
R 2 nya sebesar 0, 9898
-LL1 Mctodc Cross Validation (CV)
Schagai bahan rcrhandingan. dihawah ini akan dihcrikan pcngcstimasian
kurva rq~rc s i dcngan mcnggunakan 111L'todc rcmililwn bandv.idth yang lain. Mctodc
:-ang dimabud adalah mctodc CY.
digurwkan dalam mcndukung hasil pcnclitian yang ada yang tcrkait lkngan masalah
l'ri' '" 'f1 :- <111g tnctldtt sarin:~t Scll ll ct ~.k11ga n .\'l!ihutu )<litu nilai tcrh.ccil dari ('V
tltcntlll.iuh.h. .llt hwlih l'idth :ang ()rtim,!l. SclwJjuttJya sctclah dilakubn pcrhitungan
dih,l\\ah i11i dikrikan hcrht~gai nilai hand\\ idth dan sJ.;,or ( ·v.
Tahcl ..t.2. lkrh' 't!-''i 11ilai ( ' \ d:tn hundll ·tclth (It)
50
.lika dilakukan pint antara nilai-11ilai CV dcngan hunJwidth (h), mab akun
tampak scpcrti gambar bcrikut:
bandwidth (h) YS CV1 (h) 134 .58.---~-~~-~~~-~----.---,
134.57
['--, 134.56 "'
13.4 55 '' ·.
E: 134.54
~ 134.53
134.52
134.51
13.4 5
'· I /
'--- // 134.49 L__,___..___.__ __ .______J_.==__. _ ___J
0.275 0 26 0.295 0.29 0 295 0.3 0 D5 0.31 0 315 bandwidth (h)
Gambar 4.7. Nilai CV dan bandwidth
Dari Tabel 4.2 dan hasil plot seperti pada Gambar 4.7 diatas, ternyata ni
CV yang paling minimum adalah 134,4906. lni menunjukkan bahwa bandwidth
optimal ada pada nilai 0,3050, sehingga hubungan antara penurunan vo1tase
motor peluru kendali selama waktu penerbangan akan memenuhi persamaan:
41-II 1 K( x-X, )r A ( ) - 1=1 0,3050 0,3050 I
mh x - 41 ( ) 4rii I K x-X, 1=1 0, 3050 0, 3050
Selanjutnya untuk membandingkan dengan metode yang sudah dikaji (4.3.
dan 4.3.2), maka berikut diberikan estimasi kurva regresi dan ni1ai MSE serta R2
Dengan menggunakan fungsi kernel Gaussian dan bandwidth CV sebesar
0.3050, maka estimasi kurva regresinya seperti tampak pada gambar berikut:
16
15 • ._ .... • • · ..
14 .-. ........ ~ ~ 13 rn ..0 Q) C/)
12 rn -0 > c:
11 rn c:
~ :·
...... .. ..
... ·.\ .•..
.. . 2 :::l c: 10 Q)
• •• . 0.. .__. >. r ..
...--.---., .. ,
9 . / ·-·· ~
-• .~ ·
8
7 l • data I
- YhedCV(h=0.3050) \
'· • . - .... 0 2 4 6 8 10 12 14 16 18 20
x (waktu)
Gambar 8. Estimasi kurva regresi dengan bandwidth CY sebesar 0,3050
Nilai MSE dan R2 dari hasil estimasi dengan menggunakan metodc pemili
bandwidth Cross Va/idtion berturut-turut 0,0137 dan 0,9978
Lebih jelasnya, untuk melihat perbandingan antara metode Rule of Thumb,
Shibata, dan metode Cross Validation, maka dibawah ini diberikan plot gabungan
antara data yang disimbolkan dengan titik wama bini, taksiran kurva regresi dengan
menggunakan bandwidth Rule of Thumb yang disimbolkan dengan garis berwama
52
mcrah, dan taksiran kurva regresi dcngan mcnggunakan metodc Shihata yang
disimholkan clcngan garis berwarna hitam serta taksiran kurva regresi dengan
handwidth ( 'V dengan garis warna hijau.
16
15
14 _,....._
~ Q)
13 (0 ...0 Q) (J)
co 12 - • • 0 > c:
11 co c:
• •
2 :::5 c:
10 Q)
c.. .___ :>...
9 • data
• YhedCV 8 YhedROT
YhedShib
7 •• 0 2 4 6 8 10 12 14 16 18 20
x (waktu)
Gambar 4.9. Plot gabungan taksiran kurva regresi dengan
bandwidth ROT , Shibata dan CY
Dari Gambar 4.9 tampak bahwa estimasi kurva regresi dengan menggunakan
mctodc Rule of' Thumh dan Shihata hampir sama didalam mendekati data. lni
herhecla dengan metode ('ross Validation yang cenderung sensitif didalam mendekati
data.
SJ
Untuk melihat lebih lanjut pcrbedaan antara ketiga metode pemilihan
bandwidth, dibawah ini diberikan nilai MSE, dan R2.
Tahel4.3. Nilai SSE, MSE dan R2 dari masing-masing metode
Bandwidth " MSE R2
CV Bandwidth 0,3050 0,0137 0,9978
Rule of Thumb (ROT) 0,8170 0,0617 0,9898
Shibata,s Bandwidth 0,9500 0,0727 0,9878
Dari Tabel 4.3 diatas terlihat bahwa nilai MSE untuk CV lebih kecil
1
di bandingkan dengan ROT dan Shibata yaitu sebesar 0,0137 dengan R~ se
0,9978. Adapun perbandingan antara ROT dan Shibata sendiri menunjukkan bah
MSE dari metode Rule of Thumb cenderung lebih kecil dibanding dengan
Shibata yaitu 0,0617. Begitujuga dengan R1 nya, terlihat bahwa koeiis·
determinasi model dengan menggunakan ROT cenderung agak besar dengan ni
0,9898 dibandingkan dengan metode shihata yang memiliki nilai R2 sebesar 0,9878
dan MSE scbesar 0,0727 .
Secara umum, walaupun dalam Tabel 4.3 terdapat perbedaan nilai MSE
R? dari masing-masing metode pemilihan bandwidth, akan tetapi perbedaan
ada tidak terlalu signifikan karena hanya terpaut beberapa angka dibelakang koma.
BABV
KESIMPULAN DAN SARAN
5.1. Kcsimpulan
BABY
KESIMPULAN DAN SARAN
Diberikan model regresi: Y, =m(X,)+e,. e, -iid(O.a 2) dengan i= L 2. 3 .
.. .. n. dimana m(X, ) adalah kurva rcgrcsi yang diasumsikan tidak dikctahui. Dari
analisis dan pcmbahasan yang tclah dilakukan, maka dapat diambil bcbcrapa
kcsimpulan scbagai bcrikut:
I. Bandwidth optimal yang diperoleh dari meminimumkan Q masih
mengandung fungsi m dan a yang tidak diketahui. Metode Rule of Thumb
(ROT) mendekati fungsi yang tidak diketahui tersebut dengan pendekatan
parametrik sehingga diperoleh :
2. Dengan menggunakan penalize shibata, diperoleh sifat :
E[G(h)] = a 2 + R(h)= p(h),
dengan
11
G(h) = n-1 I(~-m,(X, )) 2 ·(1 + 2n-lw;v(X)) j =l
dan
11
R(h) = n-1EL(m(X)-m,(X1
))2
.J=I
55
3. Dengan n1enggunakan leave-one-out estinlale diperoleh:
fl H
l:..'C'V(h) = n-! 2:: E(cl2) + n -
11:'2: (m(X I)- rnh .I (X I ))2 +
1=1 1=1
II
-2n- 1 EL £1 (m(X
1) + m11 .1
(X1 ))
1=1
= fJ,.(h)
4. Untuk data penurunan voltage baterai dari motor peluru kendali selama waktu
pencrbangan, diperoleh bandwidth untuk masing-masing metode sebagai
bcrikut:
o MctoJc Shibata Jipcrolch ham/width schcsar 0,9500 schinga pcrsamaan
kurva rcgrcsinya:
41 -'I I K( x-X~ - )r ,1111
(x)= I=:1
0.9500 0,9500 I
4 r' L- I _ K ( :_r_=-~i ) i=l 0, 9500 0, 9500
dan nilai MSE yang diperoleh adalah 0,0727 dengan R2 sebesar 0,9878.
o Metode ROT diperoleh bandwidth sebesar 0,8170. Persamaan kurva
rcgrcsmya :
41-'I 1 K( x-X~ )r fYzh(x) = 1=:
1
0,8170 0,8170 I
41-'L -- ~-K( -~--~- ) 1=1 0,81 70 0,81 70
dengan nilai MSE sebesar 0,0617 dan R2 sebesar 0,9898.
56
-- · - - - - - -- -- - I
o Metode CV diperoleh bandwidth sebesar 0,3050. Persamaan kurva
regresmya :
- ~:t I K( x-X, )y mh(x) = n l = ifl 0,3050 0,3050 I
_1L 1 K( x-X,) n ,=1 0 ,3050 0,3050
dengan MSE dan R 2 masing-masing sebesar 0,013 7, dan 0, 9978.
Dari nilai MSE dan R2 yang diperoleh, maka dapat disimpulkan untuk
aplikasi data riil ini metode Cross Validation relatif lebih baik dari pada Rule
of Thumb dan Shibata. Namun begitu, perbedaan nilai MSE dan R2 dari
masing-masing metode tidak terlalu signifikan. Masing-masing nilai hanya
terpaut beberapa angka dibelakang koma.
5.2. Saran
Saran yang dapat diberikan untuk penelitian selanjutnya adalah :
I. Perlu kiranya dikaji lagi metode plug-in yang mendekati fungsi yang tidak
diketahui pada bandwidth optimal (yang diperoleh dengan meminimumkan
MSE atau MISE terhadap h) dengan pendekatan pilot kernel.
2. Perlu dilakukan simulasi untuk membandingkan metode pemilihan bandwidth
yang optimal agar hasil yang dipcrolch lchih mcnccrminkan kondisi
sesungguhnya dari prilaku bandwidth.
57
DAFTAR PUSTAKA
DAFTAR PUSTAKA
Draper, N.R., dan Smith, (1966), Aplied Rewession Analysis, Second Edition (alih Bahasa Jr. l3ambang Sumantri. Ana/isis ReKresi Terapan, PT Gramedia Pustaka Utama, Jakarta, 1992).
Luhank, R.L. (I 988). Spline Smoothing and Nonparmnetric Regression. Marcel Dekker, Inc. New York
llan.llc, W. (I Y<JO). Aplied Nonparwnetric Regression, Cambridge University Press. New York
____ . (I 991 ). Smoothing Techniques With Implementation in S. SpringerVerlag. New York
Jia, A. dan Schucany, W. R. (2004) Recursive Partitioning for Kernel Smoother: A tree-based Approach for Estimating Variable Bandwidths in Local Linear Regression. hllp://www.smu.edu/Statistics/TechReports/TR3 1 6.pdf
Kwcon, Y. J., dan Kockelman, K. M., (2004) Nonparamctric regression estimation of household YMT, Submilled for Presentation & Publication at the 2004 Annual Meeting ofthe Transportation Research Board.
Lee, K.S. dan Hill, CR .. Performance of Bandwidth selection rules for the local linear regression ,
Myers, R. H., dan Milton, J. S., (1991 ), A first course in the theory of linear statistical Models, PWS- KENT Publishing Company, Boston
Purcell, E. J., dan Yarberg, D., (1995), Kalkulus dan Geometri Analitis, jilid 1, (alih Bahasa Drs. I. Nyoman Susila, M.Sc., Banu Kartasasmita, Ph.D dan Drs. Rawuh, Erlangga, Jakarta).
Rice, J. (1984), Bandwidth choice for nonparametric regressiOn, The Annal of Statistics, Vo/.12, No.4, 1215-1230.
Rohatgi, Y. K., (1976), An Introduction to Probability TheOlJ' and Mathematical Statistics, John Wiley & Sons, USA.
58
Rosen blat, M. ( 1956), Remark on some Nonparametric Estimates of a Density Function, Annals of Mathematical Statistics, 27, 642-669.
Shibata, R (I 980), Asymptotically efficient selection of the order of the model for estimating parameters of a linear process, The Annals of Statistics, Vol. 8, No. I, 1-17- 164.
( 1981 ), An optimal selection of regression variables, Biometrika, 68, 45 - 54.
Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis, Chapman and Hall, New York
Wand, M.P. dan Jones, M.C. (1995), Kernel Smoothing. Chapman and Hall, New York
Ye, A., Hyndman, R. J., dan Li, Z., (2006) Local linear multiple regression with variable bandwidth in the presence ofheteroscedasticity,
. Februari 2006
59
LAMP IRAN
Lampiran A
Data penurunan Voltage Baterai dari Motor Peluru Kendali selama Waktu penerbangan
Nomor Time Voltage Drop 1 0.000 8.330 2 0.500 8.230 3 1.000 7.170 4 1.500 7.140 5 2.000 7.310 6 2.500 7.600 7 3.000 7.940 8 3.500 8.300 9 4.000 8.760 10 4.500 8.710 11 5.000 9.710 12 5.500 10.260 13 6.000 10.910 14 6.500 11 .670 15 7.000 11 .760 16 7.500 12.810 17 8.000 13.300 18 8.500 13.880 19 9.000 14.590 20 9.500 14.050 21 10.000 14.480 22 10.500 14.920 23 11 .000 14.370 24 11 .500 14.630 25 12.000 15.180 26 12.500 14.510 27 13.000 14.340 28 13.500 13.810 29 14.000 13.790 30 14.500 13.050 31 15.000 13.040 32 15.500 12.060 33 16.000 12.050 34 16.500 11 .150 35 17.000 11 .150 36 17.500 10.140 37 18.000 10.080 38 18.500 9.780 39 19.000 9.800 40 19.500 9.950 41 20.000 9.510
60
Lampiran B
Program Regresi Nonparametrik Kernel SSE, MSE dan R2
h=input('h= ') n=41; fu=zeros(l,n); for i=l:n
for j=l:n d 1 (i,j)=(x(i)-x(j) ); da(i,j)=d 1 (i,j)/h; kerl (i,j)=exp( ( -( da( i,j))"2 )/2 )/sq rt(2 *pi); fu(j)=fbU)+(ker 1 (i,j))/n; rh(j)=rh(j)+((kcr 1 (i,j) )/n)*y(i);
end end for j=l:n
LC(j)=rh(j)/fu(j); end Yhed_LC=LC'; plot(x,y,'.' ,x,LC,'-'); %%R Kuadrat dan MSE%% residual= y-Yhed_LC; ybar= sum(y)/n; jke=(y-Yhed_LC)'*(y-Yhed_LC) mse=jke/n jkr=(Yhed_LC-ybar)'*(Yhed_LC-ybar); jktot= jke+jkr; Rsquare= jkt/jktot
61
Lampiran C
Program mencari Bandwidth Optimal dengan ROT, Shibata, dan CV
n=41; for i=l:n
I(i)=l; end
Program mencari Bandwidth Optimal dengan ROT
X= (I' x x./\2 x./\31; S =X'* X; bhet = inv (S) * X' * y; yhet =X* bhct; p =length(bhct); mhet2 = 2*bhct(3) + 6 * bhet(4) *mean(x) skuadrat= I /(n-p )*(y-yhct)' *(y-yhct) hrotgaus= n/\(-0.2) * (( 1/(2 * sqrt(pi)) * skuadrat )/mhet21\2)1\(0.2)
62
z=length( x 1) for I=l:z
Mcncari Bandwidth Optimal dengan Shibata
xl kecil=ones(size(h( I)) )*h(l); k l =(x l·x l kccil); K=kl./h(l); u=K."(2)/·2; Kh=exp( u)./(sqrt(2 *pi)); kernel=diag(Kh); p=kl '*kcrnel*kl; Pin=inv(p); xw=kl '*kernel; al =eye(size(kl )); Hh=al *(Pin. *xw); aa=eyc(size(kcrncl)); het=aa-Hh; msein=y' *hct' *het*y; msc=mscin/z; trcl=trace(Hh); trl =trc 1/z; Sibata(l)=msc* I +2*trl;
end Sib=Sibata'; s=min(Sib); disp(' ----- '); disp('bandwidth (h) Sibata(h)'); dis p('=--====---==========='); disp((h Sibl); disp('==============='); figure(2); plot(h,Sib ); title('bandwidth (h) VS Sibata(h)'); xlabel('bandwidth (h)'); ylabei('Sibata (h)'); for i=l :z
if Sib(i)==s h2=h(i)
end; end;
z=length(x) for 1=1 :z
Mencari Bandwidth Optimal dengan CV
xl,ccil=oncs(sizc( h(l)) )* h( I); kl =(x-xkccil); K=kl./h(l); u=K. A(2)/-2; Kh=exp( u)./(sqrt(2 *pi)); kernel=d iag( Kh ); p=k 1 '*kcrncl*k 1; l'in=inv( p ); xw=k1 '*kernel; a 1 =eyc(size(kl )); Hh=a 1 *(Pin. *xw); aa=cyc(sizc( kernel)); het=aa-Hh; atas=y' * hct; bawah=cye(size(x))' *(1-Hh); C=atas./bawah; CC=1/z*(C*C'); CV1(1)=CC';
end g=CV1'; disp('---------------'); disp('bandwidth (h) CV1(h)'); disp(' '); disp(lh gl); disp('=--=====--===--=='); k=min(g); figure(1); plot(h,g); title('bandwidth (h) VS CVl(h)'); xlabel('bandwidth (h)'); ylabei('CV1 (h)'); for i=l :z
ifg(i)=k h1=h(i)
end; end;
64
I ,ampinm D
Pcngujian Asumsi J{csidual
Bandwidth Sibata
1. Uji Identik
0.75
0.50
0 .25
... u
0.00
·0 .25
·0 .50
• • •
• •
• • •
Scatterplot of e2 vs Yhed5b2
•
• • • • .,.
• • • • • • • • • • • •
•• • • • •
• • 9 10 11 12 13 14
YhedSb2
Regression Analysis: Abs_e2 versus Time
The regression equation is Abs e2 = 0.250 - 0.00302 Time
Predictor Coef Constant 0.25020 Time -0 . 003023
SE Coef 0 . 0 4872
0 . 00 4193
T 5 . 14
- 0 . 72
p
0.000 0.475
•
•
• • •
15
s 0 . 158830 R-Sq 1. 3% R-Sq(adj) 0.0 %
Analysis of Variance
Source OF ss Regression 1 0 . 01311 Residual Error 39 0 . 98385 Total 40 0 . 99696
Unusual Observations
Obs 19 25
Time 9.0
12.0
Abs e2 0.5794 0 . 5949
Fit 0 . 2230 0 . 2139
MS F 0 . 01311 0.52 0 . 02523
SE Fit 0.0252 0.0262
Residual 0.3564 0.3810
p
0.475
St Resid 2 . 27R 2. 43R
R denotes an observation with a large standardized residual .
65
2. (!jj lrulqH.' IIIkll
Autocorrelation Function for e2 (wilt\ 5% significance limits for the autocorrelations)
1.0
0.8
0.6
c 0.4 R - - -· ll 0.2
I ~ 0.0 0
~ ·0.2
"' ·0 .4
·0 .6
·0.8
·1.0
6 lag
Autocorrelation Function: e2
Lag ACF 1 - 0 . 031681 2 0 .074824 3 0 . 013605 4 0 . 019277 5 0 . 050808 6 0 .15 9520 7 0 .00 8301 8 -0.017661 9 - 0 .15 0876
10 -0 . 039 174
3. Uji Normal
99.9 .. 95 90
10
I 70 .. so
l .., JO 20
T LBQ - 0.20 0 . 04
0 . 4 8 0.30 0 . 09 0.31 0.12 0.32 0.32 0 . 45 1. 01 1. 73 0.05 1. 74
-0.11 1. 75 -0.93 3.01 - 0 . 24 3 . 09
Probability Plot of errorS Normal
. ./
10
... . / ,/ //
0.1 ·100 · SO so
errorS
I
Mun 0.4J'tJ SlOtv 27.9 .. N 133 .. 0.071 P · V~II.Ie 0.098
100
66
,-
Rule of Thumb Bandwidth
1. Uji ldcntik
Scatter plot of ResiROT vs YhedROT
• • 0.50 •
• • • • •
0.25 • • • • b • •
a: • • • •
·;;; • • ~ 0.00 • • • • • • • • -0.25 • • • • • • • •
• • • -0.50 •
7 8 9 10 11 12 13 14 IS YhedROT
Regression Analysis: AbsResROT versus Time
The reg r r;ssion e qu a ti o n i s Abs ResROT = 0 . 239 - 0 . 00259 Time
Pred i clor Cons t ant Time
Coef 0 . 23895
-0 . 002593
s 0 . 1)407? R- Sq
Analysis of Variance
Source OF Regression 1 Residual ErLor 39 Total 40
Unusual Observation s
Oll: ; 'J ' j /! \1' 1\ I>~; I< ( ' ~; I< ()'I'
1 9 'J . ll O. J)/9 ?.S I? . ) 0 . ~i -, 11 h
SE Coef 0 . 04726
0 . 00 406 7
T 5 . 06
- 0 . 64
1. 0% R- Sq(a d j)
ss MS 0 . 00965 0 . 00965 0 . 92579 0 . 02374 0 . 935 44
, .. i l ::1·: l,.i I
O. Ll)b 0 . 024 4 0 . ?.O'If1 () . (1) ~ ) ,,
p
0 . 000 0 . 527
0 . 0 '/,
F p
0 . 41 0 . 527
I < <·~ ; i d tJ.t I :;t
u. 342.3 o. :ltd n
I{ ( ' ~i i d
L' . 2JH ? . 4/H
!\ dc' Jivl.( :; ,J !I ~l l J:i (' I IJtJliurl w LLh ( ! L.J l ljl~ :....ild!ICi d tdl:!.eli te~iJu.._ J l .
2. Uji Independent
1.0
0.8
0.6
c .Q
0.4 .... 0.2 -..!!1 Cll .. 0.0 -.. 8
-0.2 0 '5 "' -0.4
·0.&
-0.8 -
I
· 1.0
Autocorrelation Function for ResiROT (with 5% significance limits for the autocorrelations)
- J
Lr----.----,----,----,-----,----.---.----.---2 3 4 6 7 8 9 10
L_ Lag
Autocorrelation Function: ResiROT
Lag ACF 1 -0 . 0839 4 6 ?. o. o •,(,l?.'l J 0 . 0022Jl 4 0 . 009302 5 0 . 039821 6 0 . 157538 7 0 . 003019 8 - 0 . 013381 9 -0.147206
10 -0.028998
T LBQ -0 .54 0.31
0. :Jc; 0. ~ r, (). () 1 (). ~ ~
0 . 06 0 . 4 6 0 . 25 0 . 54 1. 00 1. 79 0 . 02 1. 79
-0 . 08 1. 80 -0.91 2 .9 9 -0. 18 3.04
Probability Plot of ResiROT Normal
~.-------------------------------~--, r-------, Mean O.OOJOO.J
...
95
90
~
70 c 60
~ 50 ~ <0
))
20
10
•
-0.50
·"' I /J
• • •
-0.25 0.00 ResiROT
• StDev 0.26+1
• N 41
• .. K5 0.<11.) . . ,. P-Valuc >0. 150
0.25 0.50 0.75
Ml'loclt.· ( '.-oss Valiclation
I. ll_ji lclt.•nlik
Scatterplot of resCV vs YhedCV
0.2
• • • • • •
0.1 • • • • ~ • • Ill Ill 0.0 • .... • • • • • • •
• • -0.1 •
• • • • • • • -0.2
7 8 9 10 11 12 13 YhedC.V
Regression Analysis: AbsResCV versus Time
The rPq r r>:; ;;tun c quuLion i s 1\hsRe::;C\' 11 . 0711 1 0 . 00259 Time
/1 r f~d i (.I r I
ConSCCllll
T tme
r 'u(; I
U . ll/JO~,
0 . 002586
:;1·: CO("I
0 . 020 1 9 0 . 00 1 737
'I'
3 . S2 1. 4 9
I ' 0 . 001 0 . 1 4 5
•
•
14
() • i I ( ~ ' 1 :• i t ' I'- : :q h-: :q (. 1< I i l ? . c, '
~ ;fJl l r l · r • Ill-' ('(' M'' F , ) . ) ·' !{t ~q r ( •: . . ;! '" l () , ()()'; ',' • l 11 . 1111' • '•' ' l /. . )1
Hcsi d>r"; l·: r r '..Jt l'J () . 1 bfl'J'J l (J . till ~ l l?.
'l'ota.l 40 0 . I 'IW:J ~ ~
• • •
•
• • •
• •
15
p
0 . I ~, ,
69
2. ( l.ji lndt·pt·ncknl
1.0
0.8
O.fi
-~ tJ-1
.m 0.) IJ t 0.0
§ "3
-0.2
c( -OA -
0 .11
-O.!l
-1.0
Autoc.:onelatlon Function lor ro!liCV (w1U1 .'..1"/u ~kJIIIIk.diK...t~ hnnl'> tor lht! rtultx.turektUon.,)
4 5 6 8 lag
Autocorrelation Function: resCV
Lag ACF T LBQ L -O . b"i ~ OfJ<J - ~. ]/. 20 . 03 2 0 . 25888 1 1. 20 23 . 06 3 -0 . 057503 - 0 . 2 6 23 . 2 1 4 0 . 01 5473 0 . 07 23 . 2 2 5 - 0 . 06 4 663 - 0 .2 9 2 3 . 43 6 0 . L3 78 48 0 . 62 2 4. 38 7 - 0 . 108~50 - 0 .4 8 2 ~. 99
8 0 . 0 95122 0 . 42 25 . 48 9 -0 . 108562 -0 .4 8 26 . 13
10 0 . 0 59966 0 . 26 26 . 33
3. Uji Normalitas
Probability Plot of resCV l'txmal
~------------------------------------.
95
90
ao
10
• •
• •
f ...
•
IL,-----,----,-----,-----,-----,-----,J -0.3 -0.2 -0.1 0.0
resCV 0.1 0.2 0.3
Lampiran E
Pengujian Data dengan Kuadratik, dan Kubik
a. Kuadratik
Polynomial Regression Analysis: Voltage Drop versus Time
The r<"r'-'~ -·;ion equation is Volta q 1: L> r c r~ · '., . 271 • 1.484 Tim"- tJ.06:.,13 Ti.rne *• 2
I . IJ ·rl 1,11
f\ rJ ( li '/~; i : 1 ! V. 1 r i . Jrl <' ('
. ;() 'J r c ( • r~: · · • ' ( ' , ) . 1 :.! :·
I ' " II ' .,, .'I I 1 11 I ltH . ... ,, ' · . . II
I·.J I .,, ~ ~ ·, ·H ~ I , d I I ' ... 'l'(J I ,, I 'it I / I • I f llH
:;1: qur: 11Lidl f\n ,, l•; s i s of V iJrid r , c; r;
Sou r ev Lincdr
Uua dr ''
DF I
ss 4 / . 0B l
f p
8 . S6 0 . 006
Fitted Line: Voltage Drop versus Time
Fitted Line Plot
F
'•
Vo ltage Drop = 5.277 + 1.484 T ime - 0.065 13 Time .. 2
15.0
12.5 • c. 0 •• 0 .. cu
•
• • ..... .. • • •• --••
H/. . 1 ,
p
II . lllltl
R-Sq R·Sq(adj)
01
"' ~ 10.0 • • ••••••
0 > ••
7.5 ... • • -• 5.0 -'--.---- -,----,-----.------.--'
0 10 Tune
15 20
1.08054 83.00/o 82.1%
71
Normplot of Residuals for Voltage Drop
Probability Plot of RESI2 Normal
Wr----------------------------------,
10
· ) · 2 · 1 0 RESU
' •
•
Residuals vs Fits for Voltage Drop
r-----1
I
.. 1 . :g
Residuals Versus the Fitted Values (response 1s Voltage Drop)
Mc.tn
StDev
• ., PV.oluf'
I O'J/l~l 14
I O'Jo ) .. 00"1
·Ot·.O
. . . •• !'! . . ~ ...
· I
-~ ~-- I ---~-
.) ll I
h. Kuhik
. . 10
Ftt t e d Value
.. . . . .· ..
14
Polynomial Regression Analysis: Voltage Drop versus Time
'l' h< ~ r • ·• Jr< •:;:;ioll •· q >Jrl l i o 11 is
V o J LHJ'' ln () p ( , . ~ (,' > I lJ . '//.17 T irn< ~ I O. Olllfl T imr• " /.- O . tllll /. 1'/ Time " ]
I{- :;q }j '/ . j',' 1{ - : ;q(d<..lj) IJ(, . l ",
/\ n i l I y :; i .-; (J j V .1 r i . l !!C<'
~io u r c C' DF ss t--IS F [0
Re g r:c s o: i o n 3 2::'8 . 39 4 76 . 13 ~ ~ 44 . 1]1 0 . 00 0 E:r:r:or: 37 33 . 2L3 0 . 8977 'l' o lal h ) :) b I . b iW
~; c ~ q u ( , nt ' I /\lid 1 '/ :; i :; o f Vr1r itli! C f'
Sour: u~ ) F ss t:' ? Lincu~ 1 4 7 . 0 81 8 . sr, ') . 00 6 Qua d rali c 170 . 159 1 4 5 . 7 4 0 . 000 Cub ic 11 . 1 5:) 12 . 43 0 . 001
72
Fitted Line: Voltage Drop versus Time
15
14
13 c.
12 0 i!5 & 11 ..
10 ill 0 > 9 ..
~. . ...
Fitted line Plot Voltage Drop • 6.469 + 0 .72 11 T1me
t 0 .03138 Tunc• • 2- 0 .00 321 / Tun c • • 3
.. . . . . · .. ... ..
• ·· ... ·.
10 Time
I S }0
Normplot of Residuals for Voltage Drop
[ ___ ~
Probability Plot of RESIJ Norm dl
0 RESil
··' . ~ .
Residuals vs Fits for Voltage Drop
'"1 1.5
1.0
~ 0 .5
:a .. 0.0 "' • ·0 .5
- 1.0
Residuals Versus the Fitted Values (response IS Voltage D1op)
•
• -- • -
• . • • • . . • • • •
•
. '" R· SQ(adJ)
0 9-lN-1 6
8 ' J"'b
86 .3%
l.-;-." . ,.,.....-,..---;-;-] '.t t) r . O <ol!L J
" ., ( 0,. 0 10 '1
>' I 1 lu ~ • ~ L ~0
• •
•
• • • •• • ·.
• t .S r------r-----·-r-----.------,-----,------,-----.-----.----· 1, 10 11 12 13 14 15
Fitted Value
73