bab v penutup 5.1 kesimpulan -...
TRANSCRIPT
55
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan pembahasan pada bab-bab sebelumnnya baik secara
matematis maupun dalam studi kasus, diperoleh kesimpulan sebagai berikut:
1. Dari hasil studi kasus pada 74 sungai di Indonesia yang daerah pengalirannya
lebih dari 1000 km2 tahun 2010 di bab IV diperoleh:
a. Kernel dengan infinite order akan memberikan hasil yang optimal jika
kelipatan titik estimasi x dipilih sekecil mungkin atau titik-titik yang
diestimasi hampir di seluruh bilangan real pada interval data yang
digunakan. Hal tersebut dapat dilihat ketika kelipatan nilai estimasi x yang
digunakan 0,1, 0,2 dan 0,3 maka nilai MSE terkecil sebagian besar
dihasilkan pada estimasi yang menggunakan kernel dengan order tak
hingga yaitu kernel sinus. Namun ketika kelipatan nilai estimasi x yang
digunakan 0.5, 0,6 dan 0.7 maka nilai MSE terkecil sebagian besar
dihasilkan pada estimasi yang menggunakan kernel dengan order
berhingga yaitu kernel normal.
b. Perubahan nilai bandwidth pada setiap kelipatan nilai estimasi x
mempengaruhi nilai MSE yang dihasilkan. Nilai bandwidth yang kecil
yaitu 0.13 memberikan nilai MSE yang cukup besar dibandingkan
0.3445996 dan 0.5. Begitu juga berlaku pada nilai bandwidth yang besar
yaitu 1. Hal ini disebabkan oleh sifat dari parameter bandwidth yaitu
semakin kecil nilai bandwidth maka grafik yang dihasilkan akan semakin
kasar dan menjauhi fungsi yang sebenarnya. Begitu juga ketika bandwidth
yang dipilih besar maka grafik yang dihasilkan akan semakin halus. Sifat
inilah yang mempengaruhi nilai MSE yang dihasilkan.
54
Tinggi rendahnya grafik memperlihatkan besar dan kecilnya nilai MSE. Dari
grafik MSE di atas memperlihatkan bahwa nilai MSE yang dihasilkan pada
bandwidth lebih dari 0,3445996 tidak begitu jauh berbeda antara kernel order
berhingga maupun yang tak hingga. Namun pada bandwidth kurang dari 0,3445996
memperlihatkan bahwa terjadi perbedaan nilai MSE yang cukup signifikan dari
ketiga kernel terlebih pada kelipatan titik x = 0,5 dan x = 0,7. Pada kelipatan titik x
= 0,5 kernel normal menghasilkan nilai MSE yang paling besar. Sedangkan pada
kelipatan titik x = 0,7 kernel cosinus menghasilkan nilai MSE yang paling besar
dibandingkan kernel normal untuk bandwidth kurang dari 0,3445996. Grafik dari
masing-masing kelipatan titik dapat dengan lengkap dilihat pada lampiran 4.
Berdasarkan studi kasus dengan pengambilan nilai kelipatan pada titik x antara
0,1 – 0,7, kernel sinus akan lebih unggul ketika titik-titik yang diestimasi hampir
berada di seluruh bilangan real di selang data pengamatan. Sedangkan kernel
normal akan lebih unggul ketika titik-titik yang diestimasi hanya pada beberapa
bilangan real di selang data pengamatan. Namun secara keseluruhan nilai MSE
yang terkecil paling banyak dihasilkan oleh kernel dengan order tak hingga yaitu
kernel sinus.
Nilai MSE yang kecil dalam hal ini menunjukkan bahwa hasil estimasi yang
dihasilkan oleh estimator dekat dengan nilai fungsi aslinya. Sehingga estimator
Nadaraya Watson dengan kernel berorder tak hingga khususnya sinus dapat
memberikan hasil estimasi yang tidak jauh berbeda dengan keadaan yang
sebenarnya. Dalam hal ini untuk mengestimasi volume sungai di Indonesia
pengamat tidak harus melakukan observasi terlebih dahulu. Sehingga pemerintah
dapat lebih hemat dalam hal biaya, tenaga dan juga waktu dalam mengestimasi
volume sungai di Indonesia.
53
Berikut grafik MSE dari masing-masing kelipatan nilai x:
Bandwidth Bandwidth
a. Grafik MSE dengan kelipatan titik x = 0.1 b. Grafik MSE dengan kelipatan titik x = 0.3
Bandwidth Bandwidth
c. Grafik MSE dengan kelipatan titik x = 0.5 d. Grafik MSE dengan kelipatan titik x = 0.7
Gambar 4.5 Grafik MSE
52
2. pada kelipatan x sebesar 0,3, nilai MSE yang terkecil masih didominasi oleh
kernel infinite order yaitu sinus dengan bandwidth 0,13, 0,5 dan 1. Sedangkan
pada bandwidth 0,3445996 nilai MSE yang terkecil dihasilkan oleh kernel
normal.
3. pada kelipatan x sebesar 0,4, nilai MSE yang terkecil dihasilkan oleh kernel
infinite order yaitu sinus dengan bandwidth 0,13 dan 1. Sedangkan pada
bandwidth 0,3445996 dan 0,5 nilai MSE yang terkecil dihasilkan oleh kernel
normal.
4. pada kelipatan x sebesar 0,5, nilai MSE yang terkecil dihasilkan oleh kernel
infinite order yaitu sinus dengan bandwidth 0,13. Sedangkan pada bandwidth
0,3445996, 0,5 dan 1 nilai MSE yang terkecil dihasilkan oleh kernel normal.
5. pada kelipatan x sebesar 0,6 dan 0,7 di setiap nilai bandwidth yang dipilih
terlihat bahwa nilai MSE yang terkecil dihasilkan oleh estimator dengan
menggunakan kernel normal.
Ketika kelipatan x dipilih yang kecil, dalam kasus ini kelipatan x kurang dari
0,4, maka estimator dengan menggunakan kernel infinite order yaitu sinus akan
menghasilkan nilai MSE yang kecil yang berarti bahwa kernel sinus akan memiliki
performance lebih baik, berapapun bandwidth yang dipilih, dibandingkan kernel
yang lainnya. Sedangkan nilai MSE terkecil akan dihasilkan oleh estimator dengan
menggunakan kernel normal ketika kelipatan x yang dipilih cukup besar dalam
kasus ini untuk kelipatan x lebih dari 0,4.
Dari tabel di atas, nilai MSE yang terkecil dihasilkan oleh estimator yang
menggunakan kernel sinus dengan ketentuan sebagai berikut 12 MSE kecil
dihasilkan oleh estimator dengan menggunakan kernel normal, 15 dihasilkan oleh
estimator dengan kernel sinus dan 1 dihasilkan oleh estimator dengan kernel
cosinus. Sehingga dari hasil tabel di atas terlihat bahwa MSE terkecil paling banyak
dihasilkan oleh estimator yang menggunakan kernel sinus. Berikut akan
ditampilkan grafik dari MSE dari masing-masing kelipatan titik x.
51
0,3445996 0,2010336 0,2487284 0,2356519
0,5 0,2072396 0,2208997 0,2178995
1 0,3600139 0,3539623 0,3551501
0,5 0,13 1,352872 0,4963074 1,0337
0,3445996 0,1751454 0,2487284 0,2255095
0,5 0,1836912 0,2208997 0,2121826
1 0,3500706 0,3539623 0,3531269
0,6 0,13 1,356637 0,4963074 1,965438
0,3445996 0,1579634 0,2487284 0,2134736
0,5 0,1584852 0,2208997 0,2052315
1 0,3380866 0,3539623 0,3506531
0,7 0,13 1,356785 0,4963074 5,011454
0,3445996 0,1536994 0,2487284 0,1998664
0,5 0,1340825 0,2208997 0,1970795
1 0,3241813 0,3539623 0,3477281
Tabel 4.1: Nilai-nilai MSE
Nilai-nilai MSE yang dihasilkan seperti yang terlihat pada tabel di atas berbeda
antara yang satu dengan yang lain, yaitu:
1. pada kelipatan x sebesar 0,1 dan 0,2 setiap nilai bandwidth yang dipilih terlihat
bahwa nilai MSE yang terkecil dihasilkan oleh estimator dengan menggunakan
kernel berorder infinite khususnya kernel sinus.
50
besar akan menghasilkan grafik yang semakin mulus. Dari keempat gambar di atas
terlihat bahwa pada masing-masing kelipatan titik x grafik yang dihasilkan saling
berhimpit, sehingga belum dapat diambil kesimpulan kernel manakah yang
memberikan performance terbaik. Maka kebaikan estimasi akan dilihat melalui
nilai MSE ketiga kernel dari masing-masing kelipatan nilai x dan bandwidth.
Berikut nilai-nilai MSE yang dihasilkan setelah melakukan pegolahan data dengan
menggunakan program R:
Kelipatan
Titik Estimasi Bandwidth
Nilai MSE
Normal Sinus Cosinus
0,1 0,13 0,4982647 0,4963074 0,4957802
0,3445996 0,269451 0,2487284 0,2530287
0,5 0,2515239 0,2208997 0,2274729
1 0,3768402 0,3539623 0,3585203
0,2 0,13 0,6237044 0,4963074 0,5001564
0,3445996 0,2533656 0,2487284 0,2495126
0,5 0,2422269 0,2208997 0,2255545
1 0,3734509 0,3539623 0,3578464
0,3 0,13 1,030359 0,4963074 0,536074
0,3445996 0,2291352 0,2487284 0,2436954
0,5 0,227195 0,2208997 0,2223609
1 0,3678283 0,3539623 0,3567232
0,4 0,13 1,303002 0,4963074 0,6681886
49
a. Grafik dengan bandwidth 0.13 b. Grafik dengan bandwidth 0,3445996
d. Grafik dengan bandwidth 0.5 d. Grafik dengan bandwidth 1
Gambar 4.4 Grafik estimasi dengan kelipatan nilai x sebesar 0,7
Grafik dari setiap kelipatan titik x dengan bandwidth yang berbeda-beda
menunjukkan bahwa semakin kecil bandwidth yang dipilih maka grafik yang
dihasilkan akan semakin kasar. Sedangkan sebaliknya pemilihan bandwidth yang
48
a. Grafik dengan bandwidth 0.13 b. Grafik dengan bandwidth 0,3445996
c. Grafik dengan bandwidth 0.5 d. Grafik dengan bandwidth 1
Gambar 4.3: Grafik estimasi dengan kelipatan nilai x sebesar 0,5
47
a. Grafik dengan bandwidth 0.13 b. Grafik dengan bandwidth 0,3445996
c. Grafik dengan bandwidth 0.5 d. Grafik dengan bandwidth 1
Gambar 4.2: Grafik estimasi dengan kelipatan nilai x sebesar 0,3
46
Berikut grafik hasil proses estimasi menggunakan data aliran sungai dengan nilai
kelipatan titik-titik x 0,1; 0,3; 0,5 dan 0,7, grafik hasil estimasi dapat dilihat lebih
lngkap pada lampiran 3:
a. Grafik dengan bandwidth 0.13 b. Grafik dengan bandwidth 0,3445996
c. Grafik dengan bandwidth 0.5 d. Grafik dengan bandwidth 1
Gambar 4.1: Grafik estimasi dengan kelipatan nilai x sebesar 0,1
45
4.2 Pengolahan Data dengan Program R
Proses yang dilakukan dalam melakukan pengolahan data dengan R untuk
melakukan estimasi adalah sebagai berikut:
1. Masukkan data berpasangan (xi,yi)
2. Masukkan kernel yang digunakan sebagai pembanding. Kernel yang digunakan
adalah sebagai berikut:
Kernel yang normal: 21 1exp ,
22K x x x
Kernel yang sinus: sin x
K xx
Kernel yang cosinus:
2
2 cos cos2
x xK x
x
3. Masukkan nilai kelipatan untuk titik x yang akan diestimasi
4. Masukkan nilai bandwidth.
5. Plot pasangan data (xi,yi)
6. Plot hasil estimasi dengan kernel order berhingga (normal)
7. Plot estimasi dengan kernel order tak hingga (sinus dan cosinus)
8. Mendapatkan nilai MSE dari ketiga kernel
9. Membandingkan antara ketiga nilai MSE dari ketiga kernel
Dalam proses estimasi melalui studi kasus, nilai bandwidth yang digunakan
adalah 0,13, 0,3445996, 0,5, 1. Bandwidth dipilih dari yang kecil sampai yang besar
yang dapat digunakan sebagai pembanding nilai-nilai MSE dari ketiga kernel yang
digunakan dan juga yang dapat memperlihatkan pengaruh peranan bandwidth
terhadap hasil estimasi. Bandwidth 0,3445996 merupakan bandwidth optimum dari
proses smoothing menggunakan ksmooth. Pada studi kasus ini, kelipatan titik
estimasi yang dipilih adalah 0,1, 0,2, 0,3, 0,4, 0,5, 0,6 dan 0,7. Kelipatan titik-titik
tersebut dipilih agar dapat digunakan sebagai pembanding dalam melihat nilai MSE
yang dihasilkan. Sehingga dari perbandingan tersebut dapat ditentukan kernel
manakah yang mempunyai performance yang lebih baik.
44
BAB IV
STUDI KASUS
Pada bab ini akan dibahas studi kasus dari hasil pengamatan rata-rata volume
air sungai di Indonesia yang pengalirannya lebih dari 1000 km2. Melalui regresi
nonparametrik dengan menggunakan estimator Nadaraya Watson data tersebut akan
dibandingkan nilai MSE antara kernel yang berorder tak hingga dan berhingga.
Fungsi kernel yang digunakan untuk yang berorder tak hingga adalah
sin x
K xx
dan
2
2 cos cos2
x xK x
x
, sedangkan untuk fungsi kernel
berorder hingga yang digunakan adalah kernel Normal. Data yang dapat dilihat
pada lampiran 1 tersebut akan diolah dengan menggunakan program R
4.1 Informasi Data
Data yang digunakan pada studi kasus ini diambil dari Statistik Indonesia,
Statistical Yearbook of Indonesia 2013 yang dapat dilihat pada situs resmi Badan
Pusat Statistik (BPS). Data yang digunakan dalam penelitian ini berjumlah 74
sungai di Indonesia yang daerah pengalirannya lebih dari 1000 km2 tahun 2010.
Dalam proses estimasi dengan pendekatan nonparametrik salah satu syarat
yang harus dipenuhi adalah data harus kontinu. Dalam studi kasus ini, penulis
menggunakan data sungai di Indonesia yang daerah pengalirannya lebih dari 1000
km2 tahun 2010 dimana variabel independen yaitu tinggi aliran air (juta m) dan
volume air (juta dam3) sebagai variabel dependen
Data aliran sungai dalam penelitian ini digunakan untuk membandingkan
performance antara estimator dengan fungsi kernel yang berorder berhingga dan tak
hingga.
43
1
0ˆ
Pqa x
nh o hf x
. (3.4)
3. Membuktikan estimator r x berdistribusi normal secara asimtotik
Berdasarkan persamaan 3.2
1 2ˆ ˆ
ˆˆ ˆ
a x a xr x r x
f x f x .
1 2ˆ ˆ
ˆˆ ˆ
q qa x nha x
nh r x r x o h nh o hf x f x
.
Maka berdasarkan lemma 3.2.3 dan persamaan 3.3 dan 3.4:
2 20,
ˆ dq
N K s ds x f x
nh r x r x o hf x
2 2
0,d
K s ds x
Nf x
.
∎
Terbukti bahwa estimator r x berdistribusi normal secara asimtotik.
42
qf x o h .
b. Nilai variansi dari 1a x
1
1
1ˆvar var
ni
i
i
x Xa x K r X r x
nh h
2
22
2
1 x u x uE K r u r x E K r u r x
nh h h
222
2
1 qx uE K r u r x f x o h
nh h
222
2
1 qx uK r u r x f u du f x o h
nh h
2221 1
.qK s r x sh r x f x sh ds f x o hnh h
Akan dibuktikan bahwa 1 0Pqa x f x o h .
Berdasarkan teorema 2.2.2, didapatkan:
22
1
2
2
1ˆ
1
.
q
q
P a x f x o h K s r x sh r x f x sh dsnh
f x o hh
Ketika nmaka 1var 0a x . Berdasarkan definisi 2.2.6 maka
1 0Pqa x f x o h sehingga 1 0Pqnh a x f x o h .
Telah dibuktikan bahwa ˆ Pf x f x , sehingga
41
2 21
K s x sh f x sh dsnh
.
Ketika n diperoleh 2
1
10
n
i
i
E b xn
.
Sehingga 2 2
1
10,
nd
i
i
b x N K s ds x f xn
atau
2 2
2ˆ 0,dnh a x N K s ds x f x
. (3.3)
2. Membuktikan 1 0Pqa x f x o h .
a. Nilai ekspektasi dari 1a x adalah
1
1
1ˆ
ni
i
i
x XE a x E K r X r x
nh h
1 x u
E K r u r xh h
1 x u
K r u r x f u duh h
K s r x sh r x f x sh ds
.
Menggunakan definisi 2.2.7, didapatkan:
1 '!
'!
q
pp
p
r shE a x K s r x sh o h
q
f shf x f x sh o h ds
p
k qo h f x o h
40
Andaikan
ii
i
x XK
hb x
h
, maka 2
1
1ˆ
n
i
i
nh a x b xn
.
Didapatkan:
0iE b x
var var
ii
i
x XK
hb x
h
2 2 ii
x XK
hE
h
2 2x sh f x sh K s ds .
Berdasar definisi 2.2.7 dan asumsi 3.2.1 didapatkan
22var ib x K s ds x f x .
Akan dibuktikan bahwa ib x memenuhi definisi 2.2.9.
22
1 1
1 1n ni
i i
i i
x XE b x E K
hn nh
22
1
1 ni
i
i
x XE K
hnh
2
11 x uE K h
hnh
39
Maka berdasarkan Lemma 2.2.1:
ˆˆ
ˆp
g x g xr x r x
f xf x .
Sehingga terbukti r x merupakan estimator yang konsisten secara asimtotik
pada kurva regresi r x ketika 0 danh nh .
Teorema 3.2.1 Jika x berada dalam interval terbuka dimana f x mempunyai
turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q maka
berdasarkan asumsi 3.2.1 – 3.2.6,
2
2ˆ 0,dqx
nh r x r x o h N K z dzf x
.
Bukti:
i i iY r X
i i iY r X r x r x
1 1 1
1
1 1 1
1.
n n n
h i i h i h i i
i i i
n
h i i
i
K x X Y K x X r x K x X r X r xn n n
K x Xn
Sehingga,
1 2ˆ ˆ
ˆˆ ˆ
a x a xr x r x
f x f x . (3.2)
dengan 1
1
1ˆ
n
h i i
i
a x K x X r X r xn
dan 2
1
1ˆ
n
h i i
i
a x K x Xn
.
Langkah berikutnya akan dianalisis distribusi asimtotis dari komponen 2a x dan
kekonvergenan dari komponen
1ˆ
ˆ
a x
f x.
1. Membuktikan bahwa komponen 2a x berdistribusi normal secara asimtotis
38
Berdasarkan lemma 3.2.1 dan lemma 3.2.2, telah didapatkan:
ˆ pE f x f x o h dan
21 1 1ˆvar f x K s f x ds o Onh nh n
.
Sehingga,
2
2
1 1 1
ˆ p
K s f x ds o Onh nh n
P f x f x o h
,
ketika n berakibat ˆvar 0f x . Berdasarkan definisi 2.2.6 maka
ˆ pf x f x .
∎
b. Berdasarkan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2 akan dibuktikan
bahwa g x konvergen dalam probabilitas ke g x .
Pembuktian kekonsistenan dari g x hampir serupa dengan dengan f x
yaitu dengan menggunakan definisi dari kekonvergenan dalam peluang dan
juga ketaksamaan Chebychev. Akan dibuktikan ˆlim 0n
P g x g x
,
untuk semua 0 .
Berdasarkan teorema 2.2.2, lemma 1 dan lemma 2 maka:
2
ˆvarˆ ˆ
g xP g x E g x
=
2 2
2
2
1 1
ˆ ( ,k
r x x f xK z dz o O
nh nh nP g x g x o h
ketika n berakibat ˆvar 0g x . Berdasarkan 2.2.6 maka
ˆ pg x g x .
∎
37
b. Berdasarkan definisi 2.2.4 dan lemma 3.2.1 dan lemma 3.2.2 maka:
2 2
22 1 1
ˆ .kr x x f x
MSE g x K s ds o O o hnh nh n
Ketika n maka nilai ˆMSE g x secara asimtotik adalah
1
ˆMSE g x On
.
∎
Sifat-sifat dari f x dan g x telah dipahami secara terpisah, analisis berikutnya
akan mengkaji kekonsistenan dari estimator r x . Sebelum mencari
kekonsistenan dari etimator tersebut, akan dibuktikan terlebih dahulu
kekonsistenan dari estimator f x dan g x .
Lemma 3.2.3 Berdasarkan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2
maka:
a. ˆ pf x f x
b. ˆ pg x g x .
Bukti:
a. Akan dibuktikan bahwa f x konvergen dalam probabilitas ke f x
dengan menggunakan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2.
Berdasarkan definisi dari konvergen dalam probabilitas, akan dibuktikan:
ˆlim 0n
P f x f x
, untuk semua 0 .
Dengan menggunakan teorema 2.2.2, maka:
2
ˆvarˆ ˆ
f xP f x E f x
.
36
pada semua bilangan real ℝ, dengan menggunakan ekspansi deret Taylor pada
perkalian rf u disekitar x, berdasarkan asumsi 3.2.1 dan definisi 2.2.5 maka:
2
hE K x u y
2 1f x r xK s ds o
nh nh
.
Sehingga covariansi dari ˆ ˆ dan f x g x adalah:
21 1ˆ ˆcov , h h hf x g x E K x u y E K x u E K x u y
n n
2 1 1f x r x
K s ds o Onh nh n
.
∎
Akibat 3.2.1 Berdasarkan asumsi 3.2.1 serta lemma 3.2.1 dan lemma 3.2.2 maka
nilai MSE dari masing-masing f x dan g x :
a. 1ˆMSE f x On
b. 1
ˆMSE g x On
.
Bukti:
a. Berdasarkan definisi 2.2.4 dan lemma 3.2.1 dan lemma 3.2.2 maka:
2
21 1 1ˆ pMSE f x K s f x ds o O o hnh nh n
.
Ketika n maka nilai ˆMSE f x secara asimtotik adalah
1ˆMSE f x On
.
∎
35
1 1
1 1ˆ ˆcov , cov ,n n
h i h j j
i j
f x g x K x X K x X Yn n
2
1cov ,h i h j j
i j
K x X K x X Yn
1
cov ,h hK x u K x u yn
1
.h h h hE K x u K x u y E K x u E K x u yn
21
h h hE K x u y E K x u E K x u yn
21 1
h h hE K x u y E K x u E K x u yn n
.
Perhatikan untuk 2
hE K x u y :
2 21
,h hE K x u y K x u y f u y du dyn
21hK x u y f y u f u du dy
n
21hK x u f u y f y u dy du
n
21hK x u f u E y X u du
n
21hK x u f u r u du
n
21K s f x sh r x sh ds
nh
.
Andaikan rf mempunyai turunan kontinu terbatas k pada selang tertutup
, dan rf mempunyai turunan k+1 pada interval terbuka , yang
memuat nilai x dengan k = min{p,q} dan andaikan rf merupakan fungsi mulus
34
22 21
h hE K x u y E K x u yn
.
Perhatikan untuk 2 2
hE K x u y :
2 2 2 2 ,h hE K x u y K x u y f u y du dy
2 2
hK x u y f y u f u du dy
2 2
hK x u f u y f y u dy du
2 2
hK x u f u E y X u du
22
h iK x u f u E r u X u du
2 2 2
hK x u f u r u u du
.
Sehingga:
2
2 2 21ˆvar k
hg x K x u f u r u u du g x o hn
2
2 2 21 1.kK s f x sh r x sh x sh ds g x o h
nh n
Berdasarkan asumsi 3.2.1, definisi 2.2.5 dan definisi 2.2.7 maka:
2 2
2 1 1ˆvar
r x x f xg x K s ds o O
nh nh n
.
∎
c.
2 1 1ˆ ˆcov ,r x f x
f x g x K s ds o Onh nh n
.
33
2 22 2 2
1 11
1' ''
2
.! 1 !
h
p p p pp p
h sE K x u K s f x ds K s sh f x f x
h
h s h sf x f x ds
p p
Sehingga:
2
1 2ˆvar h hf x n E K x u E K x u
2 21 2 2
1 1 21
1' ''
2
! 1 !
p p p pp p p
h sn K s f x ds K s sh f x f x
h
h s h sf x f x ds f x o h
p p
2 22 2
1 1 21
1 1' ''
2
1.
! 1 !
p p p pp p p
h sK s f x ds K s sh f x f x
nh nh
h s h sf x f x ds f x o h
p p n
Berdasarkan asumsi 3.2.1, definisi 2.2.5 maka variansi dari penyebut estimator
Nadaraya Watson adalah sebagai berikut:
ˆvar f x 21 1 1K s f x ds o O
nh nh n
.
∎
b. 1
1ˆvar var
n
h i i
i
g x K x X Yn
21
1var
n
h i i
i
K x X Yn
1
var hK x X Yn
32
b.
2 2
2 1 1ˆvar
r x x f xg x K z dz o O
nh nh n
c.
2 1 1ˆ ˆcov ,r x f x
f x g x K z dz o Onh nh n
.
Bukti:
a. Menurut persamaan (2.7):
1
1ˆvar varn
h i
i
f x K x Xn
21
1var
n
h i
i
K x Xn
1
var hK x Xn
2
1 2
h hn E K x u E K x u .
Perhatikan untuk 2
hE K x u :
2 2
h hE K x u K x u f u du
2
2
1 x uK f u du
h h
21K s f x sh ds
h
.
Berdasarkan definisi 2.2.7, maka:
2 22 2
1 11
1' ''
2 !
1 !
p pp
h
p pp
h s h sE K x u K s f x sh f x f x f x
h p
h sf x ds
p
31
1
1.
1 !
k
kvhg x rf x K v dv
k
Sehingga bias dari pembilang estimator Nadaraya Watson adalah sebagai berikut:
1
1ˆ
1 !
k
kvhE g x g x g x rf x K v dv g x
k
1
1
1 !
k
kvhrf x K v dv
k
.
Ketika suku sisa
1
1
1 !
k
kvhrf x
k
deret Taylor di atas merupakan order
kecil dari hk maka dengan menggunakan asumsi pembatasan dari sifat bandwidth
h, n maka 0h , suku sisa deret Taylor di atas konvergen ke nol, yaitu:
1
1
1
1
0 0
1 !lim lim 0
1 !
k
k
k
k
kh h
vhrf x K v dv
k v hrf x K v dv
h k
.
Sehingga bias dari pembilang estimator Nadaraya Watson adalah
ˆ kE g x g x o h .
∎
Asumsi 3.2.4 Titik x merupakan titik kontinu dari 2 ,x f x C untuk C > 0
dan fungsi r serta fungsi f masing-masing terdiferensial di sekitar x.
Lemma 3.2.2 Jika x berada dalam interval terbuka dimana f x mempunyai
turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q,
berdasarkan asumsi 3.2.1 –3.2.4 maka:
a.
2 1 1ˆvarf x
f x K z dz o Onh nh n
30
dengan menggunakan ekspansi deret Taylor pada perkalian rf u disekitar x
maka ekspektasi dari g x adalah sebagai berikut:
ˆhE g x r u f u K x u du
r x vh f x vh K v dv
1
1'
1 !
k
kvhrf x vh rf x rf x K v dv
k
1
1
'
,! 1 !
k k
k k
rf x K v dv vh rf x K v dv
vh vhrf x K v dv rf x K v dv
k k
dengan terletak diantara x dan x hv .
Ketika K terintegralkan ke satu, semua momennya adalah nol dan ketika
g x r x f x maka:
1
1
ˆ '
! 1 !
k k
k k
E g x rf x K v dv vh rf x K v dv
vh vhrf x K v dv rf x K v dv
k k
1
1
'
! 1 !
k k
k kk
rf x K v dv h rf x vK v dv
h vhrf x v K v dv rf x K v dv
k k
1
10 0 0
1 !
k
kvhrf x rf x K v dv
k
29
Sehingga:
1
1ˆ
n
h i i
i
E g x E K x X Yn
1
1 n
h i i
i
E K x X Yn
hE K x X Y
hE K x u y
,hK x u y f u y du dy
hK x u y f y u f u du dy
hK x u f u y f y u dy du
hK x u f u E y X u du
hK x u f u r u du
hr u f u K x u du
.
Bias untuk pembilang estimator Nadaraya-Watson adalah:
ˆhE g x g x r u f u K x u du g x
.
Andaikan rf mempunyai turunan kontinu terbatas k pada selang tertutup
, dan rf mempunyai turunan k+1 pada interval terbuka , yang
memuat nilai x dengan k = min{p,q} dimana p merupakan turunan kontinu
terbatas dari fungsi f x dan q merupakan turunan kontinu terbatas dari fungsi
r x , dan andaikan rf merupakan fungsi mulus pada semua bilangan real ℝ,
28
Berdasarkan persamaan (2.4), bias dari penyebut estimator Nadaraya-Watson
dengan kernel order tak hingga adalah:
ˆ ˆbias f x E f x f x
11
1 !
ppf x shf x K s ds f x
p
11
1 !
ppf x shK s ds
p
.
Ketika suku sisa
11
1 !
ppf x sh
p
deret Taylor di atas merupakan order kecil
dari hp maka berdasarkan asumsi pembatasan dari sifat bandwidth h, n maka
0h , suku sisa deret Taylor di atas konvergen ke nol, yaitu:
11
1 1
0 0
1 !lim lim 0
1 !
pp
p p
ph h
f x shK s ds
p f x s hK s ds
h p
.
Sehingga ˆbias pf x o h
.
∎
b. Bias pembilang estimator Nadaraya-Watson dengan kernel order tak hingga
Menurut persamaan (2.9) estimator fungsi r adalah:
ˆˆ
ˆ
g xr x
f x
1
1
1
1
n
h i i
i
n
h k
k
K x X Yn
K x Xn
.
27
Bukti:
a. Bias penyebut estimator Nadaraya-Watson dengan kernel order tak hingga.
Menurut persamaan (2.8) : ˆhE f x K s f x sh ds
.
Menurut definisi 2.2.7, kita dapatkan:
2 3
11
' '' '''
1! 2! 3!
,! 1 !
p pp p
f x sh f x sh f x shf x sh f x
f x sh f x sh
p p
dengan terletak diantara x dan x sh . Persamaan (2.8) menjadi:
ˆE f x K s f x sh ds
2 3
11
' '' '''
1! 2! 3!
! 1 !
p pp p
f x sh f x sh f x shK s f x
f x sh f x shds
p p
2
2
3
3
11
'''
2
'''
6 !
.1 !
p p
p
pp
h f xf x K s ds hf x K s s ds K s s ds
h f x h f xK s s ds K s s ds
p
f x shK s ds
p
Fungsi K adalah fungsi yang berorder tak hingga yaitu K terintegralkan ke satu,
semua momennya adalah nol sehingga:
11
ˆ 0 0 01 !
ppf x shE f x f x K s ds
p
11
1 !
ppf x shf x K s ds
p
.
26
3.2 Sifat Asimtotik Estimator Nadaraya Watson dengan Kernel Berorder
Tak Hingga
Kita akan menguji perilaku dari estimator Nadaraya-Watson kelas kernel baru
yaitu kernel dengan order tak hingga untuk n pengamatan pasangan data
yang berdistribusi identik dan independen dengan
densitas f. Untuk memahami estimator tersebut secara menyeluruh, kita akan
memulai dengan suatu lemma yang mengukur perilaku asimtotik dari pembilang
dan penyebut estimator tersebut yaitu f x dan g x dimana f x merupakan
estimator densitas kernel dari f x dan g x merupakan estimator dari g x .
Dalam prosesnya kita memerlukan beberapa asumsi. Kita akan memberikan
batasan untuk perilaku bandwidth h ketika n dan pada distribusi bersyarat
dari error.
Asumsi 3.2.1 Ketika n , bandwidth 0h dan nh .
Asumsi 3.2.2 εi adalah random error dengan asumsi independen,
0i iE X x dan 2 2
i iE X x .
Asumsi 3.2.3 berdistribusi identik dan independen
dengan densitas f.
Lemma 3.2.1 Jika x berada dalam interval terbuka dimana f x mempunyai
turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q,
maka berdasarkan asumsi 3.2.1 dan 3.2 2:
a. ˆ pE f x f x o h
b. ˆ kE g x g x o h
dengan k = min{p,q}.
25
Permasalahan di atas dapat diselesaikan dengan membuat transisi dari 0 ke
1 pada daerah asal Fourier yang kurang kasar. Devroy dan Gyorfi, Hall dan
Marron, pada kasus estimasi densitas spektral, Politis dan Romano, mempelajari
kernel dari Tranformasi Fourier yang diberikan oleh:
1 1 2
2 1 1 2 1
0 1
jika s
s s jika s
jika s
.
Kernel yang bersesuaian adalah:
2
2 cos cos2
x xK x
x
.
Gambar dari kernel di atas adalah sebagai berikut:
24
1 1
2
ix ixe ex i
sin x
x .
Berikut gambar dari fungsi flat-top kernel di atas:
Pada gambar di atas terlihat bahwa bagian belakang atau ekor dari kernel tersebut
sangat bergelombang. Ada dua permasalahan akibat dari hal ini. Pertama, ekor
dari kernel tersebut yang turun secara pelan-pelan dan gerakan-gerakan negatif
yang sangat besar meningkatkan 2K x dx
, yang juga akan meningkatkan
variansi dari estimasinya. Kedua, gelombang besar yang jauh dari 0 menghasilkan
bias sampel yang berhingga karena gelombang tersebut memberikan pengamatan
yang cukup jauh dari x yang sangat berpengaruh dalam melakukan estimasi di
titik x. Permasalahan-permasalahan tersebut membuat estimator fungsi kepadatan
yang menggunakan kernel tersebut menjadi tidak stabil dalam bersaing kecuali
untuk sampel yang berukuan sangat besar.
23
1 jika s cs
g s jika s c
,
dengan fungsi g dipilih sehingga membuat s , 2 s dan s s dapat
diintegralkan. Flat-top Kernel diberikan sebagai berikut:
1
2
isxK x s e ds
. (3.1)
Kernel yang memenuhi definisi di atas menjamin bahwa 0ix K x dx
,
untuk semua bilangan bulat i. Menurut Politis dan Romano (1995) keuntungan
menggunakan kernel ini adalah kita tidak perlu memilih fungsi kernel yang baru
ketika ada data yang baru, kernel yang sama dengan bandwidth yang berbeda akan
menyesuaikan kemulusan dari fungsi kepadatan yang tidak diketahui.
Berikut diberikan contoh yang memenuhi definisi di atas. Diberikan fungsi
s sebagai berikut:
1 1
0 1
jika ss
jika s
.
Menurut definisi 2.5.2:
1
2
isxK x s e ds
1 1
1 1
10. 1. 0.
2
isx isx isxe ds e ds e ds
1
1
11.
2
isxe ds
1
1
1 1
2
isxeix
1 1
2
ix ixe eix
22
BAB III
ESTIMASI NADARAYA-WATSON DENGAN KERNEL ORDER TAK
HINGGA
3.1 Kernel dengan Order Tak Hingga
Menurut Berg (2008) fungsi Kernel dikatakan mempunyai order v jika
memenuhi:
1. v
R
x K x dx
2. 0, 1,2,..., 1ix K x dx i v
.
Seperti yang telah dijelaskan pada bab sebelumnya yaitu jika banyak turunan
dari fungsi tersebut tidak diketahui maka untuk mengestimasi jumlah turunan dari
fungsi tersebut sangat sulit, sehingga kita kesulitan untuk memilih kernel dengan
order berapakah yang digunakan.
Untuk mengurangi permasalahan tersebut, kita fokus pada fungsi kernel yang
secara efektif mempunyai order kernel tak hingga. Kelas kernel tersebut secara
otomatis mengurangi bias ke o(hp) tidak peduli berapa kali fungsi tersebut dapat
diturunkan.
Definisi 3.1.1 (Berg, 2008). K(x) dikatakan berorder tak hingga jika memenuhi:
0, 1,2,...ix K x dx i
Definisi 3.1.2 (McMurry dan Politis, 2003). Sebuah flat-top Kernel K dengan
order tak hingga secara umum dibentuk melalui Transformasi Fourier λ, yaitu
untuk nilai tetap c > 0
21
legend("bottomright",c("fungsi r","estimasi h kecil","estimasi h
optimal","estimasi h besar"),lty=c(1,1,1,1),lwd=c(2,2,2,2),col=c(2,5,4,3))
2. Hasil output
Gambar 2.2: Grafik estimasi dengan KSmooth
20
Menurut Hardle (1991) nilai-nilai statistik pembilang dari estimator
Nadaraya-Watson dengan fungsi kernelnya mempunyai order dua adalah sebagai
berikut:
2
2
2ˆ '' , 0
2
hBias g x g x K o h h
1 122
2ˆvar ,g x nh f x s x K o nh untuk nh
4
2 11 22 4
22ˆ '' ,
4
0,
hMSE g x nh f x s K g x K o nh o h
h nh
dengan 2 2s x E Y X x .
Berdasarkan nilai statistik dari pembilang estimator Nadaraya-Watson di atas
dan nilai statistik dari estimasi densitas kernel maka dapat diperoleh nilai MSE
dari estimator Nadaraya-Watson yaitu:
22 4
11 2 2
22
4
' 'ˆ '' 2
4
, 0, .
x r x f xhMSE r x nh K r x K o nh
f x f x
o h h nh
Berikut diberikan contoh proses smoothing dengan estimator Nadaraya-
Watson dari data yang dibangkitkan menggunakan program R:
1. Proses smoothing dalam R
a=runif(1000)
e=rnorm(1000)
x=sort(a)
r=cos(2*pi*x)
y=r+e
plot(x,y)
lines(x,r,col=2,lwd=2)
lines(ksmooth(x,y,bandwidth=0.03),col=5,lwd=2)
lines(ksmooth(x,y,bandwidth=0.30),col=4,lwd=2)
lines(ksmooth(x,y,bandwidth=1),col=3,lwd=2)
19
2.5 Estimator Nadaraya Watson
Estimasi kernel untuk fungsi regresi r(x) dikonstruksi sebagai berikut:
r x E Y X x
y f y x dy
,y f x ydy
f x .
Estimator fungsi regresi untuk fungsi densitas f yang tidak diketahui adalah:
1 2,
ˆ ,ˆ
ˆh h
h
y f x yr x dy
f x
1
1
1
1
n
h i i
i
n
h k
k
K x X Yn
K x Xn
ˆ
ˆ
g x
f x . (2.9)
Estimator fungsi regresi r x di atas merupakan rata-rata lokal yang
diusulkan oleh Nadaraya-Watson sehingga disebut juga sebagai estimator
Nadaraya-Watson. Berdasarkan persamaan (2.1) maka Estimator Nadaraya-
Watson mempunyai fungsi bobot sebagai berikut:
1
ˆ1
h i h i
i n
hh k
k
K x X K x XW x
f xK x X
n
,
dengan ˆhf x merupakan estimator densitas kernel.
Menurut Takezawa (2003) fungsi bobot dalam estimator Nadaraya-Watson
mempunyai karakteristik sebagai berikut:
1
1n
i
i
W x
.
18
(i) Fungsi f bersifat kontinu dan terintegralkan secara kuadrat
(ii) Bandwidth h memenuhi asumsi lim 0n
h
dan limn
nh
(iii) Fungsi kernel K merupakan fungsi kepadatan probabilitas yang terbatas dan
simetri di sekitar daerah aslinya.
Bukti:
ˆ ˆh hBias f x E f x f x
K s f x sh ds f x
2 3
'
1!
'' '''
2! 3!
.!
tt
t
f x shK s f x ds K s ds
f x sh f x shK s ds K s ds
f x shK s ds K s o h ds f x
t
Karena K merupakan kernel berorder tinggi maka menurut definisi:
ˆ 0 0!
tt
t
h
f x shBias f x f x K s ds o h ds f x
t
!
tt
tf x sh
K s ds o h dst
, 0.
!
ttt th
f x o h ht
Terbukti bahwa ketika K merupakan kernel berorder tinggi bias dari estimasi
densitas kernel tersebut adalah , 0
!
ttt th
f x o h ht
.
Namun muncul permasalahan yaitu ketika derajat kemulusan atau jumlah
turunan dari fungsi tersebut tidak diketahui maka untuk mengestimasi jumlah
turunan dari fungsi f sangat sulit, sehingga kita kesulitan untuk memilih kernel
dengan order berapakah yang digunakan.
Untuk mengurangi permasalahan tersebut, kita fokus pada fungsi kernel yang
secara efektif mempunyai order kernel tak hingga. Kelas kernel tersebut secara
otomatis mengurangi bias ke o(hp) tidak peduli berapa kali fungsi f tersebut dapat
diturunkan. Kernel dengan order tak hingga tersebut akan dibahas lebih dalam lagi
pada bab III.
17
Bukti:
2
ˆ ˆ ˆvarh h hMSE f x f x bias f x
2
21 12 2
22''
2
hnh K f x o nh f x K o h
4
2 11 2 4
22'' ,
4
0, .
hnh f x K f x K o nh o h
h nh
.
ˆhMSE f x konvergen ke 0 bila 0,h nh , maka estimator densitas kernel
konsisten yaitu ˆ p
hf x f x .
2.4 Estimasi Densitas Kernel untuk Kernel Berorder Tinggi
Dalam menganalisis harga harapan dari estimasi densitas kernel, kernel yang
digunakan pada sub bab sebelumnya adalah kernel yang memenuhi syarat moment
pertamanya bernilai nol dan momen keduanya bernilai positif. Pada sub bab ini
difokuskan pembahasan mengenai kernel dengan order tinggi dengan bias kurang
dari O(h2).
Suatu kernel dikatakan berorder v jika memenuhi syarat sebagai berikut:
1. 0K x , untuk semua nilai x
2. 1K x dx
3. 0, 1, , 1
0,
j
j
j vx K x dx
j v
.
Teorema 2.4.1 (Hardle, 1991) Andaikan kernel K berorder tinggi, ˆhf x
merupakan estimator dari fungsi densitas f yang mempunyai turunan kontinu
terbatas p dan v adalah order kernel, maka bias dari fungsi f tersebut adalah
, 0!
ttt th
f x o h ht
dimana t = min{p,v} dengan asumsi sebagai
berikut:
16
ˆ ˆh hBias f x E f x f x
K s f x sh ds f x
2 2
2' ''2
h sK s f x sh f x f x o h ds f x
2
2
2'' , 02
hf x K o h h .
(ii) Variansi dari ˆhf x adalah
1ˆvar varh hf x K x Xn
2
1 2
h hn E K x X E K x X
21 2 2 1
x un h K f u du f x o
h
21 1 2 1n h K s f x sh ds f x o
221 1
21 1n h K f x o f x o
1 12
2,nh K f x o nh untuk nh
.
Teorema 2.3.4 (Wand dan Jones, 1995). Bila ˆhf x estimator densitas kernel
maka
4
2 11 2 4
22
ˆ '' ,4
0, .
h
hMSE f x nh f x K f x K o nh o h
h nh
.
15
1
1ˆn
ih
i
x XE f x E K
nh h
1
1 ni
i
x XE K
nh h
hE K x X
hK x y f y dy
K s f x sh ds . (2.8)
Ketika 0h maka:
ˆhE f x K s f x sh ds f x K s ds = f x .
Sebelum membahas mengenai statistik dari estimator densitas kernel akan
diberikan asumsi-asumsi sebagai berikut:
(i) Turunan kedua dari fungsi f bersifat kontinu, terintegralkan secara kuadrat
dan juga monoton
(ii) Bandwidth h memenuhi asumsi lim 0n
h
dan limn
nh
(iii) Fungsi kernel K merupakan fungsi kepadatan probabilitas yang terbatas dan
simetri di sekitar daerah aslinya.
Berdasarkan asumsi di atas maka statistik dari estimator densitas kernel adalah
sebagai berikut:
Teorema 2.3.3 (Wand dan Jones, 1995). Bila ˆhf x estimator densitas kernel
maka
(i) 2
2
2ˆ '' , 0
2h
hBias f x f x K o h h
(ii) 1 12
2
ˆvar ,hf x nh f x K o nh untuk nh
Dengan 2
2 K x K x dx dan 2
2K adalah 2K x dx .
Bukti:
(i) Bias dari ˆhf x adalah
14
Gambar 2.1: Grafik jenis-jenis kernel
Definisi 2.3.2 (Hardle, 1991). Estimator densitas kernel untuk fungsi densitas
hf x adalah
1
1ˆn
h h i
i
f x K x Xn
1
1 ni
i
x XK
nh h
. (2.7)
Andaikan ˆhf x adalah estimator densitas kernel dari suatu fungsi kepadatan
hf x pada titik x ϵ ℝ dan andaikan Xi berdistribusi identik dengan fungsi
kepadatan hf x , maka:
13
3. 0x K x dx
4. 2 0x K x dx
5. 2K x dx .
Berikut diberikan beberapa contoh fungsi kernel, antara lain:
1. Kernel Uniform: 1
12
K x I x
2. Kernel Triangle: 1 1K x x I x
3. Kernel Epanechnikov: 231 1
4K x x I x
4. Kernel Quartic: 2
2151 1
16K x x I x
5. Kernel Triweight: 3
2351 1
32K x x I x
6. Kernel Cosinus: cos 14 2
K x x I x
7. Kernel Gausian: 21 1exp ,
22K x x x
Grafik dari masing-masing fungsi kernel di atas:
12
Definisi 2.2.9. Andaikan 1 2, , , nX X X variabel random yang independen
sedemikin hingga n nE X dan 2
var n nX . Didefinisikan
n n nY X
1
n
n i
i
T Y
2 2
1
varn
n
n i
i
S T
Syarat Liapunov didefinisikan 0 sedemikian sehingga
2
21
10 untuk
n
i
in
E Y nS
2.3 Estimasi Densitas Kernel untuk Kernel Berorder Dua
Pandang observasi 1 2, , , nX X X berdistribusi identik dan independen dengan
densitas f x . Estimasi densitas kernel bergantung pada dua parameter yaitu h
sebagai bandwidth atau lebar pita dan K sebagai fungsi kernel.
Suatu kernel dikatakan berorder 2 jika 0K x , 1K x dx ,
0x K x dx dan 2x K x dx , untuk semua nilai x
Definisi 2.3.1 (Hardle, 1991). Secara umum fungsi Kernel dengan bandwidth h
didefinisikan sebagai berikut:
1
h
xK x K
h h
, - ∞ < x < ∞ dan h > 0, (2.6)
yang memenuhi sifat-sifat:
1. 0K x , untuk semua nilai x
2. 1K x dx
11
Teorema 2.2.3(Subanar,2013). Misalkan ,n nX Y ,n = 1,2,3,... barisan pasangan
variabel random dan c konstanta, maka
a. ,d P d
n n n nX X Y c X Y X c
b. , 0
,0, 0
d
n nd P
n n P
n n
X Y Xc bila cX X Y c
X Y bila c
c. , , 0d P dnn n
n
X XX X Y c bilacY c
.
Definisi 2.2.7 (Purcell dan Varberg, 1987). Andaikan suatu fungsi f x dan
turunannya, yaitu , ' , '' , , nf x f x f x f x kontinu dalam selang [a,b] dan
,ox a b maka untuk nilai x disekitar ,ox f x dapat diekspansi (diperluas) ke
dalam deret Taylor sebagai,
2
' '' ...1! 2!
o o
o o o
x x x xf x f x f x f x
.
Apabila atau persamaan di atas dapat dinyatakan sebagai
2
' '' ... ...1! 2! !
nn
o o o o o
h h hf x h f x f x f x f x
n .
Definisi 2.2.8 (Paul dan David, 1986). Andaikan f x fungsi yang tidak
periodik yang berada pada 2 ,L , sehingga transformasi Fourier
didefinisikan sebagai berikut
1
2
i xF f x e dx
,
dengan 2 ,L adalah himpunan fungsi kontinu, 2
lim 0 NN
f x f x dx
dan N
i x
N
N
f x F e d
.
10
Definisi 2.2.6 (Roussas, 1973). Barisan variabel random {Xn} dikatakan
konvergen ke X (dalam probabilitas), dinotasikan P
nX X , jika untuk setiap
0, 0nP X X untuk n .
Lemma 2.2.1 (Roussas, 1973) Jika danP P
n nX X Y Y maka
Pn
n
X X
Y Y , dimana 0 0 1nP Y P Y .
Bukti:
Untuk menunjukkan Pn
n
X X
Y Y akan ditunjukkan bahwa
1 1P
nY Y , jika
0 0 0nP Y P Y untuk setiap n.
Akan ditunjukkan bahwa jika fungsi f y kontinu di Y yang bernilai riil dan
P
nY Y maka P
nf Y f Y . Diketahui f fungsi kontinu bernilai riil
sehingga nf Y dan f Y variabel random dan diketahui juga bahwa f y
kontinu di Y yang berarti bahwa untuk setiap 0 , terdapat 0 sedemikian
hingga nY Y berakibat nf Y f Y . Karena nf Y dan f Y variabel
random berakibat:
n nP f Y f Y P Y Y .
Diketahui P
nY Y , maka untuk setiap 0 ,
lim lim 1n nn n
P f Y f Y P Y Y
,
sehingga terbukti bahwa P
nf Y f Y . Karena 0 0 1nP Y P Y
untuk setiap n maka 1
nYfungsi kontinu dari nY , sehingga
1 1P
nY Y .
Menurut Bain (1992) maka Pn
n
X X
Y Y .
9
Teorema 2.2.1 (Subanar, 2013). Bila X variabel random tak negatif dan
andaikan a>0 maka E X
P X aa
.
Bukti:
Karena 0X maka 0
E X x f x dx
.
0
E X x f x dx
0
a
a
x f x dx x f x dx
a
x f x dx
a
a f x dx
a
a f x dx
a P X a ,
sehingga E X a P X a atau E X
P X aa
.
Teorema 2.2.2 (Subanar, 2013). Bila X variabel random dengan E(X) = μ,
var(X) = σ2 maka untuk setiap
2
20, P X
.
Bukti:
Misalkan 2, 0w X w , didapatkan
2 2E w E X .
Menurut teorema 2.2.1,
222 22 2
E wP w P X
2
2P X
.
8
2.2 Definisi dan Teorema yang Terkait
Berikut diberikan definisi-definisi dan teorema-teorema yang terkait dalam tesis,
yaitu:
Definisi 2.2.1 (Bain, 1992). Momen ke-n dari variabel random x adalah
n n
k E x x f x dx . (2.2)
Definisi 2.2.2 (Bain, 1992). Variansi dari suatu variabel random kontinu x
adalah
2
var x E x
. (2.3)
Definisi 2.2.3 (Wand dan Jones, 1995). Bias dari estimator fungsi kepadatan f(x)
adalah
ˆ ˆbias f x E f x f x
. (2.4)
Definisi 2.2.4 (Wand dan Jones, 1995). Andaikan x suatu variabel random
kontinu nilai MSE dari estimator fungsi kepadatan f(x) adalah
MSE f x
= Var f x
+ Bias2 f x
. (2.5)
Definisi 2.2.5 (Wand dan Jones, 1995). Andaikan na dan nb adalah barisan
suatu fungsi,
a. n na O b jika lim , 0n
nn
aM M
b
b. lim 0nn n
nn
aa o b jika
b
c. ~ lim 1nn n
nn
aa b jika
b
.
7
BAB II
LANDASAN TEORI
2.1 Ide Dasar Smoothing
Salah satu pendekatan dalam regresi yang sering digunakan adalah regresi
nonparametrik. Pendekatan ini digunakan untuk data yang tidak diketahui bentuk
kurva atau fungsi regresinya. Andaikan fungsi tersebut adalah fungsi r. Dalam hal
ini diasumsikan bahwa fungsi r termuat dalam kelas fungsi kontinu mulus di dekat
persekitaran x.
Terdapat berbagai macam teknik yang dapat digunakan untuk mendapatkan
estimasi dari fungsi r(x) tersebut. Teknik yang paling sederhana untuk
mengestimasi kurva atau fungsi regresi r(x) adalah melalui rata-rata dari variabel
response Y yang dekat dengan titik x biasa disebut local average (rata-rata lokal).
Rata-rata lokal hanya didefinisikan pada pengamatan yang dekat dengan x.
Misalkan kita ingin mengestimasi fungsi r(x) untuk beberapa x∈[0,1]. Jika r
adalah fungsi yang kontinu, maka nilai-nilai fungsi pada Xi yang dekat dengan x
seharusnya akan cukup dekat dengan r(x). Hal ini memberikan usulan bahwa
merata-rata nilai Yi yang bersesuaian dengan Xi yang dekat dengan x akan
menghasilkan estimator tak bias untuk fungsi r(x).
Rata-rata lokal merupakan ide dasar dari teknik smoothing. Pada teknik
smoothing ini, rerata sederhana di atas digantikan dengan jumlahan berbobot.
Biasanya bobot yang lebih besar diberikan pada Yi yang nilai Xi nya mendekati
titik estimasi x. Secara umum prosedur tersebut dapat didefinisikan sebagai
berikut:
1
1ˆ
n
ni i
i
r x W x Yn
, (2.1)
dengan 1
n
nii
W x
adalah barisan dari bobot yang bergantung pada seluruh
variabel prediktor 1
n
i iX
.
6
1.6 Sistematika Penulisan
BAB I PENDAHULUAN : Pada bab ini membahas tentang latar belakang
dan permasalahan, tujuan dan manfaat penelitian, tinjauan pustaka, metodologi
penelitian, dan sistematika penulisan.
BAB II LANDASAN TEORI : Pada bab ini membahas tentang ide dasar
smoothing, definisi dan teorema statistika yang terkait, estimasi densitas kernel
untuk kernel berorder dua, estimasi densitas kernel untuk kernel berorder tinggi,
estimator Nadaraya-Watson.
BAB III PEMBAHASAN : Pada bab ini akan dijelaskan contoh fungsi kernel
berorder tak hingga, dan juga akan dipaparkan mengenai performance dari
pembilang dan penyebut estimator Nadaraya-Watson dengan kelas kernel baru
tersebut serta kekonsistenan dan distribusinya secara asimtotis.
BAB IV STUDI KASUS : Pada bab ini akan dilakukan studi kasus dari data
rata-rata volume air sungai di Indonesia yang pengalirannya lebih dari 1000 km2
dengan program R kemudian dibandingkan performance antara estimator
Nadaraya-Watson kernel order tak hingga dengan kernel order berhingga dari
grafik maupun nilai MSEnya.
BAB V KESIMPULAN DAN SARAN : Bab ini berisi pembahasan mengenai
kesimpulan yang diperoleh dari bab-bab sebelumnya dan saran untuk penelitian
selanjutnya berdasarkan apa yang telah dibahas pada bab-bab sebelumnya.
5
Order Flat-Top Kernels juga menguji sifat-sifat asimtotik kernel, namun
menggunakan kelas kernel yang baru yaitu kernel dengan order yang tak hingga
(infinite) menggunakan estimator Gasser-Muller. Penelitian yang hampir serupa
juga pernah diteliti oleh Timothy L McMurry dan Dimitris N Politis (2008)
dalam jurnalnya yang berjudul Minimally Biased Nonparametric Regression and
Autoregressseion. Dalam jurnalnya tersebut Timothy dan Dimitris membahas
mengenai bias regresi dan autoregresi nonparametrik secara minimal dengan
menggunakan kelas kernel yang baru yaitu kernel dengan order tak hingga,
namum dalam tesis ini penulis hanya akan membahas mengenai regresi
nonparametrik dengan menggunakan kelas kernel yang baru yaitu kernel dengan
infinite order, dimana kernel tersebut dapat secara otomatis dapat mereduksi bias
estimator r menjadi O(hk) tanpa peduli berapa kali turunan kontinunya.
1.5 Metode Penelitian
Metodologi yang digunakan dalam penelitian ini adalah studi literatur.
Langkah-langkah yang dilakukan penulis adalah sebagai berikut:
1. Mencari dan menentukan jurnal yang akan dijadikan bahan acuan.
2. Mengumpulkan jurnal-jurnal lain yang relevan dengan materi dalam jurnal
acuan.
3. Mempelajari buku-buku pendukung yang berkaitan dengan topik
permasalahan penelitian.
4. Mempelajari dan membahas topik penelitian yang meliputi: teori regresi
nonparametrik, ide dasar smoothing, estimator kernel, estimasi fungsi dalam
regresi nonparametrik, sifat-sifat fungsi kernel, estimasi densitas kernel,
fungsi estimator Nadaraya Watson, kernel dengan infinite order.
5. Mempelajari performance (bias dan variansi) dari pembilang dan penyebut
estimator Nadaraya-Watson dengan infinite order kernel serta melakukan
simulasi dengan software R.
6. Menyusun laporan penelitian sesuai dengan buku petunjuk penulisan tesis
yang diberlakukan.
4
3. Melakukan studi kasus dari data rata-rata volume air sungai di Indonesia yang
pengalirannya lebih dari 1000 km2 melalui teknik pemulus kernel
menggunakan estimator Nadaraya-Watson kernel berorder berhingga dan tak
hingga dengan menggunakan program R.
4. Membandingkan performance antara estimator Nadaraya-Watson kernel
berorder berhingga dengan tak hingga dilihat dari grafik dan nilai MSE.
1.3 Manfaat Penelitian
Manfaat yang diharapkan diperoleh dari penulisan tesis ini adalah:
1. Bagi penulis diharapkan dapat menambah pemahaman mengenai sifat-sifat
asimtotis dari estimator Nadaraya-Watson dengan kelas baru kernelnya.
2. Dapat memberikan sumbangan terhadap perkembangan ilmu pengetahuan
dan menambah wawasan pengetahuan dalam bidang statistika terutama dalam
mencari estimasi fungsi densitas dari regresi nonprametrik dengan teknik
smoothing, dan dalam memahami sifat-sifat estimator Nadaraya-Watson
dengan kelas kernel baru secara asimtotis.
3. Bagi pembaca sebagai motivasi untuk mengembangkan penemuan baru
dalam mengestimasi fungsi dalam regresi nonparametrik dengan teknik
smoothing.
1.4 Tinjauan Pustaka
Dalam jurnalnya Kernel Estimators of Regression Function, Bierens (1985)
meneliti mengenai bagaimana cara menetapkan fungsi kernel dan juga cara
pemilihan bandwidth. Selain itu, dalam jurnalnya tersebut Bierens juga membahas
mengenai sifat-sifat asimtotik dari estimator Nadaraya-Watson dengan kernel
yang mempunyai finite order. Sedangkan Jianqing Fan (2007) dalam jurnalnya
yang berjudul Design Adaptive Nonparametric Regression membahas mengenai
performance diantara dua metode smoothing yaitu lokal linear dan juga kernel.
Estimator kernel yang digunakan oleh Jianqing Fan adalah estimator Gasser
Muller dan juga Nadaraya-Watson. Timothy L McMurry dan Dimitris N Politis
(2003) dalam jurnalnya yang berjudul Nonparametric Regression with Infinite
3
Sedangkan kernel K berfungsi sebagai bobot yang ikut menentukan
kemulusan fungsi r, ketepatan pemulus kernel sebagai estimator, dan juga dalam
menentukan performance (bias, variansi dan MSE) yang optimal secara asimtotik.
Menurut Timothy dan Dimitris (2003) jika kernel K mempunyai order v dan
fungsi kepadatan r mempunyai turunan kontinu sebanyak k kali maka
Bias ( r x ) = CK,r(x) hn + o(h
n) (1.3)
Dimana n=min{v,k} dan CK,r(x) adalah fungsi terbatas yang bergantung pada K, r,
dan turunan fungsi r. Ketika fungsi r cukup mulus atau dapat dideferensialkan
sebanyak k kali dimana v ≥ k, maka bias r x dapat direduksi menjadi o(hk)
dengan secara tepat memilih kernel dengan order yang lebih besar dari banyaknya
diferensial. Namun untuk mengestimasi jumlah diferensial dari fungsi r tidaklah
mudah, sehingga kita kesulitan untuk menentukan order kernel berapakah yang
harus dipilih agar bias estimator tersebut dapat direduksi menjadi o(hk). Oleh
karena itu ditetapkan suatu kernel yang memiliki “infinite order”. Kernel tersebut
mampu mereduksi bias r x dari o(hn) menjadi o(h
k) tidak peduli berapa besar k.
Dalam tesis ini akan dicari performance (bias, variansi) dari penyebut dan
pembilang estimator Nadaraya –Watson menggunakan kernel berorder tak hingga
kemudian mencari sifat-sifat dari estimator tersebut secara asimtotik baik
distribusinya maupun kekonsistenannya. Kemudian dibandingkan performance
dari kernel berorder tak hingga dengan kernel berorder berhingga menggunakan
program R dengan membandingkan nilai MSE dari masing-masing kernel.
1.2 Tujuan Penelitian
Berdasarkan apa yang telah diuraikan pada latar belakang di atas maka tujuan
dari penulisan tesis ini adalah:
1. Mencari performance (bias dan variansi) dari pembilang dan penyebut
estimator Nadaraya-Watson dengan kelas baru kernel yaitu infinite order
Kernel secara asimtotik.
2. Menyelidiki kekonsistenan dan distribusi dari estimator Nadaraya-Watson
dengan kelas baru kernel secara asimtotik.
2
masing-masing metode tersebut, fungsi r(Xi) akan diestimasi dengan
menggunakan rata-rata bobot lokal yang mendekati x. Kemulusan fungsi r(Xi) dan
sifat-sifat dari bobot yang digunakan dalam rata-rata tersebut menentukan
performance dari estimator.
Menurut Hardle (1990) estimator Nadaraya-Watson didefinisikan sebagai
berikut:
1
1
1
ˆ1
ni
i
i
nk
k
x XK Y
nh hr x
x XK
nh h
(1.2)
dengan K(x) adalah fungsi kernel yang digunakan sebagai pembobot, sedangkan h
(bandwidth) adalah parameter yang digunakan sebagai pemulus. Penyebut dari
estimator di atas biasa kita sebut sebagai estimator densitas kernel atau biasa
disimbolkan dengan ˆhf x .
Menurut Hardle (1994) ketepatan suatu pemulus kernel sebagai estimator
dari r ditentukan oleh dua hal yaitu bandwidth dan fungsi kernel yang digunakan
sebagai bobot. Bandwidth h pada estimator di atas berfungsi untuk
menyeimbangkan antara bias dan variansi dari fungsi tersebut. Bandwidth yang
terlalu kecil akan menyebabkan fungsi yang diestimasi tersebut menjadi sangat
kasar sehingga hubungan variansinya tinggi dan memiliki potensi bias yang
rendah. Sebaliknya jika bandwidth yang terlalu besar menyebabkan fungsi yang
diestimasi akan sangat mulus sehingga hubungan variansinya rendah dan
memiliki potensi bias yang besar. Oleh karena itu diperlukan pemilihan
bandwidth yang optimum. Cross validation, plug-in adalah beberapa metode yang
digunakan untuk mendapatkan bandwidth yang optimum. Pemilihan bandwidth
yang optimum dilakukan dengan cara memperkecil tingkat kesalahan. Semakin
kecil tingkat kesalahannya semakin baik estimasinya. Untuk mengetahui ukuran
tingkat kesalahan suatu estimator dapat dilihat dari MSE (Mean Squared Error)
atau MISE (Mean Integrated Squared Error).
1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Analisis regresi merupakan metode analisis data yang menggambarkan
hubungan antara variabel respon dengan satu atau beberapa variabel prediktor.
Analisis regresi tersebut dirancang untuk keadaan dimana variabel respon
diperkirakan memiliki hubungan dengan variabel-variabel prediktor lainnya.
Andaikan terdapat n pengamatan pasangan 1 1 2 2, , , , , ,n nX Y X Y X Y sampel
dengan Xi adalah variabel prediktor dan Yi adalah variabel respon, maka hubungan
linear antara variabel respon dengan variabel prediktor yang memenuhi model di
bawah ini:
Yi = r(Xi) + εi, (1.1)
dapat dicari. Dimana εi adalah random error dengan asumsi independen, E(εi)=0
dan Var(εi)=σ2, dan r(Xi) adalah fungsi regresi yang tidak diketahui dan akan
diestimasi. Dalam hal ini fungsi r(Xi) diasumsikan kontinu dan mempunyai
tingkat kemulusan tertentu.
Ada dua jenis pendekatan yang digunakan untuk mengestimasi fungsi regresi
r(Xi) yaitu secara parametrik maupun nonparametrik. Pendekatan parametrik
dilakukan jika ada asumsi tentang bentuk fungsi regresi r(Xi) mengenai hubungan
antara variabel respon dan variabel prediktor, sedangkan pendekatan
nonparametrik dilakukan jika tidak ada asumsi tentang bentuk fungsi regresi r(Xi)
dan akan diestimasi berdasarkan data pengamatan dengan menggunakan teknik
smoothing. Dalam hal ini, kurva regresi diasumsikan termuat dalam suatu fungsi
mulus yang mempunyai turunan yang kontinu.
Ada berbagai macam teknik smoothing yang digunakan dalam pendekatan
nonparametrik antara lain histogram, estimator kernel, deret orthogonal, estimator
spline, k-NN, deret fourier, dan wavelet. Dan salah satu teknik yang akan
digunakan dalam tesis ini adalah estimator kernel. Menurut Timothy dan Dimitris
(2008) ada berbagai macam estimator kernel antara lain yang diusulkan oleh
Nadaraya dan Watson, Gaseer dan Muller, dan estimator lokal polinomial. Pada
xiii
ABSTRACT
NADARAYA WATSON REGRESSION ESTIMATION WITH INFINITE
ORDER KERNEL
by
Maria Suci Apriani
11/321856/PPA/03510
The function estimation of r(Xi) in linier regretion which is drawn near with non-
parametric approach is done if there is no assumption about regretion function
form of r(Xi). One of techniques used is smoothing technique with kernel.
Function of r x can be reduced to be o(hk) with choosing the kernel that has the
bigger order from the amount of differensial number. Therefore, a kernel which
has “infinite order” can be determined.
Keywords: non-parametric regression, Fourier transformation, Taylor series.
xii
INTISARI
ESTIMASI REGRESI NADARAYA-WATSON DENGAN KERNEL
BERORDER TAK HINGGA
Oleh
Maria Suci Apriani
11/321856/PPA/03510
Estimasi fungsi r(Xi) dalam regresi linear yang didekati dengan pendekatan
nonparametrik dilakukan jika tidak ada asumsi tentang bentuk fungsi regresi r(Xi).
Salah satu teknik yang digunakan adalah teknik penghalusan dengan kernel. Bias
r x dapat direduksi menjadi o(hk) dengan memilih kernel yang memiliki order
lebih besar dari banyaknya diferensial. Sehingga ditetapkan suatu kernel yang
memiliki “infinite order”.
Kata kunci: Regresi nonparametrik, transformasi Fourier, deret Taylor
xi
DAFTAR LAMPIRAN
Halaman
Lampiran 1. Data Rata-rata Air Sungai di Indonesia yang Pengalirannya
Lebih dari 1000 km2 .......................................................... 58
Lampiran 2. Hasil Estimasi ..................................................................... 62
Lampiran 3. Grafik Hasil Estimasi .......................................................... 76
Lampiran 4. Grafik MSE ... ..................................................................... 81
Lampiran 5. Program Estimasi ................................................................ 83
Lampiran 6. Program MSE ..................................................................... 89
x
DAFTAR TABEL
Halaman
Tabel 4.1 Nilai-nilai MSE ........................................................................ 50
ix
DAFTAR GAMBAR
Halaman
Gambar 2.1 Grafik jenis-jenis Kernel ..................................................... 14
Gambar 2.2 Grafik estimasi dengan Ksmooth ......................................... 21
Gambar 3.1 Grafik Kernel Sinus .............................................................. 24
Gambar 3.2 Grafik Kernel Cosinus .......................................................... 25
Gambar 4.1 Grafik estimasi dengan kelipatan nilai x sebesar 0.1 .............. 46
Gambar 4.2 Grafik estimasi dengan kelipatan nilai x sebesar 0.3 .............. 47
Gambar 4.3 Grafik estimasi dengan kelipatan nilai x sebesar 0.5 .............. 48
Gambar 4.4 Grafik estimasi dengan kelipatan nilai x sebesar 0.7 .............. 49
Gambar 4.5 Grafik MSE .......................................................................... 53
viii
5.2 Saran ............................................................................. 56
DAFTAR PUSTAKA ................................................................................. 57
LAMPIRAN ................................................................................................ 58
vii
DAFTAR ISI
Halaman
HALAMAN JUDUL .................................................................................. i
HALAMAN PENGESAHAN .................................................................... ii
HALAMAN PERNYATAAN ................................................................... iii
HALAMAN PERSEMBAHAN ................................................................. iv
PRAKATA .................................................................................................. v
DAFTAR ISI. .............................................................................................. vii
DAFTAR GAMBAR .................................................................................. ix
DAFTAR TABEL ....................................................................................... x
DAFTAR LAMPIRAN ............................................................................... xi
INTISARI .................................................................................................... xii
ABSTRACT ................................................................................................ xiii
BAB I PENDAHULUAN .................................................................... 1
1.1 Latar Belakang ............................................................. 1
1.2 Tujuan Penelitian .......................................................... 3
1.3 Manfaat Penelitian ........................................................ 4
1.4 Tinjauan Pustaka .......................................................... 4
1.5 Metode Penelitian ......................................................... 5
1.6 Sistematika Penulisan ................................................... 6
BAB II LANDASAN TEORI ............................................................... 7
2.1 Ide Dasar Smoothing .................................................... 7
2.2 Definisi dan Teorema yang Terkait .............................. 8
2.3 Estimasi Densitas Kernel untuk Kernel
Berorder Dua ................................................................ 12
2.4 Estimasi Densitas Kernel untuk Kernel
Berorder Tinggi ............................................................ 17
2.5 Estimator Nadaraya Watson ......................................... 19
BAB III ESTIMASI NADARAYA-WATSON DENGAN KERNEL ORDER
TAK HINGGA ........................................................................ 22
3.1 Kernel dengan Order Tak Hingga................................. 22
3.2 Sifat Asimtotik Estimator Nadaraya Watson
dengan Kernel Berorder Tak Hingga............................ 26
BAB IV STUDI KASUS
4.1 Informasi Data .............................................................. 44
4.2 Pengolahan Data dengan Program R ............................ 45
BAB V PENUTUP
5.1 Kesimpulan ................................................................... 55
vi
7. Agustinus Hary Setyawan yang tidak jemu-jemunya memberikan doa dan
semangat untuk penulis terutama ketika penulis merasa putus asa.
8. Saudara-saudaraku di keluarga Bintaran, Mas Adven, Mas Hayom, Mb Nova,
Mb Indu, Venti, Sella dan Anggit yang selalu memberikan dukungan doa
bagi penulis.
9. Cita Murti Pramaeswari yang memberikan dukungan dan semangat selama
proses pengerjaan tesis dan sidang.
10. Teman-teman seperjuangan, Pak Aris, Kak Sri, Kak Bobby, Mba Endang,
Kak Sadri, Sita, Arum, Kak Yani, Tika, Dian Ayu, Andre dan Dian Pratama
yang selalu memberikan keceriaan selama berjuang di UGM.
11. Rekan-rekan mahasiswa S2 matematika khususnya minat statistik angkatan
2011 yang menjadi tempat diskusi dan belajar bersama.
12. Semua pihak yang telah membantu baik secara langsung maupun tidak
langsung yang tidak dapat penulis sebutkan satu persatu dalam tesis ini.
Dengan segala keterbatasan penulis yang sifatnya manusia maka penulis
sangat menyadari bahwa tesis ini masih jauh dari kesempurnaan, karena
kesempurnaan hanyalah milik Sang Maha Sempurna. Oleh karena itu saran dan
kritik yang sifatnya membangun sangat penulis harapkan. Akhir kata semoga tesis
ini bisa membawa manfaat khususnya kepada penulis sendiri dan kepada pembaca
pada umumnya.
Yogyakarta, Maret 2014
Penulis