bab v penutup 5.1 kesimpulan -...

55

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan pembahasan pada bab-bab sebelumnnya baik secara

matematis maupun dalam studi kasus, diperoleh kesimpulan sebagai berikut:

1. Dari hasil studi kasus pada 74 sungai di Indonesia yang daerah pengalirannya

lebih dari 1000 km2 tahun 2010 di bab IV diperoleh:

a. Kernel dengan infinite order akan memberikan hasil yang optimal jika

kelipatan titik estimasi x dipilih sekecil mungkin atau titik-titik yang

diestimasi hampir di seluruh bilangan real pada interval data yang

digunakan. Hal tersebut dapat dilihat ketika kelipatan nilai estimasi x yang

digunakan 0,1, 0,2 dan 0,3 maka nilai MSE terkecil sebagian besar

dihasilkan pada estimasi yang menggunakan kernel dengan order tak

hingga yaitu kernel sinus. Namun ketika kelipatan nilai estimasi x yang

digunakan 0.5, 0,6 dan 0.7 maka nilai MSE terkecil sebagian besar

dihasilkan pada estimasi yang menggunakan kernel dengan order

berhingga yaitu kernel normal.

b. Perubahan nilai bandwidth pada setiap kelipatan nilai estimasi x

mempengaruhi nilai MSE yang dihasilkan. Nilai bandwidth yang kecil

yaitu 0.13 memberikan nilai MSE yang cukup besar dibandingkan

0.3445996 dan 0.5. Begitu juga berlaku pada nilai bandwidth yang besar

yaitu 1. Hal ini disebabkan oleh sifat dari parameter bandwidth yaitu

semakin kecil nilai bandwidth maka grafik yang dihasilkan akan semakin

kasar dan menjauhi fungsi yang sebenarnya. Begitu juga ketika bandwidth

yang dipilih besar maka grafik yang dihasilkan akan semakin halus. Sifat

inilah yang mempengaruhi nilai MSE yang dihasilkan.

54

Tinggi rendahnya grafik memperlihatkan besar dan kecilnya nilai MSE. Dari

grafik MSE di atas memperlihatkan bahwa nilai MSE yang dihasilkan pada

bandwidth lebih dari 0,3445996 tidak begitu jauh berbeda antara kernel order

berhingga maupun yang tak hingga. Namun pada bandwidth kurang dari 0,3445996

memperlihatkan bahwa terjadi perbedaan nilai MSE yang cukup signifikan dari

ketiga kernel terlebih pada kelipatan titik x = 0,5 dan x = 0,7. Pada kelipatan titik x

= 0,5 kernel normal menghasilkan nilai MSE yang paling besar. Sedangkan pada

kelipatan titik x = 0,7 kernel cosinus menghasilkan nilai MSE yang paling besar

dibandingkan kernel normal untuk bandwidth kurang dari 0,3445996. Grafik dari

masing-masing kelipatan titik dapat dengan lengkap dilihat pada lampiran 4.

Berdasarkan studi kasus dengan pengambilan nilai kelipatan pada titik x antara

0,1 – 0,7, kernel sinus akan lebih unggul ketika titik-titik yang diestimasi hampir

berada di seluruh bilangan real di selang data pengamatan. Sedangkan kernel

normal akan lebih unggul ketika titik-titik yang diestimasi hanya pada beberapa

bilangan real di selang data pengamatan. Namun secara keseluruhan nilai MSE

yang terkecil paling banyak dihasilkan oleh kernel dengan order tak hingga yaitu

kernel sinus.

Nilai MSE yang kecil dalam hal ini menunjukkan bahwa hasil estimasi yang

dihasilkan oleh estimator dekat dengan nilai fungsi aslinya. Sehingga estimator

Nadaraya Watson dengan kernel berorder tak hingga khususnya sinus dapat

memberikan hasil estimasi yang tidak jauh berbeda dengan keadaan yang

sebenarnya. Dalam hal ini untuk mengestimasi volume sungai di Indonesia

pengamat tidak harus melakukan observasi terlebih dahulu. Sehingga pemerintah

dapat lebih hemat dalam hal biaya, tenaga dan juga waktu dalam mengestimasi

volume sungai di Indonesia.

53

Berikut grafik MSE dari masing-masing kelipatan nilai x:

Bandwidth Bandwidth

a. Grafik MSE dengan kelipatan titik x = 0.1 b. Grafik MSE dengan kelipatan titik x = 0.3

Bandwidth Bandwidth

c. Grafik MSE dengan kelipatan titik x = 0.5 d. Grafik MSE dengan kelipatan titik x = 0.7

Gambar 4.5 Grafik MSE

52

2. pada kelipatan x sebesar 0,3, nilai MSE yang terkecil masih didominasi oleh

kernel infinite order yaitu sinus dengan bandwidth 0,13, 0,5 dan 1. Sedangkan

pada bandwidth 0,3445996 nilai MSE yang terkecil dihasilkan oleh kernel

normal.

3. pada kelipatan x sebesar 0,4, nilai MSE yang terkecil dihasilkan oleh kernel

infinite order yaitu sinus dengan bandwidth 0,13 dan 1. Sedangkan pada

bandwidth 0,3445996 dan 0,5 nilai MSE yang terkecil dihasilkan oleh kernel

normal.

4. pada kelipatan x sebesar 0,5, nilai MSE yang terkecil dihasilkan oleh kernel

infinite order yaitu sinus dengan bandwidth 0,13. Sedangkan pada bandwidth

0,3445996, 0,5 dan 1 nilai MSE yang terkecil dihasilkan oleh kernel normal.

5. pada kelipatan x sebesar 0,6 dan 0,7 di setiap nilai bandwidth yang dipilih

terlihat bahwa nilai MSE yang terkecil dihasilkan oleh estimator dengan

menggunakan kernel normal.

Ketika kelipatan x dipilih yang kecil, dalam kasus ini kelipatan x kurang dari

0,4, maka estimator dengan menggunakan kernel infinite order yaitu sinus akan

menghasilkan nilai MSE yang kecil yang berarti bahwa kernel sinus akan memiliki

performance lebih baik, berapapun bandwidth yang dipilih, dibandingkan kernel

yang lainnya. Sedangkan nilai MSE terkecil akan dihasilkan oleh estimator dengan

menggunakan kernel normal ketika kelipatan x yang dipilih cukup besar dalam

kasus ini untuk kelipatan x lebih dari 0,4.

Dari tabel di atas, nilai MSE yang terkecil dihasilkan oleh estimator yang

menggunakan kernel sinus dengan ketentuan sebagai berikut 12 MSE kecil

dihasilkan oleh estimator dengan menggunakan kernel normal, 15 dihasilkan oleh

estimator dengan kernel sinus dan 1 dihasilkan oleh estimator dengan kernel

cosinus. Sehingga dari hasil tabel di atas terlihat bahwa MSE terkecil paling banyak

dihasilkan oleh estimator yang menggunakan kernel sinus. Berikut akan

ditampilkan grafik dari MSE dari masing-masing kelipatan titik x.

51

0,3445996 0,2010336 0,2487284 0,2356519

0,5 0,2072396 0,2208997 0,2178995

1 0,3600139 0,3539623 0,3551501

0,5 0,13 1,352872 0,4963074 1,0337

0,3445996 0,1751454 0,2487284 0,2255095

0,5 0,1836912 0,2208997 0,2121826

1 0,3500706 0,3539623 0,3531269

0,6 0,13 1,356637 0,4963074 1,965438

0,3445996 0,1579634 0,2487284 0,2134736

0,5 0,1584852 0,2208997 0,2052315

1 0,3380866 0,3539623 0,3506531

0,7 0,13 1,356785 0,4963074 5,011454

0,3445996 0,1536994 0,2487284 0,1998664

0,5 0,1340825 0,2208997 0,1970795

1 0,3241813 0,3539623 0,3477281

Tabel 4.1: Nilai-nilai MSE

Nilai-nilai MSE yang dihasilkan seperti yang terlihat pada tabel di atas berbeda

antara yang satu dengan yang lain, yaitu:

1. pada kelipatan x sebesar 0,1 dan 0,2 setiap nilai bandwidth yang dipilih terlihat

bahwa nilai MSE yang terkecil dihasilkan oleh estimator dengan menggunakan

kernel berorder infinite khususnya kernel sinus.

50

besar akan menghasilkan grafik yang semakin mulus. Dari keempat gambar di atas

terlihat bahwa pada masing-masing kelipatan titik x grafik yang dihasilkan saling

berhimpit, sehingga belum dapat diambil kesimpulan kernel manakah yang

memberikan performance terbaik. Maka kebaikan estimasi akan dilihat melalui

nilai MSE ketiga kernel dari masing-masing kelipatan nilai x dan bandwidth.

Berikut nilai-nilai MSE yang dihasilkan setelah melakukan pegolahan data dengan

menggunakan program R:

Kelipatan

Titik Estimasi Bandwidth

Nilai MSE

Normal Sinus Cosinus

0,1 0,13 0,4982647 0,4963074 0,4957802

0,3445996 0,269451 0,2487284 0,2530287

0,5 0,2515239 0,2208997 0,2274729

1 0,3768402 0,3539623 0,3585203

0,2 0,13 0,6237044 0,4963074 0,5001564

0,3445996 0,2533656 0,2487284 0,2495126

0,5 0,2422269 0,2208997 0,2255545

1 0,3734509 0,3539623 0,3578464

0,3 0,13 1,030359 0,4963074 0,536074

0,3445996 0,2291352 0,2487284 0,2436954

0,5 0,227195 0,2208997 0,2223609

1 0,3678283 0,3539623 0,3567232

0,4 0,13 1,303002 0,4963074 0,6681886

49

a. Grafik dengan bandwidth 0.13 b. Grafik dengan bandwidth 0,3445996

d. Grafik dengan bandwidth 0.5 d. Grafik dengan bandwidth 1

Gambar 4.4 Grafik estimasi dengan kelipatan nilai x sebesar 0,7

Grafik dari setiap kelipatan titik x dengan bandwidth yang berbeda-beda

menunjukkan bahwa semakin kecil bandwidth yang dipilih maka grafik yang

dihasilkan akan semakin kasar. Sedangkan sebaliknya pemilihan bandwidth yang

48


c. Grafik dengan bandwidth 0.5 d. Grafik dengan bandwidth 1

Gambar 4.3: Grafik estimasi dengan kelipatan nilai x sebesar 0,5

47




46

Berikut grafik hasil proses estimasi menggunakan data aliran sungai dengan nilai

kelipatan titik-titik x 0,1; 0,3; 0,5 dan 0,7, grafik hasil estimasi dapat dilihat lebih

lngkap pada lampiran 3:




45

4.2 Pengolahan Data dengan Program R

Proses yang dilakukan dalam melakukan pengolahan data dengan R untuk

melakukan estimasi adalah sebagai berikut:

1. Masukkan data berpasangan (xi,yi)

2. Masukkan kernel yang digunakan sebagai pembanding. Kernel yang digunakan

adalah sebagai berikut:

Kernel yang normal: 21 1exp ,

22K x x x

Kernel yang sinus: sin x

K xx

Kernel yang cosinus:

2

2 cos cos2

x xK x

x

3. Masukkan nilai kelipatan untuk titik x yang akan diestimasi

4. Masukkan nilai bandwidth.

5. Plot pasangan data (xi,yi)

6. Plot hasil estimasi dengan kernel order berhingga (normal)

7. Plot estimasi dengan kernel order tak hingga (sinus dan cosinus)

8. Mendapatkan nilai MSE dari ketiga kernel

9. Membandingkan antara ketiga nilai MSE dari ketiga kernel

Dalam proses estimasi melalui studi kasus, nilai bandwidth yang digunakan

adalah 0,13, 0,3445996, 0,5, 1. Bandwidth dipilih dari yang kecil sampai yang besar

yang dapat digunakan sebagai pembanding nilai-nilai MSE dari ketiga kernel yang

digunakan dan juga yang dapat memperlihatkan pengaruh peranan bandwidth

terhadap hasil estimasi. Bandwidth 0,3445996 merupakan bandwidth optimum dari

proses smoothing menggunakan ksmooth. Pada studi kasus ini, kelipatan titik

estimasi yang dipilih adalah 0,1, 0,2, 0,3, 0,4, 0,5, 0,6 dan 0,7. Kelipatan titik-titik

tersebut dipilih agar dapat digunakan sebagai pembanding dalam melihat nilai MSE

yang dihasilkan. Sehingga dari perbandingan tersebut dapat ditentukan kernel

manakah yang mempunyai performance yang lebih baik.

44

BAB IV

STUDI KASUS

Pada bab ini akan dibahas studi kasus dari hasil pengamatan rata-rata volume

air sungai di Indonesia yang pengalirannya lebih dari 1000 km2. Melalui regresi

nonparametrik dengan menggunakan estimator Nadaraya Watson data tersebut akan

dibandingkan nilai MSE antara kernel yang berorder tak hingga dan berhingga.

Fungsi kernel yang digunakan untuk yang berorder tak hingga adalah

sin x

K xx

dan

2

2 cos cos2

x xK x

x

, sedangkan untuk fungsi kernel

berorder hingga yang digunakan adalah kernel Normal. Data yang dapat dilihat

pada lampiran 1 tersebut akan diolah dengan menggunakan program R

4.1 Informasi Data

Data yang digunakan pada studi kasus ini diambil dari Statistik Indonesia,

Statistical Yearbook of Indonesia 2013 yang dapat dilihat pada situs resmi Badan

Pusat Statistik (BPS). Data yang digunakan dalam penelitian ini berjumlah 74

sungai di Indonesia yang daerah pengalirannya lebih dari 1000 km2 tahun 2010.

Dalam proses estimasi dengan pendekatan nonparametrik salah satu syarat

yang harus dipenuhi adalah data harus kontinu. Dalam studi kasus ini, penulis

menggunakan data sungai di Indonesia yang daerah pengalirannya lebih dari 1000

km2 tahun 2010 dimana variabel independen yaitu tinggi aliran air (juta m) dan

volume air (juta dam3) sebagai variabel dependen

Data aliran sungai dalam penelitian ini digunakan untuk membandingkan

performance antara estimator dengan fungsi kernel yang berorder berhingga dan tak

hingga.

43

1

0ˆ

Pqa x

nh o hf x

. (3.4)

3. Membuktikan estimator r x berdistribusi normal secara asimtotik

Berdasarkan persamaan 3.2

1 2ˆ ˆ

ˆˆ ˆ

a x a xr x r x

f x f x .

1 2ˆ ˆ

ˆˆ ˆ

q qa x nha x

nh r x r x o h nh o hf x f x

.

Maka berdasarkan lemma 3.2.3 dan persamaan 3.3 dan 3.4:

2 20,

ˆ dq

N K s ds x f x

nh r x r x o hf x

2 2

0,d

K s ds x

Nf x

.

∎

Terbukti bahwa estimator r x berdistribusi normal secara asimtotik.

42

qf x o h .

b. Nilai variansi dari 1a x

1

1

1ˆvar var

ni

i

i

x Xa x K r X r x

nh h

2

22

2

1 x u x uE K r u r x E K r u r x

nh h h

222

2

1 qx uE K r u r x f x o h

nh h

222

2

1 qx uK r u r x f u du f x o h

nh h

2221 1

.qK s r x sh r x f x sh ds f x o hnh h

Akan dibuktikan bahwa 1 0Pqa x f x o h .

Berdasarkan teorema 2.2.2, didapatkan:

22

1

2

2

1ˆ

1

.

q

q

P a x f x o h K s r x sh r x f x sh dsnh

f x o hh

Ketika nmaka 1var 0a x . Berdasarkan definisi 2.2.6 maka

1 0Pqa x f x o h sehingga 1 0Pqnh a x f x o h .

Telah dibuktikan bahwa ˆ Pf x f x , sehingga

41

2 21

K s x sh f x sh dsnh

.

Ketika n diperoleh 2

1

10

n

i

i

E b xn

.

Sehingga 2 2

1

10,

nd

i

i

b x N K s ds x f xn

atau

2 2

2ˆ 0,dnh a x N K s ds x f x

. (3.3)

2. Membuktikan 1 0Pqa x f x o h .

a. Nilai ekspektasi dari 1a x adalah

1

1

1ˆ

ni

i

i

x XE a x E K r X r x

nh h

1 x u

E K r u r xh h

1 x u

K r u r x f u duh h

K s r x sh r x f x sh ds

.

Menggunakan definisi 2.2.7, didapatkan:

1 '!

'!

qq

q

pp

p

r shE a x K s r x sh o h

q

f shf x f x sh o h ds

p

k qo h f x o h

40

Andaikan

ii

i

x XK

hb x

h

, maka 2

1

1ˆ

n

i

i

nh a x b xn

.

Didapatkan:

0iE b x

var var

ii

i

x XK

hb x

h

2 2 ii

x XK

hE

h

2 2x sh f x sh K s ds .

Berdasar definisi 2.2.7 dan asumsi 3.2.1 didapatkan

22var ib x K s ds x f x .

Akan dibuktikan bahwa ib x memenuhi definisi 2.2.9.

22

1 1

1 1n ni

i i

i i

x XE b x E K

hn nh

22

1

1 ni

i

i

x XE K

hnh

2

11 x uE K h

hnh

39

Maka berdasarkan Lemma 2.2.1:

ˆˆ

ˆp

g x g xr x r x

f xf x .

Sehingga terbukti r x merupakan estimator yang konsisten secara asimtotik

pada kurva regresi r x ketika 0 danh nh .

Teorema 3.2.1 Jika x berada dalam interval terbuka dimana f x mempunyai

turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q maka

berdasarkan asumsi 3.2.1 – 3.2.6,

2

2ˆ 0,dqx

nh r x r x o h N K z dzf x

.

Bukti:

i i iY r X

i i iY r X r x r x

1 1 1

1

1 1 1

1.

n n n

h i i h i h i i

i i i

n

h i i

i

K x X Y K x X r x K x X r X r xn n n

K x Xn

Sehingga,

1 2ˆ ˆ

ˆˆ ˆ

a x a xr x r x

f x f x . (3.2)

dengan 1

1

1ˆ

n

h i i

i

a x K x X r X r xn

dan 2

1

1ˆ

n

h i i

i

a x K x Xn

.

Langkah berikutnya akan dianalisis distribusi asimtotis dari komponen 2a x dan

kekonvergenan dari komponen

1ˆ

ˆ

a x

f x.

1. Membuktikan bahwa komponen 2a x berdistribusi normal secara asimtotis

38

Berdasarkan lemma 3.2.1 dan lemma 3.2.2, telah didapatkan:

ˆ pE f x f x o h dan

21 1 1ˆvar f x K s f x ds o Onh nh n

.

Sehingga,

2

2

1 1 1

ˆ p

K s f x ds o Onh nh n

P f x f x o h

,

ketika n berakibat ˆvar 0f x . Berdasarkan definisi 2.2.6 maka

ˆ pf x f x .

∎

b. Berdasarkan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2 akan dibuktikan

bahwa g x konvergen dalam probabilitas ke g x .

Pembuktian kekonsistenan dari g x hampir serupa dengan dengan f x

yaitu dengan menggunakan definisi dari kekonvergenan dalam peluang dan

juga ketaksamaan Chebychev. Akan dibuktikan ˆlim 0n

P g x g x

,

untuk semua 0 .

Berdasarkan teorema 2.2.2, lemma 1 dan lemma 2 maka:

2

ˆvarˆ ˆ

g xP g x E g x

=

2 2

2

2

1 1

ˆ ( ,k

r x x f xK z dz o O

nh nh nP g x g x o h

ketika n berakibat ˆvar 0g x . Berdasarkan 2.2.6 maka

ˆ pg x g x .

∎

37

b. Berdasarkan definisi 2.2.4 dan lemma 3.2.1 dan lemma 3.2.2 maka:

2 2

22 1 1

ˆ .kr x x f x

MSE g x K s ds o O o hnh nh n

Ketika n maka nilai ˆMSE g x secara asimtotik adalah

1

ˆMSE g x On

.

∎

Sifat-sifat dari f x dan g x telah dipahami secara terpisah, analisis berikutnya

akan mengkaji kekonsistenan dari estimator r x . Sebelum mencari

kekonsistenan dari etimator tersebut, akan dibuktikan terlebih dahulu

kekonsistenan dari estimator f x dan g x .

Lemma 3.2.3 Berdasarkan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2

maka:

a. ˆ pf x f x

b. ˆ pg x g x .

Bukti:

a. Akan dibuktikan bahwa f x konvergen dalam probabilitas ke f x

dengan menggunakan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2.

Berdasarkan definisi dari konvergen dalam probabilitas, akan dibuktikan:

ˆlim 0n

P f x f x

, untuk semua 0 .

Dengan menggunakan teorema 2.2.2, maka:

2

ˆvarˆ ˆ

f xP f x E f x

.

36

pada semua bilangan real ℝ, dengan menggunakan ekspansi deret Taylor pada

perkalian rf u disekitar x, berdasarkan asumsi 3.2.1 dan definisi 2.2.5 maka:

2

hE K x u y

2 1f x r xK s ds o

nh nh

.

Sehingga covariansi dari ˆ ˆ dan f x g x adalah:

21 1ˆ ˆcov , h h hf x g x E K x u y E K x u E K x u y

n n

2 1 1f x r x

K s ds o Onh nh n

.

∎

Akibat 3.2.1 Berdasarkan asumsi 3.2.1 serta lemma 3.2.1 dan lemma 3.2.2 maka

nilai MSE dari masing-masing f x dan g x :

a. 1ˆMSE f x On

b. 1

ˆMSE g x On

.

Bukti:

a. Berdasarkan definisi 2.2.4 dan lemma 3.2.1 dan lemma 3.2.2 maka:

2

21 1 1ˆ pMSE f x K s f x ds o O o hnh nh n

.

Ketika n maka nilai ˆMSE f x secara asimtotik adalah

1ˆMSE f x On

.

∎

35

1 1

1 1ˆ ˆcov , cov ,n n

h i h j j

i j

f x g x K x X K x X Yn n

2

1cov ,h i h j j

i j

K x X K x X Yn

1

cov ,h hK x u K x u yn

1

.h h h hE K x u K x u y E K x u E K x u yn

21

h h hE K x u y E K x u E K x u yn

21 1

h h hE K x u y E K x u E K x u yn n

.

Perhatikan untuk 2

hE K x u y :

2 21

,h hE K x u y K x u y f u y du dyn

21hK x u y f y u f u du dy

n

21hK x u f u y f y u dy du

n

21hK x u f u E y X u du

n

21hK x u f u r u du

n

21K s f x sh r x sh ds

nh

.

Andaikan rf mempunyai turunan kontinu terbatas k pada selang tertutup

, dan rf mempunyai turunan k+1 pada interval terbuka , yang

memuat nilai x dengan k = min{p,q} dan andaikan rf merupakan fungsi mulus

34

22 21

h hE K x u y E K x u yn

.

Perhatikan untuk 2 2

hE K x u y :

2 2 2 2 ,h hE K x u y K x u y f u y du dy

2 2

hK x u y f y u f u du dy

2 2

hK x u f u y f y u dy du

2 2

hK x u f u E y X u du

22

h iK x u f u E r u X u du

2 2 2

hK x u f u r u u du

.

Sehingga:

2

2 2 21ˆvar k

hg x K x u f u r u u du g x o hn

2

2 2 21 1.kK s f x sh r x sh x sh ds g x o h

nh n

Berdasarkan asumsi 3.2.1, definisi 2.2.5 dan definisi 2.2.7 maka:

2 2

2 1 1ˆvar

r x x f xg x K s ds o O

nh nh n

.

∎

c.

2 1 1ˆ ˆcov ,r x f x

f x g x K s ds o Onh nh n

.

33

2 22 2 2

1 11

1' ''

2

.! 1 !

h

p p p pp p

h sE K x u K s f x ds K s sh f x f x

h

h s h sf x f x ds

p p

Sehingga:

2

1 2ˆvar h hf x n E K x u E K x u

2 21 2 2

1 1 21

1' ''

2

! 1 !

p p p pp p p

h sn K s f x ds K s sh f x f x

h

h s h sf x f x ds f x o h

p p

2 22 2

1 1 21

1 1' ''

2

1.

! 1 !

p p p pp p p

h sK s f x ds K s sh f x f x

nh nh

h s h sf x f x ds f x o h

p p n

Berdasarkan asumsi 3.2.1, definisi 2.2.5 maka variansi dari penyebut estimator

Nadaraya Watson adalah sebagai berikut:

ˆvar f x 21 1 1K s f x ds o O

nh nh n

.

∎

b. 1

1ˆvar var

n

h i i

i

g x K x X Yn

21

1var

n

h i i

i

K x X Yn

1

var hK x X Yn

32

b.

2 2

2 1 1ˆvar

r x x f xg x K z dz o O

nh nh n

c.

2 1 1ˆ ˆcov ,r x f x

f x g x K z dz o Onh nh n

.

Bukti:

a. Menurut persamaan (2.7):

1

1ˆvar varn

h i

i

f x K x Xn

21

1var

n

h i

i

K x Xn

1

var hK x Xn

2

1 2

h hn E K x u E K x u .

Perhatikan untuk 2

hE K x u :

2 2

h hE K x u K x u f u du

2

2

1 x uK f u du

h h

21K s f x sh ds

h

.

Berdasarkan definisi 2.2.7, maka:

2 22 2

1 11

1' ''

2 !

1 !

p pp

h

p pp

h s h sE K x u K s f x sh f x f x f x

h p

h sf x ds

p

31

1

1.

1 !

k

kvhg x rf x K v dv

k

Sehingga bias dari pembilang estimator Nadaraya Watson adalah sebagai berikut:

1

1ˆ

1 !

k

kvhE g x g x g x rf x K v dv g x

k

1

1

1 !

k

kvhrf x K v dv

k

.

Ketika suku sisa

1

1

1 !

k

kvhrf x

k

deret Taylor di atas merupakan order

kecil dari hk maka dengan menggunakan asumsi pembatasan dari sifat bandwidth

h, n maka 0h , suku sisa deret Taylor di atas konvergen ke nol, yaitu:

1

1

1

1

0 0

1 !lim lim 0

1 !

k

k

k

k

kh h

vhrf x K v dv

k v hrf x K v dv

h k

.

Sehingga bias dari pembilang estimator Nadaraya Watson adalah

ˆ kE g x g x o h .

∎

Asumsi 3.2.4 Titik x merupakan titik kontinu dari 2 ,x f x C untuk C > 0

dan fungsi r serta fungsi f masing-masing terdiferensial di sekitar x.

Lemma 3.2.2 Jika x berada dalam interval terbuka dimana f x mempunyai

turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q,

berdasarkan asumsi 3.2.1 –3.2.4 maka:

a.

2 1 1ˆvarf x

f x K z dz o Onh nh n

30

dengan menggunakan ekspansi deret Taylor pada perkalian rf u disekitar x

maka ekspektasi dari g x adalah sebagai berikut:

ˆhE g x r u f u K x u du

r x vh f x vh K v dv

1

1'

1 !

k

kvhrf x vh rf x rf x K v dv

k

1

1

'

,! 1 !

k k

k k

rf x K v dv vh rf x K v dv

vh vhrf x K v dv rf x K v dv

k k

dengan terletak diantara x dan x hv .

Ketika K terintegralkan ke satu, semua momennya adalah nol dan ketika

g x r x f x maka:

1

1

ˆ '

! 1 !

k k

k k

E g x rf x K v dv vh rf x K v dv

vh vhrf x K v dv rf x K v dv

k k

1

1

'

! 1 !

k k

k kk

rf x K v dv h rf x vK v dv

h vhrf x v K v dv rf x K v dv

k k

1

10 0 0

1 !

k

kvhrf x rf x K v dv

k

29

Sehingga:

1

1ˆ

n

h i i

i

E g x E K x X Yn

1

1 n

h i i

i

E K x X Yn

hE K x X Y

hE K x u y

,hK x u y f u y du dy

hK x u y f y u f u du dy

hK x u f u y f y u dy du

hK x u f u E y X u du

hK x u f u r u du

hr u f u K x u du

.

Bias untuk pembilang estimator Nadaraya-Watson adalah:

ˆhE g x g x r u f u K x u du g x

.

Andaikan rf mempunyai turunan kontinu terbatas k pada selang tertutup

, dan rf mempunyai turunan k+1 pada interval terbuka , yang

memuat nilai x dengan k = min{p,q} dimana p merupakan turunan kontinu

terbatas dari fungsi f x dan q merupakan turunan kontinu terbatas dari fungsi

r x , dan andaikan rf merupakan fungsi mulus pada semua bilangan real ℝ,

28

Berdasarkan persamaan (2.4), bias dari penyebut estimator Nadaraya-Watson

dengan kernel order tak hingga adalah:

ˆ ˆbias f x E f x f x

11

1 !

ppf x shf x K s ds f x

p

11

1 !

ppf x shK s ds

p

.

Ketika suku sisa

11

1 !

ppf x sh

p

deret Taylor di atas merupakan order kecil

dari hp maka berdasarkan asumsi pembatasan dari sifat bandwidth h, n maka

0h , suku sisa deret Taylor di atas konvergen ke nol, yaitu:

11

1 1

0 0

1 !lim lim 0

1 !

pp

p p

ph h

f x shK s ds

p f x s hK s ds

h p

.

Sehingga ˆbias pf x o h

.

∎

b. Bias pembilang estimator Nadaraya-Watson dengan kernel order tak hingga

Menurut persamaan (2.9) estimator fungsi r adalah:

ˆˆ

ˆ

g xr x

f x

1

1

1

1

n

h i i

i

n

h k

k

K x X Yn

K x Xn

.

27

Bukti:

a. Bias penyebut estimator Nadaraya-Watson dengan kernel order tak hingga.

Menurut persamaan (2.8) : ˆhE f x K s f x sh ds

.

Menurut definisi 2.2.7, kita dapatkan:

2 3

11

' '' '''

1! 2! 3!

,! 1 !

p pp p

f x sh f x sh f x shf x sh f x

f x sh f x sh

p p

dengan terletak diantara x dan x sh . Persamaan (2.8) menjadi:

ˆE f x K s f x sh ds

2 3

11

' '' '''

1! 2! 3!

! 1 !

p pp p

f x sh f x sh f x shK s f x

f x sh f x shds

p p

2

2

3

3

11

'''

2

'''

6 !

.1 !

p p

p

pp

h f xf x K s ds hf x K s s ds K s s ds

h f x h f xK s s ds K s s ds

p

f x shK s ds

p

Fungsi K adalah fungsi yang berorder tak hingga yaitu K terintegralkan ke satu,

semua momennya adalah nol sehingga:

11

ˆ 0 0 01 !

ppf x shE f x f x K s ds

p

11

1 !

ppf x shf x K s ds

p

.

26

3.2 Sifat Asimtotik Estimator Nadaraya Watson dengan Kernel Berorder

Tak Hingga

Kita akan menguji perilaku dari estimator Nadaraya-Watson kelas kernel baru

yaitu kernel dengan order tak hingga untuk n pengamatan pasangan data

yang berdistribusi identik dan independen dengan

densitas f. Untuk memahami estimator tersebut secara menyeluruh, kita akan

memulai dengan suatu lemma yang mengukur perilaku asimtotik dari pembilang

dan penyebut estimator tersebut yaitu f x dan g x dimana f x merupakan

estimator densitas kernel dari f x dan g x merupakan estimator dari g x .

Dalam prosesnya kita memerlukan beberapa asumsi. Kita akan memberikan

batasan untuk perilaku bandwidth h ketika n dan pada distribusi bersyarat

dari error.

Asumsi 3.2.1 Ketika n , bandwidth 0h dan nh .

Asumsi 3.2.2 εi adalah random error dengan asumsi independen,

0i iE X x dan 2 2

i iE X x .

Asumsi 3.2.3 berdistribusi identik dan independen

dengan densitas f.

Lemma 3.2.1 Jika x berada dalam interval terbuka dimana f x mempunyai

turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q,

maka berdasarkan asumsi 3.2.1 dan 3.2 2:

a. ˆ pE f x f x o h

b. ˆ kE g x g x o h

dengan k = min{p,q}.

25

Permasalahan di atas dapat diselesaikan dengan membuat transisi dari 0 ke

1 pada daerah asal Fourier yang kurang kasar. Devroy dan Gyorfi, Hall dan

Marron, pada kasus estimasi densitas spektral, Politis dan Romano, mempelajari

kernel dari Tranformasi Fourier yang diberikan oleh:

1 1 2

2 1 1 2 1

0 1

jika s

s s jika s

jika s

.

Kernel yang bersesuaian adalah:

2

2 cos cos2

x xK x

x

.

Gambar dari kernel di atas adalah sebagai berikut:

24

1 1

2

ix ixe ex i

sin x

x .

Berikut gambar dari fungsi flat-top kernel di atas:

Pada gambar di atas terlihat bahwa bagian belakang atau ekor dari kernel tersebut

sangat bergelombang. Ada dua permasalahan akibat dari hal ini. Pertama, ekor

dari kernel tersebut yang turun secara pelan-pelan dan gerakan-gerakan negatif

yang sangat besar meningkatkan 2K x dx

, yang juga akan meningkatkan

variansi dari estimasinya. Kedua, gelombang besar yang jauh dari 0 menghasilkan

bias sampel yang berhingga karena gelombang tersebut memberikan pengamatan

yang cukup jauh dari x yang sangat berpengaruh dalam melakukan estimasi di

titik x. Permasalahan-permasalahan tersebut membuat estimator fungsi kepadatan

yang menggunakan kernel tersebut menjadi tidak stabil dalam bersaing kecuali

untuk sampel yang berukuan sangat besar.

23

1 jika s cs

g s jika s c

,

dengan fungsi g dipilih sehingga membuat s , 2 s dan s s dapat

diintegralkan. Flat-top Kernel diberikan sebagai berikut:

1

2

isxK x s e ds

. (3.1)

Kernel yang memenuhi definisi di atas menjamin bahwa 0ix K x dx

,

untuk semua bilangan bulat i. Menurut Politis dan Romano (1995) keuntungan

menggunakan kernel ini adalah kita tidak perlu memilih fungsi kernel yang baru

ketika ada data yang baru, kernel yang sama dengan bandwidth yang berbeda akan

menyesuaikan kemulusan dari fungsi kepadatan yang tidak diketahui.

Berikut diberikan contoh yang memenuhi definisi di atas. Diberikan fungsi

s sebagai berikut:

1 1

0 1

jika ss

jika s

.

Menurut definisi 2.5.2:

1

2

isxK x s e ds

1 1

1 1

10. 1. 0.

2

isx isx isxe ds e ds e ds

1

1

11.

2

isxe ds

1

1

1 1

2

isxeix

1 1

2

ix ixe eix

22

BAB III

ESTIMASI NADARAYA-WATSON DENGAN KERNEL ORDER TAK

HINGGA

3.1 Kernel dengan Order Tak Hingga

Menurut Berg (2008) fungsi Kernel dikatakan mempunyai order v jika

memenuhi:

1. v

R

x K x dx

2. 0, 1,2,..., 1ix K x dx i v

.

Seperti yang telah dijelaskan pada bab sebelumnya yaitu jika banyak turunan

dari fungsi tersebut tidak diketahui maka untuk mengestimasi jumlah turunan dari

fungsi tersebut sangat sulit, sehingga kita kesulitan untuk memilih kernel dengan

order berapakah yang digunakan.

Untuk mengurangi permasalahan tersebut, kita fokus pada fungsi kernel yang

secara efektif mempunyai order kernel tak hingga. Kelas kernel tersebut secara

otomatis mengurangi bias ke o(hp) tidak peduli berapa kali fungsi tersebut dapat

diturunkan.

Definisi 3.1.1 (Berg, 2008). K(x) dikatakan berorder tak hingga jika memenuhi:

0, 1,2,...ix K x dx i

Definisi 3.1.2 (McMurry dan Politis, 2003). Sebuah flat-top Kernel K dengan

order tak hingga secara umum dibentuk melalui Transformasi Fourier λ, yaitu

untuk nilai tetap c > 0

21

legend("bottomright",c("fungsi r","estimasi h kecil","estimasi h

optimal","estimasi h besar"),lty=c(1,1,1,1),lwd=c(2,2,2,2),col=c(2,5,4,3))

2. Hasil output

Gambar 2.2: Grafik estimasi dengan KSmooth

20

Menurut Hardle (1991) nilai-nilai statistik pembilang dari estimator

Nadaraya-Watson dengan fungsi kernelnya mempunyai order dua adalah sebagai

berikut:

2

2

2ˆ '' , 0

2

hBias g x g x K o h h

1 122

2ˆvar ,g x nh f x s x K o nh untuk nh

4

2 11 22 4

22ˆ '' ,

4

0,

hMSE g x nh f x s K g x K o nh o h

h nh

dengan 2 2s x E Y X x .

Berdasarkan nilai statistik dari pembilang estimator Nadaraya-Watson di atas

dan nilai statistik dari estimasi densitas kernel maka dapat diperoleh nilai MSE

dari estimator Nadaraya-Watson yaitu:

22 4

11 2 2

22

4

' 'ˆ '' 2

4

, 0, .

x r x f xhMSE r x nh K r x K o nh

f x f x

o h h nh

Berikut diberikan contoh proses smoothing dengan estimator Nadaraya-

Watson dari data yang dibangkitkan menggunakan program R:

1. Proses smoothing dalam R

a=runif(1000)

e=rnorm(1000)

x=sort(a)

r=cos(2*pi*x)

y=r+e

plot(x,y)

lines(x,r,col=2,lwd=2)

lines(ksmooth(x,y,bandwidth=0.03),col=5,lwd=2)

lines(ksmooth(x,y,bandwidth=0.30),col=4,lwd=2)

lines(ksmooth(x,y,bandwidth=1),col=3,lwd=2)

19

2.5 Estimator Nadaraya Watson

Estimasi kernel untuk fungsi regresi r(x) dikonstruksi sebagai berikut:

r x E Y X x

y f y x dy

,y f x ydy

f x .

Estimator fungsi regresi untuk fungsi densitas f yang tidak diketahui adalah:

1 2,

ˆ ,ˆ

ˆh h

h

y f x yr x dy

f x

1

1

1

1

n

h i i

i

n

h k

k

K x X Yn

K x Xn

ˆ

ˆ

g x

f x . (2.9)

Estimator fungsi regresi r x di atas merupakan rata-rata lokal yang

diusulkan oleh Nadaraya-Watson sehingga disebut juga sebagai estimator

Nadaraya-Watson. Berdasarkan persamaan (2.1) maka Estimator Nadaraya-

Watson mempunyai fungsi bobot sebagai berikut:

1

ˆ1

h i h i

i n

hh k

k

K x X K x XW x

f xK x X

n

,

dengan ˆhf x merupakan estimator densitas kernel.

Menurut Takezawa (2003) fungsi bobot dalam estimator Nadaraya-Watson

mempunyai karakteristik sebagai berikut:

1

1n

i

i

W x

.

18

(i) Fungsi f bersifat kontinu dan terintegralkan secara kuadrat

(ii) Bandwidth h memenuhi asumsi lim 0n

h

dan limn

nh

(iii) Fungsi kernel K merupakan fungsi kepadatan probabilitas yang terbatas dan

simetri di sekitar daerah aslinya.

Bukti:

ˆ ˆh hBias f x E f x f x

K s f x sh ds f x

2 3

'

1!

'' '''

2! 3!

.!

tt

t

f x shK s f x ds K s ds

f x sh f x shK s ds K s ds

f x shK s ds K s o h ds f x

t

Karena K merupakan kernel berorder tinggi maka menurut definisi:

ˆ 0 0!

tt

t

h

f x shBias f x f x K s ds o h ds f x

t

!

tt

tf x sh

K s ds o h dst

, 0.

!

ttt th

f x o h ht

Terbukti bahwa ketika K merupakan kernel berorder tinggi bias dari estimasi

densitas kernel tersebut adalah , 0

!

ttt th

f x o h ht

.

Namun muncul permasalahan yaitu ketika derajat kemulusan atau jumlah

turunan dari fungsi tersebut tidak diketahui maka untuk mengestimasi jumlah

turunan dari fungsi f sangat sulit, sehingga kita kesulitan untuk memilih kernel

dengan order berapakah yang digunakan.

Untuk mengurangi permasalahan tersebut, kita fokus pada fungsi kernel yang

secara efektif mempunyai order kernel tak hingga. Kelas kernel tersebut secara

otomatis mengurangi bias ke o(hp) tidak peduli berapa kali fungsi f tersebut dapat

diturunkan. Kernel dengan order tak hingga tersebut akan dibahas lebih dalam lagi

pada bab III.

17

Bukti:

2

ˆ ˆ ˆvarh h hMSE f x f x bias f x

2

21 12 2

22''

2

hnh K f x o nh f x K o h

4

2 11 2 4

22'' ,

4

0, .

hnh f x K f x K o nh o h

h nh

.

ˆhMSE f x konvergen ke 0 bila 0,h nh , maka estimator densitas kernel

konsisten yaitu ˆ p

hf x f x .

2.4 Estimasi Densitas Kernel untuk Kernel Berorder Tinggi

Dalam menganalisis harga harapan dari estimasi densitas kernel, kernel yang

digunakan pada sub bab sebelumnya adalah kernel yang memenuhi syarat moment

pertamanya bernilai nol dan momen keduanya bernilai positif. Pada sub bab ini

difokuskan pembahasan mengenai kernel dengan order tinggi dengan bias kurang

dari O(h2).

Suatu kernel dikatakan berorder v jika memenuhi syarat sebagai berikut:

1. 0K x , untuk semua nilai x

2. 1K x dx

3. 0, 1, , 1

0,

j

j

j vx K x dx

j v

.

Teorema 2.4.1 (Hardle, 1991) Andaikan kernel K berorder tinggi, ˆhf x

merupakan estimator dari fungsi densitas f yang mempunyai turunan kontinu

terbatas p dan v adalah order kernel, maka bias dari fungsi f tersebut adalah

, 0!

ttt th

f x o h ht

dimana t = min{p,v} dengan asumsi sebagai

berikut:

16

ˆ ˆh hBias f x E f x f x

K s f x sh ds f x

2 2

2' ''2

h sK s f x sh f x f x o h ds f x

2

2

2'' , 02

hf x K o h h .

(ii) Variansi dari ˆhf x adalah

1ˆvar varh hf x K x Xn

2

1 2

h hn E K x X E K x X

21 2 2 1

x un h K f u du f x o

h

21 1 2 1n h K s f x sh ds f x o

221 1

21 1n h K f x o f x o

1 12

2,nh K f x o nh untuk nh

.

Teorema 2.3.4 (Wand dan Jones, 1995). Bila ˆhf x estimator densitas kernel

maka

4

2 11 2 4

22

ˆ '' ,4

0, .

h

hMSE f x nh f x K f x K o nh o h

h nh

.

15

1

1ˆn

ih

i

x XE f x E K

nh h

1

1 ni

i

x XE K

nh h

hE K x X

hK x y f y dy

K s f x sh ds . (2.8)

Ketika 0h maka:

ˆhE f x K s f x sh ds f x K s ds = f x .

Sebelum membahas mengenai statistik dari estimator densitas kernel akan

diberikan asumsi-asumsi sebagai berikut:

(i) Turunan kedua dari fungsi f bersifat kontinu, terintegralkan secara kuadrat

dan juga monoton

(ii) Bandwidth h memenuhi asumsi lim 0n

h

dan limn

nh

(iii) Fungsi kernel K merupakan fungsi kepadatan probabilitas yang terbatas dan

simetri di sekitar daerah aslinya.

Berdasarkan asumsi di atas maka statistik dari estimator densitas kernel adalah

sebagai berikut:

Teorema 2.3.3 (Wand dan Jones, 1995). Bila ˆhf x estimator densitas kernel

maka

(i) 2

2

2ˆ '' , 0

2h

hBias f x f x K o h h

(ii) 1 12

2

ˆvar ,hf x nh f x K o nh untuk nh

Dengan 2

2 K x K x dx dan 2

2K adalah 2K x dx .

Bukti:

(i) Bias dari ˆhf x adalah

14

Gambar 2.1: Grafik jenis-jenis kernel

Definisi 2.3.2 (Hardle, 1991). Estimator densitas kernel untuk fungsi densitas

hf x adalah

1

1ˆn

h h i

i

f x K x Xn

1

1 ni

i

x XK

nh h

. (2.7)

Andaikan ˆhf x adalah estimator densitas kernel dari suatu fungsi kepadatan

hf x pada titik x ϵ ℝ dan andaikan Xi berdistribusi identik dengan fungsi

kepadatan hf x , maka:

13

3. 0x K x dx

4. 2 0x K x dx

5. 2K x dx .

Berikut diberikan beberapa contoh fungsi kernel, antara lain:

1. Kernel Uniform: 1

12

K x I x

2. Kernel Triangle: 1 1K x x I x

3. Kernel Epanechnikov: 231 1

4K x x I x

4. Kernel Quartic: 2

2151 1

16K x x I x

5. Kernel Triweight: 3

2351 1

32K x x I x

6. Kernel Cosinus: cos 14 2

K x x I x

7. Kernel Gausian: 21 1exp ,

22K x x x

Grafik dari masing-masing fungsi kernel di atas:

12

Definisi 2.2.9. Andaikan 1 2, , , nX X X variabel random yang independen

sedemikin hingga n nE X dan 2

var n nX . Didefinisikan

n n nY X

1

n

n i

i

T Y

2 2

1

varn

n

n i

i

S T

Syarat Liapunov didefinisikan 0 sedemikian sehingga

2

21

10 untuk

n

i

in

E Y nS

2.3 Estimasi Densitas Kernel untuk Kernel Berorder Dua

Pandang observasi 1 2, , , nX X X berdistribusi identik dan independen dengan

densitas f x . Estimasi densitas kernel bergantung pada dua parameter yaitu h

sebagai bandwidth atau lebar pita dan K sebagai fungsi kernel.

Suatu kernel dikatakan berorder 2 jika 0K x , 1K x dx ,

0x K x dx dan 2x K x dx , untuk semua nilai x

Definisi 2.3.1 (Hardle, 1991). Secara umum fungsi Kernel dengan bandwidth h

didefinisikan sebagai berikut:

1

h

xK x K

h h

, - ∞ < x < ∞ dan h > 0, (2.6)

yang memenuhi sifat-sifat:

1. 0K x , untuk semua nilai x

2. 1K x dx

11

Teorema 2.2.3(Subanar,2013). Misalkan ,n nX Y ,n = 1,2,3,... barisan pasangan

variabel random dan c konstanta, maka

a. ,d P d

n n n nX X Y c X Y X c

b. , 0

,0, 0

d

n nd P

n n P

n n

X Y Xc bila cX X Y c

X Y bila c

c. , , 0d P dnn n

n

X XX X Y c bilacY c

.

Definisi 2.2.7 (Purcell dan Varberg, 1987). Andaikan suatu fungsi f x dan

turunannya, yaitu , ' , '' , , nf x f x f x f x kontinu dalam selang [a,b] dan

,ox a b maka untuk nilai x disekitar ,ox f x dapat diekspansi (diperluas) ke

dalam deret Taylor sebagai,

2

' '' ...1! 2!

o o

o o o

x x x xf x f x f x f x

.

Apabila atau persamaan di atas dapat dinyatakan sebagai

2

' '' ... ...1! 2! !

nn

o o o o o

h h hf x h f x f x f x f x

n .

Definisi 2.2.8 (Paul dan David, 1986). Andaikan f x fungsi yang tidak

periodik yang berada pada 2 ,L , sehingga transformasi Fourier

didefinisikan sebagai berikut

1

2

i xF f x e dx

,

dengan 2 ,L adalah himpunan fungsi kontinu, 2

lim 0 NN

f x f x dx

dan N

i x

N

N

f x F e d

.

10

Definisi 2.2.6 (Roussas, 1973). Barisan variabel random {Xn} dikatakan

konvergen ke X (dalam probabilitas), dinotasikan P

nX X , jika untuk setiap

0, 0nP X X untuk n .

Lemma 2.2.1 (Roussas, 1973) Jika danP P

n nX X Y Y maka

Pn

n

X X

Y Y , dimana 0 0 1nP Y P Y .

Bukti:

Untuk menunjukkan Pn

n

X X

Y Y akan ditunjukkan bahwa

1 1P

nY Y , jika

0 0 0nP Y P Y untuk setiap n.

Akan ditunjukkan bahwa jika fungsi f y kontinu di Y yang bernilai riil dan

P

nY Y maka P

nf Y f Y . Diketahui f fungsi kontinu bernilai riil

sehingga nf Y dan f Y variabel random dan diketahui juga bahwa f y

kontinu di Y yang berarti bahwa untuk setiap 0 , terdapat 0 sedemikian

hingga nY Y berakibat nf Y f Y . Karena nf Y dan f Y variabel

random berakibat:

n nP f Y f Y P Y Y .

Diketahui P

nY Y , maka untuk setiap 0 ,

lim lim 1n nn n

P f Y f Y P Y Y

,

sehingga terbukti bahwa P

nf Y f Y . Karena 0 0 1nP Y P Y

untuk setiap n maka 1

nYfungsi kontinu dari nY , sehingga

1 1P

nY Y .

Menurut Bain (1992) maka Pn

n

X X

Y Y .

9

Teorema 2.2.1 (Subanar, 2013). Bila X variabel random tak negatif dan

andaikan a>0 maka E X

P X aa

.

Bukti:

Karena 0X maka 0

E X x f x dx

.

0

E X x f x dx

0

a

a

x f x dx x f x dx

a

x f x dx

a

a f x dx

a

a f x dx

a P X a ,

sehingga E X a P X a atau E X

P X aa

.

Teorema 2.2.2 (Subanar, 2013). Bila X variabel random dengan E(X) = μ,

var(X) = σ2 maka untuk setiap

2

20, P X

.

Bukti:

Misalkan 2, 0w X w , didapatkan

2 2E w E X .

Menurut teorema 2.2.1,

222 22 2

E wP w P X

2

2P X

.

8

2.2 Definisi dan Teorema yang Terkait

Berikut diberikan definisi-definisi dan teorema-teorema yang terkait dalam tesis,

yaitu:

Definisi 2.2.1 (Bain, 1992). Momen ke-n dari variabel random x adalah

n n

k E x x f x dx . (2.2)

Definisi 2.2.2 (Bain, 1992). Variansi dari suatu variabel random kontinu x

adalah

2

var x E x

. (2.3)

Definisi 2.2.3 (Wand dan Jones, 1995). Bias dari estimator fungsi kepadatan f(x)

adalah

ˆ ˆbias f x E f x f x

. (2.4)

Definisi 2.2.4 (Wand dan Jones, 1995). Andaikan x suatu variabel random

kontinu nilai MSE dari estimator fungsi kepadatan f(x) adalah

MSE f x

= Var f x

+ Bias2 f x

. (2.5)

Definisi 2.2.5 (Wand dan Jones, 1995). Andaikan na dan nb adalah barisan

suatu fungsi,

a. n na O b jika lim , 0n

nn

aM M

b

b. lim 0nn n

nn

aa o b jika

b

c. ~ lim 1nn n

nn

aa b jika

b

.

7

BAB II

LANDASAN TEORI

2.1 Ide Dasar Smoothing

Salah satu pendekatan dalam regresi yang sering digunakan adalah regresi

nonparametrik. Pendekatan ini digunakan untuk data yang tidak diketahui bentuk

kurva atau fungsi regresinya. Andaikan fungsi tersebut adalah fungsi r. Dalam hal

ini diasumsikan bahwa fungsi r termuat dalam kelas fungsi kontinu mulus di dekat

persekitaran x.

Terdapat berbagai macam teknik yang dapat digunakan untuk mendapatkan

estimasi dari fungsi r(x) tersebut. Teknik yang paling sederhana untuk

mengestimasi kurva atau fungsi regresi r(x) adalah melalui rata-rata dari variabel

response Y yang dekat dengan titik x biasa disebut local average (rata-rata lokal).

Rata-rata lokal hanya didefinisikan pada pengamatan yang dekat dengan x.

Misalkan kita ingin mengestimasi fungsi r(x) untuk beberapa x∈[0,1]. Jika r

adalah fungsi yang kontinu, maka nilai-nilai fungsi pada Xi yang dekat dengan x

seharusnya akan cukup dekat dengan r(x). Hal ini memberikan usulan bahwa

merata-rata nilai Yi yang bersesuaian dengan Xi yang dekat dengan x akan

menghasilkan estimator tak bias untuk fungsi r(x).

Rata-rata lokal merupakan ide dasar dari teknik smoothing. Pada teknik

smoothing ini, rerata sederhana di atas digantikan dengan jumlahan berbobot.

Biasanya bobot yang lebih besar diberikan pada Yi yang nilai Xi nya mendekati

titik estimasi x. Secara umum prosedur tersebut dapat didefinisikan sebagai

berikut:

1

1ˆ

n

ni i

i

r x W x Yn

, (2.1)

dengan 1

n

nii

W x

adalah barisan dari bobot yang bergantung pada seluruh

variabel prediktor 1

n

i iX

.

6

1.6 Sistematika Penulisan

BAB I PENDAHULUAN : Pada bab ini membahas tentang latar belakang

dan permasalahan, tujuan dan manfaat penelitian, tinjauan pustaka, metodologi

penelitian, dan sistematika penulisan.

BAB II LANDASAN TEORI : Pada bab ini membahas tentang ide dasar

smoothing, definisi dan teorema statistika yang terkait, estimasi densitas kernel

untuk kernel berorder dua, estimasi densitas kernel untuk kernel berorder tinggi,

estimator Nadaraya-Watson.

BAB III PEMBAHASAN : Pada bab ini akan dijelaskan contoh fungsi kernel

berorder tak hingga, dan juga akan dipaparkan mengenai performance dari

pembilang dan penyebut estimator Nadaraya-Watson dengan kelas kernel baru

tersebut serta kekonsistenan dan distribusinya secara asimtotis.

BAB IV STUDI KASUS : Pada bab ini akan dilakukan studi kasus dari data

rata-rata volume air sungai di Indonesia yang pengalirannya lebih dari 1000 km2

dengan program R kemudian dibandingkan performance antara estimator

Nadaraya-Watson kernel order tak hingga dengan kernel order berhingga dari

grafik maupun nilai MSEnya.

BAB V KESIMPULAN DAN SARAN : Bab ini berisi pembahasan mengenai

kesimpulan yang diperoleh dari bab-bab sebelumnya dan saran untuk penelitian

selanjutnya berdasarkan apa yang telah dibahas pada bab-bab sebelumnya.

5

Order Flat-Top Kernels juga menguji sifat-sifat asimtotik kernel, namun

menggunakan kelas kernel yang baru yaitu kernel dengan order yang tak hingga

(infinite) menggunakan estimator Gasser-Muller. Penelitian yang hampir serupa

juga pernah diteliti oleh Timothy L McMurry dan Dimitris N Politis (2008)

dalam jurnalnya yang berjudul Minimally Biased Nonparametric Regression and

Autoregressseion. Dalam jurnalnya tersebut Timothy dan Dimitris membahas

mengenai bias regresi dan autoregresi nonparametrik secara minimal dengan

menggunakan kelas kernel yang baru yaitu kernel dengan order tak hingga,

namum dalam tesis ini penulis hanya akan membahas mengenai regresi

nonparametrik dengan menggunakan kelas kernel yang baru yaitu kernel dengan

infinite order, dimana kernel tersebut dapat secara otomatis dapat mereduksi bias

estimator r menjadi O(hk) tanpa peduli berapa kali turunan kontinunya.

1.5 Metode Penelitian

Metodologi yang digunakan dalam penelitian ini adalah studi literatur.

Langkah-langkah yang dilakukan penulis adalah sebagai berikut:

1. Mencari dan menentukan jurnal yang akan dijadikan bahan acuan.

2. Mengumpulkan jurnal-jurnal lain yang relevan dengan materi dalam jurnal

acuan.

3. Mempelajari buku-buku pendukung yang berkaitan dengan topik

permasalahan penelitian.

4. Mempelajari dan membahas topik penelitian yang meliputi: teori regresi

nonparametrik, ide dasar smoothing, estimator kernel, estimasi fungsi dalam

regresi nonparametrik, sifat-sifat fungsi kernel, estimasi densitas kernel,

fungsi estimator Nadaraya Watson, kernel dengan infinite order.

5. Mempelajari performance (bias dan variansi) dari pembilang dan penyebut

estimator Nadaraya-Watson dengan infinite order kernel serta melakukan

simulasi dengan software R.

6. Menyusun laporan penelitian sesuai dengan buku petunjuk penulisan tesis

yang diberlakukan.

4

3. Melakukan studi kasus dari data rata-rata volume air sungai di Indonesia yang

pengalirannya lebih dari 1000 km2 melalui teknik pemulus kernel

menggunakan estimator Nadaraya-Watson kernel berorder berhingga dan tak

hingga dengan menggunakan program R.

4. Membandingkan performance antara estimator Nadaraya-Watson kernel

berorder berhingga dengan tak hingga dilihat dari grafik dan nilai MSE.

1.3 Manfaat Penelitian

Manfaat yang diharapkan diperoleh dari penulisan tesis ini adalah:

1. Bagi penulis diharapkan dapat menambah pemahaman mengenai sifat-sifat

asimtotis dari estimator Nadaraya-Watson dengan kelas baru kernelnya.

2. Dapat memberikan sumbangan terhadap perkembangan ilmu pengetahuan

dan menambah wawasan pengetahuan dalam bidang statistika terutama dalam

mencari estimasi fungsi densitas dari regresi nonprametrik dengan teknik

smoothing, dan dalam memahami sifat-sifat estimator Nadaraya-Watson

dengan kelas kernel baru secara asimtotis.

3. Bagi pembaca sebagai motivasi untuk mengembangkan penemuan baru

dalam mengestimasi fungsi dalam regresi nonparametrik dengan teknik

smoothing.

1.4 Tinjauan Pustaka

Dalam jurnalnya Kernel Estimators of Regression Function, Bierens (1985)

meneliti mengenai bagaimana cara menetapkan fungsi kernel dan juga cara

pemilihan bandwidth. Selain itu, dalam jurnalnya tersebut Bierens juga membahas

mengenai sifat-sifat asimtotik dari estimator Nadaraya-Watson dengan kernel

yang mempunyai finite order. Sedangkan Jianqing Fan (2007) dalam jurnalnya

yang berjudul Design Adaptive Nonparametric Regression membahas mengenai

performance diantara dua metode smoothing yaitu lokal linear dan juga kernel.

Estimator kernel yang digunakan oleh Jianqing Fan adalah estimator Gasser

Muller dan juga Nadaraya-Watson. Timothy L McMurry dan Dimitris N Politis

(2003) dalam jurnalnya yang berjudul Nonparametric Regression with Infinite

3

Sedangkan kernel K berfungsi sebagai bobot yang ikut menentukan

kemulusan fungsi r, ketepatan pemulus kernel sebagai estimator, dan juga dalam

menentukan performance (bias, variansi dan MSE) yang optimal secara asimtotik.

Menurut Timothy dan Dimitris (2003) jika kernel K mempunyai order v dan

fungsi kepadatan r mempunyai turunan kontinu sebanyak k kali maka

Bias ( r x ) = CK,r(x) hn + o(h

n) (1.3)

Dimana n=min{v,k} dan CK,r(x) adalah fungsi terbatas yang bergantung pada K, r,

dan turunan fungsi r. Ketika fungsi r cukup mulus atau dapat dideferensialkan

sebanyak k kali dimana v ≥ k, maka bias r x dapat direduksi menjadi o(hk)

dengan secara tepat memilih kernel dengan order yang lebih besar dari banyaknya

diferensial. Namun untuk mengestimasi jumlah diferensial dari fungsi r tidaklah

mudah, sehingga kita kesulitan untuk menentukan order kernel berapakah yang

harus dipilih agar bias estimator tersebut dapat direduksi menjadi o(hk). Oleh

karena itu ditetapkan suatu kernel yang memiliki “infinite order”. Kernel tersebut

mampu mereduksi bias r x dari o(hn) menjadi o(h

k) tidak peduli berapa besar k.

Dalam tesis ini akan dicari performance (bias, variansi) dari penyebut dan

pembilang estimator Nadaraya –Watson menggunakan kernel berorder tak hingga

kemudian mencari sifat-sifat dari estimator tersebut secara asimtotik baik

distribusinya maupun kekonsistenannya. Kemudian dibandingkan performance

dari kernel berorder tak hingga dengan kernel berorder berhingga menggunakan

program R dengan membandingkan nilai MSE dari masing-masing kernel.

1.2 Tujuan Penelitian

Berdasarkan apa yang telah diuraikan pada latar belakang di atas maka tujuan

dari penulisan tesis ini adalah:

1. Mencari performance (bias dan variansi) dari pembilang dan penyebut

estimator Nadaraya-Watson dengan kelas baru kernel yaitu infinite order

Kernel secara asimtotik.

2. Menyelidiki kekonsistenan dan distribusi dari estimator Nadaraya-Watson

dengan kelas baru kernel secara asimtotik.

2

masing-masing metode tersebut, fungsi r(Xi) akan diestimasi dengan

menggunakan rata-rata bobot lokal yang mendekati x. Kemulusan fungsi r(Xi) dan

sifat-sifat dari bobot yang digunakan dalam rata-rata tersebut menentukan

performance dari estimator.

Menurut Hardle (1990) estimator Nadaraya-Watson didefinisikan sebagai

berikut:

1

1

1

ˆ1

ni

i

i

nk

k

x XK Y

nh hr x

x XK

nh h

(1.2)

dengan K(x) adalah fungsi kernel yang digunakan sebagai pembobot, sedangkan h

(bandwidth) adalah parameter yang digunakan sebagai pemulus. Penyebut dari

estimator di atas biasa kita sebut sebagai estimator densitas kernel atau biasa

disimbolkan dengan ˆhf x .

Menurut Hardle (1994) ketepatan suatu pemulus kernel sebagai estimator

dari r ditentukan oleh dua hal yaitu bandwidth dan fungsi kernel yang digunakan

sebagai bobot. Bandwidth h pada estimator di atas berfungsi untuk

menyeimbangkan antara bias dan variansi dari fungsi tersebut. Bandwidth yang

terlalu kecil akan menyebabkan fungsi yang diestimasi tersebut menjadi sangat

kasar sehingga hubungan variansinya tinggi dan memiliki potensi bias yang

rendah. Sebaliknya jika bandwidth yang terlalu besar menyebabkan fungsi yang

diestimasi akan sangat mulus sehingga hubungan variansinya rendah dan

memiliki potensi bias yang besar. Oleh karena itu diperlukan pemilihan

bandwidth yang optimum. Cross validation, plug-in adalah beberapa metode yang

digunakan untuk mendapatkan bandwidth yang optimum. Pemilihan bandwidth

yang optimum dilakukan dengan cara memperkecil tingkat kesalahan. Semakin

kecil tingkat kesalahannya semakin baik estimasinya. Untuk mengetahui ukuran

tingkat kesalahan suatu estimator dapat dilihat dari MSE (Mean Squared Error)

atau MISE (Mean Integrated Squared Error).

1

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Analisis regresi merupakan metode analisis data yang menggambarkan

hubungan antara variabel respon dengan satu atau beberapa variabel prediktor.

Analisis regresi tersebut dirancang untuk keadaan dimana variabel respon

diperkirakan memiliki hubungan dengan variabel-variabel prediktor lainnya.

Andaikan terdapat n pengamatan pasangan 1 1 2 2, , , , , ,n nX Y X Y X Y sampel

dengan Xi adalah variabel prediktor dan Yi adalah variabel respon, maka hubungan

linear antara variabel respon dengan variabel prediktor yang memenuhi model di

bawah ini:

Yi = r(Xi) + εi, (1.1)

dapat dicari. Dimana εi adalah random error dengan asumsi independen, E(εi)=0

dan Var(εi)=σ2, dan r(Xi) adalah fungsi regresi yang tidak diketahui dan akan

diestimasi. Dalam hal ini fungsi r(Xi) diasumsikan kontinu dan mempunyai

tingkat kemulusan tertentu.

Ada dua jenis pendekatan yang digunakan untuk mengestimasi fungsi regresi

r(Xi) yaitu secara parametrik maupun nonparametrik. Pendekatan parametrik

dilakukan jika ada asumsi tentang bentuk fungsi regresi r(Xi) mengenai hubungan

antara variabel respon dan variabel prediktor, sedangkan pendekatan

nonparametrik dilakukan jika tidak ada asumsi tentang bentuk fungsi regresi r(Xi)

dan akan diestimasi berdasarkan data pengamatan dengan menggunakan teknik

smoothing. Dalam hal ini, kurva regresi diasumsikan termuat dalam suatu fungsi

mulus yang mempunyai turunan yang kontinu.

Ada berbagai macam teknik smoothing yang digunakan dalam pendekatan

nonparametrik antara lain histogram, estimator kernel, deret orthogonal, estimator

spline, k-NN, deret fourier, dan wavelet. Dan salah satu teknik yang akan

digunakan dalam tesis ini adalah estimator kernel. Menurut Timothy dan Dimitris

(2008) ada berbagai macam estimator kernel antara lain yang diusulkan oleh

Nadaraya dan Watson, Gaseer dan Muller, dan estimator lokal polinomial. Pada

xiii

ABSTRACT

NADARAYA WATSON REGRESSION ESTIMATION WITH INFINITE

ORDER KERNEL

by

Maria Suci Apriani

11/321856/PPA/03510

The function estimation of r(Xi) in linier regretion which is drawn near with non-

parametric approach is done if there is no assumption about regretion function

form of r(Xi). One of techniques used is smoothing technique with kernel.

Function of r x can be reduced to be o(hk) with choosing the kernel that has the

bigger order from the amount of differensial number. Therefore, a kernel which

has “infinite order” can be determined.

Keywords: non-parametric regression, Fourier transformation, Taylor series.

xii

INTISARI

ESTIMASI REGRESI NADARAYA-WATSON DENGAN KERNEL

BERORDER TAK HINGGA

Oleh

Maria Suci Apriani

11/321856/PPA/03510

Estimasi fungsi r(Xi) dalam regresi linear yang didekati dengan pendekatan

nonparametrik dilakukan jika tidak ada asumsi tentang bentuk fungsi regresi r(Xi).

Salah satu teknik yang digunakan adalah teknik penghalusan dengan kernel. Bias

r x dapat direduksi menjadi o(hk) dengan memilih kernel yang memiliki order

lebih besar dari banyaknya diferensial. Sehingga ditetapkan suatu kernel yang

memiliki “infinite order”.

Kata kunci: Regresi nonparametrik, transformasi Fourier, deret Taylor

xi

DAFTAR LAMPIRAN

Halaman

Lampiran 1. Data Rata-rata Air Sungai di Indonesia yang Pengalirannya

Lebih dari 1000 km2 .......................................................... 58

Lampiran 2. Hasil Estimasi ..................................................................... 62

Lampiran 3. Grafik Hasil Estimasi .......................................................... 76

Lampiran 4. Grafik MSE ... ..................................................................... 81

Lampiran 5. Program Estimasi ................................................................ 83

Lampiran 6. Program MSE ..................................................................... 89

x

DAFTAR TABEL

Halaman

Tabel 4.1 Nilai-nilai MSE ........................................................................ 50

ix

DAFTAR GAMBAR

Halaman

Gambar 2.1 Grafik jenis-jenis Kernel ..................................................... 14

Gambar 2.2 Grafik estimasi dengan Ksmooth ......................................... 21

Gambar 3.1 Grafik Kernel Sinus .............................................................. 24

Gambar 3.2 Grafik Kernel Cosinus .......................................................... 25

Gambar 4.1 Grafik estimasi dengan kelipatan nilai x sebesar 0.1 .............. 46




Gambar 4.5 Grafik MSE .......................................................................... 53

viii

5.2 Saran ............................................................................. 56

DAFTAR PUSTAKA ................................................................................. 57

LAMPIRAN ................................................................................................ 58

vii

DAFTAR ISI

Halaman

HALAMAN JUDUL .................................................................................. i

HALAMAN PENGESAHAN .................................................................... ii

HALAMAN PERNYATAAN ................................................................... iii

HALAMAN PERSEMBAHAN ................................................................. iv

PRAKATA .................................................................................................. v

DAFTAR ISI. .............................................................................................. vii

DAFTAR GAMBAR .................................................................................. ix

DAFTAR TABEL ....................................................................................... x

DAFTAR LAMPIRAN ............................................................................... xi

INTISARI .................................................................................................... xii

ABSTRACT ................................................................................................ xiii

BAB I PENDAHULUAN .................................................................... 1

1.1 Latar Belakang ............................................................. 1

1.2 Tujuan Penelitian .......................................................... 3

1.3 Manfaat Penelitian ........................................................ 4

1.4 Tinjauan Pustaka .......................................................... 4

1.5 Metode Penelitian ......................................................... 5

1.6 Sistematika Penulisan ................................................... 6

BAB II LANDASAN TEORI ............................................................... 7

2.1 Ide Dasar Smoothing .................................................... 7

2.2 Definisi dan Teorema yang Terkait .............................. 8

2.3 Estimasi Densitas Kernel untuk Kernel

Berorder Dua ................................................................ 12

2.4 Estimasi Densitas Kernel untuk Kernel

Berorder Tinggi ............................................................ 17

2.5 Estimator Nadaraya Watson ......................................... 19

BAB III ESTIMASI NADARAYA-WATSON DENGAN KERNEL ORDER

TAK HINGGA ........................................................................ 22

3.1 Kernel dengan Order Tak Hingga................................. 22

3.2 Sifat Asimtotik Estimator Nadaraya Watson

dengan Kernel Berorder Tak Hingga............................ 26

BAB IV STUDI KASUS

4.1 Informasi Data .............................................................. 44

4.2 Pengolahan Data dengan Program R ............................ 45

BAB V PENUTUP

5.1 Kesimpulan ................................................................... 55

vi

7. Agustinus Hary Setyawan yang tidak jemu-jemunya memberikan doa dan

semangat untuk penulis terutama ketika penulis merasa putus asa.

8. Saudara-saudaraku di keluarga Bintaran, Mas Adven, Mas Hayom, Mb Nova,

Mb Indu, Venti, Sella dan Anggit yang selalu memberikan dukungan doa

bagi penulis.

9. Cita Murti Pramaeswari yang memberikan dukungan dan semangat selama

proses pengerjaan tesis dan sidang.

10. Teman-teman seperjuangan, Pak Aris, Kak Sri, Kak Bobby, Mba Endang,

Kak Sadri, Sita, Arum, Kak Yani, Tika, Dian Ayu, Andre dan Dian Pratama

yang selalu memberikan keceriaan selama berjuang di UGM.

11. Rekan-rekan mahasiswa S2 matematika khususnya minat statistik angkatan

2011 yang menjadi tempat diskusi dan belajar bersama.

12. Semua pihak yang telah membantu baik secara langsung maupun tidak

langsung yang tidak dapat penulis sebutkan satu persatu dalam tesis ini.

Dengan segala keterbatasan penulis yang sifatnya manusia maka penulis

sangat menyadari bahwa tesis ini masih jauh dari kesempurnaan, karena

kesempurnaan hanyalah milik Sang Maha Sempurna. Oleh karena itu saran dan

kritik yang sifatnya membangun sangat penulis harapkan. Akhir kata semoga tesis

ini bisa membawa manfaat khususnya kepada penulis sendiri dan kepada pembaca

pada umumnya.

Yogyakarta, Maret 2014

Penulis

bab v penutup 5.1 kesimpulan -...

Documents