bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · ukuran pemusatan data memberikan informasi...

20
6 BAB II TINJAUAN PUSTAKA Bab ini membahas teori-teori dasar yang digunakan sebagai landasan pembahasan pada bab selanjutnya. Pembahasan teori meliputi pengertian data secara umum dan data sirkular, ukuran pemusatan dan penyebaran data, regresi sirkular, regresi nonparametrik, dan regresi nonparametrik sirkular-linear berganda. 2.1 Data Data adalah nilai numerik hasil dari sebuah pengamatan ( observation) yang dalam penelitian diasumsikan sebagai variabel (Kitchens, 1998). Data diolah oleh peneliti dan kemudian diinterpretasikan sehingga dapat dimengerti oleh orang lain yang tidak secara langsung melakukan pengamatan atau pengumpulan fakta dari sebuah kejadian. 2.1.2 Ukuran Pemusatan Data Ukuran pemusatan data memberikan informasi tentang titik-titik di mana data pengamatan terpusat atau terkumpul dan dapat juga menjadi ciri khas dari kumpulan data pengamatan (Kitchens, 1998). A. Nilai tengah (mean) Jika adalah anggota suatu populasi terhingga berukuran , nilai tengah populasinya adalah

Upload: doannguyet

Post on 20-Apr-2018

250 views

Category:

Documents


8 download

TRANSCRIPT

6

BAB II

TINJAUAN PUSTAKA

Bab ini membahas teori-teori dasar yang digunakan sebagai landasan

pembahasan pada bab selanjutnya. Pembahasan teori meliputi pengertian data

secara umum dan data sirkular, ukuran pemusatan dan penyebaran data, regresi

sirkular, regresi nonparametrik, dan regresi nonparametrik sirkular-linear

berganda.

2.1 Data

Data adalah nilai numerik hasil dari sebuah pengamatan (observation)

yang dalam penelitian diasumsikan sebagai variabel (Kitchens, 1998). Data diolah

oleh peneliti dan kemudian diinterpretasikan sehingga dapat dimengerti oleh

orang lain yang tidak secara langsung melakukan pengamatan atau pengumpulan

fakta dari sebuah kejadian.

2.1.2 Ukuran Pemusatan Data

Ukuran pemusatan data memberikan informasi tentang titik-titik di mana

data pengamatan terpusat atau terkumpul dan dapat juga menjadi ciri khas dari

kumpulan data pengamatan (Kitchens, 1998).

A. Nilai tengah (mean)

Jika adalah anggota suatu populasi terhingga berukuran ,

nilai tengah populasinya adalah

7

. (2.1)

Sedangkan, jika adalah sampel berukuran , maka nilai tengah

sampelnya adalah

(2.2)

B. Median

Median memiliki sifat membagi dua sama banyak kumpulan data yang

telah diurutkan sebelumnya. Jika banyak data ganjil, maka median adalah data

yang tepat berada di tengah yaitu pada amatan . Sedangkan, jika banyak

data genap, maka median berada di antara dua data yang berada di tengah yaitu

rata-rata dari pengamatan dan pengamatan .

C. Modus

Modus adalah suatu nilai amatan yang paling sering muncul dalam

melakukan penelitian. Nilai modus dalam penelitian mungkin saja akan lebih dari

satu. Penyajian data dalam bentuk grafik akan mempermudah dalam menentukan

nilai modus dari kumpulan data.

2.1.3 Ukuran Penyebaran Data

Ukuran penyebaran data merupakan suatu informasi yang diperoleh dalam

penelitian yang memberikan penjelasan seberapa jauh data-data yang diperoleh

menyebar dari titik pemusatannya (Kitchens, 1998). Ukuran penyebaran data yang

paling sering digunakan adalah ragam. Ragam (variance) memberikan informasi

8

rata-rata jarak kuadrat semua titik pengamatan terhadap titik pusat atau rataan.

Jika adalah anggota suatu populasi terhingga berukuran , maka

ragam populasinya adalah

(2.3)

Sedangkan, jika adalah anggota suatu sampel berukuran , maka

ragam sampelnya adalah

(2.4)

2.2 Data dan Statistika Sirkular

Data sirkular adalah data yang nilai-nilainya berulang secara periodik

dengan responnya bukan skalar tetapi angular atau berarah sehingga dikategorikan

sebagai data berarah (Jammalamadaka dan SenGupta, 2001). Pengukuran data

sirkular biasanya dalam satuan derajat sampai atau dalam satuan radian

dari 0 radian sampai radian.

Dua alat yang sering digunakan untuk membantu dalam pemilihan arah

pada proses pengukuran data sirkular adalah kompas dan jam. Dalam melakukan

pengukuran, arah utara pada kompas dan pukul 00.00 pada jam biasanya disebut

arah atau 0 radian. Arah migrasi hewan, arah terbang burung, atau arah angin

dihitung dengan bantuan kompas. Waktu kejadian kasus kecelakaan, waktu

kejadian kasus kriminal, waktu datangnya pasien dalam 24 jam di sebuah rumah

sakit dihitung dalam jam.

9

Berbeda dengan data pada umumnya yang hanya memiliki satu dimensi

pengukuran, data sirkular memiliki dua dimensi pengukuran yaitu jika

pengamatan digambarkan pada koordinat kartesius dapat dinyatakan sebagai

nilai atau pada koordinat polar dapat dinyatakan sebagai nilai dengan

sebagai jarak titik dari titik pusat pada sudut .

Gambar 2.1 Hubungan Koordinat Kartesius dengan Koordinat Polar

(Nurhab, 2014)

Pada Gambar 2.1. perubahan koordinat polar menjadi koordinat kartesius dapat

menggunakan persamaan trigonometri berikut

dan . (2.5)

Perbedaan lainnya dengan data pada umumnya adalah data sirkular tidak

memiliki nilai minimum dan maksimum karena data awal sama dengan data akhir

yaitu radian sama dengan radian. Nilai pengamatan pada sudut akan

memiliki nilai yang sama dengan pengamatan yang terletak pada sudut

untuk bilangan bulat positif, karena dalam analisis sirkular yang diperhatikan

adalah arah bukan besaran vektor yaitu setiap titik pengamatan pada keliling

lingkaran menyatakan sebuah arah. Pada Gambar 2.1, sebuah pengamatan

menyatakan arah yang dibuat vektor terhadap sumbu positif atau

menyatakan arah yang dibuat vektor terhadap sumbu positif. Koordinat

kartesius amatan tersebut adalah dan koordinat polarnya

x

y

P

𝜃

r

10

adalah . Karena yang diperhatikan adalah arah, maka jarak setiap amatan

dari titik pusat dibuat sama dengan 1 . Sehingga diambil vektor-vektor

tersebut menjadi vektor unit yaitu vektor dengan panjang satuan .

Representasi data sirkular dalam arah yang dipengaruhi sudut tentu tidak

selalu unik yaitu nilai angularnya bergantung pada pemilihan arah acuan dan

arah rotasi apakah searah dengan arah perputaran jarum jam (clockwise) atau

berlawanan arah perputaran jarum jam (counter-clockwise) (Jammalamadaka dan

SenGupta, 2001). Pemilihan arah utara sebagai arah acuan mengakibatkan arah

perputaran positif yaitu searah dengan arah perputaran jarum jam, sedangkan

pemilihan arah timur sebagai arah acuan mengakibatkan arah perputaran

positif yaitu berlawanan arah perputaran jarum jam. Pada Gambar 2.2, arah

adalah jika arah acuannya adalah arah utara dan arah rotasinya searah

perputaran jarum jam, atau jika arah acuannya adalah arah timur dan arah

rotasinya berlawanan arah perputaran jarum jam.

Gambar 2.2. Arah Acuan dan Arah Rotasi Pengamatan

Dalam analisis regresi sirkular-linear, perbedaan pemilihan arah acuan

tidak memengaruhi koefisien determinasi dan statistik lima serangkai yaitu

r P

Utara

Timur

11

statistik minimum, kuartil bawah, median, kuartil atas, dan statistik maksimum

dari sisaannya, tetapi memengaruhi hasil dugaan parameter persamaan regresi

sirkular-linear. Sedangkan perbedaan pemilihan arah rotasi tidak berpengaruh

terhadap persamaan regresi sirkular-linear yang dibentuk (Nurussadad, 2011).

Representasi data sirkular dalam bentuk grafis menjadi hal yang sangat

penting dan bentuknya tentu akan berbeda dengan representasi grafis data pada

umumnya. Bentuk grafis yang biasa digunakan dalam analisis data sirkular adalah

Gambar 2.3. Diagram Pancar (a), Histogram Siklik (b), dan Diagram Mawar (c)

(Nurhab, 2014)

2.2.1 Ukuran Pemusatan Data Sirkular

Mengalisis data sirkular menggunakan dua fungsi trigonometri yaitu

fungsi sinus dan fungsi cosinus . Sehingga cara menghitung ukuran pemusatan

dan ukuran penyebaran data sirkular akan berbeda dengan cara menghitung

ukuran pemusatan dan ukuran penyebaran pada umumnya.

A. Arah rata-rata sirkular

Menurut Jammalamadaka dan SenGupta (2001), menentukan arah rata-

rata data sirkular menggunakan metode yang digunakan pada statistika linear

dapat menghasilkan arah rata-rata yang tidak sesuai dengan pusat dari data

(a) (b) (c)

12

pengamatan yang diperoleh. Sebagai contoh penelitian tentang arah migrasi

burung. Misalkan dua burung terbang ke arah dan ke arah dan dipilih

arah acuan nol derajat yaitu arah utara dan arah rotasi searah dengan arah

perputaran jarum jam seperti yang ditunjukkan pada gambar berikut:

Gambar 2.4. Arah Rata-rata Sirkular dengan Statistika Linear untuk Dua Buah

Pengamatan.

Pada Gambar 2.4, dengan menggunakan statistika linear diperoleh arah

rata-rata yaitu yang menuju ke arah selatan, meskipun arah terbang kedua

burung tersebut lebih terkonsentrasi ke arah utara. Jika dimisalkan lagi terdapat

empat burung yang bermigrasi masing-masing ke arah , dan

dengan arah acuan dan arah rotasi yang sama, maka dengan statistika linear

diperoleh arah rata-rata yaitu yang menuju ke arah selatan seperti yang

ditunjukkan pada gambar berikut:

Gambar 2.5. Arah Rata-rata Sirkular dengan Statistika Linear untuk Empat Buah

Pengamatan.

13

Pada Gambar 2.5, dengan menggunakan statistika linear diperoleh arah

rata-rata yaitu yang menuju ke arah selatan meskipun data semakin

terkonsentrasi ke arah utara. Berdasarkan contoh tersebut, dapat ditunjukkan

bahwa metode yang digunakan untuk mencari nilai rata-rata statistika linear tidak

cukup baik untuk diterapkan pada data sirkular. Keragaman data sampel yang

sangat bergantung pada nilai rata-rata tentu juga akan sangat dipengaruhi nilainya.

Menentukan arah rata-rata untuk data sirkular dilakukan dengan

memperlakukan data sirkular dalam vektor unit dan menggunakan arah dari

vektor resultannya (Jammalamadaka dan SenGupta, 2001). Arah rata-rata sirkular

diperoleh dari

, (2.6)

, (2.7)

dengan adalah fungsi cosinus dan fungsi sinus yang diperoleh dari

∑ (2.8)

∑ (2.9)

dengan adalah pengamatan ke- dan panjang vektor resultan diperoleh dari

‖ ‖ √

. (2.10)

14

Vektor resultan dari vektor unit diperoleh dengan menjumlahkan

semua komponen arahnya

. (2.11)

Balikan kuadran tertentu (invers quadrant-specific) tangen dari arah rata-

rata sirkular diberikan untuk segala kemungkinan nilai fungsi dan yaitu

{

(

)

(

)

(

)

(2.12)

B. Median data sirkular

Mardia (1972) dalam Otieno (2002) menyatakan bahwa median sampel

dari data sampel sirkular adalah titik pada keliling lingkaran yang

memiliki sifat :

1. Diameter dengan adalah anti-median membagi lingkaran menjadi

dua bagian, yang setiap bagiannya memiliki jumlah pengamatan sama

banyak.

2. Sebagian besar data pengamatan berada disekitar titik dibandingkan di

titik .

Jika 𝐶𝑛 > dan 𝑆𝑛 ≥

Jika 𝐶𝑛 dan 𝑆𝑛 >

Jika 𝐶𝑛 <

Jika 𝐶𝑛 ≥ dan 𝑆𝑛 <

Jika 𝐶𝑛 dan 𝑆𝑛

15

Gambar 2.6. Median Sirkular untuk Data Genap dan Data Ganjil

(Otieno, 2002)

Jika banyak data adalah genap, maka median sampel sirkular berada di

antara dua pengamatan yang berdekatan dengan . Sedangkan jika banyak data

adalah ganjil, maka median sampel sirkular adalah sebuah titik data pengamatan.

Proses menentukan median pada data sirkular tidak bisa disamakan dengan proses

penentuan median pada data linear yaitu prosedur pengurutan data dari data

amatan terkecil sampai data amatan terbesar tidak bisa diterapkan pada penentuan

median data sirkular (Otieno, 2002). Sebagai contoh, penelitian terhadap arah

terbang tujuh ekor burung yaitu ke arah , , , , , , dan

seperti yang ditunjukkan pada gambar berikut:

Gambar 2.7. Median Sirkular dan Median Linear

Pada Gambar 2.7., dengan memilih arah acuan nol derajat yaitu arah utara, arah

rotasi searah dengan arah perputaran jarum jam dan dengan menggunakan

prosedur yang diperkenalkan Mardia (1972) dalam Otieno (2002) diperoleh

𝑃

𝑃

𝑄

16

median sirkular pada arah . Sedangkan, jika digunakan prosedur pengurutan

data yang digunakan pada data linear, maka diperoleh median sirkular pada arah

. Tentu saja tidak sama dengan . Shepherd dan Fisher (1982) dalam

Otieno (2002) mengemukakan bahwa bantuan grafik akan sangat membantu

menentukan median sirkular.

C. Modus data sirkular

Modus data sirkular akan mudah ditentukan dengan bantuan grafik. Nilai

modus akan muncul pada data yang terkonsentrasi di keliling lingkaran pada

sudut atau arah tertentu. Seperti data pada umumnya, data sirkular mungkin saja

memiliki nilai modus lebih dari satu.

2.2.2 Ukuran Penyebaran Data Sirkular

Mardia (1976) dalam Nurhab (2014) mendefinisikan ragam sampel

sirkular sebagai

(2.13)

dengan adalah panjang vektor resultan dan adalah panjang rata-rata dari

vektor resultan dengan . Nilai ragam yang semakin kecil menandakan

data semakin terkonsentrasi menuju suatu titik tertentu.

2.3 Regresi Sirkular

Variabel dalam suatu regresi terdiri dari variabel prediktor (independent

variable) dan variabel respons (dependent variable). Menganalisis data sirkular

17

dengan analisis regresi jika dilihat dari jenis variabelnya akan membentuk tiga

jenis model regresi sirkular yaitu (Scoot, 2002):

1. Regresi Sirkular–Linear (circular-linear regression)

Regresi sirkular–linear yaitu analisis regresi dengan variabel prediktor

sirkular dan variabel responnya linear. Regresi sirkular–linear merupakan analisis

regresi sirkular yang paling sering digunakan. Menurut SenGupta dan Ugwuowo

(2006) model regresi sirkular linear antara variabel respons linear dan variabel

prediktor sirkular adalah

(2.14)

dengan dan adalah parameter yang belum diketahui nilainya, adalah

sebuah acrophase, dan adalah komponen galat acak. Sedangkan, adalah

frekuensi angular (angular frequency) yaitu

(2.15)

atau

(2.16)

dengan adalah periode.

2. Regresi Sirkular-Sirkular (circular-circular regression)

Regresi sirkular-sirkular yaitu analisis regresi dengan variabel prediktor

dan variabel respons sama-sama merupakan data sirkular.

18

3. Regresi Linear-Sirkular (linear-circular regression)

Regresi linear-sirkular yaitu analisis regresi dengan variabel prediktor

linear dan variabel respons sirkular.

2.4 Regresi Nonparametrik

Statistika nonparametrik adalah statistika bebas sebaran yang digunakan

dengan mengabaikan asumsi-asumsi yang harus dipenuhi pada statistika

parametrik. Statistika nonparametrik disebut juga statistika bebas distribusi.

Bentuk kurva dalam regresi nonparametrik tidak diketahui dan diasumsikan

termuat dalam suatu ruang fungsi berdimensi tak hingga dan merupakan fungsi

yang mulus (smooth).

Dalam statistika nonparametrik bentuk kurva yang kurang mulus dapat

dipermulus (smoothing) dengan menggunakan teknik smoothing tertentu. Tujuan

dari smoothing adalah membuang variabilitas dari data yang tidak memiliki efek-

efek sehingga ciri-ciri dari data tampak lebih jelas. Salah satu teknik smoothing

yang umum digunakan adalah estimator kernel pada pemanfaatannya

dilakukan pada setiap titik data (Sukarsa dan Srinadi, 2012).

2.4.1 Kernel Standar

Estimator kernel merupakan pengembangan dari estimator histogram.

Menurut Wand dan Jones (1995) bentuk fungsi kernel secara umum yaitu

(

), untuk < < > (2.17)

19

dengan adalah parameter pemulus (smoother) yang disebut bandwidth. Fungsi

kernel memiliki beberapa sifat yaitu:

1. ≥ untuk semua (2.18)

2. ∫

(2.19)

3. ∫

> (2.20)

4. ∫

(2.21)

5. , untuk semua (sifat simetris) (2.22)

Beberapa jenis fungsi kernel yang umum digunakan yaitu

1. Kernel Uniform :

| | (2.23)

2. Kernel Segitiga : | | | | (2.24)

3. Kernel Epanechnikov :

| | (2.25)

4. Kernel Kuartik :

| | (2.26)

5. Kernel Triweight :

| | (2.27)

6. Kernel Cosinus :

(

) | | (2.28)

7. Kernel Gaussian :

√ (

) < < (2.29)

dengan adalah fungsi indikator untuk suatu himpunan yaitu

{

(2.30)

20

2.4.2 Kernel Sirkular

Kernel sirkular untuk orde dan parameter pemulus (smoothing) >

adalah fungsi [ yang memiliki sifat (Marzio et al., 2009):

(i) untuk [ , representasi deret Fourier konvergen ke

{ ∑ }⁄

(ii) nyatakan ∫

kemudian ,

untuk < < , dan ;

(iii) apabila naik, maka ∫

menuju 1 untuk

Kernel von Mises adalah kernel sirkular orde kedua (second-order circular

kernel) yang memiliki bentuk

[ ] (2.31)

dengan adalah variabel prediktor sirkular, adalah parameter konsentrasi

(concentration parameter), dan adalah fungsi Bessel termodifikasi orde nol,

∫ [ ]

. (2.32)

Sebaran von Mises adalah sebaran normal sirkular yang paling umum

digunakan karena memiliki langkah kerja yang sama dengan sebaran normal pada

data linear. Sebaran von Mises pertama kali diperkenalkan oleh von Mises pada

tahun 1981 dengan sebaran

[ ], < < (2.33)

21

dengan adalah variabel prediktor sirkular, adalah arah rata-rata sirkular,

adalah parameter konsentrasi (concentration parameter), dan adalah fungsi

Bessel termodifikasi orde nol,

∫ [ ]

. (2.34)

Jika sama dengan nol, maka =

dan akan mengikuti sebaran seragam

(uniform) yang tanpa memperhatikan arah.

Sama seperti sebaran normal, metode yang digunakan untuk mengevaluasi

sebaran von Mises adalah QQ-plot. Menurut Fisher (1993) dalam Nurhab (2014),

jika sebaran data mengikuti sebaran von Mises maka plot data mengikuti garis

lurus dengan kemiringan . Proses evaluasi dengan von Mises yaitu

dimulai dengan mencari

untuk (2.35)

kemudian diurutkan dari nilai terkecil sampai terbesar .

Langkah selanjutnya yaitu membuat plot ( (

) ) ( (

) )

(Fisher dalam Nurhab, 2014).

2.5 Bandwidth

Parameter bandwidth disebut juga parameter pemulusan (smoothing) yang

memiliki peran seperti lebar interval pada histogram. Parameter bandwidth akan

mengontrol kemulusan kurva regresi yang diestimasi. Pemilihan bandwidth yang

terlalu kecil akan menghasilkan kurva yang sangat kasar, dan sebaliknya

22

pemilihan bandwidth yang terlalu besar akan menghasilkan kurva yang terlalu

mulus yang akibatnya akan tidak sesuai dengan pola data yang sebenarnya

(Hardle, 1994). Oleh karena itu, diperlukan suatu metode untuk memilih

bandwidth yang optimal. Metode yang dapat digunakan yaitu metode Cross-

Validation (CV) yang didefinisikan sebagai berikut

(2.36)

dengan adalah penduga leave-one-out dengan menghilangkan .

Pemilihan bandwidth yang optimal dilakukan dengan memilih nilai awal

untuk meminimumkan persamaan (2.36) Langkah-langkah

pemilihan bandwidth yang optimal berdasarkan kriteria CV minimum yaitu:

Langkah 1. Untuk , tentukan nilai dan minimumkan persamaan (2.36)

sehingga diperoleh vektor parameter smoothing dan nilai CV,

dengan

.

Langkah 2. Untuk , ulangi langkah 1 sampai menemukan kriteria yang

sesuai sehingga dihasilkan rangkaian(series) nilai CV.

Langkah 3. Pilih nilai CV terkecil dari rangkaian nilai

yang

dihasilkan sehingga diperoleh nilai bandwidth optimal yaitu .

2.6 Regresi Nonparametrik Sirkular-Linear Berganda

SengGupta dan Ugwuowo (2006) memperkenalkan bentuk umum model

regresi sirkular–linear berganda antara sebuah variabel respons linear dengan

variabel prediktor linear dan variabel prediktor sirkular. Bentuk modelnya adalah

23

∑ (2.37)

dengan adalah variabel respons linear, adalah nilai rataan, adalah

koefisien regresi, adalah variabel prediktor linear, adalah amplitudo,

adalah frekuensi angular, adalah variabel prediktor sirkular yang menentukan

periode , adalah acrophase dan adalah komponen galat acak. Pendugaan

dinyatakan dalam satuan radian atau derajat arah,

(2.38)

atau

. (2.39)

Kemudian Qin (2011) mengasumsikan bentuk model regresi

nonparametrik sirkular-linear berganda dengan bentuk

(2.40)

dengan adalah variabel respons skalar, adalah fungsi regresi,

(

) ,

dan

masing-masing adalah dimensi linear dan

dimensi sirkular , serta adalah variabel acak berdistribusi IID (Independent

and

Identically Distributed) dengan rataan nol dan ragam unit dan bebas dari .

Misalkan adalah vektor variabel respons,

24

[

] (2.41)

sebagai desain matriks, dan

(2.42)

sebagai bobot matriks, dengan adalah sampel acak dari fungsi densitas peluang

bersama dan adalah fungsi linear–sirkular

√ ∏ (

) ∏ ( )

(2.43)

dengan adalah kernel linear standar dan adalah kernel sirkular orde

kedua. Penduga kernel kuadrat terkecil linear lokal dari diperoleh dari

masukan pertama dari vektor

( ) ∑

( )

. (2.44)

Dengan demikian penduga kernel kuadrat terkecil linear lokal dari

adalah

(

)

(2.45)

25

dengan adalah vektor berukuran ( dengan nilai 1 pada

masukan pertama dan yang lainnya 0.

Vektor dari nilai yang diduga (fitted values)

adalah

( )

. (2.46)