heru nurcahya pst
TRANSCRIPT
-
8/16/2019 Heru Nurcahya Pst
1/87
ANALISIS REGRESI PADA DATA OUTLIER
DENGAN MENGGUNAKAN LEAST TRIMMED SQUARE
(LTS) DAN MM-ESTIMASI
Heru Nurcahyadi
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI
SYARIF HIDAYATULLAH
JAKARTA
2010 M / 1432 H
-
8/16/2019 Heru Nurcahya Pst
2/87
ii
PENGESAHAN UJIAN
Skripsi berjudul “Analisis Regresi pada Data Outlier dengan
Menggunkan Least Trimmed Square (LTS) dan MM-Estimasi” yang ditulis
oleh Heru Nurcahyadi, NIM 105094003092 telah diuji dan dinyatakan lulus
dalam sidang Munaqosyah Fakultas Sains dan Teknologi Universitas Islam
Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Mei 2009. Skripsi ini telah
diterima sebagai salah satu satu syarat untuk memperoleh gelar sarjana strata satu
(S1) Program Studi Matematika.
Menyetujui :
Penguji 1, Penguji 2,
Yanne Irene, M.Si Gustina Elfiyanti, M.Si
NIP. 19741231 2005012 018 NIP. 19820820 200901 2006
Pembimbing 1, Pembimbing 2,
Summa’inna, M.Si Bambang Ruswandi, M.Stat
NIP. 150 408 699 NIP. 0305 108 301
Mengetahui :
Dekan Fakultas Sains dan Teknologi Ketua Program Studi Matematika,
DR. Syopiansyah Jaya Putra, M.Sis Yanne Irene, M.Si
NIP. 19680117 200112 1 001 NIP. 19741231 2005012 018
-
8/16/2019 Heru Nurcahya Pst
3/87
PERSEMB H N
Skripsi ini aku persembahkan untuk kedua orang tuaku,
keluarga besarku, dan keluarga besar Prodi Matematika
MOTTO
‘ Karena sesungguhnya sesudah kesulitan itu ada kemudahan, dan sesungguhnya sesudah kesulitan itu ada kemudahan. Maka apabila kamu telah
selesai (dari sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang
lain, dan hanya kepada Tuhanmulah kamu be rharap.’
QS. Alam Nasyrah ayat 5-8)
pelajarilah ilmu
Barang siapa mempelajarinya karena ALLAH , itu Taqwa.
Menuntutnya, itu Ibadah.
Mengulang-ngulangnya, itu Tasbih.
Membahasnya, itu Jihad.
Mengajarkannya kepada orang yang tidak tahu, itu Sedekah.
Memberikannya kepada ahlinya, itu mendekatkan diri kepada ALLAH .”
( Muhammad bin Muhammad al Ghazali ).
-
8/16/2019 Heru Nurcahya Pst
4/87
iii
PERNYATAAN
DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-
BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN
SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI
ATAU LEMBAGA MANAPUN.
Jakarta, 15 Desember 2010
Heru Nurcahyadi
105094003092
-
8/16/2019 Heru Nurcahya Pst
5/87
vi
ABSTRACT
Regression analysis is a statistical methodology that describes the
relationship of independent variables and the dependent variable. From the
relationship it established a model that can be used to predict the value of the
dependent variable using the dependent variable. The resulting model is derived
from the method of least square (LS), which must satisfy some assumptions. With
the existence of a data which is not similar to most other data, called outliers,
then the LS method using the resulting regression model did not meet the
assumptions and regression models did not fit with the data.
Outlier on the x-direction is called leverage can be detected by using the
h-hat matrix, while the y-direction is called discrepancies can be detected by
using the externally studentized residual, and the influence can be detected by
using DFFITS and COOK'SD.
method of least trimmed square (LTS) to produce regression
models that fit to the data even though half of the data is outlier data,
because it has a high value of breakdown point that is 50%. Other robust
methods that have a breakdown point of 50% is MM-Estimate that use the
S-Estimated initial iteration. LTS model is very good at simple regressionanalysis compared with MM-estimation seen from the estimated residual
scale. While the multiple regression analysis of MM-Estimation is better
when compared with the LTS seen from the estimated residual scale.
Keywords: least square (LS), outlier, leverage, h-hat matrix,
discrepancies, externally studentized residual, value influences, DFFITS,
COOK'SD, least trimmed square (LTS), breakdown point, robust method,
MM-estimation, S-estimation.
-
8/16/2019 Heru Nurcahya Pst
6/87
-
8/16/2019 Heru Nurcahya Pst
7/87
vii
KATA PENGANTAR
حيم
حن ر
ا ر
سم
Assalamu’ alaikum Wr. Wb.
Puji syukur kehadirat Allah SWT yang telah memberi rahmat dan karunia-
Nya sehingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam tak
lupa disampaikan kepada Nabi Muhammad SAW. Skripsi ini adalah syarat
kelulusan yang harus ditempuh dalam menyelesaikan pendidikan sarjana strata
satu Program Studi Matematika Fakultas Sains dan Teknologi Universitas Islam
Negeri Syarif Hidayatullah Jakarta.
Kami mengucapkan terima kasih kepada para pihak yang telah banyak
membantu dalam penyelesaian skripsi ini, di antaranya :
1.
Dr. Syopiansyah Jaya Putra, M.Sis, Dekan Fakultas Sains dan Teknologi .
2. Yanne Irene, M.Si, sebagai Ketua Program Studi Matematika dan dosen
penguji I.
3. Suma’inna, M.Si, Sekretaris Program Studi Matematika dan dosen
Pembimbing I.
4.
Bambang Ruswandi, M.Stat, dosen pembimbing II
5. Seluruh dosen Prodi Matematika yang telah memberikan ilmu-ilmu yang
sangat bermanfaat bagi penulis.
6. Seluruh civitas akademika Fakultas Sains dan Teknologi atas bantuannya
dalam bidang administrasi.
-
8/16/2019 Heru Nurcahya Pst
8/87
viii
7.
Kedua orang tuaku: H. Ahyad dan Hj. Nurhayati, adikku: Herwin Adriyan,
dan keluargaku yang senantiasa mendoakan dan memberikan semangat selalu
pada penulis dalam penyelesaian skripsi ini.
8. Pamanku, Sersan Satu Unang Sunarya dan keluarganya yang telah banyak
mendorong dan membantu dalam penyelesaian skripsi ini.
9. Mukhlis, Dede Kurniawan, Syakur, dan Perdy atas persahabatannya selama
ini, semoga selalu kekal hingga akhir waktu.
10.
Seluruh teman-teman angkatan 2004, 2005, 2006, 2007, dan 2008 semoga
Allah tetap mengekalkan ukhuwah kita.
Kritik dan saran sangat kami harapkan demi penyempurnaan skripsi.
Mohon maaf bila ada kekurangan. Semoga skripsi ini dapat bermanfaat bagi para
pembaca, khususnya bagi penulis pribadi.
Wassalamu’alaikum Wr.Wb.
Jakarta, 15 Desember 2010
Penulis
-
8/16/2019 Heru Nurcahya Pst
9/87
ix
DAFTAR ISI
HALAMAN JUDUL .............................................................................. i
PENGESAHAN UJIAN ......................................................................... . ii
PERNYATAAN ...................................................................................... . iii
PERSEMBAHAN DAN MOTTO ............................................................ iv
ABSTRAK ............................................................................................... v
ABSTRACT ............................................................................................. vi
KATA PENGANTAR ........................................................................... vii
DAFTAR ISI ........................................................................................... ix
DAFTAR TABEL .................................................................................. xi
DAFTAR GAMBAR ................................................................................. xiii
DAFTAR LAMPIRAN ........................................................................... . xiv
BAB I. PENDAHULUAN ..................................................................... 1
1.1. Latar Belakang ................................................................... 1
1.2. Permasalahan...................................................................... 4
1.3. Pembatasan Masalah .......................................................... 4
1.4. Tujuan Penulisan ................................................................ 5
1.5. Manfaat Penulisan .............................................................. 5
BAB II. LANDASAN TEORI ................................................................. 6
2.1. Model Persamaan Regresi Linear………………………… 6
2.2. Outlier Dalam Regresi: Sumber, Jenis danDeteksi Outlier … 11
2.3. Robust Estimasi…………………………………………... 26
-
8/16/2019 Heru Nurcahya Pst
10/87
x
BAB III. ROBUST ESTIMASI PADA REGRESI ................................... 37
3.1. Least Trimmed Square ....................................................... 37
3.2. MM-Estimasi ..................................................................... 45
BAB IV. APLIKASI MODEL .................................................................. 52
4.1. Aplikasi pada Regresi Sederhana ....................................... 52
4.2. Aplikasi pada Regresi Berganda ........................................ 60
BAB V. KESIMPULAN DAN SARAN .................................................. 65
5.1. Kesimpulan ........................................................................ 65
5.2. Saran ................................................................................... 61
REFERENSI ............................................................................................ 67
LAMPIRAN .............................................................................................. 68
-
8/16/2019 Heru Nurcahya Pst
11/87
xiii
DAFTAR GAMBAR
Gambar 2.1 : Model Regresi Linear Sederhana ................................................. 7
Gambar 2.2 : Garis Least Square ....................................................................... 9
Gambar 2.3 : Outlier pada Arah-y ................................................................... 14
Gambar 2.4 : Outlier pada Arah-x ................................................................... 15
Gambar 2.5 : Outlier pada (xk ,yk ) ….. ............................................................. 16
Gambar 2.6 : Fungsi Huber .............................................................................. 25
Gambar 2.7 : Fungsi Bisquare ........................................................................ 31
Gambar 4.1 : Plot Leverage ... ......................................................................... 53
Gambar 4.2 : Scatterplot dan Garis Least Square ........................................... 56
Gambar 4.3 : Distribusi Normal Residual Data Pensiunan .............................. 56
Gambar 4.4 : Garis Least Trimmed Square Data Pensiunan ............................ 57
Gambar 4.5 : Garis MM-Estimasi Data Pensiunan .......................................... 59
Gambar 4.6 : Distribusi Normal Data Table (4.5) ........................................... 62
-
8/16/2019 Heru Nurcahya Pst
12/87
xi
DAFTAR TABEL
Tabel 3.3.1: Efisiensi Asimptotik S -Estimator ................................................ 51
Tabel 4.1 : dana pensiunan ........................................................................... 52
Tabel 4.2 : pemeriksaan data outlier pada arah-x dana pensiunan ................ 53
Tabel 4.3 : pemeriksaan data outlier pada arah-y dana pensiunan ................ 54
Tabel 4.4 : Perbandingan LS, LTS, MM-Estimasi Dana Pensiunan ............. 59
Tabel 4.5 : Data Survival Time ..................................................................... 60
Tabel 4.6 : pemeriksaan data outlier pada data table 4.5 . ............................ 62
Tabel 4.7 : Perbandingan LS, LTS, MM-Estimasi data tabel 4.5 ................. 64
-
8/16/2019 Heru Nurcahya Pst
13/87
xiv
DAFTAR LAMPIRAN
Lampiran 1 : Data Dana Pensiunan ................................................................. 68
Lampiran 2 : Pemeriksaan Data Outlier pada Arah- x Dana Pensiunan .......... 68
Lampiran 3 : Pemeriksaan Data Outlier pada Arah- y Dana Pensiunan .......... 69
Lampiran 4 : Data Survival Time .................................................................... 70
Lampiran 5 : Pemeriksaan Leverage Data Survival Time ….. ........................ 71
Lampiran 6 : Pemeriksaan Discrepancy Data Survival Time …..................... 72
Lampiran 7 : Pemeriksaan Nilai Influence Data Survival Time ….. ............... 73
-
8/16/2019 Heru Nurcahya Pst
14/87
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Model matematik dalam statistika merupakan penyederhanaan dari realitas
atau permasalahan yang diteliti oleh statistikawan. Oleh karena itu, diperlukan
asumsi-asumsi agar model tersebut dapat menggambarkan permasalahannya.
Selain itu, asumsi diperlukan agar dapat merumuskan apa yang statistikawan
ketahui atau terka (conjectures) mengenai penganalisisan data atau masalah
permodelan statistik yang dihadapinya, dan pada saat yang bersamaan asumsi
diperlukan agar model yang dihasilkan dapat memudahkan (manageable) dalam
sudut pandang teoritik dan komputasinya. Salah satu asumsi yang paling banyak
ditemukan dalam satatistik adalah asumsi kenormalan, yang telah ada selama 2
abad, asumsi kenormalan menjadi kerangka berpikir dalam semua metode statistik
inferensi, yaitu: Regresi, analisis variansi, analisis multivarit, model runtun waktu
dan lain-lain. Bahkan terdapat justifikasi untuk asumsi kenormalan dengan
argumen teori yaitu teorema limit pusat.
Sering kali dalam prakteknya asumsi kenormalan terpenuhi secara
aproksimasi pada sebagian besar data observasi. Bahkan, beberapa observasi
berbeda pola atau bahkan tidak berpola mengikuti distribusi normal. Hal ini
dikarenakan observasi yang “tidak normal”, observasi yang terpisah dari obsevasi-
observasi lainnya yang dikenal dengan data outlier . Dengan data outlier asumsi
kenormalan seringkali tidak terpenuhi, walupun jumlah data cukup besar.
-
8/16/2019 Heru Nurcahya Pst
15/87
2
Sehingga statistikawan kemungkinan melakukan kesalahan dalam memodelkan
suatu fenomena dengan adanya kehadiran data outlier . Oleh karena itu, diperlukan
metode yang bisa mengatasi masalah tersebut.
Dalam mengatasi data outlier harus dilihat dari sumber munculnya data
yang menjadi outlier tersebut. Outlier mungkin ada karena adanya data
terkontaminasi, yaitu adanya kesalahan pada saat melakukan pengambilan sampel
pada populasi. Outlier yang disebabkan oleh data terkontaminasi dapat
dihapuskan dari data penelitian atau jika memungkinkan dilakukan sampling
ulang. Akan tetapi, jika setelah melakukan beberapa kali sampling ulang namun
data outlier tetap muncul maka data tersebut jangan dihapuskan dari data
penelitian, karena analisis data yang dihasilkan akan tidak mencerminkan populasi
yang diteliti. Outlier pada kasus tersebut digolongkan pada kasus yang jarang.
Untuk mengatasinya diperlukan metode lain supaya analisis data dengan hadirnya
data outlier tetap tahan (robust ) terhadap asumsi yang diterapkan pada
penganalisisan datanya. Metode tersebut dikenal dengan Metode Robust . Metode
inilah yang akan jadi penelitain penulis pada tugas akhir ini.
Model matematik dalam statistika yang banyak ditemukan dalam berbagai
bidang adalah model regresi. Model regresi merupakan suatu model yang
menggambarkan hubungan dari variabel dependen dengan variabel-variabel
independen, dengan adanya hubungan tersebut diharapkan variabel independen
dapat memprediksikan nilai-nilai variabel dependen. Model regresi
mengasumsikan bahwa error dari model tersebut harus berdistribusi normal,
bervariansi konstan, dan saling independen antar observasi. Dengan adanya
-
8/16/2019 Heru Nurcahya Pst
16/87
3
outlier pada data regresi mengakibatkan model regresi tidak memenuhi asumsinya
dan model regresi tidak cocok ( fit ) terhadap data yang akan dimodelkan, karena
nilai koefisien dari model regresi tersebut sangat dipengaruhi oleh adanya outlier .
Oleh karena itu, model yang dihasilkan tidak dapat digunakan untuk
memprediksikan. Sehingga, outlier pada regresi harus diatasi.
Salah satu metode guna mengatasi outlier pada regresi adalah metode
robust . Metode robust yang akan dipakai pada tugas akhir ini adalah MM-
Estimasi dan least trimmed square (LTS) merupakan dua metode yang
mempunyai nilai breakdown point yang tinggi yaitu hampir 50%. MM-estimasi
merupakan metode robust dengan iterasi point estimasi dari model regresi. Dalam
MM-estimasi dibutuhkan iterasi awal (initial ) dan iterasi akhir ( final ). LTS
merupakan metode dengan pertama-tama menghitung h, banyak data yang
menjdikan estimasi Robust , dengan sebelumnya menyusun residual kuadrat dari
yang terkecil sampai dengan yang terbesar.
Disamping penanganan outlier pada regresi, yang lebih penting adalah
pengidentifikasian data yang menjadi outlier . Metode pengidentifikasian yang
digunakan pada tugas akhir ini adalah dengan melihat leverage, nilai discrepancy,
dan nilai influence-nya. leverage hanya menggambarkan kasus yang terjadi pada
variabel independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh
kasus tesebut dari nilai mean himpunan data variabel independen. Sedangkan
discrepancy merupakan jarak antara nilai prediksi dengan nilai observasi dari
variabel dependen (Y), yaitu ˆi iY Y , yang merupakan nilai dari residual , ie .
Pada dasarnya, nilai yang menjadi outlier menyebabkan nilai residual menjadi
-
8/16/2019 Heru Nurcahya Pst
17/87
4
besar dan tidak jatuh pada garis regresi. dan yang terakhir nilai influence
merupakan kombinasi dari ukuran leverage dan discrepancy yang
menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika
kasus ke-i dihilangkan dari himpunan data.
1.2 Permasalahan
1. Bagaimana pengidentifikasian outlier dengan menggunakan leverage,
nilai discrepancy, dan nilai influence dari data regresi.
2. Bagaimana cara mengestimasi nilai-nilai parameter model regresi
dengan adanya data outlier dengan menggunakan Least trimmed
square (LTS) dan MM-Estimasi pada data regresi tersebut.
3.
Bagaimana perbandingan model regresi yang dihasilkan dengan
menggunakan Least tr immed square(LTS) dan MM-Estimasi.
1.3 Pembatasan Masalah
Pada skripsi ini, permasalahan akan dibatasi, yaitu sebagai berikut:
1. Data outlier diasumsikan bukan berasal dari sumber kesalahan
sampling, akan tetapi data outlier tersebut merupakan kejadian yang
khusus atau jarang.
2.
Pengidentifikasian outlier menggunakan metode h-matriks untuk
mengidentifikasi nilai leverage, metode externally studentized
residual untuk mengidentifikasi nilai discrepancy, dan metode
DFFIT’S dan Cook’sD untuk mengidentifikasi niali influence.
-
8/16/2019 Heru Nurcahya Pst
18/87
5
3. Penanganan data outlier pada regresi akan digunakan metode MM-
Estimasi dan Least Trimmed Square, kemudian perbandingannya
hanya dengan melihat estimasi skala residual nya.
4. Asumsi regresi yang dipakai hanya asumsi kenormalan.
1.4 Tujuan Penulisan
1. Mengidentifikasikan data outlier dengan menggunakan leverage, nilai
discrepancy, dan nilai influence dari data regresi, sehingga diketahui
data yang menjadi outlier dari sekumpulan data regresi.
2. Mengetahui cara mengestimasi nilai-nilai model parameter regresi
dengan adanya data outlier dengan menggunakan Least trimmed
square (LTS) dan MM-Estimasi pada data regresi.
3.
Membandingkan model regresi yang dihasilkan dengan menggunakan
Least tr immed square(LTS) dan MM-Estimasi.
1.5 Manfaat Penulisan
1. Dapat mengetahui cara pengidentifikasian outlier dengan
menggunakan leverage, nilai discrepancy, dan nilai influence dari data
regresi.
2.
Dapat mengetahui pengestimasian nilai-nilai model parameter regresi
dengan adanya data outlier dengan menggunakan Least trimmed
square (LTS) dan MM-Estimasi pada data regresi.
3. Dapat mengetahui perbandingan model regresi yang dihasilkan
dengan menggunakan Least trimmed square (LTS) dan MM-
Estimasi.
-
8/16/2019 Heru Nurcahya Pst
19/87
6
BAB II
LANDASAN TEORI
2.1 Model Persamaan Regresi Linear
Analisis regresi merupakan suatu proses pencarian model matematika
terbaik yang cocok dengan data yang menghubungkan variabel dependen (juga
biasa disebut respon) dengan variabel independen (prediktor). Bentuk umum
model regresi linear adalah:
y E y 2.1
Dengan,
y = variabel dependen
y E = ekspektasi dari y.
= random error .
Model regresi di atas tidak mempertimbangkan sejumlah variabel
independen ( x) yang berkorelasi sangat kuat dengan variabel dependen (y),
dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi
y E dapat diperoleh. Sehingga y E dapat diestimasi dengan bentuk persamaan
linear, yaitu:
x y E 10 2.2
Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan:
-
8/16/2019 Heru Nurcahya Pst
20/87
7
x y 10 2.3
Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model
Linear Sederhana, karena hanya terdapat satu variabel independen dengan :
y = variabel dependen.
x = variabel independen.
y E = x10 = komponen deterministik.
0 = intercept pada sumbu y, titik potong dengan sumbu y.
1 = kemiringan dari garis regresi, yaitu sejumlah kenaikan (atau
penurunan) dari mean y untuk setiap kenaikan (atau penurunan) 1-unit x.
= komponen random error .
Jika terdapat variabel independen lebih dari satu, maka modelnya disebut
Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan
persamaan modelnya sebagai berikut :
k k x x x y .....2210 2.4
Pada Persamaan-persamaan di atas (2.3 dan 2.4) terdapat komponen
random error ( ). Distribusi dari menentukan seberapa ” bagusnya” model yang
1 2 3 4
1
2
3
4
0
1
x y E 10
x
y
Gambar 2.1 Model Regresi Linear Sederhana
-
8/16/2019 Heru Nurcahya Pst
21/87
8
menggambarkan hubungan sebenarnya antara variabel dependen y dan variabel
independen x. Ada empat asumsi yang menyangkut distribusi dari , yaitu [1] :
1. Mean distribusi probabilitas dari adalah 0. Artinya rata-rata error
pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap
pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari y,
untuk setiap nilai x yang diberikan adalah x y E 10 .
2.Variansi distribusi probabilitas dari adalah konstan untuk setiap
pengambilan variabel independen.
3.Distribusi probabilitas dari berdistribusi normal.
4. Error dari setiap dua observasi adalah independen. Artinya error dari
salah satu nilai y tidak memberikan pengaruh terhadap error dari nilai y yang lain.
Dari persamaan-persamaan di atas nilai koefisien yaitu 0 dan i (untuk i
= 1 sampai dengan k ) tidak diketahui karena merupakan nilai parameter. Oleh
karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien
tersebut.
Misalkan k Y Y Y ,....,, 21 merupakan variabel random berdistribusi normal
dengan mean masing-masing i x y E 0 , dengan i = 1, 2, ....,k , dan variansi
yang tidak diketahui 2 Misalkan akan dicari model regresi linear sederhana.
Fungsi likelihood dari variabel random k Y Y Y ,....,, 21 adalah:
k
i
ii
k
k
i
ii
x y
x y L
1
2
102
2
2
12
2
10
2
2
10
2
1exp
2
1
2exp
2
1,,
-
8/16/2019 Heru Nurcahya Pst
22/87
9
Untuk memaksimumkan fungsi 210 ,, L , atau ekuivalen dengan
meminimumkan:
2
1
2
10
22
102
2ln2
,,ln
k
i
ii x yk
L ,
harus dipilih 0 dan 1 dengan meminimumkan:
k
i
ii x y H 1
2
1010 ,
Karena y E y x y iii 10 merupakan jarak vertikal dari titik
ii y x , terhadap garis y E y . Oleh karena itu, 10 , H merepresentasikan
jumlah kuadrat tersebut. Dengan memilih 0 dan 1 sedemikian hingga jumlah
kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus
y E y mem- fitting data. Oleh karena itu, metode ini disebut Metode Least
square [1].
Untuk meminimumkan 10 , H , harus dicari
0
,
0
10
H dan
0
,
1
10
H ,
110 x y E ii y x ,
y E yi
Gambar 2.2 Garis Least Square
-
8/16/2019 Heru Nurcahya Pst
23/87
10
x yk
x y
xk y
x y H
k
i
i
k
i
i
k
i
i
k
i
i
k
i
ii
1
1
1
0
1
10
1
1
10
0
10
ˆ
0
012,
Jadi dari penurunan diatas di dapat x y 10ˆˆ , notasi ̂ merupakan
notasi estimator untuk nilai parameter , sedangkan untuk nilai 1ˆ adalah
sebagai berikut:
k
i
i
k
iii
k
i
ii
k
i
i
k
i
ik
i
i
k
i
ii
k
i
i
k
i
ik
i
k
i
i
ii
k
i
i
k
i
i
k
i
k
i
iii
k
i
iiii
k
i
iii
xk x
y xk y x
y xk y x xk x
k
x
xkarena x xk x yk x y
xk
xk x
k
xk y x y
x x x x y x y
x ykarena x x x y x y
x x y H
1
22
11
1
2
1
2
1
1
1
2
1
2
1
1
1
2
11
1
1
1
1
2
1
1
1
1 1
10
1
2
11
1
10
1
10
ˆ
0
0
0
0
02,
Jadi dari penurunan di atas nilai dari 1ˆ yang merupakan estimator dari 1
adalah
k
i
i
k
i
ii
xk x
y xk y x
1
22
11
ˆ , dengan k merupakan jumlah data sampel.
-
8/16/2019 Heru Nurcahya Pst
24/87
11
2.2 Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier
2.2.1 Sumber Outlier
Outlier adalah satu atau lebih data yang tidak biasa, yang tidak cocok dari
sebagian data lainnya (one or more atypical data points that do not fit with the
rest of the data). Outlier mungkin disebabkan karena dalam melakukan observasi
melakukan beberapa kesalahan, hal ini yang biasa disebut observasi
terkontaminasi, juga bisa outlier merepresentasikan observasi yang akurat dari
kasus yang jarang. Apapun sumber outlier , dalam beberapa kasus menyebabkan
dampak yang sangat besar dalam mengestimasi koefisien regresi , standar error ,
dan estimasi keseluruhan variabel prediktor, 2 R .[2]
Outlier muncul karena data terkontaminasi dalam beberapa cara.
Observasi yang terkontaminasi dapat dan harus diminimalisir dengan prosedur
penelitian dan pengolahan data yang hati-hati. Observasi yang terkontaminasi
disebabkan [2]:
1. Kesalahan pelaksanaan prosedur penelitian; misalnya: interviewer salah baca
dalam beberapa pertanyaan, atau eksperimenter melakukan yang salah atau
perlakuan yang kurang sempurna.
2.
Ketidakakuratan dalam pengukuran variabel dependen; misalnya peralatan
mengalami kerusakan sehingga pengukuran variabel dependen tidak akurat.
3. Kesalahan penulisan atau pengetikan data.
4. Kesalahan perhitungan dari pengukuran; mislnya peneliti kurang tepat
menghitung sejumlah variabel independen atau membuat kesalahan dalam
perhitungan dari ukuran
-
8/16/2019 Heru Nurcahya Pst
25/87
12
5. Partisipan yang kurang perhatian. Misal dala kasus tertentu, partisipan sedang
dalam keadaan lelah, sakit atau mabuk, dan tidak mampu merespon dengan
baik terhadap materi percobaan.
Tiap statistik diagnostik yang akan dibahas nanti, secara potensial dapat
menolong dalam pendeketsian data yang terkontaminasi. Ketika peneliti
mendeteksi outlier , perlakuan pertamanya adalah melihat kemungkinan bahwa
outlier merupakan data yang terkontaminasi. Data dan perhitungan harus
diperiksa keakurasiannya. Jika dapat diverifikasi bahwa outlier merupakan data
yang terkontaminasi, maka data tersebut tidak harus dimasukkan dalam
penganalisisan data. Jika memungkinkan, peneliti bisa mengganti data yang
terkontaminasi ini dengan data yang benar dari kasus yang ditelitinya, atau
menghapusnya dari himpunan data yang diteliti.
Untuk kasus yang lain, outlier dapat juga merepresentasikan data yang
valid, tidak terkontaminasi, akan tetapi outlier tersebut merupakan kasus yang
jarang dalam populasi. Ketika outlier yang dideteksi bukan data yang
terkontaminasi, maka outlier dapat diperlakukan dengan dua penekanan dalam
mengatasi outlier . Pertama, mengeliminasi pengaruh dari kasus jarang tersebut.
Kedua, outlier mungkin merepresentasikan signal yang halus dari suatu fenomena
yang sangat penting atau ketidak-tepatan dari penentuan model regresi yang telah
diujikan, dan penelitian berusaha untuk memahami kasus yang jarang ini sebagai
sesuatu yang membawa ke bentuk yang sangat penting dalam penelitian ilmiah.
-
8/16/2019 Heru Nurcahya Pst
26/87
13
2.2.2 Jenis Outlier
Analisis regresi memberikan suatu model yang menggambarkan
hubungan dari beberapa variabel independen ( i X , i = 1,2,…n) dengan variabel
dependen ( , 1,2,....,iY i n ). Model regresi tersebut didapatkan dengan
menggunkan metode estimasi kuadrat terkecil (least square estimate). Metode LS
didasarkan pada asumsi bahwa error dari model yang dihasilkan harus
berdistribusi normal. Karena dengan error berdistribusi normal metode LS
memberikan estimasi parameter yang optimal bagi model regresi tersebut [3].
Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi
tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat
satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan
beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh
karena itu, keberadaan data outlier mungkin teredapat pada arah- y atau pada arah-
x atau di keduanya.
Data outlier pada arah- y akan memberikan nilai residual r yang sangat
besar (positif atau negatif). Hal ini disebabkan karena data yang menjadi outlier
mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan
gambar (2.3.a) yang merupakan scatterplot dan garis LS dari enam titik,
1 1 6 6, ,...., , x y x y , yang hampir terletak pada suatu garis lurus (garis LS). Oleh
karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut.
Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data
outlier , yaitu4 y yang disebabkan karena ada suatu kesalahan, maka titik 4 4, x y
mungkin akan jauh dari garis ideal (garis LS). Hal ini digambarkan pada gambar
-
8/16/2019 Heru Nurcahya Pst
27/87
14
Gambar 2.3 (a). Enam data asli dan garis LS-nya. (b). Data yang
sama dengan data pada (a), tetapi dengan outlier dalam arah-y ,
yaitu4 y .
(2.3.b). titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya
(ditunjukkan dengan bulatan), dan titik ke-4 itu memberikan pengaruh yang besar
pada garis LS, yang sangat berbeda dari garis LS pada gambar (2.3.a) yaitu garis
LS tidak memberikan kecocokan terhadap ke-6 data tersebut.
Sedangkan data outlier pada arah- x, memberikan pengaruh yang sangat
besar pada estimator metode LS karena outlier pada arah- x akan membalikkan
garis LS. oleh karena itu, outlier pada arah- x disebut sebagai titik leverage [3].
Seperti ditunjukkan pada gambar (2.4.a) yang merupakan scatterplot dan garis LS
dari lima titik data 1 1 5 5, ,..., , x y x y yang hampir terletak pada suatu garis lurus
(garis LS). Misalkan dengan data yang sama akan tetapi titik 1 x adalah outlier
yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari
keadaan yang digambarkan pada gambar (2.4.a), seperti yang ditunjukkan pada
gambar( 2.4.b). Hal ini dapat dijelaskan sebagai berikut: karena1
x terletak jauh,
maka residual 1
r dari garis asal (seperti yang ditunjukkan pada gambar 2.4.a)
-
8/16/2019 Heru Nurcahya Pst
28/87
15
menjadi sangat besar (negatif), berkontribusi terhadap besarnya jumlah5 2
1 iir
untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif
LS, dan tentunya garis pada gambar (2.4.b) mempunyai nilai5 2
1 iir
yang
terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar (2.4.b) untuk
mengurangi besarnya nilai 21
r , bahkan jika keempat bentuk lainnya, 2 2 2 22 3 4 5
, , ,r r r r ,
sedikit dinaikkan [3].
Secara umum, suatu observasi ,k k x y dikatakan suatu titik leverage
ketikak
x terletak jauh dari sebagian besar data observasi i x dalam sampel. Sebagai
catatan, bahwa suatu titik leverage tidak memasukkan nilai k y ke dalam
perhitungan, jadi titik ,k k x y tidak harus perlu menjadi outlier pada regresi.
Ketika ,k k x y dekat terhadap garis regresi yang ditentukan dengan sebagian
besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus
seperti ditunjukkan pada gambar (2.5). Oleh karena itu, untuk mengatakan bahwa
,k k x y adalah suatu titik leverage hanya merujuk pada kepotensialannya
Gambar 2.4 (a). Data asal dengan lima titik dan garis LS-nya. (b).
Data yang sama dengan data (a), tetapi dengan satu data outlier
pada arah-x , yaitu 1 x .
-
8/16/2019 Heru Nurcahya Pst
29/87
16
mempengaruhi secara kuat terhadap koefisien-koefisien regresi (disebabkan
keterpencilannya komponen k x saja). Titik ,k k x y tidak harus dipandang
menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena
mungkin saja titik ,k k x y tepat pada garis yang ditentukan kecendrungannya
dengan sebagian besar himpunan data lainnya [3].
Dalam regresi berganda, 1,...,i ip x x terletak pada suatu ruang berdimensi p.
Suatu titik leverage tetap didefinisikan sebagai suatu titik 1, ..., ,k kp k x x y di mana
1,...,k kp x x merupakan titik-titik yang terpisah dari himpunan data 1,...,i ip x x .
Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar
pada koefisien regresi LS, bergantung pada nilai aktual dari .k y akan tetapi pada
situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena
dimensinya yang tinggi [3].
Gambar 2.5 Titik ,k k x y merupakan titik leverage karena k x terpencil.
Akan tetapi, ,k k x y bukan outlier regresi karena cocok dengan pola
kelineran sebagian himpunan titik data lainnya.
-
8/16/2019 Heru Nurcahya Pst
30/87
17
2.2.3 Deteksi outlier
Data outlier dapat dikenali dengan pemerikasaan visual dari data mentahnya
(raw) atau dari diagram pencar dari variabel independen dan variabel dependen.
Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier
mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu,
dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik
tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam
pendeteksian outlier . Regresi diagnostik merupakan kasus statistik, artinya
mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus
dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150
nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus
dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk
memeriksa tiga karakteristik yang secara potensial merupakan data outlier .
Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus
tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy (jarak)
antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah
influence, yang menggambarkan besaran dari perubahan koefisien regresi jika
outlier dihilangkan dari himpunan data. Secara konseptual, influence
merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini
harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari
data outlier .
-
8/16/2019 Heru Nurcahya Pst
31/87
18
1. Leverage
Leverage hanya menggambarkan kasus yang terjadi pada variabel
independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus
tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat
satu variabel independen, leverage dapat ditentukan sebagai [2]:
2
ii 2
1leverage = h
i X X M
n x
2.5
dengan hii adalah leverage kasus ke-i, n banyaknya data, X i adalah nilai untuk
kasus ke-i, M X adalah mean dari X , dan2 x merupakan jumlah kuadrat n kasus
dari simpangan X i dari meannya. Jika kasus ke-i bernilai M X , maka bentuk kedua
dari persamaan di atas akan 0 dan hii akan memiliki nilai kemungkinan yang
minimum,1
n. Misalkan kasus ke-i skor pada X menjadi jauh dan jauh dari M X ,
maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean dari
leverage untuk n-kasus dalam suatu sampel adalah 1iih
M k n , dengan k
merupakan jumlah variabel independen.
Perhitungan leverage di atas untuk kasus dengan satu variabel independen,
dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu.
Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah
seberapa jauh nilai-nilai untuk tiap k variabel untuk kasus ke-i, 1 3, ,...,i i ik X X X ,
dari centroid variabel independen, centroid merupakan mean dari data,
1 2, ,..., k M M M . Penghitungan nilai hii untuk kasus ini dengan menggunakan
persamaan [4]:
-
8/16/2019 Heru Nurcahya Pst
32/87
-
8/16/2019 Heru Nurcahya Pst
33/87
-
8/16/2019 Heru Nurcahya Pst
34/87
21
dianggap outlier dihapuskan dari himpunan data. Misalkan Yi i
nilai perediksi
kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier berkontribusi
secara substansial terhadap estimasi variansi residual sekitar garis regresi,
.residual MS Sedangkan residual i MS untuk variansi residual dengan kasus ke-i yang
merupakan outlier dihapuskan dari data. Misalkan id sebagai perbedaan antara
data asli observasi, Y , dengan nilai prediksi untuk kasus ke-i yang berasal dari
himpunan data dengan kasus ke-i dihapuskan, yaitu:
ˆi i i i
d Y Y . E xternally
studentized residuals untuk kasus ke-i, it , dihitung sebagai berikut [2]:
i
ii
d
d t
SE 2.10
Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10)
merupakan residual yang mana untuk kasus ke-i dihapuskan dan penyebut
merupakan standar error dengan kasus ke-i diahapuskan. Residual yang
dihapuskan, id , dapat dihitung dengan menggunakan residual awal, ie , yaitu
dengan
1
ii
ii
ed
h
2.11
dan nilai standar residual juga dapat dihitung dengan:
1iresidual i
d
ii
MS SE
h
2.12
jika persamaan-persamaan di atas dimasukkan ke (2.10), maka it menjadi:
-
8/16/2019 Heru Nurcahya Pst
35/87
22
1
ii
iiresidual i
et
MS h
2.13
Penentuan nilai outlier berdasarkan nilai E xternally studentized residuals
lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka
E xternally studentized residuals akan mengikuti distribusi t dengan 1df n k
[2]. Penentuan nilai cutoff – nya berdasrkan distribusi t , jika nilai it lebih besar
dari nilaitabel
t dengan derajat kepercayaan , maka data tersebut memiliki nilai
discrepancy yang besar dan dikategorikan sebagai outlier .
3. Nilai Influence
Metode yang ketiga dalam diagnostik statistik untuk mendeteksi adanya
outlier adalah dengan penentuan nilai influence. Ukuran dari influence merupakan
kombinasi dari ukuran leverage dan discrepancy yang menginformasikan
mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i
dihilangkan dari himpunan data. Dua jenis pengukuran influnece yang biasa
digunakan, pertama adalah ukuran ke-influence-an global, yaitu DFFITS dan
Cook’sD, yang memberikan informasi mengenai bagaimana kasus ke-i
mempengaruhi keseluruhan krarkteristik dari persamaan regresi. jenis yang kedua
adalah ukuran ke-influnece-an khusus, yaitu DFBETAS , yang menginformasikan
mengenai bagaimana kasus ke-i mempengaruhi tiap-tiap koefisien regresi.
umumnya, keduanya dalam pengukuran ke-influence-an harus diperiksa.
Untuk mengukur ke-influence-an global digunakan statistik DFFITS
(kependekan dari difference in fit standardized ), dan Cook’sD, seperti e xternally
studentized residuals, keduanya merupakan aspek yang membandingkan
-
8/16/2019 Heru Nurcahya Pst
36/87
-
8/16/2019 Heru Nurcahya Pst
37/87
-
8/16/2019 Heru Nurcahya Pst
38/87
25
pada persamaan (2.16) di atas memberikan nilai yang distandardisasi. Tidak
seperti DFFITS , Cook’sD akan selalu 0 , tidak bisa negatif.
DFFITS dan Cook’ sD dua ukuran yang berhubugan. Oleh karena itu,
DFFITS dan Cook’sD mempunyai persamaan matematik sebagai berikut [2]:
2
'1
residual ii
i
residual
DFFITS MS Cook sD
k MS
2.17
DFFITS dan Cook’sD merupakan statisitk dapat saling dipertukarkan,
keduanya dapat digunakan untuk memberikan informasi mengenai ke-influence-
an dari kasus i yang merupakan outlier . Penentuan kasus i sebagai outlier
berdasarkan cutoff masing-masing. Untuk DFFITS , nilai DFFITS (dengan
mengabaikan tandanya) yang besarnya 1 untuk data ukuran kecil 15n dan
sedang dideteksi sebagai outlier . Sedangkan untuk data yang ukuran besar, nilai
DFFITS 1
2 k
n
merupakan data outlier . Untuk Cook’sD digunakan nilai
cutoff 1.0 atau dengan nilai kritik dari distribusi F dengan 0.50 dan
1, 1df k n k , jika nilai Cook’sD melebihi nilai kritik dari distribusi F
dideteksi sebagai outlier [2].
BFBETASij merupakan jenis kedua dari ke-influence-an statistik yang
penting jika peneliti ingin memfokuskan pada koefisien regresi tertentu dalam
persamaannya. BFBETAS ij merupakan perbandingan koefisien-koefisien regresi
ketika kasus ke-i dimasukkan versus tidak dimasukkan pada data.
BFBETASij untuk kasus ke-i didefinisikan sebagai berikut [2]:
-
8/16/2019 Heru Nurcahya Pst
39/87
26
j i
j j i
ij DFBETAS SE
2.18
pada persamaan di atas, pembilang merupakan perbedaan dari koefisien
dengan seluruh data dimasukkan, j , dengan koefisien jika kasus ke-i
dihilangkan, j i . Penyebut, j i
SE
, merupakan standar error dari j i setelah
data ke-i dihapuskan. Pembagian dengan j i
SE
memberikan nilai yang telah
distandardisasi, gunanya untuk mengintrepretasi secara umum pengaruh dari
kasus ke-i untuk semua koefisien regresi. Tiap kasus data akan memiliki (k + 1)
BFBETAS ij yang berkorepodensi dengan tiap koefisien regresi dalam
persamaannya termasuk intercept 0 .
Penentuan kasus yang memiliki ke-influence-an yang merupakan outlier
berdasarkan BFBETAS ij adalah kasus yang memiliki 1ij DFBETAS untuk
ukuran sampel yang kecil dan sedang, sedangkan untuk ukuran sampel yang besar
ditentukan dengan cutoff 2
ij DFBETAS n
[2].
2.3 Robust Estimasi
2.3.1 M-Estimasi
Suatu estimator yang hampir baik (variansi kecil) untuk berbagai jenis
distribusi, tidak perlu yang terbaik untuk sebarang dari salah satunya., disebut
suatu Robust Estimator . yaitu suatu estimator yang dihubungkan dengan solusi
dari persamaan:
1
0n
i
i
x
2.19
-
8/16/2019 Heru Nurcahya Pst
40/87
27
1w x jika x k
k jika k x
x
Persamaan (2.19) di atas sering disebut robust M-estimator (dinotasikan
dengan ˆ ) karena persamaan (2.19) tersebut dapat dianggap sebagai maksimum
likelihood estimator . Jadi dalam menemukan suatu robust M-estimator harus
dipilih suatu fungsi yang akan memberikan suatu estimator yang baik untuk
tiap distribusi pada himpunan ruang lingkupnya.
Fungsi yang telah dikenal adalah fungsi Huber yang merupakan
kombinasi yang dihubungkan dengan distribusi normal dan distribusi
eksponensial ganda, yaitu [5]:
,
, ,
, ,
x k x k
x k x k
k k x
2.20
yang diturunkan dari fungsi x , dengan fungsi x adalah sebagai berikut
[5]:
2
22 x
x jika x k x
k x k jika x k
2.21
Fungsi x berbentuk quadratik pada pusatnya, tetapi naik secara linear
ke takterhingga seperti dapat dilihat pada gambar (2.6). M-estimasi yang
berkorespodensi dengan kasus limit k dan 0k merupakan mean dan
median. Nilai k yang dipilih adalah yang membawa ke asymptotik variansi
(keefesiensian yang diberikan) pada distribusi normal. Persamaan (2.21) di atas
mempunyai fungsi bobot:
-
8/16/2019 Heru Nurcahya Pst
41/87
28
Dengan fungsi Huber masalah lain muncul, yaitu jika digandakan tiap
1 2, ,..., ,n X X X estimator seperti X dan median juga akan ganda. Salah satu cara
dalam mengatasi kesulitan ini adalah dengan pemecahan yang lain, tetapi sama
hasilnya, yaiut dengan memecahkan persamaan:
1
0n
i
i
x
d
2.22
dengan d merupakan suatu estimasi skala yang robust . Nilai d yang sering
digunakan adalah [6]:
0.6745
i imedian x median xd
2.23
pembagi 0.675 dimasukkan ke dalam definisi Persamaan (2.23) adalah karena d
merupakan suatu estimasi yang konsisten dari jika data sampel munsul dari
distribusi normal [6]. Jadi, dapat di aproksimasi dengan d di bawah asumsi
distribusi normal.
Gambar 2.6 Fungsi Huber dan Fungsi
-
8/16/2019 Heru Nurcahya Pst
42/87
29
Skema pemilihan d juga memberikan suatu petunjuk dalam pemilihan nilai
k . karena jika data sampel muncul dari distribusi normal, maka dapat diharapkan
kebanyakan nilai-nilai1 2, , ..., n x x x memenuhi pertidaksamaan [6]:
i x
k d
2.24
kemudian [6]:
i i x x
d d
2.25
Sebagai ilustrasi, jika seluruh nilai-nilai yang memenuhi pertidaksamaan
(2.24), maka Persamaan (2.22) menjadi:
1 1
0n n
i i
i i
x x
d d
2.26
Persamaan (2.2.6) mempunyai pemecahan , x yang tentu saja yang lebih
diinginkan karena bersesuaian dengan distribusi normal. Karena d
mengaproksimasi , nilai-nilai popular dari k yang digunakan adalah 1.5 dan 2.0
[6], karena dengan pemilihan tersebut kebanyakan variable biasanya akan
memenuhi Pertidaksamaan (2.24).
Selain hal di atas, suatu proses iterasi harus selalu digunakan untuk
memecahkan Persamaan (2.22). salah satu skema yang akan digambarkan adalah
Metode Newton. Misal0
̂ merupakan estimasi awal dari , seperti
0ˆ imedian x . Aproksimasi bagian sebelah kiri persamaan (2.22) dengan
kedua awal ekspansi deret Taylor dari0
̂ untuk didapatkan:
-
8/16/2019 Heru Nurcahya Pst
43/87
30
'0 001 1
ˆ ˆ 1ˆ 0,
n ni i
i i
x x
d d d
2.27
hasil dari (2.24) memberikan estimasi yag kedua dari ,
0
1
1 0
' 0
1
ˆ
ˆ ˆ ,ˆ
ni
i
ni
i
xd
d
x
d
2.28
Persamaan (2.28) disebut langkah pertama dari M-estimasi dari , jika
digunakan1
̂ pada tempat0
̂ , didapatkan2
̂ , langkah kedua M-estiamsi dari .
Proses ini dapat berlangsun sampai mendapatkan sebarang tingkat akurasi yang
diinginkan. Dengan fungsi , penyebut pada bentuk kedua Persamaan (2.28),
yaitu:
' 0
1
ˆ
,n
i
i
xd
khususnya secara mudah dihitung karena ' 1, , x k x k dan nol
jika lainnya. Jadi penyebut tersebut merupakan penjumlahan sedehana bilangan-
bilangan1 2, ,..., n x x x sedemikian hingga 0
ˆ .i x d k
Selain fungsi dan Huber , suatu fungsi lain yang sering digunakan
juga adalah fungsi dan Bisquare, yang didefinisikan sebagai [5]:
32
1 1
1
x k jika x k x
jika x k
2.29
dengan fungsi Bisquare sebagai berikut:
-
8/16/2019 Heru Nurcahya Pst
44/87
31
3 56 12 6
1
x x x jika x k
x k k k k k k
jika x k
2.30
Fungsi pada Persamaan (2.29) dan (2.30) digambarkan pada gambar 2.7
berikut:
Disamping fungsi estimasi Bisquare yang telah didefinisikan pada
Persamaan (2.29) dan (2.30) di atas, salah satu fungsi yang serimg digunakan juga
adalah fungsi optimal, yang didefinisikan [5]:
Dan fungsi optimal didefinisikan dengan:
Gambar 2.7 Fungsi Estimasi dan Bisquare
2.31
2
2 4 6 8
2
1 2 3 4
2
3.25 3
1.792 2 3
22
xk jika
k
x x x x x x k h h h h jika
k k k k k
x x jika
k
-
8/16/2019 Heru Nurcahya Pst
45/87
32
3 5 7
1 2 3 4
0 3
2 3
2
x jika
k
x x x x x x k g g g g jika
k k k k k
x x jika
k
Dengan
1
1 1
22 2
33 3
44 2
1.944, 2
1.728,4
0.312,6
0.016,8
g
g h
g g h
g g h
g g h
2.3.2 Tr immed Mean
Pendekatan lain selain M-estimasi dalam mengestimasi lokasi pada data
yang mengandung outlier adalah Trimmed Mean. Dengan Trimmed Mean dalam
data yang mengandung outlier seolah-olah membuang bagain data yang terbesar
dan terkecilnya. Secara jelasnya, misalkan 0,1 2 dan 1m n
dengan [.] menunujukkan bagian bulatnya, dan -Trimmed Mean didefinisikan
sebagai [5]:
( )
1
1
2
n m
i
i m
x xn m
2.33
dengan i
x merupakan statistik terurut.
2.32
-
8/16/2019 Heru Nurcahya Pst
46/87
33
Trimmed Mean secara sepintas seperti menekan atau memadatkan data
observasi. akan tetapi, tidak demikian. Karena hasilnya pada akhirnya merupakan
fungsi untuk seluruh data observasi. Kasus khusus untuk 0 dan 0.5
merupakan mean sampel dan median sampel.
2.3.3 Ukuran ke-Robust -an
Tujuan dari metode robust secara kasar dapat dikatakan adalah untuk
mengembangkan estimasi yang mempunyai suatu kelakuan yang “baik” dalam
suatu “lingkungan” model.
Diantara ukuran yang mengukur ke-robust -an adalah:
1. I nfl uence Function (IF)
Sebelum mendefinisikan IF terlebih dahulu akan didefinisikan dulu kurva
sensitive ( sensitive curve (SC)), yaitu: misal0
x suatu outlier yang ditambahkan
kedalam himpunan data, maka SC dari suatu estimasi ̂ untuk titik sampel
1,...., n x x adalah perbedaan dari
1 0 1ˆ ˆ,..., , ,...,n n x x x x x ,
yang merupakan fungsi lokasi outlier 0
x
Fungsi influence dari suatu estimator merupakan suatu jenis asimptotik
dari SC yang mengaproksimasi kelakuan dari ̂ ketika data sampel yang terdapat
bagian kecil dari outlier , yang secara matematik didefinisikan sebagai [5]:
0
ˆ 00
ˆ ˆ1IF ,F lim
x F F
x
2.34
-
8/16/2019 Heru Nurcahya Pst
47/87
34
0 0
ˆ 1 F
.
dengan0 x
merupakan titik massa pada0
x , yaitu distribusi yang sedemikian
hingga 0 1 P x x dan “ ” merupakan tanda yang menyatakan limit dari
kanan. Jika terdiri dari p parameter-parameter yang tak diketahui, maka ̂
merupakan vektor p-dimensi dan begitu halnya dengan IF-nya.
Kuantitas 0
ˆ 1 x F adalah nilai asimptotik dari estimasi ketika
distribusi yang membangunnya adalah F dan bagian dari outlier sama dengan
0 x . Jadi jika kecil kuantitas tersebut dapat diaproksimasi dengan [5]:
0 ˆ 0
ˆ ˆ1 IF , x F F x F 2.35
dan bias 0ˆ ˆ
1 x F F diaproksimasi dengan ˆ 0IF , x F
IF dapat dianggap sebagai kasus khusus dari kurva sensitif, dalam
pengertian berikut: ketika ditambahkan observasi yang baru0
x terhadap sampel
1, , n x x bagian yang terkontaminasi adalah 1 1n , dan juga didefinisikan SC
yang distandardisasi, yaitu sebagai berikut:
1 1 0 1
n 0
1 1 0 1
ˆ ˆ, , , , ,SC ,
1 1
ˆ ˆ1 , , , , ,
n n n n
n n n n
x x x x x x
n
n x x x x x
2.36
yang serupa dengan Persamaan (2.34) dengan 1 1n yang
diharapkan adalah jikai
x nya i.i.d dengan distribusi F , maka
0 0SC IF , x x F untuk n yang besar dapat dibuat tepat. Misal untuk tiap 0 x ,
-
8/16/2019 Heru Nurcahya Pst
48/87
-
8/16/2019 Heru Nurcahya Pst
49/87
36
0, , dan estimasi harus tetap terbatas, dan juga terbatas jauh dari 0, dalam
pengertian bahwa jarak antara ̂ dan 0 harus lebih besar dari suatu nilai positif.
Menurut [5] suatu asimptotik kontaminasi BP dari suatu estimasi ̂ pada F ,
dinotasikan * ˆ, , F adalah nilai * 0,1 sedemikian hingga untuk * ,
ˆ 1 F G sebagai suatu fungsi dari G yang tetap terbatas, dan juga
terbatas dari batas . Definisi tersebut bermaksud bahwa terdapat suatu batas dan
himpunan yang tertutup K sedemikian hingga K (dengan
merupakan batas dari ) sedemikian hingga
*ˆ 1 dan . F G K G 2.39
-
8/16/2019 Heru Nurcahya Pst
50/87
37
BAB III
ROBUST ESTIMASI PADA REGRESI
3.1 Least tr immed square(LTS)
Sebelum membahas mengenai least trimmed square (LTS), akan
diketengahkan dahulu sifat-sifat ke-equivariant- an yang harus dimiliki oleh suatu
estimator ( penggunaan kata “equivariant ” dalam statistic merujuk pada
transformasi sebagaimana mestinya, dan kata lawannya yaitu invariant merujuk
pada kuantitas yang tetap tidak berubah), yaitu: regresi equivariant , skala
equivariant , dan affine equivariant .
Suatu estimator T disebut sebagai regresi equivariant jika memenuhi:
, ; 1,...., , ; 1,...., ,i i i i iT y i n T y i n x x v x v 3.1
dengan v merupakan sebarang vektor kolom. Suatu estimator T disebut sebagai
skala equivariant jika memenuhi:
, ; 1,...., , ; 1,...., ,i i i iT cy i n cT y i n x x 3.2
untuk sebarang konstanta c. skala equivariant menyebabkan bahwa kecocokan
secara esensial independen dari pemilihan satuan pengukuran pada variabel
respons y. Sedangakan, suatu estimator T adalah affine equivariant jika
memenuhi:
1, ; 1,...., , ; 1,...., ,i i i iT y i n T y i n x A A x 3.3
untuk sebarang matrik persegi A yang nonsingular . dengan kata-kata, affine
equivariant berarti bahwa suatu transformasi linear dari ix yang harus
-
8/16/2019 Heru Nurcahya Pst
51/87
38
mentransformasikan estimator T , karena 1ˆ .i i i y T T x x A A Hal ini
memperbolehkan penggunaan system koordinat lain dari variabel eksplanatori,
dengan tanpa mempengaruhi pengestimasian ˆi y .
Dari [3] dinyatakan suatu teorema yang menyatakan bahwa:
Teorema 3.1. Sebarang regresi equivariant dari estimator T memenuhi:
* , 2 1n T Z n p n
pada seluruh sampel Z .
Menurut [3] least trimmed square didefinisiskan sebagai:
2ˆ
1 :
minh
i i n
r
3.4
dengan sebelumnya menyusun residual kuadrat dari yang terkecil sampai dengan
yang terbesar, yaitu:
2 2 21: 2: :
...n n n n
r r r
kemudian menambahkan hanya bentuk h yang pertama dari bentuk-bentuk ini.
Dengan 2 1h n , sehingga LTS akan memiliki breakdown point yang sama
dengan 2 2n p n [Rousseeuw] dengan p merupakan jumlah variabel
independen dan notasi [] menyatakan bagian bilangan bulat terbesar yang kurang
dari atau sama dengan bilangan bulat tersebut. Selain itu, untuk
2 1 2h n p LTS yang mungkin mencapai nilai maksimum dari
-
8/16/2019 Heru Nurcahya Pst
52/87
-
8/16/2019 Heru Nurcahya Pst
53/87
40
yang merupakan selalu positif, dengan V adalah himpunan dari semua x dengan
jarak terhadap V tidak lebih dari , Andaikanθ meminimumkan (3.4) untuk Z ,
dan dinotasikan dengan H yang berkorespodensi dengan hyperplane yang
diberikan dengan persamaan . y xθ diberikan max ,i i M r dengan .i i ir y x θ
sekarang akan dikonstruksikan sebarang sampel terkontaminasi
' ' ', ; 1,....,i i Z y i n x dengan menyimpan 2 1 2n n p n p
observasi-observasi dari Z dan dengan menggantikan yang lainnya dengan nilai-
nilai yang berubah-rubah. Hal ini cukup untuk membuktikan bahwa 'θ - θ
terbatas, dengan 'θ berkorepodensi terhadap ' Z yang dinotasikan dengan H ’ , jadi
hyperpalne H ’ yang berkorespodensi merupakan hal yang berbeda dari H . tanpa
kehilangan keumumannya diasumsikan bahwa ' ,θ θ karena itu, 'H H. Dengan
teorema dimensi dari aljabar linear, irisan dari 'H H mempunyai dimensi 1. p
jika 'H H pr merupakan proyeksi vertical dari 'H H terhadap 0 , y
berdasarkan hal itu, paling banyak 1 p dariix yang bagus (bukan outlier ) dapat
terletak pada 'H H . pr
Sekarang didefinisikan A sebagai himpunan
observasi-observasi bagus yang tersisa. Sekarang misalkan sebarang ,a a yx
termasuk di A, dan a a ar y x θ dan' '.a a ar y x θ konstruksikan vertikal plane
2-dimensi Pa melalui ,a a yx dan tegak lurus terhadap 'H H . pr sebelumnya
1inf 0;terdapat suatu 1 dimensi subruang dari 0 ,sedemikian
2
hingga meliputi sekurang-kurangnya dari i
p y
p
V
V x
-
8/16/2019 Heru Nurcahya Pst
54/87
41
akan dikonstruksikan nilai residual pada Pa yaitu sebagai berikut [3]:
i i i i ir y y x θ x θ dengan tan ,i x θ dengan merupakan sudut
dalam 2, 2 yang dibentuk antara H dengan garis horizontal pada Pa . Oleh
karena itu, merupakan sudut antara garis tegak lurus terhadap H dan 0,1 ,
karena itu:
'
2
,1 0,11arccos arccos
,1 0,1 1
θ
θ θ
dan akhirnya didapat tan . θ
Berdasarkan hal itu, maka:
' ' '
'
'
tan tan
tan tan
,
a a a ar r
x θ x θ
θ θ
karena
2 2 ' ' ' 'θ - θ θ θ θ θ θ θ θ θ
berdasarkan pertidaksamaan di atas didapat:
' 2 ,a ar r
'θ - θ θ
dengana
r dan 'a
r adalah residual yang berhubungan dengan H dan H ’
berkorespodensi dengan titik , .a a yx Sekarang jumlah dari h residual kuadrat
pertama dari sampel baru Z ’ yang berhubungan dengan θ yang terdahulu, dengan
sekurang-kurangnya 1 2n p h dari residual -residual ini menjadi sama
-
8/16/2019 Heru Nurcahya Pst
55/87
42
seperti sebelumnya, yaitu kurang dari atau sama dengan 2.hM karena 'θ
berkorespodensi dengan Z ’ berdasarkan hal itu juga didapatkan
2
' ' ' 2
1 :
.h
i i
i i n
y hM
x θ
jika sekarang diasumsikan bahwa
2 1 , M h 'θ - θ θ
maka, untuk semua a di A memenuhi
' ' 2 1 ,a ar r M h θ θ θ
jadi
' ' 1 .a a a ar r r r M h M M h
Sekarang perhatikan bahwa1.n A h
oleh karena itu, himpunan h
dari ' ',i i yx harus terdiri sekurang-kurangnya satu dari , ,a a yx jadi
2 2
' ' 2
1 :
,h
i i a
i i n
y r hM
' 'x θ
suatu kontradiksi. Ini menyebabkan bahwa
2 1 M h 'θ θ θ
untuk semua sampel ' Z .
Langkah kedua adalah mendapatkan Pertidaksamaan sebaliknya yaitu
* , 2 1n T Z n p n yang segera didapatkan berdasarkan teorema 3.1
dan lemma 3.1
-
8/16/2019 Heru Nurcahya Pst
56/87
43
Cara lain menginterpretasikan Persamaan (3.5) adalah dengan mengatakan
bahwa T akan tetapi terbatas jika lebih dari 1 12
n p observasi tidak
terkontaminasi. Nilai dari h menghasilkan nilai yang maksimum dari breakdown
point. Di lain sisi, jumlah observasi yang jelek n A harus tetap kurang dari h
dan 1 A p harus sekurang-kurangnya h. nilai yang terbaik dari h adalah
kemudian diperoleh dengan meminimumkan A atas h yang terletak pada
1 A n h dan 1 , A h p yang menghasilkan 2 1 2 .h n p pada
umumnya, h mungkin bergantung pada beberapa proporsi trimming , umpanya
dengan 1 1h n p atau 1 1.h n Maka dengan
breakdown point *n sama dengan proporsi ini. Untuk mendekati 50%, maka
akan didapatkan LTS estimator, sedangkan untuk mendekati 0%, maka akan
didapatkan LS estimator [3].
Suatu LTS estimator juga akan memenuhi sifat kecocokan yang tepat,
yang dinyatakan sebagai berikut[3]:
Jika terdapat beberapa θ sedemikian hingga cenedrung ( strictly) lebih dari
12 1n p dari suatu observasi yang memenuhi i i y x θ secara tepat dan dalam
posisi yang umum, maka penyelesaian LTS sama dengan θ apapun bentuk
observasinya.
LTS mempunyai kekonvergenan1
2n
, dengan efesiensi keasimptotikan
terhadap distribusi normal seperti M -estimator yang didefinisikan dengan [3]:
-
8/16/2019 Heru Nurcahya Pst
57/87
44
1, 1 2
0, lainnya,
x x x
3.6
Persamaan (3.6) disebut tipe- Huber skipped mean dalam kasus estimasi
lokasi sama dengan yang didefinisikan pada Persamaan (2.20).
Langkah-langkah penentuan estimasi dengan menggunkan LTS
dapat dijelaskan sebagai berikut:
1. Bentuk subsampel dengan tiap subsampel ini terdiri dari
h observasi.
2. Untuk tiap subsampel dihitung:
3. Hitung jumlah kuadarat dari tiap subsampel:
4. Solusi yang dipilih adalah yang memberikan nilai paling
kecil.
1n h
1
:
1
1
:
1
1
.
.
.1
h
i n
i
nn h
i n
i n h
y yh
y yh
21 1
:
1
21 1
:
1
.
.
.
h
i n
i
nn h n h
i n
i n h
SQ y y
SQ y y
j y
jSQ
-
8/16/2019 Heru Nurcahya Pst
58/87
45
3.2 MM-Estimasi
Pendekatan estimasi robust regresi dengan ix dan i y yang mungkin
terdapat outlier adalah dengan menggunkan suatu M-estimasi ˆ yang
didefinisikan sebagai [5]:
1
ˆ
minˆ
ni
i
r
3.7
dengan suatu yang terbatas dan suatu permulaan skala ̂ yang memliki
breakdown point yang tinggi. Skala ̂ akan dibutuhkan untuk memenuhi syarat-
syarat tertentu yang akan didiskusikan kemudian. Jika mempunyai turunan ,
maka,
0
0ˆ
ni
i
i
r
x 3.8
dengan adalah redescending (non-monoton). Menyebabkan pengestimasian
pada Persamaan (3.7) mungkin memiliki banyak solusi dikarenakan memiliki
minum lokal dari fungsi pada sisi kiri Persamaan (3.7), dan umumnya hanya satu
solusi (solusi terbaik) yang menyebabkan minimum global dari ˆ yang
didefinisikan pada (3.7). salah satu metode yang digunakan untuk
mengaproksimasi ˆ yang didefinisikan pada (3.7) adalah metode MM-estimasi.
Metode MM-estimasi didefinisikan kedalam tiga langkah. Langkah
pertama adalah menghitung estimasi ˆ *β yang memiliki breakdown point yang
tinggi, misalnya LTS atau least median square (LMS) . dalam langkah pertama ini
-
8/16/2019 Heru Nurcahya Pst
59/87
46
tidak diperlukan robust estimator yang efesien. Langkah kedua adalah
menghitung suatu M-estimasi skala ˆ dengan 50% breakdown point yang
dihitung dari residual *ˆir β dari estimasi robust yang cocok pada langkah awal.
Langkah terakhir, mencari solusi dari persamaan (3.8), yang memenuhi:
*ˆ ˆS S β β 3.9
dengan
1
ˆ
ˆ
ˆ
ni
i
r S
Sekarang akan dijelaskan secara detail langkah-langkah di atas. Estimasi
awal yang robust 0ˆ harus regresi, skala dan affine equivariant yang telah
didefinisikan di subbab 3.1 di atas, yang memastikan bahwa memberikan sifat-
sifat yang sama. Salah satu estimasi yang akan dibahas adalah estimasi
berdasarkan pada robust skala residual . Yang didefinisikan sebagai berikut: misal
ˆ ˆ r merupakan suatu skala equivariant dari robust estimasi skala yang
berdasarkan pada suatu vektor residual
1 ,..., .nr r r 3.9
Maka suatu regresi esrimasi dapat difenisikan sebagai:
ˆ ˆmin .
r 3.10
-
8/16/2019 Heru Nurcahya Pst
60/87
47
Estimasi demikian merupakan regresi, skala, dan affine equivariant , dan
disebut sebagai S-Estimasi [3].
Sebaraan ̂ r didefinisikan sebagai solusi dari [3]:
1
1
ˆ
ni
i
r K
n
3.11
Dengan K disamakan dengan , E dengan merupakan normal
standar. Dengan fungsi harus memenuhi kondisi di bawah ini [5]:
(S1). merupakan simetrik dan terdiferensial secara kontinu, dan
0 0.
(S2). Terdapat 0c sedemikian hingga merupakan cendrung naik pada
0,c dan konstan pada , .c
Jika terjadi lebih dari satu penyelesaian pada (3.11), maka jadikan
̂ r sama dengan supremum dari himpunan penyelesaiannya; ini artinya
ˆ ˆ ˆsup ; 1 .in r K r jika tidak terdapat penyelesaian pada
(3.11), maka jadikan ̂ r = 0.
Karena kondisi (S2), ' x x akan selalu nol dari nilai x tertentu,
jadi merupakan fungsi redescending . Fungsi yang demikian contohnya adalah
fungsi Biweight Tuckey’s yang didefinisikan [5]:
2 4 6
2 4
6
untuk2 2 6
untuk .6
x x x x c
c c x
c x c
3.12
-
8/16/2019 Heru Nurcahya Pst
61/87
48
Persamaan (3.12) sama dengan yang dinyatakan pada Persamaan (2.29),
fungsi yang lain yang bisa digunakan adalah fungsi yang dinyatkan pada (2.31)
Untuk menunjukkan breakdown point dari S -estimator adalah 50%, di
mana suatu kondisi tambahan pada fungsi dibutuhkan, yaitu:
(S3).
1
2
K
c
Kondisi ini mudah dipenuhi. Pada kasus (3.27) dengan , K E
diterima dengan menggunkan 1.547c .
Berikut adalah lemma dan beberapa teorema yang diturunkan dari (S1)
sampai dengan (S3), yaitu sebagai berikut:
Lemma 3.3.1. untuk tiap memenuhi kondisi (S1)-(S3) dan untuk tiap n,
terdapat konstanta positif dan sedemikian hingga estimator ̂ yang
diberikan (3.11) memenuhi:
1i
ˆmed ,..., med .i n ii
r r r r
Di sinii
med atau 1ˆ ,..., nr r mungkin nol.
Teorema 3.3.1. untuk setiap yang memenuhi (S1)-(S3), selalu terdapat suatu
solusi terahadap (3.25).
Teorema 3.3.2. suatu S -estimator yang dibentuk dari suatu fungsi yang
memnuhi (S1)-(S3) memiliki breakdown point
* 2 2n n p n
-
8/16/2019 Heru Nurcahya Pst
62/87
49
untuk sebarang sampel , ; 1,....,i i y i nx dalam posisi umum.
Teorema 3.3.2 menyebabkan bahwa jika terdapat beberapa β sedemikian
hingga sekurang-kurangnya 2 1n n p dari titik-titik yang memenuhi
i i y x β secara tepat dan pada posisi yang umum, maka S -estimasi untuk vektor
regresi akan sama dengan β apapun observasi yang lainnya.
Jika kondisi (S3) diganti dengan
,
K
c
dengan 12
0 , maka S -estimator yang berkorespodensi mempunyai
breakdown point cendrung terhadap * ketika n . Jika hal itu
diasumsikan bahwa K E dalam usaha untuk mendapatkan suatu estimasi
skala yang konsisten terhadap residual yang terdistribusi normal. Disamping
resistansinya yang tinggi terhadap data yang terkontaminasi , S -estimator juga
berkelakuan baik ketika data tidak terkontaminasi. Untuk melihat hal ini, akan
dilihat keasimptotikan kelakuan S -estimator pada model Gaussian, dengan
,i i yx merupakan variabel random i.i.d yang memenuhi
0 ,i i i y e x β 3.13
ix mengikuti suatu distribusi H , dan ie independen terhadap ix dan berdistribusi
0e untuk 0 0 . Sebelum melihat keasimptotikan kenormalan dari S -
estimasi akan diketengahkan dulu teorema yang menjamin kekonvergenan dari
estimator S -estimasi, yaitu sebagai berikut:
-
8/16/2019 Heru Nurcahya Pst
63/87
50
Teorema 3.3.3. misal merupakan suatu fungsi yang memenuhi (S1) dan (S2),
dengan turunan ' . asumsikan bahwa:
1. u u tidak naik untuk 0u ;
2. , H E x dan H merupakan suatu kepadatan.
Misal ,i i yx i.i.d yang yang memenuhi model pada (3.28), dan misalkan
ˆnβ merupakan penyelesaian dari (3.25) untuk titik n yang pertama, dan
1 ˆ ˆˆ ˆ ,...., .n n n nr r β β jika n maka
0. .
ˆn
a sβ β
dan
0. .
ˆn
a s
dengan a.s. menyatakan selalu konvergen (absolutely converge).
Selanjutnya akan ditunjukkan keasimptotikan kenormalan dari S -
estimator, yang dinyatakan dalam sebuah teorema, yaitu sebagai berikut:
Teorema 3.3.4. dengan tanpa kehilangan keumumannya misalkan 0 0β dan
0
1 . Jika kondisi dari teorema 3.3.3 terpenuhi dan
1. terdiferensial pada seluruh titik tetapi terhingga, maka ' dan
' 0;d
2.
E t
H x x merupakan nonsingular dan
3, E
H x maka:
-
8/16/2019 Heru Nurcahya Pst
64/87
51
12
212 '
0n 0,n N E d d
tβ β x xL
dan
12
2
0 2n 0, .n
y E d y N
y y d y
L
Karena teorema 3.3.4, maka dapat dihitung keasimptotikan keefisiensian e
dari S -estimator yag berasal dari fungsi yang didefimisikan pada (3.12) untuk
nilai-nilai breakdown point * yang berbeda-beda. Seperti yang ditunjukkan pada
table di bawah ini:
Tabel 3.3.1. Efisiensi Asimptotik S -Estimator untuk Nilai-nilai*
yang Berbeda-beda, dengan Menggunakan Fungsi Biweight Tuckey’s
* e c K
50% 28.7% 1.547 0.199545% 37.0% 1.756 0.2312
40% 46.2% 1.988 0.2634
35% 56.0% 2.251 0.2957
30% 66.1% 2.560 0.3278
25% 75.9% 2.937 0.3593
20% 84.7% 3.420 0.3899
15% 91.7% 4.096 0.4194
10% 96.6% 5.182 0.4475
Dari tabel 3.3.1 di atas terlihat bahwa nilai-nilai c yang lebih besar dari
1.547 menghasilkan keasimptotikan efisiensi yang bagus terhadap model utama
Gaussian, tetapi mempunyai breakdown point yang kecil.
-
8/16/2019 Heru Nurcahya Pst
65/87
52
BAB IV
APLIKASI MODEL
4.1 Aplikasi Pada Regresi Sederhana
Data yang digunakan adalah data perusahaan asuransi pensiunan Belanda
dari 18 cabang perusahaan. Data ini terdiri dari data yaitu: pendapatan premi yang
merupakan variabel independen dan premi cadangan yang merupakan variabel
dependen.[3]
Data terlampir pada lampiran I.
4.1.1 Pemeriksaan Outlier
Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu
apakah dalam data tersebut terdapat outlier pada arah-y atau arah-x atau ada pada
keduanya.
a. Pemeriksaan Leverage
Leverage disebabkan adanya data outlier pada arah-x, deteksi yang digunakan
adalah dengan melihat nilai hii dan dengan membandingkan nilai centroid nya.
Data yang lebih besar dari nilai centroid (mean) variabel independen dan nilai hii
yang melebihi nilai cutoff 3 1k n dengan k merupakan banyaknya variabel
independen dan n adalah banyaknya data, digolongkan sebagai data yang tidak
biasa (outlier ). Mean dari data dana pensiun adalah 176.0222, dan nilai cutoff dari
nilai h adalah 0.33. untuk data dana pensiun didapatkan lima data pertama dari
nilai centroid dan nilai-nilai h-nya ditabelkan pada 4.2, sebagian data lainnya
dilampirkan.
-
8/16/2019 Heru Nurcahya Pst
66/87
53
Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-x
Untuk menentukan mana yang menjadi nilai leverage akan dihipotesisikan
bahwa
H0:ℎi ≤ ,
H1:ℎ > ,
Dari perhitungan didapatkan bahwa data ke-18 mempunyai h18 yaitu
0.873729, melebihi nilai cutoff-nya yaitu 0.33. oleh karena itu, H0 ditolak utnuk
data ke-18, artinya data ke-18 merupakan outlier . sedangkan untuk sisa data yang
lain nilai dari hi kurang dari nilai cutoff yang ditentukan. Pemeriksaan data outlier
dengan penntuan nilai hi dilampirkan. Untuk lebih jelasnya disajikan gambar
(4.1), yang menyajikan leverage dan variabel independen
No x y centroid h ii cutoff
1. 10.4 272.2 176.02 0.070383 0.33
2. 15.6 212.9 176.02 0.069467 0.33
3. 16.2 120.7 176.02 0.069363 0.33
4. 17.9 163.6 176.02 0.069071 0.33
5. 37.8 226.1 176.02 0.065883 0.33
x
l e v e r a g e
1400120010008006004002000
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
index plot leverage Vs. data independen
Gambar 4.1 indeks plot leverage Vs. data variabel
-
8/16/2019 Heru Nurcahya Pst
67/87
54
b. Pemeriksaan Outlier pada Arah-y (Nilai Discrepancy)
Nilai discrepancy merupakan jarak antara nilai prediksi dengan nilai
observasi variabel dependen, yaitu ˆi iY Y , yang merupakan nilai dari residual ,
ie . nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak
jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan
dua metode yaitu Internally Studentized Residuals dan Externally Studentized
Residuals. Pemeriksaan data outlier pada arah-y pada tugas akhir ini hanya akan
digunakan dengan metode Externally Studentized Residuals (t i). Penentuan nilai
outlier berdasarkan nilai E xternally studentized residuals berdasarkan Penentuan
nilai cutoff – nya yang mengikuti distribusi t dengan 1.df n k jika nilai it
lebih besar dari nilai tabel t dengan derajat kepercayaan 2 , maka data tersebut
memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier . Dan
diberikan hipotesis:H0:− ≤ ≤ , 晦
H1: >
-
8/16/2019 Heru Nurcahya Pst
68/87
55
Dari tabel 4.3 di atas nilai Externally studentized residuals yang lebih dari
ttabel adalah data ke-15 dan data ke-18 dengan masing-masing nilai Externally
studentized residuals adalah 3,058 dan -4,90717. Oleh karena itu, H0 pada kedua
data ini ditolak artinya kedua data tersebut merupakan outlier .
Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak
Cook’s dan DFFITS (kependekan dari difference in fit standardized ), yang
digunkan untuk mendeteksi adanya outlier yang menjadi nilai influence. Ukuran
dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang
menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika
kasus ke-i dihilangkan dari himpunan data. Penentuan nilai DFFITS dan Cook’s.
Jika nilai DFFITS dan Cook’s 1 atau < -1 maka dikategorikan sebagai outlier .
Pendeteksian outlier dengan DFFITS dan Cook’s menghasilkan data ke-18
sebagai outlier ke-18 sebagai outlier dengan nilai DFFITS = -12.9082 yang
kurang dari nilai cutoff , -1, dan Cook’s distance = 34.1087 yang lebih dari nilai
cutoff , 1, untuk pendeteksian data yang lainnya terlampir.
Dari pendeteksian leverage, nilai discrepancy, nilai DFFITS dan Cook’s
didapatkan data outlier yaitu: data ke-15 yang merupakan outlier pada arah-y dan
data ke-18 yang merupakan nilai leverage dan yang meberikan nilai influence
terhadap model regresi.
4.1.2 Analisis Regresi
a. Metode Least Square
Penerapan metode least square pada data dana pensiun dari perusahan
asuransi Belanda di atas menghasilkan persamaan model:
ˆ= 632.301 + 5.018 y x (4.1)
-
8/16/2019 Heru Nurcahya Pst
69/87
56
RESI1
P e r c e n t
200010000-1000-2000
99
95
90
80
70
60
50
40
30
20
10
5
1
Mean
-
8/16/2019 Heru Nurcahya Pst
70/87
57
0 200 400 600 800 1000 1200 1400
x
0
4000
8000
12000
y
Gambar 4.4 Garis LTS untuk Data Dana Pensiunan
Distribusi dari residual data pensiunan tidak memenuhi asumsi kenormalan.
Hal ini dapat ditunjukkan dengan gambar (4.3) dan dengan uji kenormalan
kolomorgov-semirnov, nilai dari P -value bahwa data normal hanya 0.001, kurang
dari tingkat siginfikansi = 0.05. oleh karena itu, persamaan tersebut tidak dapat
digunakan untuk analisis regresi dari data dana pensiunan dari ke-18 cabang
perusahaan asuransi Belanda.
b. metode Least Tr immed Square(LTS)
Analisis regresi untuk data dana pensiunan karena tidak dapat menggunakan
metode LS, maka akan digunakan metode lain yang Robust terhadao kehadiran
outlier yaitu data ke-15 dan data ke-18. Persamaan model yang didapatkan dari
metode LTS adalah:
ˆ =181.6062+8.9183 y x (4.2)
Persamaan dari (4.2) dapat digambarkan sebagai berikut:
-
8/16/2019