influence diagnostic

24
Influence Diagnostics Diagnosa Pengamatan Berpengaruh Suliadi,PhD Program Studi Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam Bandung 1 Pendahuluan Analisis regresi merupakan salah satu metode statistika yang paling terkenal dan mungkin paling banyak digunakan. Dalam analsis regresi, ingin ketahui hubungan fungsional antara sekelompok peubah (yang biasanya disebut dengan peubah bebas/independen) dengan peubah lainnya (yang biasanya disebut peubah tak bebas. Bentuk hubungan ini biasanya dinyatakan dalam y = f (x, β )+ ε = β 0 + β 1 x 1 + β 2 x 2 + ··· + β k x k + ε. atau dalam notasi matrik: y = + ε dengan β =(β 0 1 ,...,β k ) T . Yang menjadi perhatian utama dalam model di tersebut adalah bagaimana kita menduga parameter-parameter β 0 1 ,...,β k ) yang tidak lain merupakan koefisien dari intersep dan peubah bebas x 1 ,x 2 ,...,x k atau β dalam notasi matrik. Metode yang paling umum dipergunakan adalah metode kuadrat terkecil (MKT, OLS: ordinary least square ). Dugaan bagi β dengan MKT adalah β ˆ = ˆ β = b =(X T X ) -1 X T y. (1) 1

Upload: tantri

Post on 14-Jan-2016

70 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Influence Diagnostic

Influence Diagnostics

Diagnosa Pengamatan Berpengaruh

Suliadi,PhD

Program Studi Statistika

Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Islam Bandung

1 Pendahuluan

Analisis regresi merupakan salah satu metode statistika yang paling terkenal dan mungkin

paling banyak digunakan. Dalam analsis regresi, ingin ketahui hubungan fungsional

antara sekelompok peubah (yang biasanya disebut dengan peubah bebas/independen)

dengan peubah lainnya (yang biasanya disebut peubah tak bebas. Bentuk hubungan ini

biasanya dinyatakan dalam

y = f(x, β) + ε

= β0 + β1x1 + β2x2 + · · ·+ βkxk + ε.

atau dalam notasi matrik:

y = Xβ + ε

dengan β = (β0, β1, . . . , βk)T . Yang menjadi perhatian utama dalam model di tersebut

adalah bagaimana kita menduga parameter-parameter β0, β1, . . . , βk) yang tidak lain

merupakan koefisien dari intersep dan peubah bebas x1, x2, . . . , xk atau β dalam notasi

matrik. Metode yang paling umum dipergunakan adalah metode kuadrat terkecil (MKT,

OLS: ordinary least square). Dugaan bagi β dengan MKT adalah

β=β = b = (XTX)−1XTy. (1)

1

Page 2: Influence Diagnostic

Dalam analisis regresi dengan menggunakan metode kuadrat terkecil (OLS, MKT)

adalah Asumsi yang perlu diperiksa

• Galat ε berdistribusi normalan sisaan dengan nilai tengah nol, E(εi) = 0.

• Ragam/varian dari galat homogen (homoskedastis). Ini dapat dinyatakan sebagai

Var(ε) = σ2I atau Var(ε1) =Var(ε2)=· · ·=Var(εn) = σ2

• Tidak ada autokorelasi diantara sisaan (hanya untuk time series data). Ini juga

dapat dinyatakan dalam bentuk kovariannya: Cov(εi, εj) = 0, untuk i 6= j.

• Tidak ada masalah multikolinier (hanya untuk multiple regression)

Dalam suatu analisis regresi, kita mungkin akan berhadapan dengan suatu penga-

matan yang agak aneh dalam arti bahwa pengamatan tersebut memberikan sisaan yang

besar atau pengamatan tersebut memberikan pengaruh yang besar terhadap koefisien

regresi hasil dugaan kita. Untuk itu kita perlu melakukan inspeksi ada tidaknya penga-

matan yang termasuk kategori pencilan (outlier) dan juga pengamatan yang sangat

berpengaruh.

Untuk mendeteksi pengamatan berpengaruh, kita bisa menggunakan dua ukuran

sebagai alat bantu, yaitu (i) pencilan (outlier) (ii) pengamatan berpengaruh.

1.1 Hat matrik

Vektor dugaan bagi y adalah

y = Xβ = Xb = X(XTX)−1XTy = Hy

di mana H = X(XTX)−1XT .

Matrik H ini disebut sebagai matrik hat (hat matrix) atau matrik proyeksi. Disebut

sebagai matrik proyeksi karena matrik ini akan memproyeksikan vektor pengamatan y

ke dalam ruang pendugaan y. Matrik hat ini memegang peranan penting dalam analisis

residual dan juga analisis pengamatan berpengaruh (influence diagnostics).

Sifat-sifat matrik hat adalah:

2

Page 3: Influence Diagnostic

1. Simetris: HT = H (buktikan)

2. Idempoten H.H = H (buktikan)

3. HX = X (buktikan)

4. Jumlah unsur-unsur diagonal matrik H adalah p, Trace(H)=∑n

i=1 hii = p, di mana

p banyaknya kolom matrik X. Jika banyaknya peubah bebas adalah k dan model-

nya ada intersep, maka p = k + 1.

5. Nilai hii = xTi (XTX)−1xi tidak lain adalah jarak antara peubah bebas pengamatan

ke-i dengan rata-ratanya, atau jarak xi ke x. Nilai hii ini disebut sebagai leverage.

Semakin besar nilai hii mengindikasikan semakin jauhnya x pengamatakan ke-i

dari kumpulannya. Hal ini mengindikasikan sebagai pencilan, tetapi bukan dari

sudut pandang peubah respon (y) (Ruang Y), akan tetapi dari sudut pandang

ruang peubah bebas (Ruang X). Jadi jika hii besar menunjukkan adanya pencilan

dari ruang X (ruang peubah bebas).

6. Jika model regresi kita mengandung konstanta/intersep, maka 1n≤ hii ≤ 1.0.

Leverage (hii) dapat dijadikan indikator terhadap pengamatan berpengaruh. Hal ini

disebabkan hii mengukur jarak (terstandarkan) dari pengamatan semua peubah bebas

terhadap rata-rata semua peubah bebas. Nilai hii besar menunjukkan bahwa peubah be-

bas pengamatan ke-i jauh dari kumpulannya, sehingga berpotensi menjadi pengamatan

yang berpengaruh. Jadi nilai hii yang besar tidak menjadi jaminan bahwa pengamatan

ke-i tersebut adalah pengamatan yang berpengaruh. Perhatikan Gambar 1.1 terkait den-

gan high leverage point. Perhatikan titik pengamatan A pada gambar (a). Pengamatan

ini memiliki leverage (hii) yang besar karena jika dilihat pada sumbu X (ruang peubah

bebas) pengamatan ini jauh dari kumpulannya. Pengamatan B pada gambar (b) juga

merupakan high leverage point, sebab dilihat daru ruang X, pengamatan ini juga jauh

dari kelompoknya.

Meskipun kedua pengamatan tersebut adalah high leverage point, tetapi sifatnya

bebeda. Pengamatan A bukanlah pengamatan yang berpengaruh sebab ada atau tidaknya

3

Page 4: Influence Diagnostic

Figure 1: High Leverage Point

Figure 2: Efek High Leverage Point

pengamatan A tidak mengubah garis regresi secara drastis. Sedangkan pengamatan B

adalah pengamatan berpengaruh. Hal ini disebabkan jika pengamatan B tidak diikut-

sertakan dalam pendugaan / penaksiran parameter regresi, maka koefisien regesi hasil

pendugaan kita akan berubah drastis (lihat Gambar 1.1)

1.2 Sisaan dalam notasi hat matrik

Dengan model untuk populasi y = Xβ + ε, maka model untuk sampelnya adalah

y = Xb+ e,

4

Page 5: Influence Diagnostic

di mana b = (XTX)−1XTy. Sedangkan y = Xb = Hy . Dengan menggunakan hat

matrik di atas maka

e = y − y (2)

= y −Hy (3)

= (I −H)y (4)

Sifat-sifat matrik I −H adalah:

1. Simetris: (I −H)T = (I −H) (buktikan)

2. Idempoten (I −H).(I −H) = (I −H) (buktikan)

3. (I −H)X = 0

4. Var(e)=σ2(I − H). Dengan kata lain, Var(ei)=σ2 · (1 − hii) di mana hii adalah

diagonal ke-i matrik H. Perhatikan hasil ini. Meskipun kita asumsikan bahwa

ragam error (galat, ε) adalah homogen, ternyata sisaan ragamnya tidak homogen,

tetapi tergantung kepada nilai hii.

5. Cov(ei, ej)=σ2 · (−hij) untuk i 6= j, dengan kata lain ada korelasi antara ei dengan

ej dan ini bertentangan dengan asumsi regresi MKT.

2 Macam-macam Sisaan

Sisaan atau residual, ei adalah selisih antara pengamatan dengan nilai dugaan atau (yi−

yi). Sisaan memagang peranan penting dalam analisis regresi. Meskipun sisaan tidak ada

gunanya dalam prediksi maupun dalam model, akan tetapi sisaan dapat dipergunakan

untuk melihat berbagai hal:

1. melihat ketepatan model

2. melihat apakah ada asumsi-asumsi regresi MKT yang dilanggar

3. perlunya tindakan tertentu, seperti pengecekan data, maupun transformasi yang

diperlukan.

5

Page 6: Influence Diagnostic

Ada tiga jenis sisaan yang biasa dipakai, yaitu sisaan biasa (ordinary residual) dan

biasa dikenal dengan ”sisaan” saja, yang dinotasikan dengan

ei = yi − yi.

dengan V ar(ei) = S2(1− hii). Oleh karena kita tidak tepat membandingkan apakah ei

dengan ej sebab ragam/varian dari ei dengan ej tidak sama. Oleh karena itu dalam mem-

bandingkan sisaan dan juga plot sisaan sebaiknya menggunakan sisaan yang dibakukan

yang disebut juga dengan standardized residual atau studentized residual, yang diny-

atakan dengan

ri =ei

s√

1− hii. (5)

Karena itu sekarang semua studentized residual ini (semua ri: r1, r2, . . . , rn) mempunyai

nilai tengah (rata-rata) sama dengan nol dan ragam sama dengan satu. Dengan demikian

kita bisa membandingkan apakah sisaan tersebut sama atau tidak, yang satu lebih besar

dari yang lain, dengan membandingkan studentized residual ini. studentized residual ini

tidak mempunyai skala, sehingga kita bisa membandingkan satu sama lainnya. Meskipun

rumus ri sama dengan rumus t-hitung, ri tidak berdistribusi t-student, tetapi hampir

mendekati distribusi t-student.

Kelemahan dari studentized residual di atas adalah bahwa studentized residual tidak

berdistribusi t-student, sehingga kita tidak dapat menguji apakah suatu ri termasuk

kategori pencilan atau tidak.

Ukuran sisaan lainnya adalah studentized deleted residual yang juga dikenal sebagai

R-student, yang dinyatakan sebagai

ti =yi − yi

s−i√

1− hii, (6)

di mana

s−i =

√(n− p)s2 − e2i /(1− hii)

n− p− 1. (7)

Besaran ti ini berdistribusi t-student dengan derajat bebas (n-p-1). Oleh karena itu

untuk melihat apakah pengamatan (observasi) ke-i menghasilkan pencilan atau tidak

adalah dengan membandingkan ti dengan tabel t-student, dengan kriteria

6

Page 7: Influence Diagnostic

• Pengamatan ke-i adalah pencilan jika |ti| ≥ t(1−α2,n−p−1);

• Pengamatan ke-i adalah bukan pencilan jika |ti| < t(1−α2,n−p−1);

2.1 Panduan deteksi pengamatan yang tak biasa

Dalam pendeteksian pengamatan yang tidak biasa (unusula observation) kita bisa meng-

gunakan dua besaran yaitu pencilan (outlier) dan high leverage.

Pada bagian 2 di atas, untuk mendeteksi apakah suatu pengamatan merupakan pen-

cilan atau tidak adalah dengan menggunakan besaran studentized deleted residual, ti.

Nilai ti yang besar ini berpotensi sebagai pengamatan yang berpengaruh. Sedangkan

untuk melihat pengamatan yang tidak biasa dalam ruang X atau ruang peubah bebas,

kita bisa menggunakan leverage yaitu hii. Nilai hii yang besar berarti pengamatan terse-

but termasuk pencilan dalam ruang pebuah bebas atau ruang X. Patokan yang dapat

dipergunakan adalah jika hii > 2p/n, maka pengamatan tersebut merupakan pencilan

(dilihat dalam ruang X), dan perlu diwaspadi karena berpotensi sebagai pengamatan

yang berpengaruh. Sedangkan jika hii ≤ 2p/n maka pengamatan tersebut bukan meru-

apakan pencilan dalam ruang X.

Yang perlu digarisbawahi adalah (Myers, 1990 p.254)

a Pencilan (outlier) tidak selalu merupakan pengamatan yang berpengaruh, dan ter-

gantung pada besarnya leverage

b Pengamatan dengan leverage yang besar tidak selalu merupakan pengamatan berpen-

garuh.

c Pengamatan yang berpengaruh tidak selalu merupakan outlier.

3 Pengamatan Berpengaruh

Dalam pendugaan parameter model regresi, kondisi idealnya adalah bahwa semua penga-

matan memberikan pengaruh yang sama besar terhadap nilai dugaan parameter. Akan

tetapi falam praktek, sering kali kita temui satu pengamatan atau beberapa pengamatan

7

Page 8: Influence Diagnostic

Figure 3: Pengamatan dengan high leverage (a) dan (b) pengamatan pencilan (outlier)

memberikan pengaruh besar terhadap model regresi. Pengamatan yang besar pengaruh-

nya ini mungkin disebabkan oleh adalah pencilan. Meskipun demikian, pencilan yang

besar tidak selalu menjadikan pengamatan tersebut sebagai pengamatan yang berpen-

garuh. Perhatikan gambar berikut ini (Gambar 3). Pada Gambar 3 di atas, gambar (a)

ada satu titik dengan nilai leverage yang sangat besar. Pengamatan ini sangat menen-

tukan besarnya nilai dugaan β. Jika titik ini dibuang, maka model persamaan dugaan

akan berubah secara drastis.

Perhatikan gambar (b). Pada gambar (b) ada satu pengamatan dengan sisaan yang

besar, yang kita kenal sebagai pencilan (outlier). Meskipun pengamatan tersebut terma-

suk pencilan, akan tetapi pengaruh dari pengamatan tersebut terhadap β kecil, sehingga

pengamatan pada gambar (b) tidak termasuk pengamatan yang berpengaruh. Lantas

apa yang dimaksud sebagai pengamatan yang berpengaruh dan bagaimana cara kita

mendeteksinya?

Perhatikan Gambar ??. Termasuk kategori outlier, high leverage ataukah keduanya

titik-titik A, B, dan C? Jika titik-titik tersebut dibuang, apa yang akan terjadi? Apakah

koefesien regresi akan berubah drastis atau tidak?

Untuk memahami konsep pengamatan berpengaruh sebenarnya sederhana. Pada

kondisi yang ideal, semua pengamatan akan memberikan kontribusi yang sama (hampir

sama). Oleh karena itu, jika semua pengamatan pengaruhnya hampir sama, maka jika

ada satu pengamatan dibuang, maka efek terhadap dugaan β dan yi juga akan kecil.

8

Page 9: Influence Diagnostic

Figure 4: Berbagai Kemungkinan Pengamatan dengan high leverage dan pencilan (out-

lier)

Jika suatu pengamatan pengaruhnya besar, maka kalau pengamatan tersebut dibuang

(tidak diikutsertakan dalam penaksiran β) maka ada perbedaan yang besar antara β

yang penaksirannya memasukkan data tersebut, dengan β yang penaksirannya tanpa

memasukkan pengamatan yang bersangkutan.

3.1 Konsep deleted observation

Untuk mengetahui apakah pengamatan ke-i termasuk pengamatan berpengaruh atau

tidak, kita bisa melakukannya dengan melihat apakah ada perbedaan besar antara hasil

regresi dengan data full dengan regresi tanpa pengamatan ke-i. Untuk memudahkan,

kita akan menggunakan notasi-notasi berikut ini.

Dari analisis regresi dengan data full, kita akan memperoleh

yi : nilai dugaan untuk pengamatan ke-i

bbb : vektor koefisien regresi bbb = (b0, b1, . . . , bk)T

bj : koefisien regresi peubah bebas ke-j

ei : sisaan pengamatan ke-i = yi − yis : simpangan baku

Sedangkan regresi tanpa pengamatan ke-i atau pengamatan ke-i tidak diikutsertakan

dalam penaksiran/pendugaan parameter regresi:

9

Page 10: Influence Diagnostic

yr,−i : nilai dugaan untuk pengamatan ke-r dengan menggunakan model yang diperoleh tanpa pengamatan ke-i

bbb−i : vektor koefisien regresi bbb−i = (b0,−i, b1,−i, . . . , bk,−i)T yang diperoleh tanpa pengamatan ke-i

bj,−i : koefisien regresi peubah bebas ke-j yang diperoleh tanpa pengamatan ke-i,

er,−i : sisaan pengamatan ke-r, jika penaksiran model tanda data ke-i = yr − yr,−i

s−i : simpangan baku yang diperoleh dari regresi tanpa data ke-i

Jadi untuk melihat apakah setiap pengamatan, yaitu pengamatan ke-1, pengamatan

ke-2, · · · , pengamatan ke-n merupakan pengamatan yang berpengaruh atau tidak, (se-

cara teoritis) adalah dengan membuat regresi sebanyak n kali.

1. Buang data ke-1, dan regresikan y vs x tanpa data ke-1 dan diperoleh bbb−1 =

(b0,−1, b1,−1, . . . , bk,−1)T . Hitungy1,−1 dan yang lainnya.

2. Masukkan kembali data ke-1, sehingga data jadi full kembali. Buang pengamatan

ke-2 dan buat regresi tanpa pengamatan ke-2, dapatkan bbb−2 = (b0,−2, b1,−2, . . . , bk,−2)T

. Hitungy2,−2 dan yang lainnya.

3. dst untuk pengamatan ke-3.

4. lakukan sampai data ke-n.

3.2 DFFITS

Konsep dari DFFITS adalah ingin melihat besarnya perubahan yang terjadi terhadap fit atau nilai dugaan

(y) pengamatan pengamatan ke-i jika pengamatan ke-i tidak diikutsertakan dalam pen-

dugaan model. Rumus DFFITS adalah

DFFITSi =yi − yi,−is−i√hii

. (8)

Perhatikan rumus di atas. Nilai y adalah nilai dugaan y untuk pengamatan ke-i di mana

koefisien regresi diduga dengan menggunakan data full.

yi = b0 + b1x1i + · · ·+ bkxki.

Sedangkan yi,−i adalah nilai dugaan pengamatan ke-i, dimana koefisien regresi diduga

tanpa menggunakan pengamatan ke-i.

yi,−i = b0,−i + b1,−ix1i + · · ·+ bk,−ixki.

10

Page 11: Influence Diagnostic

Sebagai contoh untuk pengamatan ke-1:

y1 = b0 + b1x11 + · · ·+ bkxk1 dan y1,−1 = b0,−1 + b1,−1x11 + · · ·+ bk,−1xk1.

di mana b0,−1, b1,−1, . . . , bk,−1 adalah koefisen regresi yang diperoleh jika pengamatan

ke-1 tidak disertakan dalam penaksiran koefisien regresi.

NilaiDFFITSi yang besar menunjukkan adanya perubahan yang besar ketika penga-

matan ke-i dibuang atau tidak disertakan dalam pendugaan parameter model. Dengan

kata lain, jika DFFITSi besar berarti pengamatan ke-i berpengauh besar terhadap

pendugaan nilai respon y (y fit) nya.

Software statistika yang bisa menampilkan nilai DFFITS antara lain SAS dan Minitab.

Dalam perhitungannya, software tidak melakukan perhitungan berulangkali sampai n

kali, tetapi DFFITS untuk i = 1, 2, . . . , n dihitung menggunakan hasil dari regresi den-

gan data full dengan rumus:

DFFITSi = (R− Student)i[

hii1− hii

]1/2(9)

di mana s−i dihitung dengan menggunakan rumus (7).

Dari rumus di atas nampak bahwa DFFITS dipengaruhi oleh R-Student yang meru-

pakan ukuran pencilan (dalam ruang y atau ruang respon) dan hii yang merupakan

indikator pencilan dalam ruang X atau ruang peubah bebas. DFFITS akan besar jika

R-student besar dan hii besar atau hii dekat dengan 1.0.

Sedanhkan jika hii dekat dengan nol, maka DFFITS akan kecil, dengan kata lain

jika nilai peubah bebas dekat dengan rata-rata peubah bebas, maka kemungkinannya

DFFITS akan kecil (Dengan kata lain pengamatan tersebut pengaruhnya kecil) terhadap

prediksi.

3.3 DFBETAS

Konsep DFBETAS sama dengan konsep DFFITS. Dalam DFBETAS yang ingin dil-

ihat adalah bagaimana besar pengaruh pengamatan ke-i terhadap koefisien regresi.

DFBETASi menunjukkan besarnya perubahan atau perbedaan koefisien regresi yang

11

Page 12: Influence Diagnostic

diperoleh denggan menggunakan data full dengan koefisien regresi yang diperoleh tanpa

menggunakan data ke-i.

DFBETASi yang besar menunjukkan pengamatan ke-i punya pengaruh besar, sebab

jika tidak diikutkan dalam penaksiran mengakibatkan koefisien regresi berubah drastis.

Untuk model regresi dengan konstanta serta sebanyak k peubah bebas, maka akan ada

p = k + 1 koefisien regresi. Untuk koefisien regresi ke-j, j = 0, 1, 2, . . . , k, maka DFBE-

TAS untuk pengamatan ke-i adalah

DFBETASj,i =bj − bj,−is−i√cjj

(10)

di mana cjj adalah unsur diagonal ke-j matrik (XTX)−1. Karena bj,−i adalah koe-

fisien regresi peubah bebas ke-j yang diperoleh tanpa mengikutsertakan pengamatan

ke-i, maka DFBETASj,i dapat diartikan sebagai besarnya perubahan yang terjadi ter-

hadap koefisen regresi bj jika pengamatan ke-i tidak diikutsertakan dalam pendugaan

model regresi. Nilai DFBETASj,i besar menunjukkan bahwa pengamatan ke-i berpen-

garuh besar terhadap koefisien regresi ke-j atau bj.

Untuk setiap koefisien regresi ke-j, kita bisa mendapatkan n nilai DFBETASj. Jadi

secara keseluruhan kita bisa mendapatkan n × (k + 1) = n × p nilai DFBETAS. Dari

nilai-nilai tersebut kita bisa melihat pengamatan mana saja yang pengaruhnya besar

dan koefisien apa saja yang dipengaruhi oleh pengamatan tersebut.

3.4 Cook’s Distance atau Cook’s D

Dalam DFBETAS akan ada p = k + 1 nilai DFBETAS untuk setiap pengamatan ke-

i, yaitu DFBETAS0,i, DFBETAS1,i, DFBETAS2,i,. . ., DFBETASk,i. Keseluruhan nilai

DFBETAS ini dapat disatukan menjadi satu nilai yang disebut sebagai Cook’s distance

yang didefnisikan sebagai:

Di =(b− b−i)T (XTX)(b− b−i)(b− b−i)T (XTX)(b− b−i)(b− b−i)T (XTX)(b− b−i)

ps2. (11)

Besaran Di ini menunjukan jarak antara vektor koefisien regresi yang diperoleh dengan

data full (yaitu bbb dengan vektor koefisien regresi yang diperoleh tanpa pengamatan ke-

i (yaitu bbb−i). Dengan demikian nilai Di yang besar menunjukkan besarnya pengaruh

pengamatan ke-i terhadap keseluruhan koefisien regresi.

12

Page 13: Influence Diagnostic

3.5 COVRATIO

COVRATIO ke-i adalah rasio antara determinan varian tanpa pengamatan ke-i den-

gan determinan varian data full. Jika COVRATIO ke-i nilainya besar maka hal itu

menunjukkan pengamatan tersebut berpengaruh besar terhadap varian.

(COV RATIO)i =|(XT

−iX−i)−1s2−i|

|(XTX)−1s2|.

4 Nilai-nilai Patokan

Ketika kita dihadapakan pada nilai-nilai RSTUDENT, DFFITS dan DFBETAS, maka

pertanyaan yang muncul adalah bagaimana kita menentukan apakah suatu pengamatan

atau pengamatan ke-i merupakan suatu pengamatan berpengaruh atau bukan. Disini

kita perlu suatu angka yang menjadi batas apakah pengamatan dianggap sebagai penga-

matan berpengaruh atau bukan. Berikut ini patokan berdasarkan Belsley, et al. (2004,

Chap. 2) dan Myers (1990):

• Leverage hii. Jika hii > 2p/n maka pengamatan ke-i merupakan pencilan dalam

ruang X, dimana p = k + 1.

• Rstudent, ti. Jika |ti| > t(1−α/2,n−p−1), maka pengamatan ke-i adalah pencilan

dalam ruang Y

• COVRATIO. Jika COV RATIO > 1 + 3(p/n) atau COV RATIO < 1 − 3(p/n)

maka pengamatan tersebut perlu diwaspadai sebagai pengamatan berpengaruh.

Aturan rasio covarian ini berlakua hanya jika n > 3p.

• DFBETAS. Jika DFBETAS > 2/√n maka pengamtan tersebut adalah penga-

matan berpengaruh.

• DFFITS. Jika DFFITS > 2√p/n maka pengamtan tersebut adalah pengamatan

berpengaruh.

Hoffmann (2010, Chap. 12) memberikan patokan cut-off bagi ukuran influence observa-

tion, sebagai berikut. Pengamatan ke-i dianggap pencilan jika (Catatan p = k + 1)

13

Page 14: Influence Diagnostic

• Untuk Studentized deleted residual atau RStuden ti: |ti| > 2 ==> ti < −2 atau

ti > 2

• Cook’s Distance: Cook′sD > 4/[n − k − 1] atau Cook′sD > 4/[n − p]. Sebagai

contoh untuk model dengan tiga peubah bebas dengan ukuran sample 75, maka

Cook’s Distance > 4/[75−3−1] = 0.056 merupakan indikasi pengamatan tersebut

adalah pengamatan berpengaruh.

• DFFITS: DFFITS > 2√

(k + 1)/n atau DFFITS > 2√p/n. Sebagai con-

toh untuk model dengan tiga peubah bebas dengan ukuran sample 75, maka

|DFFiTS| > 2√

(3 + 1)/75 = 0.46 merupakan indikasi pengamatan tersebut

adalah pengamatan berpengaruh.

5 Influence Diagnostic Dengan Software Statistika

5.1 Influence Diagnostic dengan Minitab

Pada seksi ini akan dibahas bagaimana diagnosis pengamatan berpengaruh dengan

menggunakan Minitab. Kali ini Minitab yang dipergunakan adalah Minitab versi 14.

Untuk versi yang lain, perintahnya tidak jauh berbeda.

Untuk melakukan diagnosis pengematan berpengaruh dengan menggunakan Minitab,

langkah langkahnya adalah sebagai berikut.

(i) Masuk ke Menu STAT, kemudian pilih REGRESSION, pilih lagi REGRESSION.

Akan muncul jendela seperti Gambar 5.

(ii) Masukkan Peubah Respon (peubah tak bebas) serta Peubah Bebas yang dikehen-

daki.

(iii) Untuk menyimpan beberapa nilai yang dapat dipergunakan untuk diagnosis penga-

matan berpengaruh, klik tombol STORAGE. Selanjutnya akan muncul jendela

seperti Gambar 6.

14

Page 15: Influence Diagnostic

Figure 5: Jendela Analisis Regresi pada Minitab

Figure 6: Jendela untuk Menyimpan Nilai untuk Influence Diagnostic

15

Page 16: Influence Diagnostic

Figure 7: Worksheet Minitab yang Menunjukkan Bebebrapa Nilai yang Disimpan

(iv) Tidak semua ukuran untuk diagnosis pengamatan berpengaruh dapat dikeluarkan

oleh Minitab. Beberapa nilai yang dapat disimpan diantaranya adalah

• Standardized Residual (yang kita sebut juga dengan studentized residual)

• Deleted t residual (yang kita sebut juga dengan studentized deleted residual

atau RStudent)

• Hi (leverage)

• Cook’s D (atau cook’s distance)

• DFFITS

(v) Check untuk setiap nilai yang kita inginkan dan tekan tombol OK.

(vi) Kembali ke jendela regressi, tekan tombol OK.

(vii) Nilai-nilai yang disimpan tersebut dapat dilihat pada windows data (lihat Gambar

7), kemudian bisa kita copy ke Excel atau MS Word (lihat Tabel 1).

5.2 Influence Diagnostic dengan SAS

SAS juga dapat dipergunakan untuk melakukan diagnosis pengamatan berpengaruh.

Perintah untuk mengeluarkan ukuran/nilai untuk influence diagnosis menyatu dengan

PROC REG. Perintah khususnya adalah option command pada pernyataan MODEL

16

Page 17: Influence Diagnostic

Table 1: Hasil Keluaran MinitabNo SRES1 TRES1 HI1 COOK1 DFIT1

1 -0.35700 -0.35042 0.32553 0.01230 -0.24344

2 0.24301 0.23818 0.09273 0.00121 0.07615

3 0.61596 0.60782 0.09557 0.00802 0.19758

4 2.58119 2.97297 0.42415 0.98146 2.55148

5 -0.28251 -0.27702 0.17370 0.00336 -0.12701

6 0.32246 0.31636 0.15524 0.00382 0.13562

7 -0.29914 -0.29339 0.19171 0.00425 -0.14288

8 -1.36996 -1.39685 0.20237 0.09524 -0.70359

9 -1.82715 -1.92778 0.07942 0.05760 -0.56623

10 -1.23039 -1.24436 0.06693 0.02172 -0.33326

11 -0.16519 -0.16181 0.05104 0.00029 -0.03753

12 -1.15867 -1.16739 0.06175 0.01767 -0.29949

13 -0.23511 -0.23042 0.08878 0.00108 -0.07193

14 0.17486 0.17129 0.23021 0.00183 0.09367

15 -0.40521 -0.39804 0.10154 0.00371 -0.13382

16 1.12869 1.13547 0.37689 0.15411 0.88309

17 0.11509 0.11269 0.16063 0.00051 0.04930

18 -1.72987 -1.81005 0.19365 0.14373 -0.88702

19 1.21348 1.22614 0.13060 0.04424 0.47522

20 0.00325 0.00318 0.10887 0.00000 0.00111

21 0.79649 0.79023 0.08274 0.01145 0.23734

22 2.12878 2.31383 0.26839 0.33248 1.40142

23 0.68995 0.68222 0.12284 0.01333 0.25531

24 -1.68342 -1.75484 0.30988 0.25450 -1.17590

25 -0.38830 -0.38132 0.30794 0.01342 -0.25436

26 0.39443 0.38738 0.16957 0.00635 0.17505

27 0.47479 0.46699 0.15133 0.00804 0.19720

28 -0.11184 -0.10951 0.12552 0.00036 -0.04149

29 0.94597 0.94382 0.15051 0.03171 0.39728

17

Page 18: Influence Diagnostic

pada PROC REG yaitu sub command INFLUENCE. Pernyataan INFLUENCE pada

perintah MODEL secara otomatis akan mengeluarkan nilai-nilai

(i) Residual/ sisaan : ei = yi − yi

(ii) RStudent atau studentized deleted residual

(iii) Leverage atau hii atau diagonal matrik hat

(iv) COVRATIO

(v) DFFITS

(vi) DFBETAS

PROC REG DATA=....;

MODEL Y = X X X/INFLUENCE;

RUN;

Berikut ini contoh analisis dengan SAS;

Data Regression;

input heatflux insolation east south north;

cards;

271.8 783.35 33.53 40.55 16.66 13.20

264.0 748.45 36.50 36.19 16.46 14.11

238.8 684.45 34.66 37.31 17.66 15.68

230.7 827.80 33.13 32.52 17.50 10.53

251.6 860.45 35.75 33.71 16.40 11.00

257.9 875.15 34.46 34.14 16.28 11.31

263.9 909.45 34.60 34.85 16.06 11.96

266.5 905.55 35.38 35.89 15.93 12.58

229.1 756.00 35.85 33.53 16.60 10.66

239.3 769.35 35.68 33.79 16.41 10.85

258.0 793.50 35.35 34.72 16.17 11.41

257.6 801.65 35.04 35.22 15.92 11.91

267.3 819.65 34.07 36.50 16.04 12.85

267.0 808.55 32.20 37.60 16.19 13.58

18

Page 19: Influence Diagnostic

259.6 774.95 34.32 37.89 16.62 14.21

240.4 711.85 31.08 37.71 17.37 15.56

227.2 694.85 35.73 37.00 18.12 15.83

196.0 638.10 34.11 36.76 18.53 16.41

278.7 774.55 34.79 34.62 15.54 13.10

272.3 757.90 35.77 35.40 15.70 13.63

267.4 753.35 36.44 35.96 16.45 14.51

254.5 704.70 37.82 36.26 17.62 15.38

224.7 666.80 35.07 36.34 18.12 16.10

181.5 568.55 35.26 35.90 19.05 16.73

227.5 653.10 35.56 31.84 16.51 10.58

253.6 704.05 35.73 33.16 16.02 11.28

263.0 709.60 36.46 33.83 15.89 11.91

265.8 726.90 36.26 34.89 15.83 12.65

263.8 697.15 37.20 36.27 16.71 14.06

;

proc reg data=regression;

model heatflux=insolation east south north/influence;

run;

Berikut ini output SAS dari perintah di atas.

The REG Procedure

Model: MODEL1

Dependent Variable: heatflux

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 4 13080 3270.00740 48.99 <.0001

Error 24 1601.89866 66.74578

Corrected Total 28 14682

Root MSE 8.16981 R-Square 0.8909

Dependent Mean 249.63793 Adj R-Sq 0.8727

19

Page 20: Influence Diagnostic

Coeff Var 3.27266

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 270.21013 88.21060 3.06 0.0053

insolation 1 0.05156 0.02685 1.92 0.0668

east 1 2.95141 1.23167 2.40 0.0247

south 1 5.33861 0.91506 5.83 <.0001

north 1 -21.11940 2.36936 -8.91 <.0001

The REG Procedure

Model: MODEL1

Dependent Variable: heatflux

Output Statistics

Hat Diag Cov

Obs Residual RStudent H Ratio DFFITS

1 -2.3953 -0.3504 0.3255 1.7860 -0.2434

2 1.8910 0.2382 0.0927 1.3469 0.0761

3 4.7858 0.6078 0.0956 1.2631 0.1976

4 16.0025 2.9730 0.4241 0.4226 2.5515

5 -2.0981 -0.2770 0.1737 1.4725 -0.1270

6 2.4213 0.3164 0.1552 1.4330 0.1356

7 -2.1972 -0.2934 0.1917 1.5022 -0.1429

8 -9.9959 -1.3968 0.2024 1.0323 -0.7036

9 -14.3224 -1.9278 0.0794 0.6355 -0.5662

10 -9.7098 -1.2444 0.0669 0.9572 -0.3333

11 -1.3147 -0.1618 0.0510 1.2963 -0.0375

12 -9.1692 -1.1674 0.0618 0.9888 -0.2995

13 -1.8335 -0.2304 0.0888 1.3421 -0.0719

14 1.2534 0.1713 0.2302 1.5969 0.0937

15 -3.1379 -0.3980 0.1015 1.3305 -0.1338

16 7.2789 1.1355 0.3769 1.5115 0.8831

20

Page 21: Influence Diagnostic

17 0.8614 0.1127 0.1606 1.4698 0.0493

18 -12.6908 -1.8100 0.1936 0.7883 -0.8870

19 9.2439 1.2261 0.1306 1.0368 0.4752

20 0.0250 0.003179 0.1089 1.3883 0.0011

21 6.2321 0.7902 0.0827 1.1797 0.2373

22 14.8759 2.3138 0.2684 0.5939 1.4014

23 5.2792 0.6822 0.1228 1.2760 0.2553

24 -11.4253 -1.7548 0.3099 0.9564 -1.1759

25 -2.6390 -0.3813 0.3079 1.7322 -0.2544

26 2.9365 0.3874 0.1696 1.4421 0.1750

27 3.5734 0.4670 0.1513 1.3905 0.1972

28 -0.8544 -0.1095 0.1255 1.4110 -0.0415

29 7.1231 0.9438 0.1505 1.2043 0.3973

Output Statistics

--------------------------DFBETAS--------------------------

Obs Intercept insolation east south north

1 0.0471 -0.0046 0.0173 -0.2117 0.0494

2 -0.0341 0.0021 0.0523 0.0374 -0.0112

3 -0.0320 -0.0428 -0.0117 0.0794 0.0453

4 0.2438 1.1234 -0.9944 -1.8250 1.4949

5 0.0532 -0.0982 -0.0422 0.0469 -0.0629

6 -0.0181 0.0965 -0.0116 -0.0537 0.0503

7 0.0461 -0.1172 -0.0112 0.0185 -0.0480

8 0.3919 -0.5688 -0.2696 -0.1587 -0.1686

9 -0.0510 -0.0453 -0.0845 0.3712 -0.0901

10 -0.0493 -0.0275 -0.0343 0.1960 -0.0088

11 -0.0037 -0.0064 -0.0030 0.0080 0.0071

12 -0.0770 -0.0018 0.0254 -0.0096 0.1442

13 -0.0130 -0.0083 0.0231 -0.0247 0.0264

14 0.0431 -0.0138 -0.0670 0.0261 -0.0359

15 0.0208 -0.0057 0.0091 -0.0988 0.0248

16 0.5020 -0.3174 -0.7686 0.0393 -0.1390

17 -0.0337 0.0137 0.0219 0.0138 0.0337

18 0.0316 0.1650 0.2212 0.0236 -0.4303

21

Page 22: Influence Diagnostic

19 0.3380 -0.2295 -0.1803 -0.0661 -0.3753

20 0.0004 -0.0005 0.0001 0.0002 -0.0009

21 -0.1051 0.0159 0.1627 0.1005 -0.0283

22 -1.1236 0.4250 1.2006 0.4056 0.6615

23 -0.0718 -0.0118 0.0178 0.0056 0.1472

24 0.1040 0.3191 0.0148 0.1868 -0.5799

25 -0.1814 0.1606 0.0835 0.1768 0.0825

26 0.1221 -0.1132 -0.0382 -0.0856 -0.0990

27 0.0911 -0.1185 0.0199 -0.0438 -0.1245

28 -0.0145 0.0231 -0.0070 -0.0032 0.0299

29 -0.1560 -0.0769 0.2829 0.1779 -0.0607

Sum of Residuals 0

Sum of Squared Residuals 1601.89866

Predicted Residual SS (PRESS) 2847.16749

5.3 Influence Diagnostic dengan SPSS

SPSS menyediakan cukup lengkap untuk keperluan influence diagnostic. Langkah-

langkah untuk mengeluarkan influence diagnostic dilakukan melalui perintah regres.

Dari jendela regresi dilanjutkan dengan meng-klik tomobol SAVE. Lihat Gambar 8.

Setelah tombol SAVE di-klik selanjutnya muncul jendela penyimpanan (lihat Gambar

9). Kita bisa menyimpan nilai-nilai yang kita inginkan. Ada

Untuk keperluan influence diagnostic, nilai-nilai yang bisa dikeluarkan oleh SPSS

antara lain:

(i) Unstandardized residual sama dengan residual biasa

(ii) Studentized residual (pada bahasan kita di atas sama dengan standardized residual

atau studentized)

(iii) Studentized deleted (pada bahasan kita di atas sama dengan RStudent atau stu-

dentized deleted residual)

(iv) Cook’s atau cook’s distance

22

Page 23: Influence Diagnostic

Figure 8: Jendela Regresi SPSS

(v) Leverage value atau hii

(vi) Standardized DfBetas atau DFBETAS

(vii) Standardized DfFit atau DFFITS

(viii) Covariance ratio.

23

Page 24: Influence Diagnostic

Figure 9: Jendela Untuk Menyimpan Nilai-nilai yang Dikehendaki

24