analisis statistika-multivariate

17

Click here to load reader

Upload: facebook-in-education

Post on 04-Jul-2015

4.518 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Analisis statistika-multivariate

Analisis Statistika Multivariate 1

ANALISIS STATISTIKA MULTIVARIATE

Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data

yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Beberapa metode

yang termasuk ke dalam golongan analisis ini adalah :

# Metode Tujuan Model

1 Principal

Component

Analysis

Mereduksi dimensi data dengan cara

membangkitkan variabel baru (komponen

utama) yang merupakan kombinasi linear

dari variabel asal sedemikan hingga varians

komponen utama menjadi maksimum dan

antar komponen utama bersifat saling bebas

XaY 'i

maks var(Yi) dan

corr(Yi, Yj)=0

2 Factor

Analysis

Mereduksi dimensi data dengan cara

menyatakan variabel asal sebagai kombinasi

linear sejumlah faktor, sedemikian hingga

sejumlah faktor tersebut mampu menjelas-

kan sebesar mungkin keragaman data yang

dijelaskan oleh variabel asal.

CFX

maks var(CF)

3 Cannonical

Correlation

Menganalisis hubungan antar dua kelompok

variabel dengan cara membangkitkan vari-

abel baru pada setiap kelompok. Variabel

baru tersebut merupakan kombinasi linear

dari variabel asal. Kombinasi linearnya

ditentukan sedemikian hingga korelasi antar

variabel baru yang berasal dari dua ke-

lompok menjadi maksimum

Ada dua kelompok

variabel :X dan Y

dibangkitkan variabel

baru :

XaU 'i dan

YbV 'i sehingga

corr( ii VU , ) maks

dan corr(ji VU , )=0

4 Multivariate

Regression

Memodelkan hubungan antara kelompok

variabel respon (Y) dengan kelompok

variabel (X) yang diduga mempengaruhi

variabel respon

XY

5 MANOVA Menganalisis hubungan antara vektor va-

riabel respon (Y) yang diduga dipengaruhi

oleh beberapa perlakuan (treatment).

ijkikkijkY

i=1,...,t j=1,...,ni

k=1,...,p

6 Discriminant

Analysis

Membentuk fungsi yang memisahkan antar

kelompok berdasarkan variabel pembeda,

fungsi tsb disusun sedemikian nisbah kera-

gaman data antar dan kelompok maksimum.

7 Cluster

Analysis

Mengelompokkan data ke dalam beberapa

kelompok sedemikian hingga data yang

berada di dalam kelompok yang sama

cenderung mempunyai sifat yang lebih

homogen daripada data yang berada di

kelompok yang berbeda

Page 2: Analisis statistika-multivariate

Analisis Statistika Multivariate 2

Distribusi Multinormal Beberapa metode statistika multivariate seperti : MANOVA, dan discriminant

analysis seringkali mensyaratkan terpenuhinya asumsi distribusi multinormal. Asumsi

ini diperlukan karena di dalam MANOVA dan discriminant analysis dilakukan pengujian

dengan menggunakan statistik uji Wilk. Kesimpulan yang diambil berdasarkan statistik

ini dikatakan sahih (valid), jika syarat distribusi multinormal dipenuhi.

Variabel pi XXX ,...,, 2

dikatakan berditribusi normal multivariate dengan

parameter dan jika mempunyai probability density function :

)()'(2

1

2/2/2

1

)2(

1),...,,(

XX

XXX efpppi

Jika pi XXX ,...,, 2

berdistribusi normal multivariate maka )()'( 1XX

berditribusi 2

p . Berdasarkan sifat ini maka pemeriksaan distribusi multinormal dapat

dilakukan dengan cara membuat q-q plot dari nilai niSd iii ,...,1,()' 12XXXX .

Tahapan dari pembuatan q-q plot ini adalah sebagai berikut (Johnson, 1990)

1. Mulai

2. Tentukan nilai vektor rata-rata : X

3. Tentukan nilai matriks varians-kovarians : S

4. Tentukan nilai jarak Mahalanobis setiap titik pengamatan dengan vektor rata-

ratanya niSd iii ,...,1,()' 12XXXX

5. Urutkan nilai 2

id dari kecil ke besar : 2

)(

2

)3(

2

)2(

2

)1( ... ndddd

6. Tentukan nilai nin

ipi ,...,1,

2/1

7. Tentukan nilai iq sedemikian hingga i

q

pdfi

22 )(

8. Buat scatter-plot 2

)(id dengan iq

9. Jika scatter-plot ini cenderung membentuk garis lurus dan lebih dari 50 %

nilai 2

50.0,

2

pid

10. Selesai

Implementasi pembuatan q-q plot dari nilai niSd iii ,...,1,()' 12XXXX

dalam macro MINITAB disajikan pada Lampiran 1.

Page 3: Analisis statistika-multivariate

Analisis Statistika Multivariate 3

Selain dengan memeriksa nilai jarak Mahalanobis setiap pengamatan dengan

vektor rata-ratanya. Menurut Mardia (1974) di dalam Rencher (1995) pemeriksaan

kemultinormalan data dapat juga dikaji melalui nilai multivariate skewnewss (pb ,1) dan

kurtosisnya (pb ,2)

n

i

n

j

ijp gn

b1 1

3

2,1

1dan

n

i

iip gn

b1

2

,2

1 sedangkan )()'( 1

XXSXX jiijg

Jika pi XXX ,...,, 2

dikatakan berditribusi normal multivariate maka :

pbpn

nnpz ,11

6)1)(1(6

)3)(1)(1( berditribusi 2

6/)2)(1( ppp dan

npp

ppbz

p

/)2(8

)2(,2

2 berdistribusi normal baku.

Penentuan nilai z1, z2 dengan bantuan macro MINITAB disajikan pada Lampiran

2.

Kebebasan antar variabel

Variabel pi XXX ,...,, 2

dikatakan bersifat saling bebas (independent) jika matriks

korelasi antar variabel membentuk matriks identitas. Untuk menguji kebebasan antar

variabel ini dapar dilakukan uji Bartlett sphericity berikut (Morrison, 2005) :

Hipotesis :

Ho : R = I

H1 : R I

Statiistik uji : Rp

nhitung ln6

5212

Terima hipotesis Ho yang berarti antar variabel bersifat saling bebas jika nilai 2

)1(2

1

2

pphitung . Jika hipotesis ini yang diterima maka penggunanan metode

multivariate tidak layak terutama metode analisis komponen utama dan analisis faktor.

Penentuan nilai statistik uji Bartlett sphericity dengan bantuan macro MINITAB

disajikan pada Lampiran 3.

Page 4: Analisis statistika-multivariate

Analisis Statistika Multivariate 4

Kehomogenan Matriks Varians-Kovarians Beberapa analisis statistika multivariate seperti discriminant analysis dan

MANOVA membutuhkan syarat matriks varians-kovarians yang homogen. Untuk menguji

syarat ini dapat dipergunakan statistik uji Box-M. Hipoteris dan statistik uji Box-M

adalah (Rencher, 1995) :

Hipotesis

Ho : k...21

H1 : jiuntuk ji

Statistik uji

k

i

k

ii

ipooliihitung vvc1 1

1

2 ln2

1ln

2

1)1(2 SS

dan

k

i

i

k

i

ii

pool

v

v

1

1

S

S )1)(1(6

13211 2

1

1

1kp

pp

vv

ck

ik

i

ii

1ii nv

Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika

2

1()1(2

1

2

ppkhitung

Page 5: Analisis statistika-multivariate

Analisis Statistika Multivariate 5

Outlier Data tidak bersitribusi multinormal atau matriks varians-variansnya tidak homogen

bisa saja disebabkan oleh sedikit pengamatan yang mempunyai pola berbeda dengan

sebagian besar pengamatan. Pengamatan yang mempunyai perilaku seperti ini disebut

outlier. Contoh pengamatan yang merupakan outlier adalah negara Jepang (Gambar 1.)

Statistik uji yang dapat dipakai untuk mendeteksi adanya outlier adalah (Morrison, 2005)

22

2

1

1

i

ii

npdnp

ndpnF

Pengamatan ke-i adalah outlier jika 1,; pnpi FF Penentuan adanya outlier dengan

menggunakan macro MINITAB disajikan di Lampiran 4.

Gambar 1. Scater-plot produktivitas dan jam-kerja bebarapa negara-negara maju

Jam kerja setahun

22002100200019001800170016001500

Pro

du

kti

vit

as

10

9

8

7

6

5

4

3

USUK

Sweden

Netherland

Japan

Italy

Germany

FranceDenmark

Belgium

Page 6: Analisis statistika-multivariate

Analisis Statistika Multivariate 6

Kegiatan Praktikum

COUNTRY

DENSITY

URBAN

LIFEEXPF

LIFEEXPM

LITERACY

BABYMORT

GDP_CAP

Afghanistan 25 18 44 45 29 168 205

Bangladesh 800 16 53 53 35 106 202

Cambodia 55 12 52 50 35 112 260

China 124 26 69 67 78 52 377

Hong Kong 5494 94 80 75 77 5.8 14641

India 283 26 59 58 52 79 275

Indonesia 102 29 65 61 77 68 681

Japan 330 77 82 76 99 4.4 19860

Malaysia 58 43 72 66 78 25.6 2995

N. Korea 189 60 73 67 99 27.7 1000

Pakistan 143 32 58 57 35 101 406

Philippines 221 43 68 63 90 51 867

S. Korea 447 72 74 68 96 21.7 6627

Singapore 4456 100 79 73 88 5.7 14990

Taiwan 582 71 78 72 91 5.1 7055

Thailand 115 22 72 65 93 37 1800

Vietnam 218 20 68 63 88 46 230

Sumber data : Contoh data SPSS world95.sav

Ketrangan variabel :

Variabel Penjelasan

Density Banyaknya penduduk per km persegi

Urban Persentase penduduk yang tinggal di perkotaan

Lifeexpf Harapan hidup penduduk perempuan (tahun)

Ligeexpm Harapan hidup penduduk laki-laki (tahun)

Literacy Persentase penduduk yang bisa baca-tulis

Babymort Banyaknya kematian bayi per 1000 kelahiran

Gdp_cap Penghasilan penduduk per kapita pertahun (US$)

1. Periksa kemultinormalan data kependudukan negara-negara di Asia dengan

a. Menggunakan q-q plot dari nilai niSd iii ,...,1,()' 12XXXX

b. Menggunakan multivariate skewness dan multivariate kurtosis

2. Apakah data di atas layak dianalisis dengan menggunakan analisis statistika

multivariate

3. Tentukan negara-negara yang dianggap outlier, jika ada outlier maka hapus

negara yang paling outlier (Nilai sig_f paling kecil) kemudian lakukan pengujian

kemultinormalan melalui multivariate skewness dan kurtosis.

Page 7: Analisis statistika-multivariate

Analisis Statistika Multivariate 7

4. Dengan menggunakan variabel yang sama, ujilah apakah matriks varians-

kovarians Afrika sama dengan Amerika Latin atau tidak , jika tidak sama, coba

lakukan penghapusan beberapa negara yang dianggap outlier

Page 8: Analisis statistika-multivariate

Analisis Statistika Multivariate 8

Penyelesaian

1a. q-q plot dari nilai niSd iii ,...,1,()' 12XXXX untuk data kependudukan

negara-negara di Asia adalah :

MTB > %qq.txt c2-c8

t 0.529412

distribusi data multinormal

q-q plot dari nilai niSd iii ,...,1,()' 12XXXX cenderung

membentuk garis kurus dan ada lebih dari 50 % (52.9412 %) nilai 2

50.0,

2

pid

sehingga data diatas cenderung berdistribusi multinormal.

1b. Pemeriksaan kemultinormalan data melalui multivariate skewness dan kurtosis

adalah : MTB > %mardia.txt c2-c8

Multivariate skewness

b1 33.2386

z1 115.612

pvalue 0.0126605

Multivariate kurtosis

b2 60.5424

z2 -0.451353

pvalue 0.651735

Pvalue untuk statistik uji multivariate skewness lebih kecil dari

sehingga data kependudukan negara-negara di Asia cenderung tidak

berdistribusi multinormal

Page 9: Analisis statistika-multivariate

Analisis Statistika Multivariate 9

2. Kelayakan penggunaan analisis statistika multivariate dapat dikaji melalui dua

sisi yaitu sisi terapan dan sisi statistika. Dari sisi terapan dapat ditunjukkan bahwa

berdasarkan referensi disiplin ilmu kependudukan, variabel-variabel di atas

memang saling terkait satu dengan yang lainnya. Dari disiplin ilmu statistika,

keeratan hubungan antar variabel dapat dilakukan melalui pengujian terhadap

matriks korelasi. Apakah matriks korelasinya membentuk matriks identitas atau

tidak, jika matriks korelasinya setelah diuji berbeda secara significant dengan

matriks identitas maka dapat disimpulkan bahwa ada hubungan antar variabel.

Sehingga data ini layak di analisis dengan menggunakan analisis statistika

multivariate. Jika matriks korelasinya setelah diuji tidak berbeda dengan matriks

identitas, maka diduga sampel yang diperoleh tidak cukup, sehingga disarankan

untuk menambah sampel. Diharapkan setelah dilakukan penambahan sampel

maka hasil pengujian matriks korelasi berbeda dengan matriks identitas. Karena

dari hasil pengujian Bartlett sphericity dapat disimpulkan perlunya penambahan

sampel maka uji ini disebut juga uji kecukupan sampel. Dengan bantuan

MINITAB pengujian ini dapat diilakukan dengan cara : MTB > %bart.txt c2-c8

chis 178.398

pvalue 0

pvalue dari statistik uji Bartlett sphericity lebih kecil dari 5 %) sehingga dapat

disimpulkan matriks korelasi antar variabel berbeda dengan matriks identitas.

Karena matriks korelasi bukan merupakan matriks identitas maka analisis

statistika multivariate layak untuk digunakan.

Page 10: Analisis statistika-multivariate

Analisis Statistika Multivariate 10

3. Suatu pengamatan diakatakan outlier jika nilai 22

2

1

1

i

ii

npdnp

ndpnF melampaui

1,; pnpi FF , dengan menggunakan macro MINITAB hal ini dapat diselesaikan

dengan cara :

MTB > %outlier.txt c1-c8

Row COUNTRY d f_value sig_f

1 Afghanistan 10.9875 3.4699 0.043306

2 Bangladesh 4.8952 0.6192 0.729851

3 Cambodia 4.7223 0.5874 0.752289

4 China 5.4980 0.7394 0.646985

5 Hong Kong 11.0696 3.5676 0.040074

6 India 4.6708 0.5781 0.758837

7 Indonesia 1.6888 0.1624 0.987188

8 Japan 13.6454 12.4126 0.000564

9 Malaysia 6.0117 0.8543 0.572647

10 N. Korea 5.2646 0.6911 0.679801

11 Pakistan 10.5513 3.0096 0.063477

12 Philippines 2.8156 0.2957 0.938851

13 S. Korea 5.9621 0.8427 0.579908

14 Singapore 9.4582 2.1713 0.138178

15 Taiwan 4.6465 0.5738 0.761898

16 Thailand 5.4036 0.7196 0.660353

17 Vietnam 4.7088 0.5849 0.754010

Ada 3 negara yang dianggap outlier yaitu Jepang, Hongkong dan Afganistan.

Hasil pengujian kemultinormalan setelah Jepang dikeluarkan adalah : MTB > delete 8 c1-c8

MTB > %mardia.txt c2-c8

Multivariate skewness

b1 30.1551

z1 99.8985

pvalue 0.113626

Multivariate kurtosis

b2 56.8194

z2 -1.10122

pvalue 0.270800

Setelah Jepang dikeluarkan, ternyata data kependudukan Negara-negara di Asia

berdistribusi multinormal. Dari contoh ini dapat ditunjukkan bahwa adanya

outlier dapat menyebabkan data tidak berdistribusi multinormal.

Page 11: Analisis statistika-multivariate

Analisis Statistika Multivariate 11

4. Pengujian kesamaan matriks varians-kovarian untuk region Afrika dan Amerika

Latin dapat dilakukan dengan cara :

- Memilih negara-negara di region Afrika dan Amerika Latin

klik Data, Select Cases

kemudian klik if dan ketik region=4 or region=6

klik Continue kemudian OK

Page 12: Analisis statistika-multivariate

Analisis Statistika Multivariate 12

- Melakuan pengujian kehomogenan matriks varians-kovarians

klik Analyze, Clasify, Discriminant

klik Statistics

klik Continue kemudian OK

Nilai significance statistik uji Box-M lebih kecil dari 5%, sehingga disimpulkan

matriks varians-kovarians region Afrika dan Amerika Latin tidak homogen, di

duga ketidakhomogenan ini disebabkan adanya outlier.

Test Results

70.555

2.015

28

4918.900

.001

Box's M

Approx.

df1

df2

Sig.

F

Tests null hypothesis of equal population covariance matrices.

Page 13: Analisis statistika-multivariate

Analisis Statistika Multivariate 13

Deteksi outlier Negara-negara di Afrika dan Amerika Latin adalah :

MTB > %outlier.txt c1-c8

Row COUNTRY d f_value sig_f

2 Barbados 30.0922 17.3411 0.000000

5 Brazil 13.2080 2.4330 0.040604

34 Somalia 15.7276 3.2245 0.010578

40 Zambia 16.9353 3.6709 0.005090

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados

dikeluarkan adalah :

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados dan

Zambia dikeluarkan adalah :

Setelah Barbados dan Zambia dikeluarkan maka matriks varians-kovarians sudah

bersifat homogen pada . Seandainya setelah dilakukan pembuangan data

outlier matriks varians-kovarians belum bersifat homogen maka dapat dicoba

dilakukan transfor-masi Box-Cox dengan mencobakan berbagai nilai Hasil

transformasi ini tidak selalu berhasil menghomogenkan matriks varians-

kovarians. Jika matriks varians-kovarians tidak bisa dihomogenkan maka dapat

dilakukan metode statistika yang lain yang tidak membutukan asumsi ini.

Test Results

55.121

1.564

28

4741.799

.030

Box's M

Approx.

df1

df2

Sig.

F

Tests null hypothesis of equal population covariance matrices.

Test Results

51.217

1.441

28

4403.414

.062

Box's M

Approx.

df1

df2

Sig.

F

Tests null hypothesis of equal population covariance matrices.

Page 14: Analisis statistika-multivariate

Analisis Statistika Multivariate 14

Lampiran 1. Macro MINITAB untuk memeriksa kemultinormalan DATA dari q-

q plot nilai niSd iii ,...,1,()' 12XXXX

macro

qq x.1-x.p

mconstant i n p t chis

mcolumn d x.1-x.p dd pi q ss tt

mmatrix s sinv ma mb mc md

let n=count(x.1)

cova x.1-x.p s

invert s sinv

do i=1:p

let x.i=x.i-mean(x.i)

enddo

do i=1:n

copy x.1-x.p ma;

use i.

transpose ma mb

multiply ma sinv mc

multiply mc mb md

copy md tt

let t=tt(1)

let d(i)=t

enddo

set pi

1:n

end

let pi=(pi-0.5)/n

sort d dd

invcdf pi q;

chis p.

plot q*dd

invcdf 0.5 chis;

chis p.

let ss=dd<chis

let t=sum(ss)/n

print t

if t>0.5

note distribusi data multinormal

endif

if t<=0.5

note distribusi data bukan multinormal

endif

endmacro

Page 15: Analisis statistika-multivariate

Analisis Statistika Multivariate 15

Lampiran 2. Macro MINITAB untuk menguji kemultinormalan data melalui

multivariate skewness dan multivariate kurtosis

macro

mardia y.1-y.p

mconstant i j n p g b1 b2 z1 z2 zz v pp pvalue

mcolumn x.1-x.p y.1-y.p z.1-z.p t

mmatrix s sinv mi mj mjt ma mat mb mc md

let n=count(y.1)

do i=1:p

let x.i=y.i-mean(y.i)

let z.i=x.i/sqrt(n)

enddo

copy z.1-z.p ma

transpose ma mat

multiply mat ma s

invert s sinv

let b1=0

let b2=0

do i=1:n

copy x.1-x.p mi;

use i.

do j=1:n

copy x.1-x.p mj;

use j.

transpose mj mjt

multiply mi sinv mc

multiply mc mjt md

copy md t

let g=t(1)

let b1=b1+g*g*g

if i=j

let b2=b2+g*g

endif

enddo

enddo

let b1=b1/(n*n)

let b2=b2/n

let z1=(p+1)*(n+1)*(n+3)*b1/(6*((n+1)*(p+1)-6))

let z2=(b2-p*(p+2))/sqrt(8*p*(p+2)/n)

let v=p*(p+1)*(p+2)/6

note Multivariate skewness

cdf z1 pp;

chis v.

let pvalue=1-pp

print b1 z1 pvalue

note Multivariate kurtosis

let zz=abs(z2)

cdf zz pp;

normal 0 1.

let pvalue=2*(1-pp)

print b2 z2 pvalue

endmacro

Page 16: Analisis statistika-multivariate

Analisis Statistika Multivariate 16

Lampiran 3. Macro MINITAB untuk menguji kebebasan antar variabel dengan Bartlett

sphericity test

macro

bart x.1-x.p

mconstant i n p d chis pp pvalue v

mcolumn x.1-x.p eigen

mmatrix r

let n=count(x.1)

corr x.1-x.p r

eigenvalues r eigen

let d=0

do i=1:p

let d=d+loge(eigen(i))

enddo

let chis=-(n-1-(2*p+5)/6)*d

let v=p*(p-1)/2

cdf chis pp;

chis v.

let pvalue=1-pp

print chis pvalue

endmacro

Page 17: Analisis statistika-multivariate

Analisis Statistika Multivariate 17

Lampiran 4. Macro MINITAB untuk mendeteksi adanya multivariete outlier

macro

outlier obs y.1-y.p

mconstant i n p df

mcolumn d x.1-x.p y.1-y.p dd pi f_value tt obs p1 sig_f

mmatrix s sinv ma mb mc md

let n=count(y.1)

cova y.1-y.p s

invert s sinv

do i=1:p

let x.i=y.i-mean(y.i)

enddo

do i=1:n

copy x.1-x.p ma;

use i.

transpose ma mb

multiply ma sinv mc

multiply mc mb md

copy md tt

let d(i)=tt(1)

enddo

let f_value=((n-p-1)*n*d)/(p*(n-1)**2-n*p*d)

let df=n-p-1

cdf f_value p1;

f p df.

let sig_f=1-p1

print obs d f_value sig_f

endmacro