principal component analysis - pcu teaching...

14
Principal Component Analysis Siana Halim Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

Upload: lamdan

Post on 08-Mar-2019

235 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

Principal Component AnalysisSiana Halim

Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

Page 2: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

PendahuluanPendahuluanSebuah analis keuangan ingin menentukan sehat tidaknya y

sebuah departement keuangan pada sebuah industri. Dalam

penelitian awal telah diidentifikasikan terdapat Tugas pertama dari analysis

b d l h diidentifikasikan terdapat sejumlah rasio keuangan (kira-

kira ada 120 variabel) yang dapat digunakan untuk analisa

di atas Tentu saja tidaklah

tersebut tentunya adalah menyederhanakan/mereduksi

ke-120 rasio menjadi beberapa index saja (misalnya 3), yang mana di atas. Tentu saja, tidaklah

mudah untuk menginterpretasikan 120 buah informasi untuk menentukan

j ( y ), y gindex tersebut merupakan

kombinasi linear dari seluruh rasio awal (120 rasio).

apakah departement keuangan tsb dalam keadaan sehat atau

tidak. Apa yang harus dilakukannya ?dilakukannya ?

Page 3: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

PendahuluanPendahuluan

Manajer marketing berkeinginan untuk membangun sebuah untuk membangun sebuah

model regresi untuk menentukan forecast dari sales.

Namun demikian, ternyata i bl i bl

Akanlah sangat membantu, bila marketing manajer tersebut membangun variable „baru“ variable-variable yang

seharusnya independent ternyata saling berkorelasi

(multicollinearity). Dalam model

membangun variable „baru yang merupakan kombinasi linear dari variable-variable

lama, sedemikian hingga variable-variable baru tersebut tidak ( y)

regresi adanya multicollinearity dapat menyebabkan standard error dari estimasi parameter

sangat tinggi dan model regressi

variable baru tersebut tidak saling berkorelasi. Variable-

variable baru ini dapat digunakan untuk membangun model sangat tinggi, dan model regressi

yang dihasilkan menjadi tidak stabil. Apa yang harus dilakukan

oleh manager tersebut ?

regresi yang dikehendakinya.

Page 4: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

Bagaimana Caranya ?Bagaimana Caranya ?

Gunakan Principal Component Analysis p p y(PCA).

PCA adalah sebuah teknik untuk membangun variable-variable baru yang merupakan kombinasi linear dari y g pvariable-variable asli. Jumlah maximum dari variable-variable baru ini akan sama dengan jumlah dari variable lama, dan variable-variable baru ini tidak saling gberkorelasi satu sama lain.

Page 5: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

Secara GeometriSecara Geometri

21*1 sincos xxx θθ +=

X1 X2

Observasi Original Mean Original Mean

21*2 cossin xxx θθ +−=

Corrected Corrected

1 16 8 8 5

2 12 4 10 7

3 13 5 6 3 Dicari θ optimum s d h variance x1*

4 11 3 2 -1

5 10 2 8 5

6 9 1 -1 -4

Dicari θ optimum s.d.h variance x1maximum dan x2* orthogonal (saling tegak lurus) dengan x1

*

θ = 43 2617 8 0 4 1

8 7 -1 6 3

9 5 -3 -3 -6

10 3 -5 -1 -4

θ = 43.261

*21

*1 685.0728.0 xxx +=

10 3 5 1 4

11 2 -6 -3 -6

12 0 -8 0 -3

⎤⎡ 455.16091.23 ⎤⎡ 746.01

21*2 728.0685.0 xxx +−=

⎥⎦

⎤⎢⎣

⎡=

091.21455.16455.16091.23

S ⎥⎦

⎤⎢⎣

⎡=

1746.0746.01

R

Page 6: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

Secara GeometriSecara GeometriMean Corrected Data New Variables

Observasi X1 X2 X1* X2*

1 8 5 9.253 -1.841

2 4 7 7.710 2.356

3 5 3 5.697 -1.242

4 3 -1 1.499 -2.784

5 2 5 4.883 2.271

6 1 -4 -2.013 -3.598

7 0 1 0.685 0.728

8 -1 3 1.328 2.870

9 -3 -6 -6.297 -2.313

10 -5 -4 -6.382 0.514

11 -6 -6 -8.481 -0.257

12 -8 -3 -7.882 3.298

Mean 0 0 0.000 0.000

SS 424.334 61.666 ⎥⎦

⎤⎢⎣

⎡=

666.6100576.38

S ⎥⎦

⎤⎢⎣

⎡=

1001

R

Variance 38.576 5.606

⎦⎣

Page 7: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

Objective dari PCAObjective dari PCADalam PCA

Variable-variable baru disebut sebagai principle component dan nilai nilai bentukan dari varible ini component dan nilai-nilai bentukan dari varible ini disebut sebagai principle component score.Variable yang baru merupakan kombinasi linear dari variable-variable aslivariable-variable asli.Variable baru pertama berhubungan dengan variance maximum dari data.Variable baru kedua menunjukkan variance maximum Variable baru kedua menunjukkan variance maximum yang belum terhitung pada variable pertamaVariable baru ketiga menunjukkan variance maximum yang belum terhitung pada kedua variable pertamayang belum terhitung pada kedua variable pertamaVariable baru ke-p menunjukkan variance maximum yang belum terhitung pada p-1 variable terdahulu.Seluruh p variable baru tidak berkorelasi.Seluruh p variable baru tidak berkorelasi.

Page 8: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

LoadingsLoadingsLoadings adalah korelasi antara variable asli dengan variable baru.Loadings memberikan indikasi variable original mana yang Loadings memberikan indikasi variable original mana yang sangat penting atau mempengaruhi pembentukan variable baruSemakin tinggi nilai Loading maka variable lama ybs semakin memiliki pengaruh terhadap pembentukan variable baru.p g p pLoading dapat pula dihitung dengan menggunakan rumus sbb:

iij

ijw

l λ=

Lij adalah loading dari variable ke-j untuk principal component ke i w adalah bobot dari variable ke j terhadap principal

ij

ij sl λ

ke-i, wij adalah bobot dari variable ke-j terhadap principal component ke-i, λi adalah nilai eigen dari principal component ke-i dan sj adalah standard deviasi dari variable ke-j

Page 9: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

Hal-hal yang berhubungan dengan PCAHal hal yang berhubungan dengan PCA1. Adakah effect dari type data (misalnya mean

corrected ataupun data yang telah di-standard-kan)p y g )terhadap PCA ?

2. Apakah PCA merupakan teknik yang memadai ?3. Berapakah jumlah Principal Component yang harus

dipilih ?4 B i i t t ik PCA ?4. Bagaimana menginterpretasikan PCA ?5. Bagaimana penggunaan dari Principal Component

Scores ?Scores ?

Page 10: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

1. Adakah effect dari type data (misalnya mean corrected ataupun data yang telah di-standard-kan) terhadap PCA ?yang telah di-standard-kan) terhadap PCA ?

Secara umum, bobot yang dibebankan /diberikan padasebuah variable dipengaruhi oleh variance relative darivariable karena itu data seharusnya distandardkan s d hvariable, karena itu data seharusnya distandardkan s.d.h.variance untuk setiap variable menjadi sama (yaitu satu).Namun demikian, pilihan antara memproses data awaldengan mean corrected atau data yang distandardkan jugae ga ea co ecte atau ata ya g sta a a jugatergantung pada faktor-faktor lain.Sebagai contoh, jika tidak ada alasan yang memaksaseorang pengambil keputusan untuk menganggap sebuah

i bl l bih i d i i bl l i k lig p g p g gg p

variable lebih penting dari variable yang lain maka analisaakan lebih baik jika kita menggunakan data yangdistandardkan.Namun demikian bila ada alasan bahwa variance dariNamun demikian bila, ada alasan bahwa variance darisuatu variable menunjukkan tingkat kepentingan darivariable tersebut, maka analisa akan lebih baik jika kitamenggunakan mean corrected data.gg

Page 11: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

2.Apakah PCA merupakan teknik yang memadai ?

Jika objective dari analisa data adalah membangun kombinasi linear yang tidak saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak keputusan apakah PCA cukup baik digunakan atau tidak tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b ik dihi d itidak ada artinya dan sebaiknya dihindari.Jika objective dari analisa data adalah untuk mengurangi jumlah variable (principle component) yang merupakan kombinasi linear dari variable variable asli maka jumlah kombinasi linear dari variable-variable asli, maka jumlah principle component harus kurang dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila data dapat direpresentasikan dalam p pbeberapa buah principle component tanpa menghilangkan informasi secara substansial(without a substantial loss of information)

Page 12: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

3. Berapakah jumlah Principal Component yang harus dipilih ?dipilih ?

Jika data yang digunakan adalah data yang sudah distandardkan, gunakan aturan nilai eigen yang lebih dari satu untuk menentukan jumlah principal componentPlot prosentase dari variance pada tiap principal component dan lihatlah pada „siku“ pada plot tersebut (scree plot). p „ p p ( p )Aturan ini dapat digunakan untuk mean-corrected data ataupun data yang telah distandardkan.Gunakan komponen-komponen yang secara statistik Gunakan komponen-komponen yang secara statistik signifikan.

Page 13: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

4. Bagaimana menginterpretasikan PCA ?4. Bagaimana menginterpretasikan PCA ?Gunakan nilai Loading untuk menginterpretasikan PCA. Semakin tinggi nilai loading dari suatu variable maka Semakin tinggi nilai loading dari suatu variable maka variable tersebut memiliki pengaruh dalam pembentukan principle component score dan sebaliknya.Secara tradisional, nilai loading yang dianggap sebagai nilai cutoff adalah 0.5.

Page 14: Principal Component Analysis - PCU Teaching Staffsfaculty.petra.ac.id/halim/index_files/Stat2/PCA.pdfdisebut sebagai principle component score. ` Variable yang baru merupakan kombinasi

5. Bagaimana penggunaan dari Principal Component Scores ?Scores ?

Nilai principal component scores dari dua variable baru(principal component) utama, dapat digunakan sebagai inputvariable untuk data clustering.Secara umum scores dari principal component juga dapatdigunakan sebagai input variable untuk analisa regressi dang g p ganalisa diskriminant (discriminant analysis)Keuntungan menggunakan principal component score adalahvariable-variable baru ini tidak saling berkorelasi sehinggavariable-variable baru ini tidak saling berkorelasi sehinggamasalah multicolinearity dapat dihindari.