pca تجزیه و تحلیل مولفه های اساسی

Post on 15-Apr-2017

133 Views

Category:

Engineering

18 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Principle component

analysisتجزیه ی مولفه های اساسی

تهیه کننده ابوالفضل فاتحی

PCAبررسی منطق

هدفPCA

ویی تحلیل داده ها برای شناسایی و یافتن الگبرای کاهش ابعاد مجموعه داده ها به گونه ای که اطالعات از دست رفته از طریق کاهش بعد

.به حداقل برسد

در این روش به کمک ماتریس همبستگیسعی دارد تا وجه مشابه بین متغیر ها را کاهش دهد وبر تفاوتهای ابعاد تاکید نماید

یعنی قصد دارد بخش هایی که دارای .همبستگی هستند را حذف نماید

2

معرفی شاخص های چند متغیره

: n ninputX Y feature

.

( PCA ) ) (

( ) ( linear

combination )

.

3

معرفی شاخص های چند متغیره

4

PCA ) (

( PC )

.

1( _first PC ) .

2( _second PC )

.

معرفی شاخص های چند متغیره

5

معرفی شاخص های چند متغیره back

(linear combination)ترکیب خطی

دیکی از مبانی تجزیه و تحلیل مولفه های اساسی ،ترکیب خطی میباش.

6

11 1

22 2, ,

i

i

i

ipP P

aX Y

aX YX a Y

aX Y

/

1 1 11 1 12 2 1

/

2 2 21 1 22 2 2

/

1 2 2 2

... p P

P P

p p p p pp P

y a X a X a X a X

y a X a X a X a X

y a X a X a X a X

معرفی شاخص های چند متغیره

سوال

چه ویژگی باید داشته باشد؟بردار

7

/

ia

معرفی شاخص های چند متغیره

محاسبه ی واریانس مولفه های اساسی

(n=2)فرض می کنیم تنها دو متغیر داریم

1 11 1 12 2 1 11 1 12 2 11 1 12 2( ) ( )y a X a X E y E a X a X a a

1

2

11 12

21 22

2

1 11 1 12 2 11 1 11 1 12 2 12 2

2 2 2 2

11 1 1 12 2 2 11 12 1 1 2 2

2 2

1 12 2 12 1 211 11

2 2

11 12 22 12 1211 11

var( ) var( ) [( ) ( )]

[( ( ) ( ) 2 ( )( )]

var( ) var( ) 2 cov( , )

2 ( )

y a X a X E a X a a X a

E a X a X a a X X

a X a X a a X X

a a a a

2var( ) (( ) )xx E x

Show picture

2 2

1 11 12 22 12 1211 11

11 21 11 2 2

11 12 11 12 22 12 1211 1112 22 21

var( ) 2 ( )

2 ( )

y a a a a

aa a a a a a

a

1 1 1var( )y a a

بر اساس اهداف مولفه های اساسی، باید واریانس اولین مولفه ی اساسی(y1 ) حداکثر.شود

. داردa1این امر بستگی به طول بردار : مشکل

: 1a .

( 1y )/

1a X

/

1var( )a X /

1 1 1a a .

12 2 /

1 2 1 1 2 2 1 2

2

x

xl x x x x x x x x x x

x

/

1 1 1a a 1a .

.

( 2y )/

2a X

/

2var( )a X /

2 2 1a a / /

1 2cov( , ) 0a X a X .

PCA(. / /

1 2 1 2cov( , ) cov( , ) 0a X a X Y Y .)

.

10

معرفی شاخص های چند متغیره

چرا باید مولفه های اساسی نا :سوالهمبسته باشند؟

به خاطر کاهش بعد

11

معرفی شاخص های چند متغیره

گذری بر بردار ها و مقادیر ویژه

*n nA n n.

*p p

:

( , )

1, 2,...,

i ie

i p

1

2

i

i

i

ip

e

ee

e

: / 1i ie e .

12

معرفی شاخص های چند متغیره

(:(singular value decomposition

:

/

* * * *m k m m m k k kA U S V

U V . S ( , ) ii i

.

*m mU /

* *m k k mA A

11 21 1

12 22 2

*

1 2

m

m

m m

m m mm

u u u

u u uU

u u u

13

معرفی شاخص های چند متغیره

*k kV /

* *k m m kA A

S:

1

2

*

0 0

0 0

0 0 0

m kS

11 21 1

12 22 2

*

1 2

k

k

k k

k k kk

v v v

v v vV

v v v

14

معرفی شاخص های چند متغیره

/

3*2

3 1

1 3

1 1

A

2*3

3 1 1

1 3 1A

15

معرفی شاخص های چند متغیره

16

معرفی شاخص های چند متغیره

10 0 0

0 12 0

0 0 0

s

singular value))استفاده از تجزیه ی مقدار تکین

decompositionدر تعیین واریانس متغیر های جدید

نکته

17

11 22

1

( )p

ii pp

i

trace A a a a a

11 22( ) pptrace

معرفی شاخص های چند متغیره

11 12

21 22

استفاده از تجزیه ی مقدار تکین در تعیین واریانس متغیر های جدید

نکواریانس بر اساس روش تجزیه ی مقدار تکی–تجزیه ماتریس واریانس

ماتریسPیک ماتریس متعامد است.

18

/PSP

/ /PP P P I

1

2

*

0 0

0 0

0 0

p p

p

S

معرفی شاخص های چند متغیره

نقشه راه

مقدار های ویژه و بردارهای ویژه

تجزیه ی مقدار تکین

محاسبه ی واریانس در مولفه های اساسی

نتیجه کلی

واریانسi امین مولفه ی اساسی ،برابر است باi امین مقدار ویژه ماتریس واریانس–

.کواریانس

20

/ /

11 22 1 2

1 1

( ) var( ) ( ) ( ) ( ) var( )p p

pp i p i

i i

trace x trace PSP trace SPP trace S y

var( )i iy

معرفی شاخص های چند متغیره

سهمi جز اساسی از واریانس کلامین:

یکی از نکات در انتخاب اولین جزء(first principle component) این است

ه که که جزیی انتخاب شود که بیشترین واریانس را داشته باشد و همانگونپس.در باال اثبات شد واریانس اجزای اساسی برابر مقدار ویژه ی انها است

ن امر ای. اولین جزء برابر جزیی است که بیشترین مقدار ویژه را داشته باشددرصد کل واریانس در یکی دو جزء 90الی80سبب ان میشود که حدود

.ابتدایی جمع شود

21

1 2

i

p

proportion

معرفی شاخص های چند متغیره

ike k i .

ike ,i kY X

22

معرفی شاخص های چند متغیره

1 11 1 12 2y a X a X

' 1i ie e i ia e

ie ( / 1i ie e )

/

ia

.

23

معرفی شاخص های چند متغیره

مثال

24

1

2

3

/

1

/

2

/

3

1 2 0

2 5 0

0 0 2

5.83

2.00

0.17

0.383 0.924 0

0.00 0.00 1.00

0.924 0.383 0

e

e

e

/

1 1 1 2

/

2 2 3

/

3 3 1 2

0.383 0.924

0.924 0.383

Y e X x x

Y e X x

Y e X x x

معرفی شاخص های چند متغیره

ادامه مثال

محاسبه واریانس برایI امین مولفه ی اساسی:

25

2 2

1 1 2 1 2

1 2

var( ) var(0.383 0.92 ) (0.383) var( ) (0.924) var( )

2(0.383)(0.924)cov( , )

Y x x x x

x x

1

2

1 2

var( ) (1,1) 1

var( ) (2,2) 5

cov( , ) (1, 2) 2

x

x

x x

1 1var( ) 5.83Y

معرفی شاخص های چند متغیره

ادامه مثال

کلسهم اولین جزء از واریانس

سهم اولین و دومین جزء از واریانس کل

26

1

1 2 3

5.830.73 73%

5.83 2 0.17

1

1 2 3

2 5.830.98 98%

5.83 2 0.17

معرفی شاخص های چند متغیره

توجه

تنها از دو متغیر ) (می توان به جای سه متغیر اولیه ،.از واریانس کل را پوشش دهد% 98استفاده کرد،به گونه ای که pc))جدید

این همان کاهش بعد است.

27

1 2 3, ,x x x

معرفی شاخص های چند متغیره

چه تعداد مولفه کافی است؟:سوال

نمودار روبرو در تشخیص این.دموضوع کمک شایانی میکن

ما بایستی در این نمودارر ان مقدا.دنبال بازو بگردیم

از مولفه های اساسی را در نکه نظر میگیریم،باتوجه به ای

مابقی مقادیر ویژه،مقادیرکمی را داشته باشند و تقریبا در یک حدو اندازه

.باشند

در شکل روبه رو درi=3مابقی مقادیر ویژه همگی .در یک حدو اندازه میباشند

28

معرفی شاخص های چند متغیره

نکات تکمیلی

در الگوریتمPCA فرض میکنیم مجموعه داده ها دارای توزیع نرمال باپارامترهای زیر

.میباشد

چگالی مجموعه داده ها به صورت بیضی شکل با مختصات زیر توزیع شده است.

برای تک متغییره

برای چند متغییره

29

11 12

( , )

( ) var( )

X

i

X

trace pp x

2

2 1( )( ) ( )XX X X

X

xx x

/ 1 2( ) ( )X XX X C

معرفی شاخص های چند متغیره

نکات تکمیلی

از نظرهندسی مولفه های اساسی از دوران محورهای اولیه بدست می.ایند

در دستگاه باالXi بردار در سیستم مختصات اصلی و ،Yi بردار در سیستم ،

کسینوس جهت بین محورهای اصلی و محورهای . دوران یافته می باشدمربوط به سیستم جدید و iاندیس . نشان می دهندlijدوران یافته را با

.استمربوط به سیستم قدیم jاندیس

30

,Y RX R rotationmatrix

1 11 1 12 2 13 3

2 21 1 22 2 23 3

3 31 1 32 2 33 3

Y l X l X l X

Y l X l X l X

Y l X l X l X

معرفی شاخص های چند متغیره

31

معرفی شاخص های چند متغیره

top related