˘ˇ ˆ ˙ kpcaprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ kpca ˘ˇˆ˙ ˝ ˛ -...

8
KPCA - [email protected] !" # - [email protected] : $" % &$& & ’$( )* $* )"+ " ),+$" - ./ 01 . 3* * 4 5,1 06 7* 8+ 9 ,:* ; <=( )* >* $* )"+ " ); <:&" * >53 . 7 * )=*? * 6 @ )* 4 A?, * 5( B& - )* 3 >* 3* * " C * D$ 6 ’E < . 7 4 )* A?, * < " 3 )1? Kernel PCA )* D$ C 4 7 F-+ %* < %5 G, ,* $* )"+ * . H/ 0I$ 7 * 3, 4 ; 6 JK, KPCA E * )* 0 D$ L:, * $* )"+ * D$ 6 ),+/ %5 D LK, 0E )* * $,M " , %5 G, $* )"+ * . N, $* )"+ 5,1 * ):? M$ M* E C - 7 1 K - 7 1 . : 03 4 0B = )G1 B=Q $* )"+ 1 - # $% = )G1 B=Q 1 ,+ JK, * $5 " "* >* 3* * )(5R . )=S: ! B@ * . 7 = )G1 0& 5,1 G, * 6 ? " JK, . 0<??@ PCA , 3, =M -,K $ C ) < . ; F-,K , = Q @#8 ) Q * - 2 E < )* 0" . )G1 7 5 3 D=9 < ; ,+ C * = . U, 7* ) 3 )M * ,:* 4 . G, 0"* )," ; >* PCA * K . 7 Principal Component Analysis(PCA) Principal axis G, PCA 9 )* ) 6 U, 4 ’$( )* ’E < ),:* 4 )* 8+ Kernel PCA V; 0" " ] 1 [ . * ,* 6 JK, 0 ; 4 7 , )=5; )& )* "* = )G1 )* <M: D$ ,G . < * ** , )* *, * PCA 0 KPCA 3 )* % ,5 )G1 ] 2 [ . $* )"+ W * ) D=9 XR 3 4 " ] 7060403 [ 0 PCA KPCA G, 6 JK, * G, * 06 4 - 3* < " $ $* )"+ 5,1 K - $* )"+ 7 " . ] 3 [ 6 JK, C=,K " * )* < " ),+/ $* )"+ . ] 6 [ 5$ * < " 3 PCA " XR $* )"+ . ] 7 [ ’" , B& ] W %,1 K - G, * =Q )$* 7 KPCA "* . ^K* 0)1? 7 ) 2 3 )* Kernel PCA * * ) >? 5 G, 6 * $* )"+ %/ . * D _ * $* )"+ * $/ . ^K* 6 3 ^K* " * 4 )* . 7 / * 0 )"+ " * ’E 0" ,$ )(5R $ $* C - 7 K - < " ):? 7 " ’* $E ??Q )$ )R, / ^K* . 2 - ’( $) *+ $, $- .% 2 - 1 $, Kernel PCA KPCA G, PCA G, * 8+9 - * * B )?@ " . * )(5R m )* %"* )," )5 F ] ,..., [ 1 m x x X = 4 H H 0

Upload: others

Post on 11-Nov-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

ها KPCAتركيب بردارهاي ويژه در حوزه به منظور خوشه بندي داده

هادي صدوقي يزدي گروه كامپيوتر- دانشگاه فردوسي مشهد

[email protected]

سهيلا اشك زري طوسي گروه كامپيوتر- مشهددانشگاه فردوسي

[email protected]

خوشه بندي به عنوان يكي از تكنيكهاي مهم در شناسايي:چكيدهو داده كاوي شناخته مي شود در فضاهايي با ابعاد. الگو، پردازش تصوير

بالا به علت وجود وابستگيهاي غير خطي بين ويژگيها، الگوريتمهاي براي مقابله با اين.ي معمولا با شكست مواجه مي شوندخوشه بند

به-مشكل عموما با انتقال فضا به حوزه ويژگي با ابعاد بالا سعي دردر اين. دست آوردن ويژگيهايي مناسب تر براي توصيف داده مي شود

به Kernel PCA مقاله سعي شده است تا با انتقال داده ها به فضايو از خصوصيات اين فضا توصيف مناسب تري از داده ها دست يابيم

از. براي خوشه بندي بهتر استفاده نماييم براي اين منظور، پس، به بررسي آنها KPCAاستخراج ويژگيهاي جديد در فضاي متعامد

و ويژگيهاي مناسب براي خوشه بندي را با انتساب وزن مناسب پرداختهو در و تركيب مي نماييم انتها از روشي مبتني بر راي به آنها، انتخاب

نتايج. گيري وزندار براي خوشه بندي داده ها استفاده مي نماييمآزمايشها بهبود مناسبي را در مقايسه با الگوريتمهاي خوشه بندي

.نشان ميدهد1ميانگين-Kو1ميانگين-Cفازي

تحليل مولفه هاي اصلي كرنل، فضاي تعامد،: كليدي واژه هاي خوشه بندي

فيمعر-1روشي قدرتمند براي استخراج ساختار از1تحليل مولفه هاي اصلي

در اين روش با حل يك مسئله. مجموعه داده هاي با ابعاد بالا مي باشدو يا با استفاده از الگوريتمهاي تكراري، مولفه هاي اصلي مقادير ويژه

تبديلي متعامد از دستگاه PCAدر حقيقت،. استخراج مي شوندا دستگاه مختصات جديد. ست كه داده ها را توصيف مي كندمختصاتي

داده2از تصوير داده ها بر روي محورهايي كه اصطلاحا محورهاي اصلياغلب تعداد كمي از اين مولفه. ها ناميده مي شوند، به دست مي آيد

اما. هاي اصلي براي توصيف ساختارهاي موجود در داده ها كافي استيرها در فضاي ورودي وابستگيهايي با مرتبه هاي در مواقعي كه بين متغ

در اين. كارا نخواهد بود PCAبالا وجود داشته باشد، استفاده از روش

١Principal Component Analysis(PCA) ٢Principal axis

و يا ويژگيها كه به طور غير PCAموارد استفاده از در فضاي متغيرهاو از آن به عنوان ياد Kernel PCAخطي به فضاي ورودي وابسته است

.]1[شودمي شود، ترجيح داده مي

، استخراج ويژگيهاي بيشتر با از جمله مزيتهاي اين فضاي جديدكيفيتي مناسب تر نسبت به مولفه هاي اصلي مي باشد به صورتيكه

به تعداد KPCA، در PCAبراي دستيابي به دقتي برابر با دقت روش .]2[مولفه هاي كمتري نياز داريم

ه ها در فضاي تعامد انجام در اغلب كارهايي كه با هدف خوشه بندي داداز]7،6،4،3[شده ،PCA و ياKPCA براي استخراج ويژگي استفاده

و بعد از تصوير داده ها در فضاي ويژگي، با استفاده از شده استمي-Kالگوريتمهاي خوشه بندي مانند ميانگين داده هاخوشه بندي

در به بررسي كارايي روشهاي مختلف استخراج ويژگي]3[در. شوندسعي شده است تا با راهنمايي]6[در. خوشه بندي پرداخته شده است

PCA هدف رفع مشكل گرفتار شدن]7[در. خوشه بندي انجام شوداز-Kالگوريتم مي KPCAميانگين در بهينه هاي محلي با استفاده

. باشد

و بررسي Kernel PCAبه معرفي2در ادامه اين مقاله، در بخشاي خوشه بندي از بردارهاي ويژه استفاده نموده اند مي مقالاتي كه بر

روش پيشنهادي براي خوشه بندي بر اساس تركيب بردارهاي. پردازيمو در بخش3ويژه در بخش به4بررسي شده ، با پياده سازي اين روش

روي چهار مجموعه داده سنتز شده، كارايي آن با روشهاي ديگر خوشهو ميانگ-Cبندي مانند فازي در-Kين و ميانگين مقايسه شده است

و زمينه هاي تحقيقاتي آينده بيان شده اند .بخش پاياني نتيجه گيري

و خوشه بندي-2 بررسي مولفه هاي اصلي در حوزه كرنل در فضاي ويژگي

Kernel PCAبررسي2-1

براي تصوير غيرخطي داده ها با استفاده PCAاستفاده از KPCAايدهبا.شداز حقه كرنل مي با نمونه داشته باشيم بهmاگر مجموعه داده اي

],...,[صورت 1 mxxX ، ماتريس كواريانس داده ها را در فضاي=

Page 2: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

TXXصورتورودي بهm

C بردارهاي ويژه. تعريف مي نماييم=1

كه داده ها تشكيل مي دهند PCA، زيرفضاي مولفه ها را درCنرمال براي توسعه اين. به طور خطي بروي اين زيرفضا تصوير خواهند شد

را كه به صورت غير خطيHروش به حالت غيرخطي، فضاي ويژگي :وابسته به فضاي ورودي است در نظر مي گيريم

)1((x) xH, X:

ϕϕ→→

و حتي نامحدود داشته باشدHفضاي . مي تواند ابعاد بزرگ دلخواه

∑فرض مي كنيم داده ها مركزدار شده باشند،=

=m

ix1j

0)(ϕ.

:محاسبه مي تماييمHماتريس كواريانس را در فضاي

)2(∑=

mT

ji xx1j

)()(1/m =C ϕϕ

HV\}0{و بردارهاي ويژه غير صفرλ≤0ه سپس مقادير ويژ ∈.كه در معادله زير صدق مي كنند را مي يابيم

)3(V=CV

),(),...,()(در فضايλ≤0باVهمه جوابهاي 21 mxxx ϕϕϕ:بنابراين. قرار مي گيرد

)4(m,…1,=nallfor

),(x),(x nn CVV ϕϕλ =

)1,...,( علاوه بر اين ضرايب mii =αنيز وجود دارند به صورتيكه

)5(∑=

=m

ii xV1i

)(ϕα

:خواهيم داشت)5(و)4(با مقايسه

)6(∑ ∑

= =

=

=

m

i

m

jijjni

m

ijni

xxxxm

xx

1 1

1

)(),()(),(1

)(),(

ϕϕϕϕα

ϕϕαλ

. n=1,…,m براي

),()(با تعريف ماتريس كرنل ijij xxK ϕϕ=به)6(معادله

:مي شوداين صورت بيان

)7(ααλ 2KKm =

mααبردارهاي ستونيαو حل. را مشخص مي نمايد1,..., برايآن)7(مسئله حل)8(، مسئله دوگان را براي مقادير ويژه مخالف صفر

.مي كنيم

)8(αλα Km =

mλλλ ≥≥≥ mααوKمقادير ويژه21... مجموعه1,...,

pλفرض مي كنيم. كامل بردارهاي ويژه مرتبط با آنها مي باشندبا در نظر گرفتن نرمال بودن. آخرين مقدار ويژه مخالف صفر باشد

و H،pααدر فضايpλابسته به بردارهاي را نرمال مي1,...,.كنيم

)9(pnVV nn ,...,1,1, ==

:، رابطه فوق به صورت زير تبديل مي شود)8(و)5(بنابر رابطه

)10(

nnnn

m

jiij

nj

n

m

iji

nj

n

K

K

xx

i

i

ααλαα

αα

ϕϕαα

,,

)(),(1

1,

1

=

=

==

=

=

ي، بايد تصوير داده ها بروي بردارهاي ويژه براي استخراج مولفه هاي اصلراxبراي اين منظور، اگر نقطه آزمون. محاسبه نماييمHرا در فضاي

بنابراين،.xϕ)(برابر خواهد بود باHداشته باشيم تصوير آن در

)11(∑=

=m

ii

nn xxxV i

1)(),()(, ϕϕαϕ

)12(∑=

=m

ii

nn xxKxV i

1),()(, αϕ

n=1,…,p

راnتصوير نقطه آزمون روي بردار ويژه .مي ناميم Prj(n)ام

در. براي سادگي، فرض شده بود كه همه داده ها مركزدار شده اندفضاي ورودي محاسبه مركز دار نمودن آسان است اما در فضاي ويژگي

Hو به سادگي نمي توان مركز مشاهدات نگاشت شده به مشكل استاما با استفاده از فرمول اصلاح شده. بالا را محاسبه نمودفضاي با ابعاد

.اين امر محقق مي گردد KPCAزير براي

)13(ijmmmmij KKKKK )1111(

~

+−−=

mmو /11 .]1[اهjوiبراي همه=

كرنلهاي مختلفي مانند كرنل گوسي، چند جمله اي، كوادراتيك،و ت... سيگموئيد .وانند به كار گرفته شوندمي

Page 3: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

از2-2 بررسي روشهاي خوشه بندي با استفاده بردارهاي ويژه

ابتدا به بررسي كارهايي مي پردازيم كه با انتقال فضاي ورودي به فضايو يا غير خطي، سعي در استخراج ويژگيهايي مناسب تر ويژگي خطي

، PCA، ابتدا با استفاده از روشهاي]3[در. براي خوشه بندي دارندKPCA،Sammon وCCA و داده ها به فضاي ويژگي انتقال يافته اند

سپس عملكرد اين روشها در خوشه بندي بروي داده ها آزمايش شده از. است براي مقايسه كارايي خوشه بندي اين روشهاي تصوير داده،

ميانگين استفاده شده است، نتايج حاصل نشان دهنده-Kالگوريتم اي استخراج ويژگيهاي مناسب نسبت به سه روش بر KPCAبرتري

از]4[در. ديگر است الگوريتم خوشه بندي معمولي را در فضاي كرنلديدگاه جديدي انجام داده است، به جاي اينكه الگوريتمها در فضاي ويژگي غيرخطي كرنليزه شوند، در فضاي ويژگي خطي اين كار انجام

-K-نشان داده شده است كه كرنل مي شود، به بيان ديگر در اين مقالهمي-Kقبل از KPCAمعادل با اعمال3ميانگين ميانگين بروي داده ها

و بعد KPCAبه اين مفهوم كه اگر نمونه ها را روي. باشد تصوير كنيمK-با ميانگين را روي آنها اعمال نماييم، فاصله بين نمونه ها معادل

ارتباط بين]6[در. هد بودفاصله آنها در فضاي غير خطي هيلبرت خواPCA و روش خوشه بنديK-و با قرار دادن ميانگين بررسي شده است

حد آستانه بروي بردار ويژگي استخراج شده با تحليل مولفه هاي اصلي، و سپس سعي بر بهينه نمودن تابع خوشه بندي اوليه را انجام مي دهد

بر. ميانگين مي نمايد-Kهدف اي خوشه بندي با به بيان ديگر، روشيو با راهنمايي تحليل مولفه هاي اصلي ارائه شده-Kالگوريتم ميانگين

بر-Kالگوريتم مكاشفه اي خوشه بندي]7[در. است ميانگين مبتنيKPCA ازا ارائهو برنامه نويسي پوي و سعي شده است تا با استفادهKPCA به4ليك ناحيه بهينه از نمونه هاي ورودي در جهت اصلي كرن

ميانگين انتخاب مي شود تا از گرفتار شدن-Kعنوان ناحيه اوليه براي در دسته دوم. ميانگين در بهينه هاي محلي اجتناب شود-Kالگوريتم

به روشهاي ديگري براي KPCAمقالاتي قرار مي گيرند كه با الهام از و خوشه بندي مي پردازند مانند كه تحليل مولفه]5[استخراج ويژگي

و5هاي انتروپي در آن به عنوان روش جديدي براي تبديل داده هااين روش نيازي به KPCAبر خلاف. كاهش بعد معرفي شده است

و ممكن است مجموعه داده تبديل يافته كاملا مقادير ويژه بزرگتر ندارداين روش مي تواند جايگزين. توليد كند KPCAمتفاوتي نسبت به

بعد از تصوير داده ها به فضاي. يز الگوها باشدمفيدي براي حذف نوويژگي با استفاده از اين روش، داده هاي تبديل يافته با توجه به توزيع خوشه ها در جهتهاي متفاوت، يك ساختار زاويه اي خواهند داشت كه

..از همين خاصيت براي خوشه بندي استفاده شده است

٣KKMeans ٤kernel principal direction ٥Entropy Component Analysis

روش پيشنهادي خوشه بندي بر اساس تركيب-3 بردارهاي ويژگي

در الگوريتمهاي خوشه بندي كه در فضاي ورودي اجرا مي شوند ازويژگيهايي كه داده ها را توصيف مي كنند براي هدف خوشه بندي

در اين مقاله سعي شده است تا به رويكردي جديد. استفاده مي شودو بنابر اين هدف به بررسي خوشه بندي در براي خوشه بندي برسيم،

براي. پرداخته ايم KPCAتعامد يا ويژگيهاي استخراج شده از فضاي خوشه بندي داده ها، از بردارهاي ويژه كه محاسبه آنها در بخش قبل توضيح داده شد به عنوان روشي براي انجام اين كار استفاده مي نماييم بدين صورت كه بعد از به دست آوردن اين بردارهاي ويژه در فضاي

KPCAيافتن بهترين هاي آنها براي خوشه بندي مي گرديم، به دنبال.

:مراحل انجام كار به صورت زير مي باشد

اولويت انتخاب بردارهاي ويژه را بر مبناي مقادير ويژه قرار-1مي دهيم، يعني بردارها را بر اساس ترتيب نزولي مقادير ويژه

.مرتب مي كنيممي-2 در).k(نماييم تعداد مناسبي از بردارهاي ويژه را انتخاب

انتخاب اين تعداد عواملي مانند شكل مجموعه داده تاثيرگذار.است

بروي بردارهاي)12(تصوير مجموعه داده ها را مطابق رابطه-3و آنها را بردارهاي نگاشت ويژه انتخاب شده محاسبه مي كنيم

).Prj(مي ناميماز-4 با يافتن حد آستانه مناسب، به طور جداگانه بر روي هريك

.اين بردارهاي نگاشت عمليات خوشه بندي را انجام مي دهيمو موفقيت اين بردارها در خوشه-5 با توجه به ميزان توانايي

مي w(i) ،i=1,…,k بندي، به هركدام از آنها وزن را اختصاص.دهيم

براي)14(مطابق رابطه براي محاسبه خوشه بندي نهايي،-6راي گيري، ميانگين وزندار خوشه بندي بر اساس بردارهاي

. نگاشت را محاسبه مي نماييم

)14(

=

=

×= k

i

k

i

iw

ijiwFinalVote

1

1

)(

)(Pr)(

در رابطه فوق برداري است كه نشان دهنده راي بردار ويژه Prj(i) هرiبا. ام براي خوشه بندي هر يك از داده هاي مجموعه داده مي باشد

و اعمال آن بروي بردار خوشه FinalVoteانتخاب حد آستانه مناسببه عنوان مثال براي خوشه بندي داده. بندي نهايي را اعمال مي كنيم

.در نظر مي گيريم 1.5ها به دو خوشه، حدآستانه را برابر با

Page 4: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

نتايج آزمايشها-4ه طبق الگوريتم ارائ. در اين بخش به بررسي چند آزمايش مي پردازيم

بعد از مرتب نمودن نزولي بردارهاي ويژه بر اساس3شده در بخشمقادير ويژه، تصوير مجموعه داده را بر روي بردارهاي ويژه انتخاب شده و با قرار دادن حد آستانه مناسب روي بردارها، داده محاسبه مي نماييم

از. ها را خوشه مي كنيم سپس با انتساب دادن وزن مناسب به هر يكن بردارها كه نشان دهنده تعلق داده ها به خوشه ها مي باشند، براي اي

مشخص نمودن خوشه نهايي كه داده به آن متعلق است از راي گيريبراي انجام آزمايشها از كرنل گوسي استفاده نموده. استفاده مي كنيم

براي ارزيابي. مشخص شده استσايم كه براي هرآزمايش مقدار ش درصد نمونه هايي كه نادرست خوشه(ده، ميزان خطا روش پيشنهاد

-Cدر اين روش را با الگوريتمهاي خوشه بندي فازي) بندي شده اندو از-Kميانگين و براي مقايسه بهتر، هر يك ميانگين مقايسه نموده ايم

و-Cالگوريتمهاي فازي و-Kميانگين ميانگين را هم در فضاي ورودي KPCAداده ها بروي بردارهاي ويژه هم در فضاي حاصل از نگاشت

ها نشان دهندهwiدر هر يك از آزمايشهاي زير،. اعمال مي نماييمعرض كرنل گوسي به كار رفتهσ. ام استiوزن منتسب به بردار ويژگي

و حد آستانه مورد استفاده براي خوشه بندي Thrرا نشان مي دهد.روي بردارهاي نگاشت مي باشد

1آزمايش4-1. را در نظر بگيريد1وعه داده دوبعدي نشان داده شده در شكل مجم

1پارامترهاي در نظر گرفته شده براي اين مجموعه داده در جدول. نشان داده شده است

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1مجموعه داده آزمايش-1شكل

1پارامترهاي مربوط به مجموعه داده شكل–1جدول

W1 W2 W3 σ Thr

2 1 1 0.3 0.1

و نتيجه2در شكل نگاشت مجموعه داده بر روي سه بردار ويژه اول.حاصل از خوشه بندي داده ها بروي اين بردارها نمايش داده شده است

0 0.5 10

0.2

0.4

0.6

0.8

1Clustered by Vec1

0 50 100 150 200 250 300 350 4-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8Eigenvector1 ,s=0.3 ,Thr=0.092

از)الف و نتيجه حاصل تصوير داده ها بر روي بردار ويژه اول خوشه بندي

0 0.5 10

0.2

0.4

0.6

0.8

1Clustered by Vec2

0 50 100 150 200 250 300 350 400

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8Eigenvector2 ,s=0.3 ,Thr=0.092

و نتيجه حاصل از خوشه)ب تصوير داده ها بر روي بردار ويژه دوم بندي

0 0.5 10

0.2

0.4

0.6

0.8

1Clustered by Vec3

0 50 100 150 200 250 300 350 400-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4Eigenvector3 ,s=0.3 ,Thr=0.092

و نتيجه حاصل از خوشه)پ تصوير داده ها بر روي بردار ويژه سوم بندي

و نتيجه حاصل-2شكل تصوير داده ها بروي بردارهاي ويژه از خوشه بندي

مشهود است توانايي بردار ويژه اول براي خوشه2همانگونه كه در شكلو سوم بيشتر مي باشد، بناب راين با بندي داده ها نسبت به بردار دوم

و وزن2اختصاص دادن وزن و1به بردار اول به دو بردار دومو)14(، طبق رابطه)1جدول(سوم به محاسبه ميانگين وزندار پرداخته

مقايسه خطا در روش پيشنهادي. خوشه بندي نهايي را انجام مي دهيمو-Cو الگوريتمهاي فازي نشان داده2ميانگين در جدول-Kميانگين

3نتايج نهايي خوشه بندي با اين سه روش نيز در شكل. شده است .مشاهده مي شود

مقايسه ميزان خطا-2جدول

درصد خطا الگوريتمدر خوشه

اول

درصد خطادر خوشه

دوم

درصد خطاي كلي

FCM (in input space)

4.27 4.54 4.40

FCM(in KPCA feature space)

3.04 2.27 2.65

Page 5: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

KMEANS(in input space)

4.87 6.06 5.46

KMEANS(in feature space)

4.87 6.06 5.46

KPCA-based Clustering

1.68 1.14 1.41

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Project of train data on PCs

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Train Data

در FCMخوشه بندي)ب فضاي ويژگي

در FCMخوشه بندي)الف فضاي ورودي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

KMEANSخوشه بندي)ت در فضاي ويژگي

خوشه بندي)پKMEANS ر فضايد

ورودي

0 0.5 10

0.2

0.4

0.6

0.8

1

-KPCAخوشه بندي)ثbased

مقايسه خوشه بندي با استفاده از روشهاي–3شكلFCM,KMEANS و روش پيشنهاديKPCA-

based

نشان داده شده است، خطا در روش پيشنهادي2همانگونه در جدولو-Cنسبت به روش فازي KPCAخوشه بندي مبتني بر -Kميانگين

.يافته استميانگين كاهش

2آزمايش4-2

.را در نظر بگيريد4مجموعه داده شكل

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

2مجموعه داده آزمايش-4شكل

4پارامترهاي مربوط به مجموعه داده شكل–3جدول

W1 W2 W3 σ Thr

0 0 1 0.3 0.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1Clustered by Vec1

0 50 100 150 200 250 300 350 400 450 500-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8Eigenvector1 ,s=0.3 ,Thr=0.25

و نتيجه حاصل از خوشه)الف تصوير داده ها بر روي بردار ويژه اول بندي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1Clustered by Vec2

0 50 100 150 200 250 300 350 400 450 500-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8Eigenvector2 ,s=0.3 ,Thr=0.25

و نتيجه حاصل از خوشه بندي تصوير)ب داده ها بر روي بردار ويژه دوم

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1Clustered by Vec3

0 50 100 150 200 250 300 350 400 450 500

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4Eigenvector3 ,s=0.3 ,Thr=0.25

و نتيجه حاصل از خوشه بندي)پ تصوير داده ها بر روي بردار ويژه سوم

از-5شكل و نتيجه حاصل تصوير داده ها بروي بردارهاي ويژه خوشه بندي

به-5همانگونه كه در شكل پ مشاهده مي شود، بردار ويژگي سومم به3ي تواند داده ها را به دو خوشه كند، بنابراين مطابق جدول خوبي

مي0و به دو بردار ديگر وزن1بردار ويژگي سوم وزن را اختصاص. دهيم

Page 6: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

مقايسه ميزان خطا-4جدول

درصد خطا الگوريتمدر خوشه

اول

درصد خطادر خوشه

دوم

درصدخطاي كلي

FCM (in input space)

0 52.59 26.29

FCM(in KPCA feature space)

0 47.66 23.84

KMEANS(in input space)

0 55.69 27.84

KMEANS(in feature space)

0 55.69 27.84

KPCA-based Clustering

1.11 0.26 0.69

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Project of train data on PCs

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Train Data

در FCMخوشه بندي)ب فضاي ويژگي

در FCMخوشه بندي)الف فضاي ورودي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

خوشه بندي)تKMEANS فض اي در ويژگي

KMEANSخوشه بندي)پ در فضاي ورودي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1Clustered by Vec3

-KPCAخوشه بندي)ثbased

مقايسه خوشه بندي با استفاده از روشهاي–6شكلFCM,KMEANS و روش پيشنهاديKPCA-based

موفقيت آميز بودن روش ارائه شده كاملا4و جدول6با توجه به شكل.مشهود مي باشد

3آزمايش4-3

ش .را در نظر بگيريد7كل مجموعه داده

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

3مجموعه داده آزمايش-7شكل

7پارامترهاي مربوط به مجموعه داده شكل–5جدول

W1 W2 W3 σ Thr

0 0 1 0.1 0.187

0 0.5 10

0.5

1

0 50 100 150 200 250 300 350-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6Eigenvector1 ,s=0.1 ,Thr=0.187

و نتيجه حاصل از خوشه)الف تصوير داده ها بر روي بردار ويژه اول بندي

0 0.5 10

0.5

1

0 50 100 150 200 250 300 350-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6Eigenvector2 ,s=0.1 ,Thr=0.187

و)ب نتيجه حاصل از خوشه تصوير داده ها بر روي بردار ويژه دوم بندي

0 0.5 10

0.5

1

0 50 100 150 200 250 300 350-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6Eigenvector3 ,s=0.1 ,Thr=0.187

و نتيجه حاصل از خوشه)پ تصوير داده ها بر روي بردار ويژه سوم بندي

و نتيجه حاصل-8شكل تصوير داده ها بروي بردارهاي ويژه از خوشه بندي

در اين مثال نيز بردار ويژگي سوم به خوبي داده ها را خوشه بندي مي.كند

Page 7: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

مقايسه ميزان خطا-6جدول

درصد خطا الگوريتمدر خوشه

اول

درصد خطادر خوشه

دوم

درصدخطاي كلي

FCM (in input space)

48.72 50 49.36

FCM (in feature space)

50 72.41 61.20

KMEANS(in input space)

48.29 50 49.145

KMEANS(in feature space)

48.29 50 49.145

KPCA-based Clustering

0 0 0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Project of train data on PCs

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Train Data

در فضاي FCMخوشه بندي)ب)ويژگي اول3با(ويژگي

در FCMخوشه بندي)الف فضاي ورودي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

در KMEANSخوشه بندي)ت فضاي ويژگي

خوشه بندي)پKMEANS در فضاي

ورودي

0 0.5 10

.5

1

-KPCAخوشه بندي)ثbased

مقايسه خوشه بندي با استفاده از روشهاي–9شكلFCM,KMEANS و روش پيشنهاديKPCA-based

بر9در شكل داده ها KPCAمشاهده مي شود كه خوشه بندي مبتني.را به درستي خوشه نموده است

4آزمايش4-4

.را درنظر بگيريد10مجموعه داده شكل

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

4مجموعه داده آزمايش-10شكل

4پارامترهاي مربوط به مجموعه داده شكل–7جدول

W1 W2 W3 σ Thr

1 0 0 0.1 0

مشاهده مي شود، بردار ويژگي اول به خوبي11مانطور كه در شكلهآن1مي تواند داده ها را خوشه بندي نمايد بنابراين وزن را به

و دو بردار ديگر وزن در0اختصاص مي دهيم و تاثيري مي گيرندنتايج نهايي حاصل از خوشه بندي12در شكل. خوشه بندي ندارند.نشان داده شده است

0 0.5 10

0.5

1

0 50 100 150 200 250 300-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6Eigenvector1 ,s=0.1 ,Thr=0

و نتيجه حاصل از خوشه بندي)الف تصوير داده ها بر روي بردار ويژه اول

0 0.5 10

0.5

1

0 50 100 150 200 250 300-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8Eigenvector2 ,s=0.1 ,Thr=0

و نتيجه حاصل از خوشه بندي)ب تصوير داده ها بر روي بردار ويژه دوم

0 0.5 10

0.5

1y

0 50 100 150 200 250 300-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6Eigenvector3 ,s=0.1 ,Thr=0

و نتيجه حاصل از خوشه بندي)پ تصوير داده ها بر روي بردار ويژه سوم

Page 8: ˘ˇ ˆ ˙ KPCAprofdoc.um.ac.ir/articles/a/1020388.pdf˘ˇ ˆ ˙ KPCA ˘ˇˆ˙ ˝ ˛ - h-sadoghi@um.ac.ir ˇ˚ ˜ !" #ˆ ˘ˇˆ˙ ˝ ˛ - Soheila.Ashkezari@stu-mail.um.ac.ir $" ˜

و نتيج-11شكل ه حاصل از تصوير داده ها بروي بردارهاي ويژه خوشه بندي

مقايسه ميزان خطا-8جدول

درصد خطا الگوريتمدر خوشه

اول

درصد خطادر خوشه

دوم

درصدخطاي كلي

FCM (in input space) S=0. 1

7.93 0 3.96

FCM (in feature space)

0 0 0

KMEANS(in input space)

0 7.31 3.65

KMEANS(in feature space) 0 7.31 3.65

KPCA-based Clustering

0 0 0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Project of train data on PCs

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Train Data

در فضاي FCMخوشه بندي)ب)ويژگي اول3با(ويژگي

در فضاي FCMخوشه بندي)الف ورودي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

در KMEANSخوشه بندي)ت فضاي ويژگي

در KMEANSخوشه بندي)پ فضاي ورودي

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Kmeans on the Project of train data on PCs

KPCA-basedخوشه بندي)ث

ي با استفاده از روشهاي مقايسه خوشه بند–12شكلFCM,KMEANS و روش پيشنهاديKPCA-based

نتيجه گيري-5در اين مقاله به بررسي روشي جديد براي خوشه بندي داده ها بر اساس

تركيب بردارهاي ويژه حاصل از انتقال داده ها به فضاي با ابعاد بالا با توجه به مجموعه داده مورد بررسي،. پرداخته شد KPCAتوسط

و با توجه به ميزان تعدادي مناسب از بردارهاي ويژه را انتخاب نمودهتوانايي هر بردار در خوشه بندي، وزنهاي متناسب را به آنها نسبت مي و عمليات خوشه بندي مبتني بر و آنها را باهم تركيب مي نماييم دهيم

. راي گيري وزن دار انجام مي دهيم

يك از بردارهاي ويژگي اختصاص يافته در اين مقاله وزنهايي كه به هرو به صورت تجربي به دست آمده است، اما و خطا است بر اساس آزمون

همچنين. در آينده هدف تعيين اين وزنها به صورت خودكار مي باشد.تاثير چينش متفاوت داده ها نيز نيازمند بررسي مي باشد

مراجع

[1] Bernhard Sch¨olkopf, Alexander J. Smola, Learning with Kernels ,Support Vector Machines, Regularization, Optimization, and Beyond, MIT Press, 2002.

[2] Bernhard Sch¨olkopf , Alexander Smola, and Klaus Robert Muller, Nonlinear Component Analysis as a Kernel Eigenvalue Problem, Technical Report, Max-Planck-Institut –für biologische Kybernetik,1996.

[3] Alissar Nasser, Denis Hamad, K-means Clustering Algorithm in Projected Spaces,IEEE conference, 2006.

[4] Jing Li, Xuelong Li, Dacheng Tao, KPCA for semantic object extraction in images, Pattern Recognition, Vol. 41,pp. 3244 - 3250, 2008.

[5] Robert Jenssen, "Kernel Entropy Component Analysis", IEEE Transactions on Pattern Analysis and Machine Intelligence, 29 Apr. 2009

[6] Chris Ding, Xiaofeng He, K-means Clustering via Principal Component Analysis, Proceedings of the 21 st International Conference on Machine Learning, Banff, Canada, 2004.

[7] Mantao Xu and Pasi Franti, A Heuristic K-MEANS Clustering algorithm by Kernel PCA, IEEE International Conference on Image Processing (ICIP),2004.