srank shortest paths as distance between nodes of a graph with application in clustering

35
1 ﺩﺍﻧﺸﮕﺎﻩ ﺍﺻﻔﻬﺎﻥ ﺩﺍﻧﺸﮑﺪﻩ ﻓﻨﻲ ﻭ ﻣﻬﻨﺪﺳﻲ ﮔﺮﻭﻩ ﮐﺎﻣﭙﻴﻮﺗﺮ ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻧﻮﺩﻫﺎﯼ ﮔﺮﺍﻑ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩShortest Paths as Similarity Measure Between Nodes of Graph Of Web of Data ﺍﺳﺘﺎﺩ ﺭﺍﻫﻨﻤﺎ: ﺩﮐﺘﺮ ﻣﺤﻤﺪﻋﻠﯽ ﻧﻌﻤﺖ ﺑﺨﺶ ﻣﺤﻘﻖ: ﻫﺎﺩﻱ ﺧﺴﺮﻭﻱ ﻓﺎﺭﺳﺎﻧﯽ ﻣﻬﺮ1390 1390/7/26

Upload: khosravi82

Post on 28-Nov-2014

507 views

Category:

Documents


4 download

DESCRIPTION

يافتن شباهت در گراف جهت دار با استفاده از مسير کوتاه

TRANSCRIPT

Page 1: Srank shortest paths as distance between nodes of a graph with application in clustering

1

دانشگاه اصفهاندانشکده فني و مهندسي

گروه کامپيوتر

مسيرهای کوتاه برای يافتن شباهت بين نودهای گراف وب مبتنی بر داده

Shortest Paths as SimilarityMeasure Between Nodes of Graph

Of Web of Data:استاد راهنما

دکتر محمدعلی نعمت بخش:محقق

هادي خسروي فارسانی

1390مهر 1390/7/26

Page 2: Srank shortest paths as distance between nodes of a graph with application in clustering

2

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 3: Srank shortest paths as distance between nodes of a graph with application in clustering

3

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 4: Srank shortest paths as distance between nodes of a graph with application in clustering

4

)Linked Data Principles(اصول داده های پيوندی برای شناسايي منابع در وب URIاستفاده از •برای دسترسی به اين نامها استفاده شود HTTPاز پروتکل •نشان داده شود RDFرا می کند، تمامی اطالعات مفيد به فرمت URIهنگامی که يک فرد، درخواست يک •ها انواع مختلف لينک داشته باشند به صورتی که افراد قادر باشند URIالزم است به ديگر RDFعبارتهای •

.اطالعات بيشتری در مورد آن موجوديت کسب کنند

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 5: Srank shortest paths as distance between nodes of a graph with application in clustering

5

)مثال(تعريف منابع با استفاده از اصول داده های پيوندی http://dbpedia.org/page/Nigel_Clough

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 6: Srank shortest paths as distance between nodes of a graph with application in clustering

6

در حال حاضر : داده های پيوندی •

1390/7/261390/7/26

مسیر کوتاه برای یافتن میزان شباھت

Page 7: Srank shortest paths as distance between nodes of a graph with application in clustering

7

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 8: Srank shortest paths as distance between nodes of a graph with application in clustering

8

مساله پايان نامه و زير مسايل آن .رتبه بندی منابع در وب مبتنی بر داده به چه شکلی انجام شود•

:ايده•خوشه بندی منابع و سپس اعمال الگوريتم های رتبه بندی در هر خوشه•

فازهای پروژه• datasetرتبه بندی مجموعه داده ها و موجوديت در هر •بدون در نظر گرفتن خصوصيات و مقادير خصوصيات -خوشه بندی با در نظر گرفتن نودها و لينکها •با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •رتبه بندی عناصر در هر خوشه و ارائه روش رتبه بندی•

:زير مساله•خوشه بندی منابع •

نياز به داشتن الگوريتمی توانا جهت يافتن ميزان تشابه دو ايتم•

بنابراين •؟به چه شکل می توان ميزان شباهت بين منابع مختلف در وب مبتنی بر داده را اندازه گيری کرد•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 9: Srank shortest paths as distance between nodes of a graph with application in clustering

9

)ادامه (مساله

می توان گراف وب مبتنی بر داده را به يک گراف جهت دار تبديل کرد و سپس از روشهای مبتنی بر گراف •. استفاده کرد

بنابراين مساله اصلی تبديل به يافته ميزان شباهت در گراف جهت دار است •

گرافی استخراج شده از دي بی پديا: مثال•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 10: Srank shortest paths as distance between nodes of a graph with application in clustering

10

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 11: Srank shortest paths as distance between nodes of a graph with application in clustering

11

SimRank: راه حل اولدو نود مشابه هستند اگر نودهای ورودی آن دو نود مشابه باشند•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 12: Srank shortest paths as distance between nodes of a graph with application in clustering

12

BipartiteRank: راه حل دومدو نود مشابه هستند اگر نودهای خروجی آن دو نود مشابه باشند•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 13: Srank shortest paths as distance between nodes of a graph with application in clustering

13

PRank: راه حل سومدو نود مشابه هستند اگر نودهای خروجی و ورودی آن دو نود مشابه باشند•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 14: Srank shortest paths as distance between nodes of a graph with application in clustering

14

مشکالت راه حلهای قبلی

.است <b,a>مشابه ميزان شباهت > a,b<ميزان شباهت •

.تعداد شباهت های بدست آمده بسيار کم است•

.برای احراز شرايط شباهت، الزم است جريان ورودي يا خروجي مشابه داشته باشند•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 15: Srank shortest paths as distance between nodes of a graph with application in clustering

15

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 16: Srank shortest paths as distance between nodes of a graph with application in clustering

16

راه حل پيشنهادی

ميزان شباهت دو نود در يک گراف جهت دار به موارد زير وابسته است•تعداد مسيرهای کوتاه بين دو نود•طول مسيرهای کوتاه بين دو نود•

.در دسترس نيست چرا که مسيری بين آنها وجود ندارد <C,M>ميزان شباهت بين •

• <M,C> بايد شبيه باشند .

<M,K>بايد از <M,C>ميزان شباهت بين •.بيشتر باشد

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 17: Srank shortest paths as distance between nodes of a graph with application in clustering

17

مدل پيشنهادی برای يافتن ميزان شباهت

•PPa,b و به صورت زير Pبه فرض استفاده از مسيرهای به طول bبه نود aبرابر است با احتمال رسيدن از نود •

. تعريف می شود

•Access Valueبا استفاده از همه طول مسيرها و دادن وزن به مسيرها bبه نود aرسيدن از نود •

استفاده از همه طول مسيرها بسيار هزينه بر است و بنابراين از رابطه زير تخمينی از رابطه باال بدست خواهد آمد•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 18: Srank shortest paths as distance between nodes of a graph with application in clustering

18

) ادامه(مدل پيشنهادی برای يافتن ميزان شباهت

.در حوزه خوشه بندی به صورت زير انتساب داده شده است Pضرايب مسير به طول •

به صورت زير پيشنهاد می شود bو aميزان شباهت بين دو نود •

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 19: Srank shortest paths as distance between nodes of a graph with application in clustering

19

خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیايجاد خوشه های دو منبعی 1.ادغام دو خوشه با باالترين ميزان شباهت 2.توقف خوشه بندی در صورت رسيدن به مقدار آستانه3.

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 20: Srank shortest paths as distance between nodes of a graph with application in clustering

20

خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیبرای ايجاد خوشه های دو منبعی، از توابع مجموع، ماکزيمم، تعداد، مينيمم و ميانگين می توان استفاده نمود .

در پياده سازی صورت گرفته، از تابع مجموع برای محاسبه ميزان شباهت بين دو نود استفاده شده است.

فرمول زير برای ترکيب دو کالستر در مرحله دوم خوشه بندی استفاده شده است.

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 21: Srank shortest paths as distance between nodes of a graph with application in clustering

21

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 22: Srank shortest paths as distance between nodes of a graph with application in clustering

22

مجموعه داده ساخته شده ميليون 1.6که در حال حاضر بالغ بر . از مجموعه داده دی بی پديا برای خوشه بندی منابع استفاده شده است•

موجوديت داردکه اين افراد توسط لينک . هزار از منابع دی بی پديا، افراد را توصيف می کنند 360بالغ بر •

Wikipageredirect به همديگر اشاره می کنند.

.به آنتولوژی زبانی وردنت لينک داشته اند Wordnetمنابع توسط لينک •

.هزار عدد از آنها حاوی مقدار برای اين لينک هستند 120از کل منابع افراد موجود در دی بی پديا تنها •

.کالس دسته بندی شده اند 30افراد در دی بی پديا، به •

هدف از خوشه بندی، توليد همين کالسها بدون در نظر گرفتن لينک وردنت•

بعد از فيلترينگ مجموعه داده ای استاندارد ساخته شده که نسخه ای از آن در وب برای استفاده های بعدی •.انتشار داده شده است

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 23: Srank shortest paths as distance between nodes of a graph with application in clustering

23

توزيع کالس افراد در وردنت

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 24: Srank shortest paths as distance between nodes of a graph with application in clustering

24

) ادامه(مجموعه داده ساخته شده •

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 25: Srank shortest paths as distance between nodes of a graph with application in clustering

25

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 26: Srank shortest paths as distance between nodes of a graph with application in clustering

26

متدهای ارزيابی:آنتروپي•

عددی است که نشان دهنده اين است که عضوهای يک کالستر به يک کالس تنها تعلق دارند•

:دقت•.درصدی از يک کالستر است که شامل اشياء از يک کالس مشخص باشد•

بازيابی•عددي است که نشان دهنده اين است که اعضاي يک کالس، در يک کالستر با همديگر واقع می شوند•

•F-Measure•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 27: Srank shortest paths as distance between nodes of a graph with application in clustering

27

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 28: Srank shortest paths as distance between nodes of a graph with application in clustering

28

Top 5 Similar at SRi •

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 29: Srank shortest paths as distance between nodes of a graph with application in clustering

29

مقايسه متد پيشنهادی با روشهای قبلینتايج•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 30: Srank shortest paths as distance between nodes of a graph with application in clustering

30

نتايج به صورت گراف•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 31: Srank shortest paths as distance between nodes of a graph with application in clustering

31

نتايج به صورت گراف•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 32: Srank shortest paths as distance between nodes of a graph with application in clustering

32

کاربرد مساله مورد نظر

خوشه بندی منابع و سازماندهی آنها در خوشه های مرتبط•

استفاده از مقادير شباهت برای پيشنهاد منابع مرتبط تر•

استفاده از مقادير شباهت برای يافتن مقادير لينک ديگر منابع•

منابع دی بی پديا wordnet_typeاستفاده از مقادير شباهت برای يافتن مقدار لينک •

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 33: Srank shortest paths as distance between nodes of a graph with application in clustering

33

کاربرد در شبکه های اجتماعیروشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •تعداد دوست مشترک هادی با بقيه افراد به صورت زير است•

46شيروان - هادی •43اميد -هادی•23کاظمی فرد - هادی •12احمد -هادی•3ناوين -هادی•

آيا ميزان شباهت هادی با افراد در دنيای واقعی به همين شکل

است؟؟؟؟؟؟؟؟؟؟؟؟؟؟

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

46

43

23 12

3

Page 34: Srank shortest paths as distance between nodes of a graph with application in clustering

34

نتيجه گيری و کارهای آينده

روشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •

اعمال متد پيشنهادی بر روی گراف شبکه های اجتماعی•

استفاده از متدهايي همچون شبکه های عصبی برای انتساب مقدار دقيق وزن ها•در هر حوزه به صورت جداگانه بايد اعمال شود•

ارائه يک متد عمومی دارای قابليت سفارشی شدن برای هر حوزه خاص•

مسیر کوتاه برای یافتن میزان شباھت1390/7/26

Page 35: Srank shortest paths as distance between nodes of a graph with application in clustering

35

با تشکر از حسن توجه شما

مسیر کوتاه برای یافتن میزان شباھت1390/7/26