web ranking (الگوریتم های رتبه بندی سایت)

30
ت ی دی سا ن ب ه ب ب م های ر ت ب ور گ ل ا ی م ک ح ل ا اب ب# ن سی ح ر می ا ی ح ل صا- روش س[email protected]

Upload: amirbabol

Post on 18-Jan-2017

574 views

Category:

Software


11 download

TRANSCRIPT

Page 1: Web ranking (الگوریتم های رتبه بندی سایت)

الگوریتم های رتبه بندی سایت

امیرحسین باب الحکمیسروش صالحی

[email protected]

Page 2: Web ranking (الگوریتم های رتبه بندی سایت)

فهرست

3 .................................................................................................................... مقدمه

( ..................................................................................... Web Rankingرتبه بندی سایت )5

Page Ranking

Algorithm ......................................................................................... 7

Ant Colony

Algorithm ........................................................................................... 10

الگوریتم

ترکیبی ......................................................................................................

..12

Page Ranking Developed

Algorithm ........................................................................ 15

HITS

Algorithm ................................................................................................

.... 17

iRank

Algorithm ................................................................................................

... 22

BlogRank

Algorithm ..............................................................................................

25

Reference ............................................................................................................ 30

2/30

Page 3: Web ranking (الگوریتم های رتبه بندی سایت)

مقدمهدلیل نیاز به رتبه بندی سایت

حجم زياد اطالعاتناهمگني و غيرساختار يافته بودن اطالعاترشد نمايي، پويايي زیاد

بخش رتبه بندي يكي از مهمترين قسمت هاي موتورجستجو مي باشد .

3/30

Page 4: Web ranking (الگوریتم های رتبه بندی سایت)

مقدمه

"فرآيندي است كه كيفيت يك صفحه توسط موتور جستجو رتبه بندي "تخمين زده مي شود.

مزیت های رتبه بندی سایت ها جلوگیری ازWeb Spamکاهش فضای جستجو

4/30

Page 5: Web ranking (الگوریتم های رتبه بندی سایت)

(Web Rankingرتبه بندی سایت )

انواع روش های رتبه بندی سایت ها مبتنی بر محتوا)استفاده شده در بازيابي اطالعات

سنتي(TF-IDF )در مدل برداری( BM25)در مدل احتمال(

5/30

Page 6: Web ranking (الگوریتم های رتبه بندی سایت)

(Web Rankingرتبه بندی سایت )

)مبتنی بر ساختار)استفاده شده در وب فعلي Page Ranking Algorithm

Page Ranking Developed Algorithm

Ant Colony Algorithm

الگوریتم ترکیبی

HITS Algorithm

6/30

Page 7: Web ranking (الگوریتم های رتبه بندی سایت)

Page Ranking Algorithm

جز اولین الگوریتم های رتبه بندی صفحات وب توسط سایتgoogleاستفاده می شود ویژگی های الگوریتم

اهمیت به صفحات اشاره شده به صفحه و تعداد لینک های خارج شده ازصفحات

اهمیت به صفحه های ارجاع داده شدهکه صفحات با ازجاع بیشتر داری اهمیت بیشتری

7/30

Page 8: Web ranking (الگوریتم های رتبه بندی سایت)

Page Ranking Algorithm

که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می u: رتبه صفحه •باشد.

: احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند.•احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند. :••: Page Rank.صفحه می باشد : درجه خروجی صفحه است.•مجموعه گره هایی است که یک لینک ورودی به صفحه دارند. :•نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای گراف •

وب به تنظیم می شود.

که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می u: رتبه صفحه •باشد.

: احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند.•احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند. :••: Page Rank.صفحه می باشد : درجه خروجی صفحه است.•مجموعه گره هایی است که یک لینک ورودی به صفحه دارند. :•نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای گراف •

وب به تنظیم می شود.

8/30

Page 9: Web ranking (الگوریتم های رتبه بندی سایت)

Page Ranking Algorithm

مزایا در مقابل Spamمبارزه می کند .یک صفحه مهم است اگر صفحات نقطه گذاری شده به آن مهم باشد مقادیر الگوریتم رتبه بندی صفحه از تمام صفحات محاسبه می شود

و ترجیحا در زمان جستجو بدون ارتباط ذخیره شود

معایبجستجو مستقل باشد بین صفحاتی که در مجموع توانایی دارند و صفحاتی که بر روی عنوان

جستجو مع�تبر است وجه تمایز قائل نمی شود9/30

Page 10: Web ranking (الگوریتم های رتبه بندی سایت)

Ant Colony Algorithm

راه حلی چند عامله برای مسائل بهینه سازی

این الگوریتم براساس مطالعه و مشاهده روی مورچگانارائه گردید

10/30

Page 11: Web ranking (الگوریتم های رتبه بندی سایت)

Ant Colony Algorithm

𝜏𝑖) +1(=)1− (.𝑡 𝜌 𝜏𝑖𝑗) (+ Δ𝑡 𝜏 𝑖𝑗) (𝑡 𝜏𝑖𝑗 میزان فرومون بین گره های i و jرا نشان می دهد 𝜌( 0< ≤1 میزان تبخیر فرمون است𝜌)Δ𝜏𝑖𝑗 مقدار فرومونی است که مورچه K ام بر روی یال

هایی که مالقات کرده است می ریزد.

11/30

Page 12: Web ranking (الگوریتم های رتبه بندی سایت)

الگوریتم ترکیبی

الهام گرفتن از دو الگوریتمPageRank و اجتماع مورچگان

این الگوریتم تلفیقی ازکاربرد وب کاوی و ساختار وب کاویاست

12/30

Page 13: Web ranking (الگوریتم های رتبه بندی سایت)

الگوریتم ترکیبی

فایل ثبت وب سرور

پیش پردازش فایل ثبت

استخراج ویژگ�ی های

کاربران

سازی بردار

ساخت پروفایل کاربران

پروفایل کاربران

استفاده از اجتماع مورچگان

بندی رتبهصفحات

13/30

Page 14: Web ranking (الگوریتم های رتبه بندی سایت)

الگوریتم ترکیبی

رتبه صفحه : u که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می باشد.

.احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند :: .احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند: PageRank.صفحه می باشد .درجه خروجی صفحه است :: .مجموعه گره هایی است که یک لینک ورودی به صفحه دارند مقدار فرومون قرار گرفته بر روی صفحه: u.است نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای

گراف وب به تنظیم می شود.14/30

Page 15: Web ranking (الگوریتم های رتبه بندی سایت)

Page Ranking Developed Algorithm

الگ�ویتم توسعه یافته الگوریتم Weighted PageRankالگوریتم PageRank.است

نحوه رتبه دهی

اهمیت به لینک های ورودی و خروجی

امتیاز رتبه بندی مبنی بر محبوبیت صفحات توزیع شده

15/30

Page 16: Web ranking (الگوریتم های رتبه بندی سایت)

Page Ranking Developed Algorithm

مدل های مختلف برای این الگوریتم موجود است که بعضی ازآن ها را بیان می کنیم:

مبتنی بر شبکه های عصبی

مبتنی بر زنجیره مارکوف

مبتنی بر بازدید لینک ها

مبتنی بر فاکتور زمان16/30

Page 17: Web ranking (الگوریتم های رتبه بندی سایت)

HITS Algorithm

قبل از اجرای الگوریتمHITSچه اتفاقی می افتد؟ ( استخراج مرتبط ترین صفحاتRoot Set)

استخراج صفحاتی که به مجموعهRoot لینک داده و یا پیوند زده (Base Rootشده است )

17/30

Page 18: Web ranking (الگوریتم های رتبه بندی سایت)

HITS Algorithm

به هر صفحه یک امتیازHub و یک امتیاز Authorityداده می شود Authorityتعداد لینک های وارد شده به سایت هستند :Hubتعداد لینک های خارج شده از سایت هستند :

یکAuthority خوب توسط مجموعه ای مناسب از Hub اشاره شده است وبلعکس.

:حال نیاز به تشکیل گرافی با ویژگی زیر داریم 1 ,

0 , 𝐿𝑖𝑗

18/30

Page 19: Web ranking (الگوریتم های رتبه بندی سایت)

HITS Algorithm

حال مقادیرAuthority و Hub به صورت زیر محاسبه می شود:

 

  مقادیر اولیهHub و Authority است.1 برابر

19/30

Page 20: Web ranking (الگوریتم های رتبه بندی سایت)

HITS Algorithm

مزیتHITS:توانایی رتبه بندی صفحات برطبق موضوع جستجو دارد توانایی بیشتر در فراهم کردن صفحات مربوط بهHub و

Authority.را دارد  

معایب الگوریتمHITS:.در زمان جستجو ناکارآمد است.ارزیابی زمان جستجو کند و تدریجی است

20/30

Page 21: Web ranking (الگوریتم های رتبه بندی سایت)

بالگصفحاترتبه بندی iRankBlogRank

21/30

Page 22: Web ranking (الگوریتم های رتبه بندی سایت)

iRank Algorithm

برپایه الگوریتمPageRank

ساختار ضمنی و غیرصریح گراف فضای بالگ را در رتبهدهی صفحات اطالعات موجود در تاثیر می دهیم

بر پایه ویژگی زمان در فضای وبالگ

وزن دهی یال های گراف براساس فاصله زمانی پیونددادن است

22/30

Page 23: Web ranking (الگوریتم های رتبه بندی سایت)

iRank Algorithm

برابر فاصله زمانی که دو وبالگ به یک مطلب یا URL.اشاره می کنتد

هر چه فاصله زمانی فرآیند لینک دادن کمتر باشد، امتیاز پیوند بیشتراست)چرا؟(

محاسبه مقادیر پیوندها، اگر بالگbj به ni، URL متفاوت اشاره کرده باشد

مجموع وزن یال های خارج شده از یک بالگ برابر یک خواهد بود

بعد از تولید این گراف، الگوریتمPageRank23/30 روی این گراف اعمال می شود

Page 24: Web ranking (الگوریتم های رتبه بندی سایت)

BlogRank Algorithm

یکی از جدی ترین الگوریتم ها در زمینه رتبه دهی بالک

ارائه شد2006در سال

نسخه تعمیم یافتهPageRankمی باشد

24/30

Page 25: Web ranking (الگوریتم های رتبه بندی سایت)

BlogRank Algorithm نحوه محاسبهBlogRankیک صفحه

B(A): BlogRank بالگ Aاست B(Ui) نیز BlogRank برای بالک Ui است که به بالگ Aپیوند دارد d ضریب تعدیل استفاده شده در الگوریتم PageRankاست FN(Un→A) مقدار احتمال انتخاب بالگ A توسط کاربر بعد از مشاهده بالگ n

می باشد. است.Aاین مقدار، نشان دهنده تصور کاربر از مطلوبیت بالگ

25/30

Page 26: Web ranking (الگوریتم های رتبه بندی سایت)

BlogRank Algorithm

چه زمانیBlogRank مشابه PageRankمی باشد؟ اگرZبالگی با Tپیوند خروجی باشد

N تعداد مجموع خروجی ها از بالگ z باشد

برای حرکت کاربر از یک صفحه بالگ به پیوندهای خروجی نباید احتمالیکسان داد.

26/30

Page 27: Web ranking (الگوریتم های رتبه بندی سایت)

BlogRank Algorithm

را دارای اهمیت می داند ک�ه:j بالگ هایی نظیر )FN)Uz→jبرای محاسبه ( مشترک باشد.Category متع�لق به دسته )zهمراه با بالگ 1( دارای تعداد پیوند های یکسان به سایت های مختلف zهمراه با بالگ 2(

باشد.

27/30

Page 28: Web ranking (الگوریتم های رتبه بندی سایت)

BlogRank Algorithm

L تعداد پیوندها از بالگ jاست T تعداد دسته هایی است که j و z.هر دو به آنها تعلق دارندU تع�داد کاربرانی است که پست مشترک به j و zفرستاده اند N نیز تعداد پیوندهای مشترک به سایت های مختلف در بالگ های jو z می

باشدwT، wU و wN ضرایبی برای ،T،N و Uهستند

بعد از وزن دهی به بالگ ها، الگوریتمPageRankبدست می آید

28/30

Page 29: Web ranking (الگوریتم های رتبه بندی سایت)

Reference

1( Page, L., Brin, S., Motwani, R., Winograd, T., "The PageRank Citation Ranking:Bringing Order to the Web", Technical Report. Stanford InfoLab, 1999

2( Xing, W., Ghorbani, A., "Weighted PageRank Algorithm", Proceedings of the Second Annual Conference on Communication Networks and Services Research )CNSR’04(, IEEE, pp. 305- 314, 2004.

3( Dorigo, M., Maniezzo, V., Colorni, A., "Ant System:Optimization by a Colony of Cooperating Agent", IEEE, vol.26, pp.29-41,1996.

4( Marc Najork, Hugo Zaragoza,Michael Taylor, “HITS on the web: How dose it Compare”?

5( Ko Fujimmura, Takafunmi Inoue and Masayuki Sugisaki. The EigenRumor algorithm for ranking blogs. In Workshop on the Weblogging Ecosystem, 2005.

29/30

Page 30: Web ranking (الگوریتم های رتبه بندی سایت)

سخن آخر

Question?

30/30