ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · web viewمعماری...

219
گاه ش ن دا ی عت ن ص ر ي ب ک ر مي ا کده ش ن دا ی س د ن ه م ر ت و ي$ پ م کا و اوری ن ف عات لا ط ا ان اي5 ي امه ن ی س ا ن ش کار د ارش ه ت ش ر ی س د ن ه م ر ت و ي$ پ م کا ش ن را گ رم ت ار ر ف ا ود? ي ب مدل ر? ت کار در? ون ت ي سا ورت ب?ص ودکار خ ا? ي اده ف ن ش ا ار ی س ا ن ش ا ن ع م ا? ي م ي ه ا ف م اص خ ه ت م دا گارش ن م ي پ مS ان ادري ق

Upload: others

Post on 02-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

اميرکبير صنعتی دانشگاه

اطالعات فناوری و کامپيوتر مهندسی دانشکده

افزارنرم گرايش کامپيوتر مهندسی رشته ارشد کارشناسی نامهپايان

از استفاده با خودکار بصورت سايتوب در کاربر مدل بهبوددامنه خاص مفاهيم با معناشناسی

نگارشقادريان ميثم

استادبارفروش زاده عبداله احمد دکتر

1387

Page 2: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

به تقدیم

هست و بوده من پیشرفت دلیل من، سر بر اشسایه که عزیزم پدربودم حال چه به اکنون نبود معلوم او دعای بی که مهربانم مادر

نهFFایت زاده عبدالله احمد دکتر آقای جناب عزیزم استاد زحمات از دانممی الزم چراغی همچون همواره ایشان، آورم. رهنمودهای عمل به را قدردانی و تشکر

است. بوده من راه سر بر روشنگر

2

Page 3: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

3

Page 4: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

چکیده این با مقابله رود. بFFرایمی شFFمار به کنFFونی وب در عمده مشکل یک اطالعات شدن گرانبار

را سFFایتوب یک هایسرویس و محتوا که اندشده ارائه وب سازیشخصی هایسیستم مشکل، هر در اساسی یمولفFFه کننFFد. یکمی سFFازگار هاآن گردشی رفتFFار و عالیق براسFFاس افFFراد با

به تFFوانمی را سایتوب یک صفحات است. محتوای آن کاربر مدل وب، سازیشخصی سیستم کلمات بر مبتنی رویکردهای اما داد، قرار استفاده مورد کاربر از تریدقیق مدل ایجاد منظور موجFFود معنFFای کFFردن ترکیب برای تحقیقاتی ندارند. اخیرا سایتوب از عمیقی نگرش کلیدی

یا بنFFدیرده یک از یا هاتالش این است. تمFFامی شده انجام آن کاربران نمایش در سایتوب در برایWordNet مانند عمومی هایشناختیواژگان از یا و ساخته دست و خاص شناختی واژگان سلسله یک ساختن وجود این کنند. بامی استفاده معنایی عناصر به صفحات مشاهده نگاشت لغFFوی معنFFایی منابع دیگر سوی است. از برهزینه و برزمان دستی بصورت مفاهیم از مراتب

که داریم قصد ما نامه پایFFان این برنFFد. درمی رنج دامنه خFFاص عبارات کم پوشش از عمومی بهبFFود برای مکانیسمی که است این ما اصلی کنیم. دستاورد برطرف را هانقص این دوی هر

جFFامع لغFFوی معنFFایی منبع یک از اسFFتفاده با و خودکFFار بصFFورت سFFایتوب در کFFاربر نمFFایش غFFنی منبع یک عنوان به امروزی المعارفدایره ترینبزرگ ،Wikipedia از کنیم. مامی معرفی کنیم. معماریمی برداریبهره کاربر عالیق از برداری مدل خودکار ساخت بهبود برای معنایی

مفFاهیم اسFتخراج اولیه، پردازش از: پیش عبارتند که است مولفه تعدادی شامل شده ارائه و کلیFFدی کلمFFات بFFردار یسFFازنده سFFایت،وب از کلیدی کلمات استخراج سایت، وب یدامنه

بFFرای سFFایت وب سFFاختار از اسFFتفاده دیگر مهم مفاهیم. دستاورد به کلیدی کلمات نگاشت روش یک آن دسFFتاورد آخFFرین باشد. سFFرانجام،می دامنه خاص مفاهیم خودکار کردن محدود

روش که دهدمی نشFFان ما هFFای اسFFت. ارزیFFابی مفFFاهیم به کلیFFدی کلمFFات نگاشت جدید روش به نسبت موثرتری بصورت را کاربران آن جامع لغوی معنایی منبع با همراه پیشنهادی

کند.می نمایندگیWordNet مبنای بر هایروش نیز و کلیدی کلمات

وب سازیشخصی ، معنایی هایتکنیک ،Wikipedia کاوش کاربر، کلیدی: مدلسازی کلمات

4

Page 5: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

فهرست9..................................................................................- مقدمه1

13....................................................................................مقدمه13...........................................وب یساز یشخص به نياز - داليل1-1

13...................................................اطالعات شدن - گرانبار1-1-114.......................تیسا وب یبرا یپابرجا یمشتر جذب به ازی- ن1-1-2

14.................................................وب یساز یشخص فی- تعر1-214.........................................وب یساز یشخص ستمیس دی- فوا1-315.................تیسا یکل طرح قیتطب با وب یساز یشخص - تفاوت1-415.....................وب یساز یشخص یاصل یعملکردها یبند - طبقه1-516.........................وب یساز یشخص ستمیس یاصل یهایازمندی- ن1-617..............................وب یساز یشخص در موجود یها کردی- رو1-718.....................وب یساز یشخص در وب کاربرد یکاو وب - نقش1-819........................وب یساز یشخص در محتوا از استفاده به ازی- ن1-9

19........................وب یساز یشخص در معنا از استفاده به ازی- ن1-1021.................................................................پروژه - هدف1-1121..................................................مراجع یگردآور ی - نحوه1-1221..............................................قیتحق در رفته بکار کردی- رو1-1322..........................................................نامه انیپا - ساختار1-14

22.....................................................................................مراجع25.................................................................نهیزم شیپ - مطالب2

25....................................................................................مقدمه25....................وب کاربرد یکاو وب براساس وب یساز ی- شخص2-1

28...........................................داده یمدلساز و یساز - آماده2-1-129...................................................داده انواع و - منابع2-1-1-1

29..................................................کاربرد یها - داده2-1-1-1-130...............................................ثبت یها - فرمت2-1-1-1-1-132.......................................کاربرد یها داده - منابع2-1-1-1-1-2

36..................................................محتوا یها - داده2-1-1-1-237.................................................ساختار یها - داده2-1-1-1-337................................................کاربران یها - داده2-1-1-1-4

38............................ها داده پردازش شیپ و یساز - آماده2-1-1-238.................................................ها داده ی- پاکساز2-1-1-2-140..................................................کاربر یی- شناسا2-1-1-2-241.......................................صفحه مشاهده صی- تشخ2-1-1-2-342........................................کاربر ی جلسه صی- تشخ2-1-1-2-443......................................................ریمس لی- تکم2-1-1-2-544................................................تراکنش صی- تشخ2-1-1-2-646........................کاربرد یها داده یینها پردازش شی- پ2-1-1-2-7

5

Page 6: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

47.....................گوناگون منابع از ها داده یساز کپارچهی- 2-1-1-2-848.................................وب کاربرد یها داده از الگو - کشف2-1-2

48..............................................لیتحل انواع و - سطوح2-1-2-149..............وب کاربرد یها داده یرو بر یکاو داده فی- وظا2-1-2-2

50...........................................یانجمن قواعد - کاوش2-1-2-2-152..........................................یبیترت یالگوها - کشف2-1-2-2-257.......................................................یبند - خوشه2-1-2-2-3

61.....وب یساز یشخص جهت شده کشف یالگوها از - استفاده2-1-361..........................وب یساز یشخص یقاتیتحق یها نهی- زم2-1-4

63...........................................................یلغو ییمعنا - منابع2-263.............................................................لغت - فرهنگ2-2-163......................................................جامع یها - فرهنگ2-2-264..........................................یبند رده و یشناخت - واژگان2-2-3

67.............................................................یبند - رده2-2-3-267....................موجود یها یبند رده و ها یشناخت - واژگان2-2-3-3

68.........خاص ی دامنه کی به مربوط یها یشناخت - واژگان2-2-3-3-168..................................یعموم یها یشناخت - واژگان2-2-3-3-2

2-2-3-3-2-1 -CYCو OpenCYC...........................................682-2-3-3-2-2 -WordNet.......................................................6870..........................................وب یها یرکتوری- دا2-2-3-3-2-3

71...............................یشناخت واژگان شینما یها - زبان2-2-3-472...................................................یعموم یها - فرهنگ2-2-4

2-2-4-1 -Wikipedia............................................................72Wikipedia................................74 قوت و ضعف - نقاط2-2-4-1-1Wikipedia...............................................75 - ساختار2-2-4-1-2Wikipedia.................76 در یلغو ییمعنا اطالعات - انواع2-2-4-1-3

78..............................................................یریگ جهی- نت2-2-580.....................................................................................مراجع

با وب یساز یشخص در کاربر یمدلساز نهیزم در شده انجام ی- کارها385................................................................وب یمحتوا از استفاده85....................................................................................مقدمه86...................................................استفاده مورد یها کی- تکن3-1

tf-idf.............................................................86 کی- تکن3-1-186............................................پنهان ییمعنا لیتحل کی- تکن3-1-287.......کلمه دو ییمعنا ارتباط ی محاسبه به مربوط یها کی- تکن3-1-3

...یمراتب سلسله یساختارها در مهم ییمعنا ارتباط یارهای- مع3-1-3-187

88....................................ریمس بر یمبتن یکردهای- رو3-1-3-1-188......................اطالعات یمحتوا بر یمبتن یکردهای- رو3-1-3-1-2

6

Page 7: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

89.........................متن یهمپوشان بر یمبتن یکردهای- رو3-1-3-1-3 ریغ روابط یبرا کلمه دو ییمعنا ارتباط ی محاسبه یکردهای- رو3-1-3-2

89......................................................................هست ی رابطه کلمه دو ییمعنا ارتباط ی محاسبه مورد در شده انجام ی- کارها3-1-3-3

Wikipedia.....................................................................90 در با تیسا وب در کاربر یمدلساز ی نهیزم در شده انجام یکردهای- رو3-2

91.......................................................صفحات یمحتوا از استفاده92.................................یدیکل کلمات یمبنا بر یکردهای- رو3-2-192.....................................................ییمعنا یکردهای- رو3-2-2

93....................................................یآمار یها - روش3-2-2-194.............................مراتب سلسله بر یمبتن یها - روش3-2-2-2

100..............................................................................یبند جمع101...................................................................................مراجع

106...................................................................یشنهادیپ - روش4106..................................................................................مقدمه

106..................................................................مساله فی- تعر4-1106...........................................................دیجد روش ی- طراح4-2

107.................................ثبت ی هیاول پردازش شیپ ی - مولفه4-2-1107.........تیسا وب صفحات از یدیکل کلمات استخراج ی - مولفه4-2-2111....................تیسا وب از دامنه میمفاه استخراج ی - مولفه4-2-3113............................یدیکل کلمات بردار ی سازنده ی - مولفه4-2-4115........................................................نگاشت ی - مولفه4-2-5

117.......................ستمیس یاصل یها قسمتUML یها اگرامی- د4-6117.....................مساله صورت با یشنهادیپ طرح تطابق ی- بررس4-7

119..............................................................................یبند جمع119...................................................................................مراجع

121..............................................................یساز ادهیپ اتی- جزئ5121..................................................................................مقدمه

121.......................................ثبت ی هیاول پردازش شیپ ی - مولفه5-1121......................................سرور وب ثبت افتیدر ی - نحوه5-1-2

123...............تیسا وب صفحات از یدیکل کلمات استخراج ی - مولفه5-2125...........................تیسا وب از دامنه میمفاه استخراج ی - مولفه5-3125..................................یدیکل کلمات بردار ی سازنده ی - مولفه5-4125..............................................................نگاشت ی - مولفه5-5125........................................................شاتیآزما یساز ادهی- پ5-6126..............................................................................یبند جمع

126...................................................................................مراجع129.........................................................یشنهادیپ روش یابی- ارز6

129..................................................................................مقدمه

7

Page 8: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

129............................................................ها داده - مجموعه6-1130........................................................یابیارز ی- پارامترها6-2131....................................ستمیس یها مولفه یدرست ی- بررس6-3131.....................................................شده انجام شاتی- آزما6-4

132.........................................استفاده مورد افزار - سخت6-4-1132.......................................................شاتیآزما جی- نتا6-4-2132...............................................شاتیآزما جینتا لی- تحل6-4-3

133..............................................................................یبند جمع133...................................................................................مراجع

136.....................................................ندهیآ یکارها و یریگ جهی- نت7136..................................................................................مقدمه136......................................................پروژه از حاصل جی- نتا7-1136........................................................پروژه ی- دستاوردها7-2137................................................................ندهیآ ی- کارها7-3139...................................................................................مراجع

145...............................................................................نامه واژه

8

Page 9: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ها شکل فهرست

23...........الگو کشف و داده یساز آماده یخط برون یها - مولفه1-2 شکل24.....................................وب یساز یشخص برخط - مولفه2-2 شکلHTTP...........................................................25 - تراکنش3-2 شکلURI...............................................................26 وURL- 4-2 شکل28.........................وب کاربرد یها داده یآور جمع یها - مکان5-2 شکل51...مارکف ی رهیزنج با کاربر یگردش رفتار کردن مدل از ی- مثال6-2 شکل53.........یتجمع درخت کی در یگردش رفتار کردن مدل از ی- مثال7-2 شکل یها خوشه از کاربرد یتجمع یها لیپروفا استخراج از ی- مثال8-2 شکل

55.........................................................................ها تراکنش58................وب یساز یشخص یقاتیتحق یها نهیزم از ی- بخش9-2 شکل61.........................................یشناخت واژگان از یا - نمونه10-2 شکل63.............................................یبند رده کی از یا - نمونه11-2 شکلD * T........................83 سیماتر هیتجز ی براSVD از - استفاده1-3 شکلESA..........................................87 ستمیس ییمعنا - مفسر2-3 شکلSESSION-PAGE VIEW..........................................89 سی- ماتر3-3 شکلC-LOG..............................................................93 دی- تول4-3 شکل103.....................................یشنهادیپ ستمیس یکل ی- معمار1-4 شکل105.........................یدیکل کلمات استخراج ی مولفه اتی- جزئ2-4 شکل106............................دایکاند کلمات استخراج مولفه کد - شبه3-4 شکل106...........................دایکاند کلمات یبند رتبه مولفه کد - شبه4-4 شکل107..........................دامنه میمفاه استخراج ی مولفه اتی- جزئ5-4 شکل108...................................دایکاند کردن لتریف بخش کد - شبه6-4 شکل110.......................یدیکل کلمات بردار سازنده مولفه کد - شبه7-4 شکل111.............................................نگاشت ی مولفه کد - شبه8-4 شکل113......................ستمیس یاصل یها مولفهCLASS DIAGRAM- 9-4 شکل114.........................ستمیس یاصل بخشsequence diagram- 10-4 شکل

9

Page 10: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ها جدول فهرست

WORDNET.......................62 در یلغو ارتباطات از ییها - مثال1-2 جدولWIKIPEDIA........................68 در یلغو ییمعنا اطالعات - منابع2-2 جدول یشخص در استفاده جهت یلغو ییمعنا منابع انواع ی سهی- مقا3-2 جدول

69.........................................................................وب یساز101.............1مثال تیسا وب صفحات یدیکل کلمات ی- بردارها1-4 جدول101.........1مثال در شده داده ی جلسه یدیکل کلمات ی- بردارها2-4 جدول103.................2 مثال در آنها یفرض یها وزن و یدیکل - کلمات3-4 جدول آنها یها وزن همراه به کاربر جلسات صفحات در موجود می- مفاه4-4 جدول

103........................................................................2 مثال درCUSTOMLOG........................................117 دستور ساختار- 1-5 جدولLOGFORMAT........................................117 دستور ساختار- 2-5 جدول119...یتصادف ی جلسه100 یرو بر شده انجام شاتیآزما جی- نتا1-6 جدول

10

Page 11: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

اول فصل

مقدمه

11

Page 12: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

- مقدمه1مقدمه

بررسی مورد آن مساله صورت و پروژه موضوع به پرداختن دلیل فصل این در وب، سFFازیشخصFFی با رابطه در مقFFدماتی ابتFFدا منظور این گیرد. برایمی قرار مطFFالبی اختصFFار به آن مشFFکالت و اصFFلی هFFای مولفه آن، شFFدن مطرح دلیل وب سFFازیشخصی فرآیند در معنا از استفاده لزوم به میان این شود. درمی ارائه

به وب سFFازیشخصFFی سیسFFتم از مولفه یک عنوان به کاربر مدل و شده اشاره که ایمسFFاله گیرد. سپسمی قرار انتخاب مورد معنا از استفاده با بهبود منظور

در رفته بکFFار رویکFFرد انتها گFFردد. درمی مطFFرح دارد آن حل در سعی نامه پایانشود.می ارائه نامه پایان ساختار و تحقیق

وب سازیشخصی به نياز داليل -1-1

اطالعات شدن گرانبار -1-1-1 هFFایبررسFFی اسFFت. در آورده فFFراهم را اطالعFFات از عظيم منبعی جهFFانی وب

روزانه که است شده زده تخمين وب گسترش یزمينه در شده انجام گوناگون از گيگابFFايت600 از بيش و شFFودمی اضFFافه وب به صFFفحه ميليFFون يک از بیش

Nasraoui]کنندمی تغيFFير مFFاه هر در صفحات Achananuparp] و[2008 2007]. کFFاربران بFFرای را مشکالتی شودمی ناميده اطالعات شدن گرانبار که پديده ايناست. آورده بوجود وب

باشFFد.می نياز مورد اطالعات به آسان دسترسی عدم مشکالت اين ترينمهم از زمFFان در خFFود نيFFاز مFFورد اطالعFFات يFFافتن در کFFاربران عظيم یانبFFاره اين در

هر ربط ميزان بايد سو يک از زيرا هستند مشکل دچار آسان بصورت و مناسب ميزان نظر از را صفحات بايد ديگر سوی از و کنند بررسی خود نياز با را صفحهکنند. ارزيابی اعتماد قابلیت

آن تبع به و اطالعFFات بازيابی هایسيستم اخير هایدهه در مشکل اين رفع برای کنندمی گFFذاریانديس را وب صفحات محتوای که شدند ايجاد جستجو موتورهای

مشFFکل دو هاتکنولوژی اين اما گردانندبرمی را کاربر پرسش با مرتبط صفحات ودارند:اتی حجمFFای که اطالعFFتجو موتورهFFاربر به جسFFيار دهندمی تحويل کFFبس

باشد. کاربر توسط پردازش قابل که است آن از بیشترترFFای بیشFFتجوی موتورهFFروف جسFFود معFFوای از تنها وب در موجFFمحت

ربط مFFیزان ارزیFFابی بFFرای هاآن بین موجFFود ارتبFFاطی ساختار و صفحات اهمیت برایشFFان رو این کننFFد. ازمی اسFFتفاده کFFاربر پرسش با صFFفحات

ایزمینFFFهپیش دانش و عالیق چه با و کسی چه توسط پرسش که نFFFدارد با کFFاربر دو بFFرای شFFده بازیFFابی صFFفحات آنکه اسFFت. نتیجه شFFده وارد

12

Page 13: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

وب صFFفحات از یکسFFانی یمجموعFFه یکسان پرسش با و متفاوت عالیقباشد.میسایتوب برای جایبرپا مشتری جذب به - نیاز1-1-2

و وب تحت یFFادگیری الکترونیکی، تجارت مانند وب بر مبتنی هایسرویس ظهور اینFترنت از اسFتفاده روش در اساسی تغیFFیرات مFوجب الکFFترونیکی بانکFFداری

موجب و است کرده تبدیل تجارت برای محیطی به را ها سایتوب و است شده-وب از کلیک یک تنها که رقبFFایی وجFFود اسFFت. با شFFده هاآن بین رقFFابت افFFزایش

هFFایسFFرویس به اضFFافی خFFدمات افزودن به نیاز دارند فاصله نظر مورد سایت شFFود. اینمی احسFFاس وضFFوح به پابرجFFای مشتری ایجاد یالزمه عنوان به وب

کFFردن فFFراهم و مشتریان فردی عالیق و نیازها بر تمرکز با تنها اضافی خدماتاست. پذیرامکان هاآن با متناسب محصوالت و هاسرویس

وب سازیشخصی تعریف -1-2 با را سFFایتوب یک توسط شFFده فFFراهم هFFایسرویس یا اطالعات که اقدامی هر

از آمFFده بدست دانش بکارگیری با کاربران از خاصی گروه یا کاربر یک نیازهای-وب سFFاختار و محتFFوا با تFFرکیب بصFFورت او خFFاص عالیق و کاربر گردشی رفتار

[Eirinaki 2003 a ]شود.می نامیده وب سازیشخصی کندمی سازگار سایت اطالعFFات کFFردن فFFراهم از است عبFFارت وب سFFازیشخصFFی سیستم یک هدف

ها.آن صریح درخواست بدون کاربران نیاز مورد یا دلخواهوب سازیشخصی سیستم - فواید1-3در مهمی نقش سایتوب یک توسط شده ارائه هایسرویس سازیشخصی

محیط یک به را سFFایتوب و کندمی ایفا اطالعFFات شFFدن گرانبFFار کFFاهشکند.می تبدیل افراد برای کاربرپسندتر

راهم باFFردن فFFات کFFواه اطالعFFاربر دلخFFان در و مناسب روش به کFFزم شود.می سایتوب در کاربر گردش بهبود باعث مناسب

ارت درFFترونیکی تجFFمی الکFFرای مکانیسFFتر درک بFFای بهFFتری، نیازهFFمش به مشFFتری پابرجFFایی افFFزایش نهFFایت در و او یآینده تمایالت شناساییکند.می فراهم شده ارائه سرویس

سایت کلی طرح تطبیق با وب سازیشخصی - تفاوت1-4 براسFFاس را سFFایتوب یارائه ینحوه و ساختار کاربر وب، کلی طرح تطبیق در

کندمی ورود سFFایت به شده ثبت کاربر که زمان کند. هرمی تنظیم خود ترجیحات هاسیسFFFتم این از ایشFFFود. نمونهمی ارائه او به شFFFده داده تطFFFبیق یصFFFفحه

MyYahoo [My Yahoo]د. این میFFورت یا فرایند باشFFتی بصFFورت یا و دسFFبص چFنین سFازیشخصFFی هFایسیسFFتم در که شFود. درحFالیمی انجFFام خودکFارنیمه

شود.می انجام پویا بصورت تغییراتی

13

Page 14: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

وب سازیشخصی اصلی عملکردهای بندی- طبقه1-5 یک از گونFFFFاگونی عملکردهFFFFای تواندمی وب سFFFFازیشخصFFFFی سیسFFFFتم یک

محتFوای یک تحویل مانند تFریپیچیده عملکردهای تا گرفته ساده خوشامدگویی-می تقسFFیم دسته چند به عملکردها دهد. این قرار اختیار در شده سازیشخصی :[Pierrakos 2003]شوندخاطرسپاریبه

از کFاربر به مربFوط اطالعFات سیسFتم، آن در که است عملکرد ترین ساده سFFایتوب به کFFاربر که کند. هنگامیمی ذخیره را او مرور یسابقه و نام قبیل-می قFFرار اسFFتفاده مFFورد دیگری پردازش هیچ بدون اطالعات این گرددبرمی

از: عبارتند عملکردها این یجمله گیرند. ازکاربر به خوشامدگوییکاربر برای صفحات کردن نشانشده سازیشخصی دسترسی حقوق

راهنمایی دریافت منظور به کاربر به رسانیکمک منظور به که ایسازیشخصی عملیات

مرورهFFای کFFردن فFFراهم نFFیز و سFFایتوب در خFFود نیاز مورد اطالعات سریع از هFFایی گیرنFFد. نمونهمی قFFرار دسFFته این در شودمی انجام او برای جایگزین

از: عبارتند عملکردها اینلینک یتوصیهکاربر آموزش

تطبیق ترجیحات دانش، نظرگرفتن در با صفحات کلی طرح و ساختار محتوا، تغییر

از: عبارتند عملکردها این از هاییکاربر. مثال عالیق وشده سازیشخصی کلی طرحمحتوا تطبیقها لینک تطبیقشده سازیشخصی گذاریقیمتمحصوالت بین شده سازیشخصی تمایز

وظیفه اجرای پشتیبانی شFFامل که است سFFازیشخصFFی اعمFFال از طبقه تFFرینپیشFFرفته طبقه این

جمله باشFFد. ازاو( می دخFFالت بدون کاربر)و طرف از خاص عمل یک اجرایکرد: اشاره زیر موارد به توانمی عملکردها این

شده سازیشخصی رسانیپیغامپرسش یشده سازیشخصی تکمیلشده سازیشخصی یمذاکره

14

Page 15: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

وب سازیشخصی سیستم اصلی های- نیازمندی1-6 مطFرح آن طFراحی در را هFایینیازمنFFدی وب سازیشخصی سیستم عملکردهای

اسFFت. این شFFده ارائه دوم فصل در یک هر مFFورد در مفصل کنند. توضیحاتمیاز: عبارتند ها نیازمندی

دامنه مشخصات باشFFد.می دامنه به حسFFاس سازیشخصی سیستم توسط شده ارائه عملکرد

شود. توصیف دقیق بصورت باید دامنه مشخصات رو این ازکاربر شناسایی

او رفتFFار از و دارد قFFرار کFاربر با مسFFتقیم تعامل در سFFازیشخصFFی سیستم تمایز و شناسایی جهت مناسبی مکانیسم باید رو این کند. ازمی اطالع کسب

باشد. داشته کاربرانکاربران هایداده کارای دریافت

به مربFFوط هFFایداده تمFFامی آوریجمFFع به قFFادر باید سFFازیشخصFFی سیستمدارد. سیستم عملکردهای به بستگی هاداده این حجم و باشد. نوع کاربران

هاداده سازیآماده نیز و شود حذف هاآن نویز تا شوند پردازشپیش باید شده آوریجمع هایداده

شوند. تبدیل مناسبی فرمت بهکاربر مدل کارای ساخت

شFFامل که باشدمی کFFاربر مFFدل سFFازیشخصFFی سیسFFتم اصFFلی یمولفFFه ترجیحFFات و اهFFداف دانش، عالیFFق، یدربFFاره سیسFFتم که است اطالعFFاتی

انجFFام خودکFFار یا دستی بصورت تواندمی مدل کند. ساختمی نگهداری کاربرشود.

بودنخصوصی به مربوط موضوعات ینحFFوه از باید کFFاربر و بماند محفFFوظ مFFدت تمFFام در باید کFFاربر اطالعFFات

باشد. آگاه آن از استفاده و آوریجمعوب سازی شخصی در موجود های - رویکرد1-7

بندیدسته رویکرد سه در توانمی را وب سازی شخصی در موجود های سیستمدهیم.می شرح را یک هر اختصار به قسمت این در که[Dai 2005] کرددستی بصورت تصمیم قانون مبنای بر های سیستم

و آن طFFراح دسFFتی دخFFالت طریق از وب سرویس یک رویکرد این براساس ایستا کاربر های مدل شود. معموالمی سازیشخصی کاربر همکاری با معموال

دسFFتی بصFFورت قFFانون تعدادی و آیندمی بدست نام ثبت فرایند یک طریق از تحویل متفاوت های مدل با کاربرهای به چگونه وب محتوای که این مورد در

Websphere ها سیسFFFFFتم این از ایشFFFFFود. نمونهمی تعFFFFFیین شFFFFFود دادهPersonalizationشرکت IBMباشد. می

و ساخت در دستی بصورت فعالیت توجهی قابل حجم به نیاز ها سیستم این امر که دارند کاربر همکاری به نیاز معموال این بر دارند. عالوه نیاز نگهداریباشد.نمی سازیشخصی در مطلوبی

15

Page 16: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

محتوا مبنای بر فیلترکننده های سیستم اقالم یا صFFFفحات و کنندمی اسFFFتفاده کFFFاربران پروفایل از ها سیسFFFتم این

در که اقالمی و صFFFفحات با هاآن محتFFFوایی شFFFباهت براسFFFاس را جدیFFFدی در معمFFول کننFFد. مکانیسممی توصFFیه کFFاربر به است موجFFود کاربر پروفایل

یا صFFفحات یدهنFFدهنشFFان کلیFFدی کلمFFات یمقایسFFه معموال ها سیستم این وLetizia از عبارتند ها سیسFFتم این از هFFایی اسFFت. نمونه اقالم توصFFیف

WebWatcher . نیستند مفید چندان معموال الکترونیکی تجارت کاربردهای در ها سیستم این سوی از و است کم کاربران روی بر سایتوب صاحبان کنترل سو یک از زیرا ارتباطات سایر معموال تنهایی به محتوایی شباهت مبنای بر های تکنیک دیگر

گیرند.نمی نظر در را اشیا بین معناییجمعی یا اجتماعی یفیلترکننده های سیستم

بر بیشFFتر اقالم مبنFFای بر شFFباهت جFFای به ها سیسFFتم این اصFFلی تمرکز مFFورد کFFاربر ترجیحFFات یسابقه ها سیستم است. این کاربران بین شباهت

دارای کFFاربران یFFافتن منظFFور به دیگر کاربران تمامی های سابقه با را نظر کFFاربران مجموعه این کننFFد. بهمی مقایسه نظر مFFورد کاربر با مشابه عالیق بین شFFود. نگاشتمی گفته جFFاری کFFاربر همسFFایگی مشFFابه عالیق دارای اقالم، بنFFدیرتبه شباهت مبنای بر تواندمی همسایگانش به کاربر یک یسابقه

شFFود. انجFFام مشابه اقالم خرید یا و مشابه محتوای با صفحات به دسترسی جFFاری کاربر توسط که اقالمی یتوصیه برای سپس آمده بدست همسایگیگیرد.می قرار استفاده مورد اند شده خریداری یا و دسترسی

دارنFFد. را خFFود خاص های محدودیت جمعی فیلترکردن مبنای بر های تکنیک هFFای الگFFوریتم کFFارایی و پFFذیریگسترش به مربوط بیشتر ها محدودیت این و همسایگی تشکیل یمرحله در بالدرنگ یمحاسبه به که باشندمی رفته بکاردارند. نیاز توصیه یمرحله نیزوب سازیشخصی در وب کاربرد کاوی وب - نقش1-8 و سFFاختار محتFFوا، هFFایداده روی بر کFFاوی داده تFFوان می را کاویوب کلی بطور

در نهفته الگوهFFای و ها مدل کشف کاوی وب آورد. هدف حساب به وب کاربرد الگوهFFای کشف خFاص بطFFور وب کFاربرد کFاوی وب باشFFد. هFدفمی وب منابع

داده از عظیمی حجم از الگوهFFایی چنین باشد. کشف می وب کاربران رفتاریAnand]دارد مهمی کاربردهFFای سFFرورها وب توسط شده تولید های . از[2005

در را سFFایت یک بFFودن مFFوثر مFFیزان که هFFایی سیسFFتم به تFFوانمی هاآن یجملFFه پویای کردن متعادل برای هایی تکنیک کنند،می ارزیابی کاربر انتظارات برآوردن

کاربردهFFای و کFFاربران مFFوثرتر دسFFتیابی بFFرای سFFرورها وب سازی بهینه و بار بیFFنی پیش نیازهFFای براسFFاس سایت یک تطبیق و مجدد ساختاردهی به مربوط

کرد. اشاره کاربر یشده که دیگر رویکردی عنوان به وب کاربرد کاوی وب های تکنیک اخیر های سال در

مشFFکالت از برخی که اند شده ارائه وب سازیشخصی در است کاربر بر مبتنی

16

Page 17: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کFFاربرد کFFاوی وب خFFاص دهند. بطورمی کاهش را جمعی فیلترکردن به مربوط که سFFنتی یشده سازیشخصی های سیستم پذیری گسترش افزایش برای وب

فصل اسFFت. در شFFده اسFFتفاده باشندمی جمعی فیلترکردن های تکنیک برمبنای-می شرح را وب کاربرد کاوی وب براساس وب سازیشخصی مفصل بطور دوم

دهیم. وب سازیشخصی در محتوا از استفاده به - نیاز1-9

این آن و دارد مهم عیب یک وب سFFازیشخصFFی در کFFاربرد بر مبتنی تنها رویکرد او موجFFود تراکنشی هFFایداده براسFFاس تنها کFFاربر به توصFFیه فرآیند که است

اند شFFده اضافه سایت به اخیرا که صفحاتی یا اقالم رو این از و گیردمی صورت-می نامیFFده جدید قلم مشFکل عموما مشFکل شFوند. این توصFیه او به توانندنمی

وب منFFابع کاربرد به مربوط یشده کشف الگوهای اگرچه دیگر سوی شود. از با کاربران یا یکدیگر با اقالم ارتباطات کشف در وب کاربرد کاوی وب طریق از

دانش از استفاده بدون اما مفیدند کاربر جلسات در شباهت تعیین نیز و یکدیگر از انFFدکی درک الگوهFFایی چFFنین نظر مFFورد سFFایت وب یدامنه از تFFری عمیق ما اختیار در گیرندمی قرار هم با هایی گروه در کاربران یا اقالم چرا که آن دالیل جمعی کFFردن فیلFFتر در مشFFکل این حل بFFرای معمول رویکرد دهند. یکمی قرار

کاربر های قضاوت و ها بندیرتبه با را صفحات محتوای مشخصات که است آن سFFایتوب محتFFوای از کلیFFدی کلمFFات رویکردها این در کلی کFنیم. بطFFور ادغFFام

-آن بندیطبقه یا محتوا براساس صفحات گذاریاندیس برای و شوندمی استخراج سFFازیشخصFFی یحFوزه گیرند. درمی قرار استفاده مورد مختلف هایدسته به ها

افFFراد براسFFاس تنها نه را صFFفحات تا دهدمی اجFFازه سیستم به رویکرد این وب بازدید اخFFیرا کFFاربر که صFFفحاتی به هاآن محتوایی شباهت براساس بلکه مشابهکند. توصیه او به است کرده

وب سازیشخصی در معنا از استفاده به - نیاز1-10 ویFFژگی بین تر پیچیFFده ارتباطFFات درک در کلیFFدی کلمFFات بر مبتنی رویکردهای

اطالعFFات مثFFال عنFFوان هسFFتند. به نFFاتوان بیشFFتر معنFFایی عمق در اشFFیا هFFای و دروس جویFFان،دانش یا و ها هنرپیشه و ها کFFارگردان هFFا، فیلم بین ارزشFFمند

موجFودیت این توصFیف برای کلیدی کلمات صرفا از استفاده صورت در اساتید با پیچیFFده اشFFیای از مختلفی انFFواع کردن توصیه منظور روند. بهمی دست از ها

-آن خصوصیات باشد قادر باید سیستم هاآن های ویژگی و خصوصیات از استفاده بگFFیرد. سیسFFتم نظر در کلیFFدی کلمFFات به نسبت باالتری معنایی عمق در را ها

به را جFFاوا دروس است ممکن دانشFFگاه یک سFFایت وب سFFنتی سFFازیشخصFFی توصیه او به است داده نشان عالقه جاوا دروس به قبال دانشجویی که این علت

ممکن بFFردمی بهFره مربوطه یدامنFFه دانش از که سیسFFتمی دیگر سوی کند. از را جFFاوا درس یزمینFFهپیش دروس باید ابتدا دانشجو این که دهد تشخیص است

درس این یکننFده ارائه اسFتاد تFرین مناسب باشد قادر است ممکن یا بگذراند است فلسفی بحث یک شناسیهستانکند. توصیه او به را دانشجو این برای

17

Page 18: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

تعریف هاآن بین معنFFایی ارتباطFFات و مهم مفFFاهیم تعریف بFFرای را ساختاری که شناختیواژگان شودمی سازیپیاده ماشین در که هنگامی ساختار کند. اینمی

داده پایگFFاه در ایرابطFFه شFFمای یک شFFناختی واژگFFان از شود. مثالیمی نامیده به معنFFایی نظر از که است ای خFFارجی کلیFFدهای و جFFداول شFFامل که است

در دانش سFFاخت بFFرای تFFوانمی سFFاختارهایی چنین باشند. ازمی مرتبط یکدیگر ها شFFناختی کFرد. واژگFان اسFFتفاده خFاص یدامنFFه یک در بFاال انتزاعی سطوح

و مفFFاهیم بین بنFFدی رده ارتباطFFات مفاهیم، شامل معموال سایت وب یک برای باشFFند. بهمی سFFایت وب یدامنFFه در موجود مفاهیم بین موجود ارتباطات سایر

معمFFوال فیلم سFFایت وب یک به مربFFوط یدامنFFه شFFناختی واژگFFان مثال عنوان اسFFت. ارتباطFFات غFFیره و کFFارگردان ،هنرپیشه ،فیلم مانند مفFFاهیمی شFFامل

فیلم( ، و هنرپیشه )بین فیلم در کFFFردن بFFFازی شFFFامل دامنه این در معمFFFولباشد.می غیره و کردن کارگردانی

از اعم گونFFاگونی هFFای روش به تFFوانمی را سFFایت وب یک شFFناختی واژگFFان خFFاص مشFFکالت ها روش این از یک ساخت. هر خودکار و خودکار نیمه دستی،

خواهد بحث ترجFFزئی بصFFورت معناشناسی یزمینه در2 فصل دارند. در را خودشد.

ترعمیFFFق تعامل به وب سFFFازیشخصFFFی حFFFوزه در معنFFFایی دانش از اسFFFتفاده این در دامنه دانش شFFود. ادغFFاممی منجر آن با سFFایت وب کاربران و مشتریان بر کFFاربران بFFرای بیشFFتری مفید های توصیه که دهدمی را امکان این ها سیستم دالیل مFFورد در اسFFتنتاج امکFFان و شFFوند تولید اشیا تر عمیق مشخصات اساس

کند.می فراهم را کاربران اقداماتکاربر نمایش در معنا از استفاده به نیاز

سیسFFتم هر اصFFلی هFFای نیازمنFFدی از یکی که کFFردیم اشFFاره6-1 بخش در کمک سیسFFتم به مولفه اسFFت. این کFFاربر مدل کارای ساخت سازیشخصی

پیش دانش مانند خFFود کاربران گوناگون های جنبه از درستی درک که کندمیباشد. داشته غیره و عالقه مورد موضوعات ها،آن ای زمینه Achananuparp]کFFرد بندی دسته مختلفی ابعاد در توانمی را کاربر های مدل یا فFFردی ضFFمنی، یا صFFریح مFFدت، بلند یا مدت کوتاه مثال عنوان . به[2007

حFFوزه کاربردر مدلسازی مورد در تفصیل به سوم فصل غیره. در و گروهیکرد. خواهیم بحث وب سازیشخصی و درست منFFابع بFFود نخواهد قFFادر سیسFFتم کFFاربر از دقیقی نمFFایش بFFدون

کFار به را ها الگFFوریتم ترین پیشرفته اگر حتی کند ارائه کاربر به را مرتبطی وب سFFازیشخصFFی در معنا از اسFFتفاده لFFزوم یدربFFاره قبل بخش بFFبرد. در

وب سFازیشخصFFی از گونFاگونی هFای جنبه در تFوانمی را کFردیم. معنا بحثباشد. می کاربر نمایش ها قسمت این ترینمهم از کرد. یکی ادغام

بهبFFود برای وب محتوای از که موجود رویکردهای بیشتر در عمده ضعف یک بFFردار از معمFFوال ها روش این که است این کنندمی اسFFتفاده کFFاربر مFFدل

بین معنFFایی ارتباطFFات و کنندمی اسFFتفاده کFاربر عالیق نمایش برای عبارات

18

Page 19: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

این معنا از اسFFتفاده با توانمی که صورتی گیرند. درمی نادیده را عبارات اینداد. بهبود را نمایش روش

پروژه - هدف1-11 از که هFFایی روش در سFFایت وب در کFFاربر مFFدل بهبFFود پFFروژه این اصلی هدف

سFFایت وب دامنه در موجFFود معنFFای از اسFFتفاده با کنندمی استفاده وب محتوای شود. انجام خودکار بصورت فرآیند این امکان حد تا که است مطلوب و باشدمی

مراجع گردآوری ی- نحوه1-12 معتFFبر هFای کنفFرانس وISI مجالت نخست یمرحلFه در مراجع گردآوری برای

ویرایشگرانی گروه از نفر شش و شد شناسایی پروژه کاری یحوزه با مرتبط صFFفحات به مراجعه شدند. با انتخاب کنندمی تحقیق پروژه موضوع مورد در که

به دسترسی و ها آن تحقیقFFاتی هFFای آزمایشFFگاه صFFفحات و افراد این شخصی از نFFیز زمینه پیش گردیFFد. منFFابع آغFFاز پروژه مطالعاتی فاز آنها در موجود منابع انتخFFاب شFFوندمی تFFدریس دنیا معتFFبر های دانشگاه در که مقاالتی و کتابها میانGhaderyan] در افFFراد و ها کنفFFرانس است. لیست شده Homepage]ودFFموج

باشد.میتحقیق در رفته بکار - رویکرد1-13 اول یکFFرد. دسFFته تقسFFیم دسFFته دو به تFFوانمی را پFFروژه در رفته بکFFار منFFابع

دهنFFد.می قFFرار اختیFFار در را کFFار موضوع ای زمینهپیش دانش که هستند منابعی این به است کFFاربردی کFFامال رویکردی منابع این یمطالعه در رفته بکار رویکرد

یک یارائه تا بوده ها تکنیک و ابزارها با آشنایی آنها یمطالعه از هدف که معنی مطFFرح مساله صورت یزمینه در که باشندمی منابعی دوم یجدید. دسته روش رفته بکFFار رویکFFرد منFFابع گونه این یمطالعه اند. در کرده ارائه را روشی شده و آنها روش و ایFFده بر تاکید سFFازی پیFFاده جزئیات و ابزارها بر اجحاف بر عالوهاست. بوده آن بهبود در سعی و ارزیابی نحوه

نامه پایان - ساختار1-14است: زیر بصورت نامه پایان ساختار شخصی مراحل ابتFFFFFدا فصل این . درای زمینه پیش . مطWWWWالب2 فصل زمینه و ها چFالش آن، چFارچوب ، وب کFاربرد کFاوی وب براسFاس وب سFازی

به مربFFوط مفFFاهیم و معنایی وب شود. سپسمی بحث آن کنونی تحقیقاتی هایگیرد.می قرار بررسی مورد وب معنایی کاوی وب نهایت در و شودمی ارائه آن

حWWوزه در کWWاربر مدلسازی زمینه در گرفته صورت . کارهای3 فصل کارهFFای اول بخش است. در بخش دو شامل فصل . اینوب سازی شخصی

حFFوزه در کلیFFدی کلمFFات از اسFFتفاده با کFFاربر مدلسFFازی زمینه در شFFده انجام با شFFده انجFFام کارهFFای دوم بخش شFFوند. درمی بررسی وب سFFازیشخصFFیگیرند. می قرار بررسی مورد شناسی هستان و معنا از استفاده

19

Page 20: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

با کFFاربر مدل بهبود برای روش دو فصل این . درپیشنهادی . روش4 فصل از اسFFFتفاده با دیگFFFری وWordNet از اسFFFتفاده با یکی معنFFFا، از اسFFFتفادهWikipediaشود.می ارائه

فصل این . درشWWده انجWWام آزمایشWWات و سازی پیاده . جزئیات5 فصل ابزارهFFا، هFFا، داده مجموعه پیشFFنهادی، روش سFFازی پیFFاده به مربFFوط جزئیات

شود. می ارائه غیره و ارزیابی معیارهای این . دردیگWWWران روش با آنها مقایسه و آزمایشWWWات . نتWWWایج6 فصل آنها تحلیل و ها روش سFFایر با آنها مقایسه و شFFده انجام آزمایشات نتایج فصل

شود.می بررسی و پروژه دستاوردهای فصل این . درآینده کارهای و گیری . نتیجه7 فصلشود.می ارائه آن یآینده کاری های زمینه

مراجع

[Achananuparp 2007] P. Achananuparp, H. Han, O. Nasraoui and R. Johnson, “Semantically Enhanced User Modeling”, Proceedings of the 2007 ACM Symposium on Applied Computing (Seoul, Korea, March 11 - 15, 2007). SAC '07. ACM, New York, NY, 1335-1339.

[Anand 2005] S. S. Anand and B. Mobasher, “Intelligent Techniques for Web Personalization”, LNAI 3169, Springer-Verlag ,2005, 1–37.

[Dai 2005] H. Dai and B. Mobasher, “Integrating Semantic Knowledge with Web Usage Mining for Web Personalization", Web Mining: Applications and Techniques, Idea Group Publishing, 2005, 276-306.

[Eirinaki 2003 a] M. Eirinaki and M. Vazirgiannis, “Web Mining for Web Personalization”, ACM Transactions on Internet Technology, 3:1-27, 2003.

[Ghaderyan Homepage] http://ceit.aut.ac.ir/~ghaderyan/Web%20Personalization.htm

[Mobasher 2004] B. Mobasher, “Web Usage Mining and Personalization”, Practical Handbook of Internet Computing, Chapman Hall and CRC Press, 2004.

[My Yahoo] http://my.yahoo.com

20

Page 21: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Nasraoui 2008] O. Nasraoui, M. Soliman, E. Saka, A. Badia and R. Germain, “A Web Usage Mining Framework for Mining Evolving User Profiles in Dynamic Web Sites”, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2008, vol. 20, 1041-4347.

[Pierrakos 2003] D. Pierrakos, G. Paliouras, C. Papatheodorou and C. D. Spyropoulos, “Web Usage Mining as a Tool for Personalization: A Survey”, User Modeling and User-Adapted Interaction, 13: 311-372, 2003.

21

Page 22: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

دوم فصل

زمينه پيش مطالب

22

Page 23: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

زمینه پیش - مطالب2مقدمه

نامهپایان در شده ارائه روش درک برای که را ایزمینهپیش مطالب فصل این در وب سازیشخصی مراحل مورد در اول بخش دهیم. درمی توضیح است ضروری

-زمینه نیز و آن پردازشپیش یمرحله مخصوصا و وب کاربرد کاویوب اساس بر در دوم بخش شود. درمی ارائه مطالبی تفصیل به آن کنونی تحقیقاتی های

وب سازیشخصی فرآیند در معنا از استفاده جهت لغوی معنایی منابع موردشود.می داده توضیح

وب کاربرد کاویوب براساس وب سازی - شخصی2-1 یک کFFردن توصFFیه وب کFFاربرد کFFاوی وب براسFFاس وب سFFازیشخصFFی هFFدف

با غFFیره و محصFFول متن، آگهی، لینFFک، شFFامل جFاری کاربر به اشیا از مجموعه تطFFابق با عمل باشFFد. اینمی کFFاربر عالیق و ترجیحFFات سFFمت به گFFیری جهت

الگوهFFای او( با شFFده ذخFFیره پروفایل با همFFراه احتمFاال )و کFاربر جFاری جلسه این گFFیرد. بهمی صFFورت وب کFFاربرد کFFاویوب طریق از شFFده کشف کFFاربردی نمFFایش یک چFFون شFFود،می گفته کاربرد تجمعی های پروفایل کاربردی الگوهای کنFد. اینمی فFراهم کFاربران از گFروهی مشFترک عالیق و ها فعالیت از تجمعی-شخصFFی سیسFFتم برخط یمولفFFه که شودمی انجام توصیه موتور توسط فرآیند کFردن پیگFFیری قFابلیت سیسFFتم در داده آوری جمع های رویه است. اگر سازی

نمایش توانمی ها توصیه از گاه آن باشند داشته را مالقاتشان طول در کاربران کاربر فعالیت یتاریخچه مبنای بر کاربران یبالقوه عالیق از تری مدت طوالنی

از تنها تجمعی هFFFای پروفایل اگر دیگر سFFFوی کFFFرد. از برداشت سFFFایتوب در کاربر عالیق از مدت کوتاه دید یک تنها توصیه گاه آن شوند ایجاد کاربر جلسات

کFFاربر جاری جلسه در صفحه آخرین به شده توصیه داد. اشیای خواهد نشان راشوند.می افزوده کاربر، مرورگر به آن شدن فرستاده از پیش

مرحله سه شFFامل وب کFFاربرد کFFاویوب براساس وب سازیشخصی کلی فرآیند و وب کFFاربرد هFFای داده از الگو کشف داده، مدلسFFازی و سFFازی است: آمFFاده

تنها مراحل این بین وب. از سازیشخصی برای شده کشف الگوهای از استفاده ثبت داده، سFFازی آمFFاده شFFود. مرحلهمی انجام بالدرنگ بصورت سوم یمرحله

مFFورد کاوی داده در تواندمی که کندمی تبدیل تراکنشی یداده به را وب خام های منFFابع از داده سFFازی یکپارچه شFFامل همچFFنین مرحله گFFیرد. این قرار استفاده-می سایت محتوای و کاربردی خدمات سرورهای داده، های پایگاه مانند مختلف

بنFFدی، خوشه مانند کFFاویداده مختلف های وظیفه الگو کشف مرحله باشد. در یداده این روی بر تFFوانمی را ترتیFFبی الگوهFFای کشف و انجمFFنی قواعد کFاوش

-می تبFFدیل کFFاربرد تجمعی های پروفایل به کاوش فاز کرد. نتایج اجرا تراکنشی جFFاری یجلسFFه توصFFیه باشFFد. موتFFورمی مناسب توصFFیه مرحله برای که شوند

23

Page 24: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

-شخصFFی محتFFوای کFFردن فFFراهم بFFرای شFFده کشف الگوهای با همراه را کاربردهد. می قرار استفاده مورد شده سازی

کFFاربرد کاوی وب براساس سازیشخصی فرآیند از جامع نمای یک بخش این در 2-2 و1-2 هFFای شکل در فرآیند این برای کلی چارچوب دهیم. یکمی ارائه وب

Mobasher] است شFFFده داده نشFFFان این از بخش این یادامFFFه . در[2004 بحث بخش این در کFرد. همچFFنین خFواهیم اسFFتفاده راهنما عنFFوان به چارچوب پیش شامل فرآیند این برای الزم وب کاربرد کاوی وب های فعالیت از مفصلی

الگو کشف متFFداول هFFای تکنیک و منبع چندین از داده سازی یکپارچه پردازش،داد. خواهیم ارائه روندمی بکار کاربرد ییکپارچه های داده این روی بر که

[Mobasher 2004]الگو کشف و داده سازی آماده خطی برون های - مولفه1-2 شکل

محتوا و ساختار وب سایت

دانش دامنه

پاکسازی دادهتشخیص مشاهده

صفحهجلسه بندی

یکپارچه سازی داده

تبدیل داده

ثبت های وب سرور

پایگاه داده تراکنش کاربر

آماده سازی داده

فیلتر کردن الگو

اجتماعتوصیف صفات

تحلیل الگو

خوشه بندی تراکنشخوشه بندی مشاهده

صفحهتحلیل همبستگی

کاوش قواعد انجمنیکاوش الگوهای

ترتیبی

وب کاوی کاربرد وب

پروفایل های تجمعی کاربرد

الگوها

مرحله آماده سازی و مدلسازی داده

مرحله کشف الگو

24

Page 25: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Mobasher 2004] وب سازیشخصی برخط - مولفه2-2 شکل

داده مدلسازی و سازی آماده-2-1-1 است مناسبی یداده مجموعه ایجاد کاویداده عمل هر در مهم یمرحله یک شامل تواندمی فرایند کنند. این عمل کاویداده های الگوریتم آن روی بر که

تبدیل و گوناگون منابع از هاداده سازییکپارچه اولیه، هایداده پردازشپیش باشد. کاویداده عملیات ورودی عنوان به مناسب فرمتی به یکپارچه هایداده

شود.می گفته داده سازیآماده عملیات این یمجموعه به در محاسبات و زمان نظر از مرحله ترینپرهزینه اغلب داده سازیآماده فرایند کاویوب مورد در و[ Mobasher 2004]شودمی محسوب دانش کشف فرآیند کاویوب در داده سازیآماده یاست. مرحله صادق موضوع این نیز وب کاربرد که است ایمکاشفه و خاص هایالگوریتم از استفاده نیازمند اغلب وب کاربرد

در مرحله شوند. ایننمی برده بکار مرحله این در کاویداده دیگر هایحوزه در بخش این است. در حیاتی بسیار هاداده از مفید الگوهای آمیزموفقیت استخراج

کاویوب در هاداده مدلسازی و سازیآماده با مرتبط مفاهیم و موضوعات در عمومی موضوع یک قسمت این شود. اگرچهمی داده توضیح وب کاربرد بر خاص طور به ما تمرکز بخش این در باشد،می وب کاربرد هایداده تحلیل کاربردی الگوهای یاستفاده قابلیت و کیفیت که بود خواهد فاکتورهایی روی

دهند.می قرار تاثیر تحت وب سازیشخصی در را شده کشف

موتور توصیه

جاسه جاری وب سرور

پروفایل یکپارچه توصیه هاپروفایل ذخیره کاربر

شده کاربر

دانش دامنه

پروفایل تجمعی کاربر

مرورگر کاربر

25

Page 26: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

داده انواع و - منابع2-1-1-1 که باشدمی سروروب ثبت هایفایل وب کاربرد کاویوب در داده یعمده منابع

است. وب خدمات یدهندهسرویس هایثبت و سروروب دسترسی هایثبت شامل کشف یمرحله در هم و داده سازیآماده در هم نیز آنها که داده منابع سایر هایقالب داده، هایپایگاه ها،متاداده و سایتوب هایفایل شامل باشندمی مهم الگو

-می را منابع این از آمده بدست هایداده کل است. در دامنه دانش و کاربردی-می توضیح مفصل بصورت را هریک ادامه در که کرد تقسیم دسته چهار به توان

دهیم.کاربرد های - داده2-1-1-1-1

که هاییمتاداده از تعاریفی ابتدا بپردازیم هاداده گونهاین انواع به آنکه از پیش . شکل[Norguet 2006]کنیممی ارائه شوندمی استفاده و تولید سرورهاوب توسط

نشانHTTP سرور یک وHTTP مشتری یک بین راHTTP تراکنش یک2-3 یک و است وب مشتری یکHTTP مشتری که کنید فرض سادگی دهد. برایمی

کاربران برای که وب مشتری باشد. یکمی سروروب یک نیزHTTP سرور Mozillaمانند شودمی نامیده وب مرورگر یک است شده طراحی انسانی

Firefox ، Netscape Navigatorو Microsoft Internet Explorerوب از هایی . مثال- Microsoft وIBM HTTP Server، Apache HTTP Server از عبارتند سرور

Internet Information Server (IIS) .

HTTP - تراکنش3-2 شکل

-می تعریف زیر هایمتاداده با اساسی کاربرد های دادهHTTP تراکنش یک درشوند:

آدرس IPمشتری ماشینتصدیق فرایند که صورتی در کاربر شناسه HTTPدهد.می انجام رادهد.می انجام را درخواست پردازش سرور که زمانیمتد HTTP (GET، POST، ...)URIدرخواست مانند پروتکل ینسخه و پروتکل HTTP 1.0، HTTP 1.1و ...وضعیت کد HTTPشود.می فرستاده پس مشتری به کهبایت برحسب پاسخ یاندازه

پاسخ

درخواست

HTTP مشتری

HTTP سرور

26

Page 27: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

که دهندهارجاع URIشده ارجاع آن از مشتری گزارشات که است ای اند.

خود مورد در مشتری مرورگر که است اطالعاتی شامل که کاربر عامل مرورگر، است: نام موارد این شامل اطالعات کند. اینمی گزارش

اجراست. حال در آن روی بر مرورگر که عاملی سیستم و آن ینسخه یک کامل آدرسURLگرفت. نظر درURI وURL بین باید مهم تفاوت یک

-وب نام (،://http) پروتکل پیشوند شامل که است مشتریHTTP درخواست )شکل استHTTP پارامتر ( وURI) سایت از درخواست مورد منبع سرور،

2-4.)

URI وURL- 4-2 شکل

مراجعه[Coffey 2001] به مربوطه اصطالحات مورد در بیشتر اطالعات برایکنید.

ثبت های - فرمت2-1-1-1-1-1 ثبت فرمت چند یا یک به سرور وب توسط ها داده سرور، وب گرفتن ثبت در-سازیپیاده و گرفتن ثبت برای متنوعی هایگزینه سرورها وب تکامل شود. بامی

از عبارتند آنها پرکاربردترین از اند. تعدادیشده ارائه آنها از گوناگونی هایNCSA Combined Log Format، NCSA Separate Log Format(3-log format)و

NCSA Common Log Format (access log)بخش در شده ذکر هایداده . تمامی مشابه ثبتی چنین کرد. یک ذخیرهCombined Log Format در توانمی را قبلاست: زیر

Separate Log Formatاما کرده ترکیب را وب کاربرد کاویوب هایداده تمامی کند:می تقسیم زیر های فرمت در ثبت فایل سه به را آنها

عامل ثبت فرمت

دهنده ارجاع ثبت فرمت

دسترسی ثبت فرمت

http://www.piggybank.com/TransferForm.do?debitAccount=222

URL

URI HTTP param

62.201.74.134 - - [29/Aug/2003:22:37:54 +0200] "GET /DisplayAccount.do HTTP/1.1" 200 2972 http://www.piggybank.com/MainMenu.do "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT)"

27

Mozilla/4.0 (compatible; MSIE 5.01; Windows NT)

http://www.piggybank.com/MainMenu.do -> /DisplayAccount.do

Page 28: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Combined در موجود اطالعات باSeparate Log Format در موجود اطالعاتLog Formatخط است ممکن آنها هایفایل در موجود هایداده اما است یکسان

گرفتن ثبت سرورها وب از بسیاری باشد. در نداشته تطابق هم با خط به فقط که شودمی پیکربندیCommon Log Format با فرض پیش بصورت

اطالعات داشتن شود. برایمی شامل را وب کاربرد هایداده از ایزیرمجموعه نیاز مورد پیکربندی برایCombined Log Format مانند کامل فرمت یک ترکامل

-می بین از درخواست به پاسخ از بعد درست شوندنمی ثبت که هاییاست. داده آن آلشوند. ایده پیکربندی زودتر هرچه باید ثبت های فرمت رو این از روند، مربوط هایداده تمام تا شود انجام کار این سرور وب اجرای از قبل که است

سرورهای وب شود. در ثبت مناسب بطور کاربران های درخواست به طریق از آسانی به تواندمی گرفتن ثبتIBM HTTP Server مانند ای پیشرفته

تواندمی همچنین گرفتن شود. ثبت پیکربندی وب مبنای بر مدیریت کنسول یک وApache HTTPD شود. در پیکربندیconf/httpd.conf فایل ویرایش طریق از مشابهCombined Log Format برای پیکربندی خطوطIBM HTTP Server در

است: زیر

کاربرد های داده - منابع2-1-1-1-1-2 کرد: کاوش وب، محیط در مختلفی نقاط در توانمی را وب کاربرد هایداده

) اینترنت سرویس کننده فراهم دهد،می نمایش را صفحات که مشتری مرورگرISPمی حمل مشتریان مرورگرهای و سروروب بین را داده جریان که شبکه ( در-(.5-2 )شکل سرورهاوب در نیز و کند

وب کاربرد هایداده آوریجمع - مکانهای5-2 شکل

این از هریک در وب کاربرد هایداده کاوش برای توانمی را مختلفی هایروشبرد: بکار نقاط

اینترنت

مرورگرروتر

وب سرور

مانیتور کردن شبکه

مانیتور کردن سرور

ثبت پیکسل گرفتن

واحد

28

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referrer}i\" \"%{User-Agent}i\"" combined CustomLog logs/combined.log combined

Page 29: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کردن اضافه با وب واحد: صفحات پیکسل HTMLکد و JavaScript می کاو داده سرور یک به را کاربرد اطالعات که شوندمی سازماندهی

فرستد.حمل های بسته شبکه یمانیتورکننده برنامه شبکه: یک مانیتورکردن

آورد.می بدست را شبکه توسط شدهسرور: یک مانیتورکردن pluginاطالعات که شودمی اضافه سرور وب به

) کاربردی برنامه واسط یک طریق از را رویدادها یدرباره نیاز موردAPIکند.می ( دریافت

سرور: سرور وب گرفتن ثبت HTTPثبت های فایل تولید برای از هریک به ثبت خط یکHTTP درخواست هر شود. برایمی پیکربندی

شود.می اضافه ثبت های فایل رو این از و دهندمی را یکسانی تقریبا هایداده کاوش یاجازه هاروش این تمامی

] در هاروش این شوند. جزئیاتمی منجر تحلیل از بعد مشابهی تقریبا نتایج بهMalicinski 2001]است. شده داده شرح

مشتری سمت آوری جمع مانند دور راه عامل یک از استفاده با تواندمی مشتری سمت در آوریجمع

JavaScriptیا Java appletمنظور به موجود مرورگر یک منبع کد تغییر با یا و های روش سازی شود. پیاده سازی پیاده داده آوریجمع های قابلیت بهبود

Java وJavaScript کردن فعال در چه کاربر همکاری به مشتری سمتappletدارد. جمع نیاز تغییریافته مرورگر از داوطلبانه یاستفاده در چه و- کش وب صفحات تواندمی که دارد را مزیت این مشتری سمت در آوری سمت در کردن کش که این از نظر صرف کند، آوریجمع نیز را شده

دخالت شود. بدون انجام پروکسی سرورهای در یا و مشتری سمت سرور، جلسه تشخیص مشکالت امر است. این یکتاIP آدرس پروکسی، سرورهای

Java وجود این کرد. با خواهد حل شود( را رجوع4-2-2-2 بخش )بهappletهای ثبت به نسبت صفحه یک یمشاهده واقعی زمان تعیین در ها

سربار است ممکن هاآن از استفاده کنند. همچنینمی عمل بدتر سرور وب بار اولین برای هاعامل این که زمانی خصوصا صفحه یمشاهده در اضافی

کند. ایجاد شوندمی بارگذاری کاربر کامپیوتر در سازی پیاده را مشتری سمت آوریجمع تواندمی نیز تغییریافته مرورگر یک

-وب در کاربر رفتار مورد در هاییداده آوریجمع در اشتوانایی آن کند. مزیت متقاعد روش این از استفاده بخش تریناست. مشکل گوناگون های سایت خود روزمره های فعالیت برای مرورگر این از استفاده برای کاربر کردن

شود، انجام کاربر به هاییمشوق یارائه طریق از تواندمی امر است. این هنگام تبلیغاتشان روی بر کلیک برای کاربران به که هاییشرکت مشابهدهند.می پاداش اینترنت در گذار و گشت

شبکه مانیتورکردن

29

Page 30: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

هایدهند. سیستممی انجام را بسته کشیدن عمل شبکه هایمانیتورکننده بسته هر یمشاهده برای روالی که دهندمی اجازه هابرنامه به عمده عامل

هر سنتی هایEthernet LAN کنند. چون اجرا سیستم از آن عبور هنگام در یک فرستند،می زیرشبکه یک به متصل کامپیوترهای تمام به را بسته

نظارت زیرشبکه آن در راHTTP رویدادهای تمامی تواندمی مانیتورکنندهکند.

سرور وب هر روی بر شبکه یمانیتورکننده یک که است آن بهتر رویکرد عنوان به دهند،می قرار اختیار در را هاییگزینه شبکه هایکنیم. واسط نصب های بسته تمامی یا و کنندمی دریافت منفرد ماشین یک از را هابسته مثال

در که هاییکنند. مانیتورکنندهمی دریافت بیقاعده مود در را سیم در موجود کنند.می مصرف را پردازنده از بیشتری زمان کنندمی عمل بیقاعده مود

کنندمی بندیبخش طوری را خود های شبکه اغلب باال ترافیک با های سایت یک مورد این سازد. درمی پذیر امکان را سرور وب هر از ها بسته دیدن کهبود. خواهد سرور ماشین هر روی بر شبکه یمانیتورکننده نصب حل، راه مشتری، های درخواست جمله از چیز همه تواندمی شبکه یمانیتورکننده یک

تواندمی ببیند. همچنین راHTML های فایل و ها کوکی سرور، های پاسخ این از و کند ردیابی را مرورگر طرف از صادرشده ایست های درخواست

شناسایی شودمی صرف هاآن تولید برای زیادی زمان که را صفحاتی طریق مختلف های درخواست به سرور وب پاسخ زمان تواندمی براینکند. عالوه

کند. گیریاندازه را HTML هایتگ به راجع گزارشاتی توانندمی شبکه هایمانیتورکننده از برخی

تولید توضیحات هایتگ یا<TITLE>، <META> قبیل از محتوا به مربوط-داده توانندمی حتی هاببرند. آن بهره هاآن در موجود مفید اطالعات از و کنند یدکمه کاربر وقتی راPOST های درخواست طریق از شده منتقل های

submitکنند. دریافت زند،می را بطور را سرورها وب کارکرد معرض در خطرات شبکه، هایمانیتورکننده

یک روی بر توانمی را شبکه یمانیتورکننده دهند. یکمی کاهش ایفزاینده وب از را شبکه ترافیک تحلیل عمل این با و کرد نصب جداگانه ماشین کار به همچنان سرور وب شود، خراب مانیتورکننده کرد. اگر جدا سرور

هم باز شوند اجرا ماشین یک روی بر دو هر اگر داد. حتی خواهد ادامه خود جداگانه یپردازه یک شبکه یمانیتورکننده چون شود،می کم بسیار خطر

شود.می محسوب عامل سیستم در سرور وب هایپردازه به نسبت سرورهای وب از شده رمزگذاری اطالعات توانندمی شبکه هایمانیتورکننده

وب شبکه، هایمانیتورکننده زیاد مزایای دلیل کنند. به ردیابی نیز را امن )به سرور هایمانیتورکننده معموال زیاد یکننده بازدید دارای های سایت های مانیتورکننده و امن سرورهای روی بر شود( را رجوع بعدی بخش سایت وب برای شبکه کنند. مانیتورکردنمی نصب جاها بقیه در را شبکهکند. ایجاد سربار محاسباتی نظر از تواندمی باال ترافیک با های

سرور مانیتورکردن

30

Page 31: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

سرور وب روی برplug-in یک بصورت معموال سرور یمانیتورکننده یک-می دریافتAPI یک طریق از رویداد هر به راجع اطالعاتی و شودمی اجرا

به نیست، دسترس در سرور هایمانیتورکننده برای ها داده از کند. برخی یدکمه زدن با را صفحه یک انتقال بازدیدکننده یک که هنگامی مثال عنوان دارد. را ایست درخواست یک اثر عمل این کند،می متوقف مرورگر ایست کند. انتقاالتمی متوقف را شده فرستاده یصفحه آن انتقال سرور سپس

است ممکن هاباشند. آنمی مفیدی اطالعات حاوی رویدادهای شده، متوقف یا است، طوالنی بسیار خاص منبع یک ایجاد زمان که باشند معنی این به

سرورهاوب است. متاسفانه شده اضافی بار دچار سرور وب کل که اینplug-inمطلع یابدمی پایان دائم بصورت انتقاالت که موقعی را ها ثبت و ها

سازند.نمی را امکان این تواندمی محتوا پویای سرورهای از سرور سمت در صفحه تولید صحیحی بصورت شودمی داده تحویلURL هر از که را محتوایی که دهد

توانمی ها سیستم این در که حمل قابل و ساده فرآیند کنیم. یک بندیدسته های تگ دنبال به و کنیم نگاه شده تولید محتوای به که است این برد بکار

برای واسطی هیچ سرورها وب از بسیاری بگردیم. متاسفانهHTML خاصدهند. نمی قرار هاplug-in اختیار در آن تحویل حین در محتوا به دسترسی

و کندمی ایجاد سرور وب برای اندکی خطر سرور یمانیتورکننده یک نصب تواندمی شود، سرور یمانیتورکننده وارد اشتباهی چیز اگر که است این آن

مستقیم بطور که سرور یمانیتورکننده بکشاند. یک خرابی به را سرور وب حجم چون کندمی ایجاد را بیشتری خطر زندمی صدا را داده پایگاه سرور یک

به و باشد بحرانی ماموریت سایت وب کند. اگرمی درگیر را کد از بیشتری استفاده ایمعماری از است بهتر باشد داشته نیاز سرور یمانیتورکننده یک

باشند. جدا هم از کردن ذخیره و مانیتورکردن هایپردازه آن در که شود مجزا ایپردازه در را سرور یمانیتورکننده توانندمی سرورها وب از برخی

دهد.می کاهش زیادی میزان به را خطر عمل این که کنند جداسرور سمت آوری جمع

زیرا است وب کاربرد کاویوب اجرای برای مهمی منبع سرور وب ثبت یک ذخیره هایکند. دادهمی ذخیره را کنندگانبازدید گردش رفتار صریح بطور-وب یک به کاربر چندین دسترسی یدهندهنشان سرور های ثبت در شده

هایفرمت به توانندمی ثبت هایفایل گفتیم که طور باشد. همانمی سایتشوند. ذخیره گوناگونی

است ممکن شوندمی ذخیره سرور های ثبت در که سایت کاربرد هایداده کش گوناگون مراحل وجود تواندمی آن دلیل نباشند. یک اعتماد قابل کامال سرور های ثبت در شده، کش صفحاتباشد. مشاهده وب محیط در کردن روش طریق از که مفیدی اطالعات هرگونه عالوه به شوند،نمی ذخیرهPOSTشد. تکنولوژی نخواهد ذخیره سرور های ثبت در شودمی ارسال آوریجمع برای جایگزین روش یک شد، داده توضیح پیشتر که بسته کشش

ترافیک بسته هایکشنده است. درواقع سرور هایثبت بجای کاربرد هایداده

31

Page 32: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

هایداده و کنندمی نظارت شودمی وارد سرور وب یک به که را ایشبکه کنند. وبمی استخراجTCP/IP هایبسته از مستقیم بصورت را کاربرد پرسش هایداده و هاکوکی مانند کاربرد اطالعات دیگر انواع تواندمی سرور

کند. ذخیره جداگانه های ثبت در را مشتریان مرورگرهای برای سرور وب توسط شده تولید های توکن هاکوکی

شوند.می ایجاد سایت بازدیدکنندگان خودکار ردیابی منظور به که باشندمی باشد.می حالت بدون پروتکل یکHTTP زیرا است دشوار کاربران ردیابی رو این از و باشندمی وابسته کاربر همکاری به ضمنی بطور ها کوکی

نیز پرسش های آورند. دادهمی بوجود بودنخصوصی با رابطه در را مسائلی با مرتبط صفحات دنبال به جستجو هنگام در بازدیدکنندگان توسط عموما

دیگر کاربردی های برنامه به همچنین سرور شوند. وبمی تولید نیازشان فرستاده های داده مدیریت منظور به سرور سمت های اسکریپت مانند را درخواستی فایلURI سرورها دارد. وب نیاز مشتریان مرورگر از شده

URIخیر. یا است کاربردی یبرنامه یک آیا که کنند تعیین تا کنندمی تجزیه یبرنامه به باید که باشد اضافی پارامترهای مقادیر شامل است ممکن

اجرای که این محض شود. به فرستاده آرگومان عنوان به خاص کاربردی-می مرورگر به را آن خروجی سرور وب رسید پایان به کاربردی یبرنامه

فرستد.پروکسی سمت آوری جمع

مشتری مرورگر بین واسط سطح یک همانند وب یکنندهکش پروکسی یک کاهش منظور به تواندمی پروکسی در کردن کند. کشمی عمل سرور وب و

در شبکه ترافیک بار کاهش همچنین و وب یصفحه یک بارگذاری زمان در هاآن توانایی به پروکسی هایکنندهکش رود. کارایی بکار مشتری یا سرور

دارد. ردهای بستگی صحیح بطور آینده صفحات به های درخواست بینیپیش چندین از واقعیHTTP های درخواست پروکسی، هایکنندهکش در موجود

برای توانندمی منابع دهند. اینمی نشان را سرور وب چندین به مشتری مشترک سرور پروکسی یک از که کاربران از گروهی رفتار توصیفرود. بکار کنندمی استفاده

محتوا های - داده2-1-1-1-2 کاربر به که است ارتباطاتی و اشیاء مجموعه سایت وب یک در محتوا هایداده

تصویری و متنی منابع از ترکیبی را آن یعمده شود. قسمتمی داده تحویل-می استفاده ها داده این تولید یا تحویل برای که ایداده دهد. منابعمی تشکیل ویدیویی، های کلیپ تصاویر، ،XML وHTML ایستای صفحات شامل شوند یا ها اسکریپت از پویا بصورت که صفحات از هایی قسمت صوتی، های فایل های پایگاه از شده تولید رکوردهای مجموعه و شوندمی تولید ها برنامه سایر تعبیه ساختاری یمتاداده یا معنا شامل همچنین سایت باشند. محتوایمی داده هایویژگی توصیفگر، کلیدی کلمات مانند باشدمی صفحات یا سایت در شده

.HTTP متغیرهای یا معنایی های تگ مستندات،

32

Page 33: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

از بخشی عنوان به نیز سایت برای مربوطه یدامنه شناختی واژگان سرانجام ضمنی بصورت است ممکن دامنه شناختی رود. واژگانمی بکار محتوا هایداده

باشد. نمایش داشته وجود صریح بصورت تواندمی یا و آید بدست سایت از در موجود مفاهیم مراتب سلسله شامل تواندمی دامنه شناختی واژگان صریح

ساختاری مراتب سلسله محصوالت، های بندیدسته مانند باشد وب صفحات اند، شده داده نمایش سایت محتوای در موجود یپوشه و فایل ساختار با که

شناختی واژگان های زبان طریق از ارتباطات و معنایی محتوای صریح نمایشداده. های پایگاه شمای حتی یا وRDF مانند

ساختار های - داده2-1-1-1-3 را سایت وب محتوای سازماندهی از وب طراح دید واقع در ساختار هایداده

آید.می بدست صفحات بین هایلینک طریق از سازماندهی دهند. اینمی نشان های تگ با که صفحه داخل محتوای ساختار شامل همچنین ساختار های داده

HTMLو XMLسندهای مثال عنوان باشد. بهمی نیز شودمی داده نشان HTML داد. نمایش درختی ساختار یک در توانمی راXML و

سایت های نقشه طریق از معموال سایت وب یک برای ساختاری های داده ساختار و شوندمی تولید خودکار بصورت سایت های آیند. نقشهمی بدست

باید سایت از نقشه تولید ابزار دهند. یکمی نشان را سایت داخل ارتباطی داشته را صفحات بین ارتباطات و صفحات داخل ارتباطات نمایش قابلیت

صفحه از بخش هر که فریم بر مبتنی های سایت در مخصوصا الزمه باشد. این-می پیدا بیشتری اهمیت باشد،می مستقل یصفحه مشاهده یک نمایانگر واقع در

سایت از نقشه تولید ابزار شوند،می ایجاد پویا بصورت که صفحاتی کند. برای تولید را صفحات این که هایی برنامه سایر و ها اسکریپت در نهفته دانش یا باید به پارامتر دادن از استفاده با محتوا تولید توانایی یا و باشد داشته را کنند،می

باشد. داشته را ها برنامه و ها اسکریپت اینکاربران های - داده2-1-1-1-4

را کاربران پروفایل از اضافی اطالعات توانندمی سایت وب یداده های پایگاه سن، مانند دموگرافیک اطالعات شامل هایی داده باشند. چنین داشته نیز

رای شده، نام ثبت کاربران شناسایی اطالعات سایر یا و غیره و شغل جنس، خریدها ها، فیلم محصوالت، صفحات، مانند مختلف اشیای به کاربران که هایی

کاربران عالیق از ضمنی یا صریح نمایش نیز و اندداده خود قبلی بازدیدهای یا با مستقیم تعامل به هایی داده چنین دریافت که که است باشند. واضحمی

بدست ضمنی بصورت توانمی را ها داده این از دارد. برخی نیاز سایت کاربران عنوان به توانمی را مشتری سمت های کوکی در موجود اطالعات مثال آورد

از سازیشخصی های سیستم از آورد. بسیاری حساب به پروفایل از بخشی سیستم مثال عنوان به دارند، نیاز کاربران پروفایل اطالعات یذخیره به ابتداکنند.می ذخیره را اشیا به کاربران های رای معموال جمعی یفیلترکننده های

33

Page 34: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

هاداده پردازش پیش و سازی - آماده2-1-1-2 باشند.می ناهمگن بسیار و زیاد حجم دارای معموال شده آوریجمع وب هایداده برای بتوانند تا شوند تبدیل یکپارچه و سازگار های داده به باید ها داده این

-پیش کاوی،داده کاربردهای بیشتر باشند. همانند مفید الگو کشف یمرحله تبدیل نویز، حذف ناموجود، مقادیر پرکردن شامل داده سازیآماده و پردازش

.[Han 2007] باشدمی هاناسازگاری کردن برطرف همچنین و داده کردن فرمت و اهمیت کاویداده موفقیت برای خاص بطور داده کردن فرمت و تبدیل عمل

هاآن جلسات و کاربران تشخیص شامل مرحله این وب، کاربرد کاویوب دارد. در استفاده مورد الگو کشف جهت اساسی یسازنده عناصر عنوان به که است وب سازیشخصی در هاآن جلسات و کاربران دقیق گیرند. تشخیصمی قرار

-آن که شودمی ساخته هاآن رفتار مبنای بر کاربران هایمدل زیرا دارد ویژه اهمیتدارد. وجود کاربران جلسات بصورت هم ها

مثال، عنوان باشد. بهمی دامنه به وابسته حدی تا هاداده پردازشپیش یمرحله است. این مرتبط ایداده چه که کندمی مشخص سایتوب ساختار و محتوا یک رو این از و است هاداده کیفیت و نوع به وابسته بسیار همچنین مرحله مراحل ادامه شود. درمی محسوب وب کاربرد کاویوب در دشوار یمرحله

شود.می داده شرح ها داده سازیآماده عمل متداولها داده - پاکسازی2-1-1-2-1

این باشد. درمی وب خام هایداده پاکسازی هاداده پردازشپیش در مرحله اولین حذف هاآن اضافی یا نامربوط موارد و شوندمی بررسی موجود هایداده مرحله

-جمع سرورهاوب توسط که ثبت هایداده مورد در خصوصا مساله شود. اینمی دلیل این باشند. به نویز دارای شدت به توانندمی که کندمی صدق شوندمی آوری

تولید های کنیم. دادهمی معطوف ثبت هایداده به را خود توجه قسمت این در ها داده گونه این زیرا هستند پاکیزه مشتری، سمت هایعامل توسط شده

دیگر سوی شوند. ازمی آوریجمع کاربر دخالت بدون و سیستم توسط صریحا و تصحیح اعتبار، تعیین باید هاآن دموگرافیکی های داده مانند کاربران های داده

شوند. منجر مفید الگوهای کشف به بتوانند تا شوند نرمالسازی HTTP پروتکل مشخصات از ثبت های فایل در تکرارها از توجهی قابل بخش صفحات در ... موجود و ویدیو صوت، تصویر، فایل، هر برای که شودمی ناشی

به که هایی وارده دارد. معموال سرور به جداگانه درخواست یک به نیاز وب کنند،می مراجعهCGI های اسکریپت و ویدیویی های فایل صوت، تصویر،-آن درخواست صریحا کاربر که این بدون ها فایل شوند. اینمی محسوب اضافی

کاربر مرور حقیقی فعالیت از بخشی رو این از و شوندمی دانلود بدهد را ها-می حذف ثبت هایفایل از معموال هاییداده چنین نتیجه شوند. درنمی محسوب

مرحله این شد، اشاره پیشتر که طور همان وجود این . با[Cooley 1999]شوند منجر تواندمی ثبت های فایل از موارد گونه این حذف و است دامنه به وابسته

باشد سایتی وب تواندمی مثال شود. یک ارزشمندی اطالعات رفتن دست از بهاست. ایچندرسانه محتوای شامل ایعمده بطور که

34

Page 35: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

انجام که هستند هایی درخواست با متناظر که ثبتی هایوارده این، بر عالوه فایل از اند، شده مواجهHTTP خطای با که هایی درخواست مثال اند، نشده خزشگرهای و اسپایدرها با متناظر هایوارده شوند. بعالوهمی حذف ثبت های موتورهای های درخواست و سایت وب یک کامل دانلود های برنامه )مانند وب

فیلد طریق از اغلب خزشگرها و شوند. اسپایدرها حذف باید جستجو( نیز طریق از را خود خزشگرها شوند. بیشترمی شناسایی سرور ثبت در کابر عامل

یک ترافیکی الگوی یمشاهده هاآن شناسایی دیگر کنند. راهمی معرفی فیلد این که باشد ایگونه به کنندهبازدید یک رفتار باشد. اگرمی خاص یکنندهبازدید باشد، کرده مالقات را سایتوب یک صفحات تمامی در موجود هایلینک تمامی

روشی[Tan 2002] درKumar وTanاست. خزشگر یک کنندهبازدید این گاهآن قبیل از متعددی های ویژگی برمبنای اسپایدرها جلسات شناسایی برای را

ا وارده های درخواست درصد درخواست، مورد ایرسانه های فایل درصد سطحاول جستجوی یدهندهنشان که هایی ویژگی نیز وHTTP متدهای طریق

کردند. ارائه باشندمی وب چندین ثبت های فایل که باشد نیاز است ممکن همچنین مرحله این در

نیازمند سرورها این بین سراسری همزمانی به که کنیم ترکیب هم با را سروراست.

کاربر - شناسایی2-1-1-2-2 عوامل ترین مهم از یکی اند کرده دیدن سایت وب از که کاربرانی شناسایی

های سیستم از باشد. بسیاریمی شده سازیشخصی سایت یک موفقیت برای سیستم به کردنLogin با را خود کاربران که دارند نیاز موجود سازیشخصی وب از بسیاری در که کندمی کاربر متحمل را زحمتی عمل این کنند. اما معرفی خودکار برای مختلفی هایروش دلیل این باشد. بهنمی قبول قابل ها سایت بخش این در را هاآن ترینمهم از است. تعدادی شده ارائه فرآیند این کردنکنیم.می ارائه نسبت متمایز کاربر یک به را متمایزIP آدرس هر که است این راه ترینساده

دقت پایین یدرجه رغمعلی را روش این وب کاربرد کاویوب ابزار دهیم. چندین ها . کوکی[Pierrakos 2003]اند کرده انتخاب سرورها،پروکسی وجود دلیل به آن را شناسه یک هاهستند. آن مفید سایتوب یک بازدیدکنندگان تشخیص برای نیز وب یکنندهمالقات کاربر هر برای سروروب توسط که کنندمی ذخیره خود در

بودنخصوصی و امنیت برای تهدید یک ها کوکی چون اما شود،می تولید سایت کنند.می حذف را هاآن یا و کنندمی غیرفعال را هاآن یا کاربران شوند،می محسوب

اینترنت به مختلفی های ماشین از استفاده با کاربر یک اگر این، بر عالوهکرد. شناسایی درستی به کوکی با تواننمی را کاربر آن گاهآن شود متصل

از است. یکی شده ارائه ایمکاشفه های تکنیک مشکالت، این وجود دلیل به fingerd وinetd مانند اینترنتی خاص های سرویس از که است این ها تکنیک این

به دسترسی حال در که ایمشتری یدرباره مختلفی اطالعات که کنیم استفاده سرویس این که است آن روش این مشکل کند. یکمی فراهم است، سروروب

35

Page 36: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

از کاربران اگر شوند. بعالوه، غیرفعال امنیتی دالیل به است ممکن نیز ها طریق از هاآن شناسایی کنند، دسترسی سایت به سرورهاپروکسی طریق

عنوان به سرورپروکسی چون است، غیرممکنfingerd وinetd هایسرویسکند.می عمل کاربر زیادی تعدادIP هایآدرس برای میزبانی

Cooley] در کاربر شناسایی مشکالت بر غلبه برای دیگر ایمکاشفه روش دو انجام سرور وب ثبت فایل روی بر تحلیلی اول است. روش شده ارائه[1999

ها، آنIP بودن یکسان صورت در یا مختلف مرورگرهای دنبال به آن در و دهدمی گردد. اینمی هاآن ینسخه و نوع اساس بر مختلف عامل هایسیستم دنبال به

در که دوم دهد. روشمی نشان را متفاوت کاربران وجود هم با همراه اطالعات-ارجاع هایوارده با همراه را سایتوب توپولوژی است شده ارائه کار همان با صفحه یک به درخواستIP آدرس کند. اگرمی ترکیب دسترسی یدهنده مستقیمی لینک هیچ و باشد یکسان دیگر یصفحه یک به درخواستIP آدرس

سایت به جدیدی کاربر احتماال گاهآن باشد، نداشته وجود صفحات این بین از نظرنیستند. صرف مشکل بدون نیز روش دو این است. حتی کرده دسترسی

درست ها مکاشفه این که آیدمی پیش زیادی موارد ها،آن محاسباتی یهزینه را متفاوتی مرورگرهای کاربر یک که هنگامی مثال عنوان کنند. بهنمی عمل

دو از مرورگر یک متفاوت هایپنجره از استفاده با یا و کندمی استفاده همزمان ندارند. مشکل لینک هم به مستقیما که کندمی دیدن سایت یک مختلف یصفحه

کند،نمی حل را کاربر شناسایی مشکل کامل بطور که است آن دوم روش دیگر های زمان در را یکسان کاربر یک از گوناگونی بازدیدهای است ممکن زیرا

کند. مربوط هم به مختلف .[Pierrakos 2003]است شده پیشنهاد کاربر شناسایی برای نیز دیگری روش

URL در است شده تولید کاربر هر برای سروروب توسط که یکتا یشناسه یک در شناسه این یذخیره شود. بجایمی وارد کاربر به شده داده تحویل صفحات

آن که را صفحات این از یکی که شودمی درخواست کاربر از کوکی، فایل یک که کند. هنگامیbookmark دارند، خودURL از بخشی عنوان به را شناسه

مورد او شناسایی برای شناسه این کند،می مراجعه سایت به دیگر بار کاربر شود. اینمی ذخیره کاربرIP آدرس بجای ثبت فایل در و گیردمی قرار استفاده

این وجود این با ندارد، را ها کوکی مشکالت که است ساده بسیار روش یک که است این آن اصلی است. مشکل خود خاص مشکالت دارای نیز تکنیک bookmark را صفحه یک باید کاربر چون است، خودکارنیمه آن شناسایی روش

صورت این غیر کند. در استفاده سایتوب به دسترسی برای صفحه آن از و کند یک که وضعیتی این، بر بود. عالوه خواهد استفاده غیرقابل کاربر یشناسه

به همچنان نیز کندمی دسترسی سایت یک به مختلف های ماشین از کاربربود. خواهد باقی مشکل یک عنوان

36

Page 37: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

صفحه مشاهده - تشخیص2-1-1-2-3 و سایت صفحات داخل ساختار به وابسته شدت به هاصفحه مشاهده تشخیص

-تک آن صفحات تمام که سایتی باشد. برایمی سایت یدامنه دانش و محتوا نیز است. برای صفحه مشاهده یک با متناظرHTML فایل هر هستند فریمی را صفحه مشاهده یک فایل، چندین فریمی، چند صفحات دارای های سایت

مشاهده تشخیص سایت، ساختار اطالعات داشتن دهند. بدونمی تشکیل که باشد مطلوب است ممکن عالوه است. به دشوار سروروب ثبت از ها صفحه

هر آن در که بگیریم نظر در انتزاع از باالتری سطح در را ها صفحه مشاهده مانند دهد،می نشان را صفحه در موجود اشیای از ای مجموعه صفحه مشاهدهمفاهیم. مراتب سلسله در خاص مفهوم یک با مرتبط صفحات

کاوی داده خاص یوظیفه یک برای ها صفحه مشاهده از برخی است ممکن ممکن برخی نیز مرتبط هایصفحه مشاهده بین نباشند. از مناسب و مرتبط به وابسته تواندمی صفحه مشاهده یک باشند. ارزش سایرین از ترارزشبا است

)که سایتوب یدامنه دانش نیز و کاربردی ساختاری، محتوایی، های مشخصه مثال، عنوان شود( باشد. بهمی تعیین ها داده گرتحلیل یا سایت طراح توسط

اطالعات به مربوط مشاهدات )مانند محصوالت به مربوط رویدادهای مشابه، طور شوند. به گرفته نظر در بقیه از ترمهم است محصوالت( ممکن

محتوایی صفحات است، شده طراحی محتوا تحویل منظور به که سایت یک در و ندارند زیادی محتوای که )صفحاتی گردشی صفحات از ترمهم است ممکنشود. هستند( محسوب محتوایی صفحات به هالینک از لیستی شامل عمدتا

برای باید وب، سازیشخصی برای پذیرانعطاف چارچوب یک داشتن منظور به شامل ها ویژگی گرفت. این نظر در ویژگی تعدادی صفحه، مشاهده هر

یکتا بصورت را صفحه هر کهURL )معموال صفحه یمشاهده یشناسه ایستا یصفحه مشاهده نوع صفحه، یمشاهده زمان مدت کند(،می نمایندگی

سایر ...( و و اندیس یصفحه محصول، یمشاهده اطالعاتی، یصفحه )مثالباشند.می محتوایی هایویژگی قبیل از هامتاداده

کاربر ی جلسه - تشخیص2-1-1-2-4 دارد، ای ویژه اهمیت وب کاربرد کاویوب های پروژه در کاربر جلسات تشخیص

برای رو این از و دهندمی نمایش را کاربران گردشی رفتار ها جلسه چون صفحات از مجموعه یک کاربر، یجلسه دارند. یک اهمیت بسیار الگو کشف

است: سایتوب از او خاص بازدید یک طول در کاربر آن توسط شده مالقات تشخیص برای گوناگونی ایمکاشفه های روش

]اند. گرفته قرار استفاده مورد کاربر جلساتSpiliopoulou 1999]های روش و زمان بر مبتنی های روش به را ها روش این

زمان مبنای بر هایمکاشفه از هایی کند. نمونهمی بندیتقسیم موضوع بر مبتنی حد یا و صفحه یک روی بر شده صرف زمان برای باال حد از استفاده از عبارتند

تکمیل یا و صفحات از خاص انواع به جلسه. دسترسی یک زمان طول برای باالباشند.می موضوع بر مبتنی های روش جمله از کار از مفهومی واحد یک

37

Page 38: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

]اندشده داده توضیح کالسیک متون بیشتر در زمان بر مبتنی های روشPierrakos 2003]صفحات از ای مجموعه صورتی در رویکردها، این . براساس

-می گرفته نظر در او یجلسه یک عنوان به خاص کاربر یک توسط شده مالقات خاص زمان مدت یک مساوی یا کمتر زمانی یبازه یک در صفحات آن که شود

صفحه یمشاهده زمان به خاص زمان مدت باشند. این شده درخواست 30 زمان است. مدت متغیر ساعت24 تا دقیقه25.5 از و است معروف

این وجود، این شود. بامی گرفته نظر در فرض پیش مقدار عنوان به دقیقه تواننمی را کاربر اعمال چون باشد،نمی کافی اطمینان قابلیت دارای روش ممکن کاربر باشند. مثالمی گوناگون بسیار اعمال این و فهمید دقیق بطور حین در است ممکن یا و بخواند را صفحه یک طوالنی مدت یک برای است

این، بر بازگردد. عالوه مدتی از پس و کند ترک را محیط صفحه، یک خواندناست. وابسته سایت محتوای به شدت به زمانی یبازه این مقدار

کش مشکل زمان، بر مبتنی معمول های روش با رابطه در مهم مشکل یک یافته پایان جلسه که برساند نتیجه این به را سیستم است ممکن که است

-می کش طریق از صفحات در گردش مشغول هنوز کاربر که حالی در است، برطرف خاصی هایHTTP header معرفی با حدی تا تواندمی مشکل باشد. این

از استفاده صفحات، یمشاهده زمان گیریاندازه برای دیگر شود. روش بارگذاری کاربر مرورگر در جدید یصفحه یک وقت هر که است جاوا هایعامل

اطالع سرور به را کاربر سیستم زمان شود،می خارج بارگذاری از یا و شودمی مرورگر نوع و شبکه ترافیک مانند خارجی فاکتورهای حال، این دهند. بامی

شوند.می محسوب روش این برای مهمی موانع کاربر توسط استفاده موردشوند. غیرفعال کاربر توسط توانندمی جاوا عوامل این، بر عالوه NCSA httpd server تغییر با کاربر جلسات تشخیص برای نیز دیگری روش وارد وب صفحات در را جلسه یشناسه که[Pierrakos 2003]است شده ارائه

-می درخواست خاصIP آدرس یک از وب یصفحه یک که باری کند. اولینمی کاربر یجلسه شروع با متناظر که شودمی تعبیه صفحه این در شناسه یک شود

و شودمی داشته نگاهIP آدرس آن بعدی های درخواست در شناسه است. این مورد جلسه مختلف های شناسه کردن جدا برایtime out مکانیسم یک

رویکرد این دقت است ممکن کردن کش وجود، این گیرد. بامی قرار استفاده به جلسات در کش از شده درخواست صفحات چون دهد، قرار تاثیر تحت را

آیند.نمی حسابمسیر - تکمیل2-1-1-2-5

که است آن تعیین اعتماد قابل بصورت کاربر جلسات شناسایی در مساله یک ذخیره دسترسی ثبت های فایل در که دارند وجود مهمی های دسترسی آیا

هایی است. روش معروف مسیر تکمیل به مساله خیر؟. این یا باشند نشده مورد هم مورد این در توانندمی شوند،می استفاده کاربر شناسایی برای که

به مستقیما که شود انجام ایصفحه به درخواستی گیرند. اگر قرار استفاده را دهنده ارجاع فیلد ندارد، لینک کرده درخواست کاربر که ای صفحه آخرین

38

Page 39: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

شده ناشی صفحه کدام از درخواست این که بفهمیم تا کنیم بررسی باید توانمی باشد، موجود کاربر های درخواست یتاریخچه در صفحه آن است. اگر

در موجود صفحات از مرورگرback یدکمه از استفاده با کاربر که کرد فرض شده درخواست جدید یصفحه یک سپس و است کرده استفاده مرورگر کش

مورد تواندمی سایت توپولوژی نباشد، واضح کامال دهنده ارجاع فیلد است. اگر یصفحه به کاربر یتاریخچه در صفحه یک از بیش گیرد. اگر قرار استفاده

صفحه ترین نزدیک که کرد فرض توانمی باشند، داشته لینک شده درخواست است. بوده کاربر درخواست منبع قبلی، یشده درخواست یصفحه به

-می کشف طریق این از و ندارند وجود ثبت فایل در که ایصفحه مراجعات مدت تخمین برای الگوریتم شوند. یکمی اضافه کاربر یجلسه به سپس شوند، که است آن ساده روش است. یک نیاز مورد شده اضافه یصفحه بازدید زمان

-می انجام جلسه همان در شده دیده قبال یصفحه یک از که بازدیدی گونه هر-می بگیریم. همچنین نظر در گردشی یصفحه یک به بازدید عنوان به را گیرد بازدید زمان تخمین برای نیز سایت صفحات یمشاهده زمان متوسط از توانکرد. استفاده صفحات گونه این

تراکنش - تشخیص2-1-1-2-6 مفیدتری عناصر تولید برای توانمی را کاربر جلسات کاربردها برخی در

باشد. اینمی دوره یا تراکنش مفهوم عناصر نوع این از کرد. یکی پردازش مورد خرید سبد تحلیل در عمدتا و است شده گرفته کاویداده از کلمه

است مرتبط صفحات از ای زیرمجموعه تراکنش، گیرد. یکمی قرار استفاده Cooley] ها تراکنش شناسایی منظور اند. بهداده رخ کاربر یجلسه یک در که

در خاص کاربر یک گردشی رفتار به ها تراکنش که است کرده فرض[1997 اطالعات از استفاده با را هاآن توانمی و هستند وابسته شدت به سایت وب

دسته سه به سایت یک صفحات فرض، این مبنای کرد. بر شناسایی مفهومی عمدتا که هستند دلخواه یا گردشی صفحات اول یشوند. دستهمی تقسیم استفاده سایت کردن مرور برای فقط و هستند دیگر صفحات به لینک شامل

-عالقه مورد هایداده شامل که هستند محتوایی صفحات دوم یشوند. دستهمی دو هر خصوصیات که هستند ترکیبی صفحات سوم یدسته و باشندمی کاربر ی

در واضحی بطور که دارند وجود وب در صفحاتی دارند. اگرچه را قبلی یدسته اصلی صفحات و اندیس صفحات مانند گیرند،می قرار گروه سه این از یکی

بستگی کاربر دید ینحوه به و ندارد کافی صراحت بندی دسته این اما سایت، شودمی محسوب گردشی یصفحه خاص کاربر یک برای که صفحه دارد. یک

آید. شمار به محتوایی یصفحه دیگر کاربر برای است ممکن اول یاند. دسته شده تقسیم دسته دو به ها تراکنش[Cooley 1999] در

که باشندمی ایمحتوایی صفحات با متناظر که هستند محتوایی فقط هایتراکنش-می محتوایی-گردشی های تراکنش دوم یاست. دسته کرده مشاهده کاربر شوند. دومی ختم محتوایی صفحات به که هستند مسیرهایی با متناظر که باشند و ارجاع طول از عبارتند که دارد وجود ها تراکنش شناسایی برای روش

39

Page 40: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

یک روی بر کاربر که را زمانی مدت ارجاع، طول . روشجلو به ارجاع حداکثر آستانه مقدار یک از زمان مدت این گیرد. اگرمی نظر در کندمی صرف صفحه و باشدمی مفیدی اطالعات حاوی صفحه آن که شودمی فرض گاهآن باشد، بیشتر

-می اضافه محتوایی فقط هایتراکنش به و است محتوایی یصفحه یک رو این از به و شودمی گرفته نظر در گردشی صفحه، آن صورت این غیر شود. در

محتوایی-گردشی هایتراکنش شود. درمی اضافه محتوایی-گردشی هایتراکنش-صفحه یک همیشه کاربر توسط شده مالقات یصفحه آخرین که شودمی فرض

مرور یدنباله در خارجی عوامل توسط که ایوقفه است. هرگونه محتوایی ی منجر محتوایی یصفحه یک اشتباه تشخیص به است ممکن شود ایجاد کاربر

آستانه برای مناسب مقدار تعریف روش، این با رابطه در دیگر شود. مشکل به ارجاع حداکثر روش باشد. درمی سایت محتوای به وابسته بسیار که است اولین از که شودمی تعریف صفحات از ایمجموعه بصورت تراکنش یک جلو،

رخ عقب به ارجاع یک آن در که شودمی ختم ایصفحه به و شده شروع صفحه جاری تراکنش در اخیرا که است ایصفحه عقب، به ارجاع است. یک داده

-صفحه یعنی شود،می شروع بعدی جلوی به ارجاع با بعدی دارد. تراکنش وجود بندیدسته از استفاده باشد. بانمی موجود شده ذخیره تراکنش در که جدیدی ی

جلو به ارجاع حداکثر صفحات که گفت توانمی گردشی، و محتوایی به صفحات-می منتهی صفحات این به که صفحاتی که حالی در هستند، محتوایی صفحات

طول روش به نسبت مزیت یک روش باشند. اینمی گردشی صفحات شوند مشکل یک از وجود، این است. با سایت محتوای از مستقل چون دارد، ارجاع شدن ذخیره از مانع وب صفحات کردن کش که است این آن و بردمی رنج مهم

شود. می ثبت هایفایل در عقب به ارجاعات مفهومی اطالعات از که دارد وجود تراکنش تشخیص برای نیز دیگری روش در باشند،می خاص قلم یک با مرتبط که اعمال از دنباله یک شناسایی برای جاری توجه تمرکز اعمال از دنباله کند. اینمی استفاده کاربر مرور یدنباله

یتاریخچه شوندمی انجام مرور تمرکز تغییر بدون که شوند. اعمالیمی نامیده گیرند.می قرار استفاده مورد کاربر رفتار تحلیل برای و دهندمی تشکیل را محلی

است. شده معرفی تراکنش مفهوم بجای ماموریت مفهوم[Li 2004] در-می مرتبط اطالعاتی نیازهای حاوی که است جلسه از ایزیرمجموعه ماموریت یعنی همزمان اهداف با سایتوب از کاربران ماموریت، بر مبتنی مدل باشد. در آن ماموریت کنند. توجیهمی دیدن لحظه، یک در گوناگونی اطالعاتی نیازهای

نیازهای سایتوب از مالقات یک طول در است ممکن کننده بازدید یک که است نیازها این که ترتیبی یدرباره فرضی هیچ ها باشد. ماموریت داشته گوناگونی

که دارد وجود فرض این ها تراکنش در که حالی در کنند،نمی شوند، ارضا باید ماموریت تعریف شوند. درمی برآورده دیگری از پس یکی اطالعاتی نیازهای که کندمی ادعا مقاله دارد. این وجود ها ماموریت بین همپوشانی امکان

-می مدل را سایت وب در کاربر گردش رفتار ها تراکنش از بهتر ها ماموریتکنند.

40

Page 41: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

آن در که دارد سایتوب شناختی واژگان به نیاز هاتراکنش یافتن وجود این با معنایی موضوعات اند. یافتن شده توصیف سایتوب در موجود موضوعات

Tanasa]باشدمی نشده حل یمساله یک هنوز خودکار بصورت سایتوب یک برای خواهیم توضیح آن منابع و شناختی واژگان مورد در3-2-2 بخش . در[2005داد.

کاربرد های داده نهایی پردازش - پیش2-1-1-2-7 های داده روی بر تواندمی نیز تبدیل عمل چندین پیش، مراحل بر عالوه

کنیم.می اشاره اعمال این از برخی به قسمت این شود. در انجام تراکنشی مبنای بر سازیشخصی سیستم های توصیه دقت در بهبود باعث اعمالی چنین

. [Mobasher 2004] شوندمی وب کاربرد کاویوبارزشی فیلترکردن

دارد. به زیادی اهمیت قلم یا صفحه مشاهده هر ارزش یدرجه تعیین که بفهمد تا کند رجوعi مانند قلم یک به است ممکن کاربر یک مثال عنوان

سایت از دیگری بخش به بالفاصله سپس خیر، یا دارد عالقه آن به آیا یک راi قلم به کاربر دسترسی نوع این توانمی رو این کند. از مراجعه

که اقالمی یا صفحات حذف آورد. به حساب به غیرارزشمند دسترسی فیلترکردن اند، بوده غیرارزشمند و اند شده درخواست کاربر توسط

تواندمی کاربر تراکنش در صفحه یک ارزش شود. میزانمی گفته ارزشی یا سایت صاحب دستی، رویکرد شود. در تعیین خودکار یا دستی بصورت

مختلف اقالم یا صفحات به ارزشی های وزن دادن نسبت مسئول گر،تحلیل انجام ها وزن به اقالم از سراسری نگاشت یک با معموال عمل هستند. این

یا کاربر به روش این در صفحه مشاهده یک ارزشمندی رو این از و شودمی زمان مدت از تابعی تر،معمول نیست. بطور وابسته خاصی تراکنش خودکار بصورت ارزشمندی های وزن دادن نسبت برای صفحه یمشاهده

کوچک زمان مدت دارای های صفحهمشاهده که این کلی رود. بطورمی بکار صفحه یک روی بر کاربر که زمانی مقدار چون نیست، کافی کنیم حذف را

زمان باشد. مدتنمی صفحه آن به او یعالقه به وابسته فقط کندمی صرف وابسته هم صفحه آن محتوای و ها مشخصه به تواندمی صفحه یمشاهده روی بر کمتری زمان کاربران که رودمی انتظار مثال عنوان باشد. بهکنند. صرف محتوایی صفحات به نسبت گردشی صفحات کند. معلوم را ها ویژگی این از برخی تواندمی ارزشی آماری هایآزمایش

چشمگیری بطور که است نامربوطی اقالم حذف ارزشی فیلترکردن هدف-می تراکنش در آستانه مقدار یک از کمتری یمشاهده زمان مدت دارای

توانمی را واریانس و میانگین مانند آماری های سنجه معمول باشند. بطورکرد. استفاده فیلترکردن جهت آستانه مقادیر این تعریف برای

نرمالسازی ممکن صفحات روی بر شده صرف زمان مدت مانند ها داده خام مقادیر علت آن به نباشد. این مناسب صفحه مشاهده یک ارزشمندی برای است

41

Page 42: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

و صفحه مشاهده نوع و طول ساختار، مانند زیادی فاکتورهای که است زمان مدت توانندمی صفحه در خاص قلم یک به کاربر یعالقه همچنین

بطور ها وزن دهند. نرمالسازی قرار تاثیر تحت را آن روی بر شده صرف دو کل کند. در ایفا فاکتورها این تصحیح در اساسی نقش تواندمی مناسب

طول در نرمالسازی از عبارتند که برد بکار توانمی را نرمالسازی نوع مشاهده وزن نرمالسازی و منفرد بطور تراکنش هر صفحات مشاهده

و تراکنش نرمالسازی ترتیب به نوع دو ها. این تراکنش تمامی در ها صفحه صفحه مشاهده شوند. نرمالسازیمی نامیده صفحه مشاهده نرمالسازی

همان وزن به نسبت کاربر یک برای صفحه مشاهده یک وزن تعیین برای-درجه تراکنش، رود. نرمالسازیمی بکار دیگر کاربران برای صفحه مشاهده

اقالم سایر به نسبت را خاص کاربر یک یصفحه مشاهده یک اهمیت ی دوم کند. نوعمی تعیین تراکنش همان در کاربر آن توسط شده مشاهده مفید کاربر از کوتاه های تاریخچه در هدف صفحات بر تمرکز برای خصوصااست.

گوناگون منابع از ها داده سازی - یکپارچه2-1-1-2-8 هایداده الگو، کشف و تحلیل برای موثر چارچوب یک کردن فراهم منظور به

در که شد اشاره قبل های بخش شوند. در ادغام یکدیگر با باید گوناگون منابع نیاز وب ساختار و محتوا هایداده به ها، داده سازیآماده مختلف مراحل

-شخصی مراحل سایر در کاربرد و ساختار محتوا، هایداده سازیاست. یکپارچه مورد در استدالل و بعدی های تحلیل برای وب کاربرد کاویوب و وب سازی

موثرتر ابزارهای ایجاد و ترکاربردی دانش استخراج شده، کشف الگوهای تجارت کاربردهای در مثال عنوان است. به نیاز مورد وب سازیشخصی

داده های پایگاه از محصوالت هایویژگی و کاربر های داده ادغام الکترونیکی،-داده فرایند در کاربرد های داده با همراه هایی داده است. چنین حیاتی بسیار دیگر، سوی شود. از منجر تجاری هوش مهم هایسنجه کشف به تواندمی کاوی

تواندمی دامنه شناختی واژگان و سایت محتوای از معنایی دانش سازی یکپارچه مورد مفیدتر های توصیه کردن فراهم برای سازیشخصی های سیستم توسط

نظر در را فیلم یفروشنده سایت یک مثال عنوان گیرد. به قرار استفاده هاصفحه مشاهده و ها فیلم هایگیریرای روی بر جمعی فیلترکردن از که بگیرید

ها فیلم یدرباره معنایی دانش کند. ادغاممی استفاده کردن توصیه منظور به دهد اجازه سیستم به تواندشود( میمی استخراج سایت محتوای از احتماال )که بر بلکه گردشی، الگوهای یا مشابه های رای مبنای بر تنها نه را ها فیلم که

فیلم نوع کارگردان، بازیگران، مانند ها فیلم خود های ویژگی در شباهت مبنایکند. توصیه کاربران به غیره و

42

Page 43: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

وب کاربرد های داده از الگو - کشف2-1-2 ارائه مطالبی هاآن مختلف سطوح و ها تحلیل انواع مورد در ابتدا قسمت این در هایداده روی بر کاویداده یعمده وظایف که اصلی بحث به سپس و شودمی

پردازیم.می باشدمی وب کاربردتحلیل انواع و - سطوح2-1-2-1

در و شده یکپارچه کاربرد هایداده روی بر توانمی را تحلیل از مختلفی انواع اهداف به تحلیل سطح و داد. نوع انجام انتزاع و اجتماع از مختلفی سطوح

دارد. بستگی انتظار مورد نتایج و تحلیل از نهایی ایجاد هایتراکنش یا جلسات روی بر را آماری های تحلیل توانمی مثال عنوان به

-می تشکیل را تحلیل نوع ترینمعمول آماری گزارشات واقع داد. در انجام شده-جمع دامنه یا کنندهبازدید جلسه، روز، اساس بر هاداده عمل، این دهند. در

در دانش آوردن بدست منظور به را آماری استاندارد های شود. تکنیکمی آوری بیشتر توسط که است رویکردی برد. این بکار توانمی کاربران رفتار مورد

وجود این با رود،می بکار وب های ثبت تحلیل برای موجود تجاری ابزارهای قبلی های بخش در که الزم پردازشپیش مراحل تمامی ابزارها این بیشتر به است ممکن رو این از و کنندنمی اجرا ها ثبت روی بر را شد داده توضیح

-می تولید ها تحلیل نوع این مبنای بر که شوند. گزارشاتی منجر نادرست نتایج دسترسی، بیشترین با صفحات مورد در اطالعاتی شامل توانندمی شوند

نقاط سایت، در مسیر یک متوسط طول صفحه، یک یمشاهده زمان متوسطباشند. معیارها سایر و آن از خروج و سایت به ورود متداول

به ها داده عمیق بررسی در هاآن ناتوانی ها تحلیل گونه این ضعف ینقطه این عمق بودن کم وجود باشد. بامی آن در موجود پنهان الگوهای یافتن منظور

سیستم کارایی بهبود برای تواندمی هاآن از شده استخراج دانش ها، تحلیل گونه از سریع و کلی مرور یک گزارشات باشد. این مفید بازاریابی تصمیمات اتخاذ و

دهند. عالوهمی قرار اختیار در است استفاده حال در سایت یک چگونه که این هایفایل تحلیل برای تجاری محصوالت از بسیاری اخیر، های سال در این، بر

الگوهای و ترعمیق ارتباطات کشف برای را کاویداده گوناگون ابزارهای ثبت،اند. کرده ترکیب خود در کاربرد های داده در پنهان

چارچوب که باشد میOLAP شده یکپارچه هایداده روی بر تحلیل از دیگری نوع قرار اختیار در پذیری انعطاف از باالتری یدرجه با تحلیل برای را تریمجتمع

داده که است چندبعدی یداده مخزن یکOLAP تحلیل برای داده دهد. منبعمی از مختلفی سطوح در را الکترونیکی تجارت هایداده و محتوا کاربرد، های

سطوح در تغییر ی اجازهOLAP کند. ابزارهایمی یکپارچه بعد هر برای اجتماعدهند.می تحلیل طول در بعد هر برای را اجتماع

تحلیل برای چندبعدی ساختار یک در توانمی نیز را سرور ثبت های داده واقع درOLAPفیلدهای مبنای بر توانندمی ساختاری چنین در تحلیل کرد. ابعاد ذخیره مورد منبع دامنه، زمان، مدت جمله از ثبت های فایل در موجود مختلف

که شودمی باعث امر باشند. این غیره و دهنده ارجاع کاربر، عامل درخواست،

43

Page 44: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

خاص زمانی یبازه یک به مربوط های ثبت از بخشی روی بر مثال بتواند تحلیل-داده شود. ادغام انجامURL ساختار به نسبت انتزاع از باالتری سطح در یا و

برای راOLAP ابزارهای توانایی تواندمی داده مخزن در الکترونیکی تجارت هایدهد. افزایش تجاری هوش مهم های سنجه استخراج باشند. درنمی داده در کاربرد الگوهای کشف به قادر تنهایی بهOLAP ابزارهای

های پرسش به ها، داده در ارتباطات و الگوها یافتن برای هاآن توانایی واقعOLAPخروجی حال، این دارد. با بستگی شوندمی اجرا داده مخزن روی بر که

مورد کاوی داده متنوع های الگوریتم برای ورودی عنوان به تواندمی فرآیند این مختلف های تکنیک روی بر خاص بطور بعدی های بخش گیرد. در قرار استفاده

بحث شوندمی اجرا وب کاربرد هایداده روی بر معمول بطور که کاویدادهکرد. خواهیم

وب کاربرد های داده روی بر کاوی داده وظایف -2-1-2-2 هایداده روی بر اغلب که کاویداده وظایف به را خود تمرکز بخش این در

که نیست این ما هدف بخش این کنیم. درمی معطوف روندمی بکار وب کاربرد ما هدف بلکه کنیم، ارائه را اجرا قابل کاویداده های تکنیک تمام جزئیات ها تکنیک این کاربرد ینحوه توضیح و الزم ایزمینهپیش اطالعات کردن فراهم

باشد.می وب کاربرد هایداده روی بر صفحه مشاهدهn از ای مجموعه به منجر نهایت در پردازشپیش مراحل

هر که کاربر تراکنشm از مجموعه یک ، زوج ازl طول به دنباله یک تراکنش شوند. هرمی باشد، میP از زیرمجموعه یک

آن در کهاست: مرتب های است.t تراکنش در یصفحه مشاهده وزن و یک برای

کشف متنوع های تکنیک باال، بصورت ها تراکنش از مجموعه یک داشتن با مانند هایی روند. تکنیک بکار الگوها استخراج برای توانندمی ناظر بدون دانش مهمی های خوشه کشف به منجر توانندجلسات( می )یا ها تراکنش بندیخوشه

صفحه مشاهده )مثال اقالم بندیخوشه مانند ها تکنیک شوند. سایر کاربران از یافتن برای توانندمی نیز ترتیبی الگوهای کشف یا انجمنی قواعد کاوش ها(،

مورد سایت کاربران گردشی الگوهای مبنای بر اقالم بین مهم ارتباطات ترتیب عموما انجمنی قواعد کشف و بندیخوشه مورد گیرند. در قرار استفاده

یک اعمال، این برای رو این از شود،نمی گرفته نظر در ها صفحه مشاهده بین نظر در صفحات از مجموعه یک بصورت تراکنش

ترتیب گرفتن نظر در به نیاز ترتیبی الگوهای کشف مورد شود. درمی گرفتهباشد.می تراکنش در صفحات مشاهده بین

انجمنی قواعد - کاوش2-1-2-2-1

در یکدیگر با هاآن وقوع الگوهای مبنای بر را اقالم میان ارتباطات انجمنی قواعد-تراکنش مورد دهند. درمی ها( نشانآن ترتیب گرفتن نظر در )بدون ها تراکنش

44

Page 45: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

الگوهای مبنای بر ها صفحه مشاهده بین ارتباطات انجمنی قواعد وب، های بر انجمنی قواعد کشف رویکردهای دهند. بیشترمی نشان را کاربران گردشی

و تولید استراتژی یک که[Mobasher 2004] باشند میApriori الگوریتم مبنای ظاهر صفحات )مشاهده اقالم های گروه الگوریتم، برد. اینمی بکار را آزمایش

های تراکنش در مکرر بطور یکدیگر با که شده( را پردازشپیش ثبت در شده ارضا را کاربر توسط شده تعیین پشتیبانی یآستانه یک )و اندشده ظاهر زیادی

معروفند. مکرر اقالم مجموعه به اقالم از هایی گروه کند. چنینمی کنند( پیدامی است. شده داده مکرر اقالم مجموعه وT تراکنش کنید فرض

شود:می تعریف زیر بصورت اقالم مجموعه یک پشتیبانی

(2-1 )

Apriori الگوریتم در پایین به رو بستاری ویژگی نام به پشتیبانی مهم ویژگی یک برآورده را پشتیبانی حداقل معیار اقالم، مجموعه یک اگراست: شرح این به

نخواهند برآورده را معیار این نیز آن هایابرمجموعه از یک هیچ گاهآن نسازد الگوریتم تکرار هر حین در حالت فضای کردن هرس برای ویژگی . اینکرد

Aprioriارضا را اطمینان یآستانه مقدار که ایانجمنی است. قواعد اساسی یکr انجمنی یقاعده شوند. یکمی تولید مکرر اقالم مجموعه از کنند،می

و باشندمی اقالم مجموعهY وX که است بصورت عبارت یک در هم باY وX آنکه احتمال که است پشتیبانی مقدار

یرابطه از ،r قانون برای دهد. اطمینانمی نشان را دهند رخ تراکنش به دهد رخ تراکنش یک درY کهاین شرطی احتمال و شودمی داده

دهد.می نشان را باشد داده رخ آن درX آنکه شرط عنوان دارد. به زیادی مزایای وب تراکنشی های داده در انجمنی قواعد کشف ,/special-offers} مانند باال اطمینان با قانون یک مثال

/products/software{>=}/shopping-cart}/باشد این از حاکی است ممکن برخط فروش روی بر مثبتی بطور افزارینرم محصوالت در بهبود عملیات که

سایت ساختار سازی بهینه برای توانندمی همچنین قواعدی گذارد. چنینمی تاثیر بین مستقیم لینک سایت یک در اگر مثال، عنوان گیرند. به قرار استفاده مورد

نشان{A{>=}B} یقاعده کشف باشد، نداشته وجودB وA مثل صفحه دو به است ممکن صفحه دو این بین مستقیم لینک یک دادن قرار که دهدمی

کند. کمک خود یعالقه مورد اطالعات یافتن در کاربران هایسیستم برای مدل یک تولید منظور به تواندمی انجمنی قواعد کاوش نتایج

را انجمنی قواعد تمامی توانمی ابتدا گیرد. در قرار استفاده مورد سازیشخصی را مشتری خرید یتاریخچه اطالعات کرد. سپس کشف خرید اطالعات روی بر پیدا را مشتری آن برای مفید قوانین تا داد تطابق قواعد چپ سمت با توانمی

45

Page 46: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

اطمینان حسب بر توانمی را قواعد این راست سمت عبارات کرد. تمامی انتخاب کاربر برای توصیه یمجموعه عنوان به را آن اول قلمN و کرد مرتب

وقتی که است این انجمنی قواعد براساس توصیه برای مشکل کرد. یک حل راه دهد. دو ارائه ایتوصیه تواندنمی سیستم باشد، پراکنده داده مجموعه

کشف قواعد تمامی که است آن حل راه دارد. اولین وجود مشکل این برای یجلسه نیز و راستشان و چپ سمت بین اشتراک یدرجه اساس بر را شده دوم حل دهیم. راه ارائه را باالتر ی توصیهk سپس و کنیم مرتب کاربر جاری

های همسایه کنیم: سیستم، استفاده جمعی کردن فیلتر تکنیک از که است آن را ها توصیه و کندمی پیدا دارند هدف کاربر یک با مشابهی عالیق که را نزدیکی

کند.می ایجاد همسایگان این یتاریخچه مبنای بر در پشتیبانی یآستانه حداقل برای سراسری مقدار با رابطه در مشکل یک

ندرت به که اقالمی شده، کشف الگوهای که است آن انجمنی قواعد کشف هنگام در خصوصا مساله شوند. ایننمی شامل را هستند مهم اما شوندمی ظاهر

محتوای به ارجاعات کند. اغلب،می پیدا اهمیت وب کاربرد های داده با مواجهه در گردشی صفحات از تکرارترکم بسیار محصوالت، صفحات یا بیشتر عمق در

و الگوها یافتن موثر، سازیشخصی منظور به وجود، این هستند. با کمتر عمق یک از که است آن روش دارد. یک اهمیت اقالم این مورد در توصیه تولید

دهدمی اجازه که کنیم استفاده آستانه حداقل مقدار چندین با کاوش الگوریتم روش، این دهیم. در نسبت گوناگون اقالم به را آستانه مختلف مقادیر

موجود اقالم تمامی پشتیبانی کوچکترین بصورت اقالم مجموعه یک پشتیبانی که دهدمی اجازه آستانه حداقل مقدار چندین شود. وجودمی تعریف آن در

که است شده داده باشد. نشان نیز تکرارکم اقالم شامل مکرر اقالم مجموعه افزایش باعث وب سازیشخصی یحوزه در آستانه مقدار چندین از استفاده. [ Mobasher 2004]شودمی توجهی قابل میزان )یادآوری( به پوشش

ترتیبی الگوهای - کشف2-1-2-2-2 دیده کاربر توسط که را صفحاتی وب، کاربرد های داده در ترتیبی الگوهای

،SP یا ترتیبی گیرند. الگوهایمی نظر در هاآن شدن دیده ترتیب همان به اند شده ها تراکنش از زیادی نسبتا بخش در که هستند اقالم از هایی دنباله از دسته آن

یک در یدنباله یک گوییماند. میشده ظاهر مکرر بطور مثبت عددn اگر است داده رخ( )که تراکنش

گوییم. می باشیم داشتهiهر ازای به و ، صحیح عدد یک اگر استt در همجوار یدنباله یک

یک باشد. در برقرار هر برای که باشد داشته وجود به باید و مانند همسایه عناصر از جفت هر ،CSP یا همجوار ترتیبی الگوی حال، این شوند. با ظاهر کند،می پشتیبانی را الگو آن کهt تراکنش یک در ترتیب

از مجموعه یک در نیز را غیرهمجوار مکرر های دنباله توانندمی ترتیبی الگوهایدهند. نمایش ها تراکنش

46

Page 47: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

از مجموعه یک و ها تراکنش از مجموعه یکT کنید فرض-می تعریف زیر بصورت هر باشد. پشتیبانیT روی بر مکرر ترتیبی الگوهای

شود:(2-2 )

زیر بصورت هستند، ترتیبی الگوهایY وX آن در که قانون اطمینانشود:می تعریف

(2-3 ) پشتیبانی یآستانه که کنید دهد. توجهمی نشان را اتصال عملگر آن در که

یعنی کنند، ارضا را پایین به رو بستاری خاصیت باید نیز هاCSP و هاSP برای ارضا را پشتیبانی حداقل معیار که باشد داشته ای زیردنبالهS اقالم دنباله اگر

در کهApriori سازد. الگوریتمنمی برآورده را پشتیبانی حداقل نیزS آنگاه نکند، الگوهای کاوش منظور به توانمی را شودمی استفاده انجمنی قواعد کاوش-می که شودمی انجام پشتیبانی تعریف تغییر با معموال کار داد. این تغییر مکرر ها زیرمجموعه بجای اقالم های زیردنباله وقوع تکرار تعداد مبنای بر را آن توان

کرد. تعریف مسیرهای درک برای توانمی را هاCSP وب، کاربرد هایداده یحوزه در

شده ظاهر اقالم مقابل، برد. در بکار کاربر مسیرهای میان از مکرر گردشی این از و نیستند هم مجاور لزوما دارد اهمیت هاآن بین ترتیب که این با ها،SP در که مکرر اقالم کنند. مجموعهمی نمایندگی را تریعمومی گردشی الگوهای رو هستند ایگردشی الگوهای نمایشگر اند،شده کشف مکرر الگوهای کاوش در نه و اقالم حضور به فقط چون دارد، وجود هاآن روی محدودیت کمترین که

هستند. وابسته کاربر جلسات در هاآن وقوع ترتیب دهدمی اجازه صفحات مشاهده از هاییدنباله بصورت وب های تراکنش نمایش

گردشی الگوهای تحلیل و کشف برای بتوان را مفید های مدل از تعدادی که-وب در کاربر گردشی رفتار کردن مدل رویکردها، این از برد. یکی بکار کاربر

حاالت از مجموعه یک با مارکف مدل است. یک مارکف یزنجیره با سایتشود:می داده نشان انتقال احتمال ماتریس یک و

دهد.می نشان را حالت به حالت از انتقال احتمال آن در که های دنباله مبنای بر کننده بینیپیش هایمدل برای خصوصا مارکف هایمدل

از همجوار زیردنباله یک یدهنده نشان حالت مفیدند. هر رویدادها از همجوار قبلی رویدادهای تعداد با متناظر مارکف مدل یمرتبهباشد. می قبلی رویدادهای

امk یمرتبه از مارکف مدل رو، این است. از آینده رویداد یک بینیپیش در R کند. اگرمی بینیپیش را گذشته رویدادk به کردن نگاه با بعدی رویداد احتمال

47

Page 48: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

از حالت از حالت به رسیدن احتمال باشد، مسیرها تمام یمجموعهآید:می بدست زیر یرابطه از حلقه( مانند مسیر)بدون یک طریق

(2-4 )

است: مسیرها تمام روی احتمال مجموع با برابر از به رسیدن احتمال

(2-5 )

کردن مدل برای توانمی را مارکف های زنجیره وب، های تراکنش یحوزه در توانمی وب، کاربرد تحلیل برد. در بکار صفحات مشاهده بین انتقال احتمال

برد. بکار سیستم تاخیر کردن حداقل یا ها برنامه واکشیپیش برای را هامدل این گردشی رفتار مبنای بر کاربر بعدی عمل بینیپیش برای هایی سیستم چنین

عمل فقط اول، یمرتبه مارکف هایمدل مورد اند. درشده طراحی او پیشین هر رو این شود. ازمی گرفته نظر در او بعدی عمل بینیپیش در کاربر جاری هایدهد. مدلمی نشان را کاربر تراکنش در صفحه مشاهده یک فقط حالت

سایتوب در باال احتمال دارای گردشی مسیرهای کشف برای توانمی را مارکفبرد. بکار

مجموعه مارکف، مدل با وب های تراکنش مدلسازی از مثالی عنوان به تراکنش مجموعه بگیرید. این نظر در را6-2 شکل در شده داده های تراکنش

تعداد تراکنش، هر ازای است. بهE وA، B، C، D صفحات مشاهده شامل ها، در است)بنابراین شده داده دوم ستون در ها داده در تراکنش آن تکرار دفعات

در ها داده این برای مارکف دارد(. مدل وجود ها داده در تراکنش50 کل، قبلی احتماالت ،شروع حالت از است. انتقاالت شده )راست( داده6-2 شکل دهد.می نمایش راB وA صفحات مشاهده با شده شروع های تراکنش برای

صفحات مشاهده با مسیرها که آن احتماالت ،پایان حالت سمت به انتقاالت انتقال احتمال مثال، عنوان دهد. بهمی نشان برسند پایان به شده داده یاولیه

از وقوع28 میان از رو این است. از0.59=16/28 با برابرB بهA حالت ازAمورد،16 در ها، تراکنش در Bاز بعد بالفاصله Aشود.می ظاهر

48

Page 49: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

A DA

BA

FA

CA

EA

شروع

پایان

28/50

22/50

16/28 12/62 24/246/34

6/6

10/14

28/344/14

12/62

24/62

14/62

12/28

-6-2 شکل مدل از مثالی

رفتار کردن گردشی

با کاربر یزنجیره

مارکف

این با دارند، باالتری بینیپیش دقت معموال باالتر یمرتبه از مارکف های مدل حاالت دلیل به مدل باالتر پیچیدگی و کمتر پوشش یهزینه به امر این وجود،شود. می تمام زیاد بسیار

های مدل روش حاالت، فضای پیچیدگی و پوشش مشکل بر غلبه منظور به حاالت کاهش های تکنیک و پوشش افزایش منظور بهall-kth-order مارکف all-kth-order مارکف مدل از . استفاده[Mobasher 2004] اند آمده بوجود مدل شود. اگرمی منجرk یمرتبه هر برای جداگانه های مدل تولید به معموال کاهش با که کرد خواهد تالش کند، بینیپیش امk یمرتبه از استفاده با نتواند

بیشتر پیچیدگی باعث روش دهد. این انجام را بینیپیش مدل، یمرتبه تدریجی مدل رو این دارد. از نیازk هر برای حاالت تمامی نمایش به چون شود،می مدل این رفع برای را مختلفی های روش که اند شده ارائه انتخابی مارکف های

معیارهایی مبنای بر مدل کردن هرس شامل ها روش برند. اینمی بکار مشکل-هرس مارکف مدل خاص، شوند. بطورمی خطا نرخ و اطمینان پشتیبانی، نظیر را آستانه مقدار یک از کمتر پشتیبانی با حاالت تمامی پشتیبانی، براساس شدهکند.می حذف

یک در مسیر هر کردن وارد کارا، بصورت گردشی رفتار نمایش دیگر راه هنگام در یا از )بعد را مکرر های دنباله توانمی است. همچنینtrie ساختار این از معروف مثال کرد. یک واردtrie ساختار یک مکرر( به الگوهای کاوش

WUM سیستم از بخشی عنوان به شده معرفی تجمعی درخت مفهوم رویکرد،(Web Utilization Miner)تجمع است. سرویس WUMاز را ها تراکنش

دنباله و کندمی تبدیل دنباله به را هاآن کند،می استخراج وب های ثبت یمجموعه

هاتراکنشتکرار تعداد

10A,B,E

4B,D,B,C

10B,C,E

6A,B,E,F

12A,D,B

8B,D,B,E

49

Page 50: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

هم ( باtrie ساختار )یک تجمعی درخت یک در دارند یکسانی پیشوند که را هایی از گردشی یزیردنباله یک یدهنده نمایش درخت، در گره کند. هرمی ادغام زیردنباله آن وقوع تکرار تعداد با و است صفحه یک خالی( به یگره )یک ریشه

WUMشود. می نویسیدیگر( حاشیه اطالعات احتماال )و تراکنشی های داده در گردشی الگوهای کشف برایMINT نام به پرسش قدرتمند زبان یک از

مکانیسمی شامل همچنینMINTکند. می استفادهtrie ساختار این از عمومی هایwildcard قبیل از الگوها قالب روی بر پیچیده های محدودیت تعیین برای

نظیر آماری یآستانه مقادیر سایر نیز و کاربر توسط شده تعیین مرز دارای خواهیم توضیح بیشترWUM ی درباره5 فصل باشد. درمی اطمینان و پشتیبانی

داد. نظر در را قبلی مثال وب هایتراکنش مجموعه دوباره مثال، یک عنوان به

راWUM تجمعی درخت ساختار از شده ساده نمایش یک7-2 بگیرید. شکل آن رویکرد این دهد. مزیتمی نشان شود،می استخراج ها تراکنش این از که

انجام کارایی بسیار بصورت تواندمی گردشی الگوهای برای جستجو که است-حاشیه از سرعت به تواندمی ترتیبی الگوهای برای پشتیبانی و اطمینان و شود را<A,B,E,F> گردش دنباله مثال، عنوان آید. به بدست درخت های گره های بر تقسیمF پشتیبانی بصورت توانمی را دنباله این بگیرید. پشتیبانی نظر در

است برابر که کرد محاسبهA یعنی دنباله، در صفحه مشاهده اولین پشتیبانی پدر پشتیبانی بر تقسیمF پشتیبانی برابر دنباله این اطمینان و ،0.21=6/28 با

احتمال رویکرد، این . عیب0.375=6/16 شودمی که باشد میE یعنی آن شده تولید زیاد صفحات دارای سایت یک در خصوصا آن باالی فضایی پیچیدگیباشد.می پویا بصورت

تجمعی درخت یک در گردشی رفتار کردن مدل از - مثالی7-2 شکل

SA

A

BA

BA

EA

FA

DA

BA

DA

BA

CA

EA

CA

EA

50

28

16

12

16 6

12

22

12

10 10

4

12

8

50

Page 51: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

بندی - خوشه2-1-2-2-3 وب کاربرد تراکنشی هایداده روی تواندمی بندی خوشه نوع دو کلی، بطور بندی خوشه کاربران( و )یا ها تراکنش بندی خوشه از عبارتند که شود انجام

بطور و دارند مختلفی کاربردهای رویکردها این از یک ها. هر صفحه مشاهده کرد. کارهای استفاده وب سازیشخصی برای توانمی را رویکرد دو هر خاص، بازاریابی وب، کاربرد کاویوب در بندی خوشه کاربردهای یزمینه در زیادی

به الگوریتمی مثال عنوان است. به گرفته انجام وب سازیشخصی و اینترنتی صفحات از باارزش های گروه کشف برای توانمی راPageGather نام

الگوریتم، این کرد. مبنای استفاده وب کاربرد الگوهای در شده دسترسی ترکیب برای توانمی را حاصل های باشد. خوشه میclique بندی خوشه تکنیک

از خاصی عالیق یک هر که برد بکار سایت یک در ایستا اندیس صفحات خودکار عنوان به نیز کاربران رای رکوردهای بندی کنند. خوشهمی منعکس را کاربران

گسترش مشکالت کاهش منظور به جمعی کردن فیلتر از پیش مرحله یک رویکرد دو است. هر شده استفاده همسایهk ترین نزدیک الگوریتم پذیری سازیشخصی چارچوب در یکپارچه بخش یک عنوان به توانمی را بندی خوشه

برد. بکار وب کاربرد کاویوب مبنای بر وب در صفحات مشاهده از بردارهایی به کاربر های تراکنش نگاشت که کنید فرض-k مانند بندی خوشه استاندارد های است. الگوریتم شده داده چندبعدی فضایmeansاز هایی گروه به فاصله یا شباهت معیار یک مبنای بر را فضا این معموال

گروه توانندمی روش این از آمده بدست های کنند. خوشهمی تقسیم ها تراکنش این وجود، این کنند. با نمایندگی هاآن گردشی رفتار مبنای بر را کاربران از هایی

معمول الگوهای از تجمعی دید درک ابزار یک تنهایی به ها تراکنش های خوشه کاربر تراکنش هزاران شامل تواندمی ها تراکنش از خوشه باشند. هرنمی

تراکنش بندیخوشه در نهایی باشد. هدف صفحه مشاهده صدها یدربرگیرنده هوش استخراج منظور به ها خوشه تحلیل قابلیت کردن فراهم کاربر های

باشد.می وب سازیشخصی نظیر اعمالی برای هاآن از استفاده یا تجاری )یا مرکز یمحاسبه خوشه، هر از تجمعی دید ایجاد در سرراست رویکرد یک

بردار در صفحه مشاهده هر با متناظر است. مقدار خوشه میانگین( هر بردار کل در صفحه مشاهده آن های وزن جمع نسبت یافتن طریق از میانگین، وزن شود. اگرمی محاسبه خوشه هر در ها تراکنش کل تعداد به ها تراکنش

گاه آن باشد، دودویی بصورت اولیه های تراکنش در ها صفحه مشاهده های را هایی تراکنش درصد خوشه، مرکز درp یصفحه مشاهده با متناظر مقدار

مشاهده با متناظر مقدار رو این دهد. ازمی نشان است داده رخ آن درp که نشان را خوشه در آن اهمیت یدرجه از معیاری خوشه، مرکز درp یصفحه

مرتب وزنشان براساس توانمی را مرکزی یخوشه صفحات دهد. مشاهدهمی شامل که حاصل ینمود. مجموعه حذف را کم وزن با صفحات مشاهده و کرد پروفایل عنوان به توانمی را باشدمی هاآن های وزن و صفحات مشاهده های زوج

51

Page 52: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کاربران از توجهی قابل گروه رفتار یا عالیق یدهنده نشان که کاربرد تجمعی این چگونه که داد خواهیم توضیح بعدی بخش گرفت. در نظر در باشدمی

کرد. استفاده وب سازیشخصی در توانمی را تجمعی های پروفایل این بگیرید. در نظر در را8-2 شکل تراکنشی های داده مثال، یک عنوان به

است. دودویی بصورت تراکنش بردار هر در صفحات مشاهده های وزن مورد، بندی خوشه استاندارد الگوریتم یک از استفاده با قبال ها داده که کنیممی فرض کاربران های تراکنش از خوشه سه و اند شده بندی خوشهk-means مانند

با متناظر تجمعی پروفایل8-2 شکل راست سمت است. جدول شده حاصل مشاهده که دهدمی نشان صفحات مشاهده دهد. وزنمی نشان را1یخوشه

کاربران معمول عالیق یدهنده نشان و صفحات ترین باارزش ،F وB صفحات شده ظاهر تراکنش یک در فقطC یصفحه باشند. مشاهدهمی خوشه این

شود. حذف0.25 از بیش یآستانه مقدار از استفاده با تواندمی و است

تجمعی های پروفایل استخراج از - مثالی8-2 شکلها تراکنش های خوشه از کاربرد

را مشابهی فرآیند توانمی که کنید توجه ها تراکنش ماتریس وارون روی بر

هایی خوشه مجموعه به و داد انجام های تکنیک وجود، این یافت. با دست بر های روش مانند بندی خوشه رایج

این انجام به قادر معموال فاصله، مبنای آن باشند. دلیلنمی بندی خوشه از نوع مشاهده از استفاده بجای که است این

از توانمی بعد، عنوان به صفحات کرد استفاده بعد عنوان به ها تراکنش

این، بر باشد. عالوهمی معمول کاربردهای در هزار صدها تا ها ده هاآن تعداد که از توجهی قابل تعداد حذف چون باشد،نمی مناسب مورد این در ابعاد کاهش

FEDCBA

کاربر0011001

کاربر0011004

کاربر0011007

کاربر1000110

کاربر1000113

کاربر1000116

کاربر1001109

کاربر0110012

کاربر0110015

کاربر0111018

برای تجمعی پروفایل 1 خوشه

مشاهدهصفحه

وزن

B1.00F1.00A0.75C0.25

52

خوشه0

خوشه2

خوشه1

Page 53: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

شود. منجر اطالعات از زیادی حجم رفتن دست از به است ممکن ها تراکنش در نیزPageGather الگوریتمclique بندی خوشه بر مبتنی روش مشابه، بطور

های گراف در بیشینه هایclique تمامی یافتن چون باشد،می زامشکل مورد ایننیست. پذیرامکان محاسباتی نظر از بزرگ بسیار

ARHP(Association Rule است بوده موثر بسیار مورد این در که رویکرد یکHpergraph Partitioning)باشد. میARHPداده مجموعه کارا بصورت تواند می

برای انجمنی قواعد کاوش ابتداARHP کند. در بندی خوشه را باال ابعاد با های مورد صفحات مشاهده میان ازI مکرر اقالم مجموعه از مجموعه یک کشف

ابرگراف یک تشکیل برای سپس اقالم مجموعه گیرد. اینمی قرار استفادهH=<V,E>ابرگراف، شود. یکمی استفاده هاابریال عنوان به که

را راس دو از بیش تواندمی ابریال هر آن در که است یافته گسترش گراف یک گوناگونی معیارهای مبنای بر توانمی را ابریال هر با مرتبط هایکند. وزن متصل

مجموعه در موجود اقالم با مرتبط انجمنی قواعد اطمینان مانند کرد، محاسبه.... و اقالم مجموعه پشتیبانی مکرر، اقالم

هر برای توقف شرط یک که این تا شودمی افراز بازگشتی بصورتH ابرگراف شود. هر منجرC نام به ها خوشه از مجموعه یک به و آید بدست قسمت

بخش آن های راس یبقیه به خیلی که هایی راس کردن فیلتر برای بخش یصفحه مشاهده )یکv راس یک اتصال قابلیتشود. می بررسی نیستند متصل-می تعریف زیر بصورتc خوشه یک مکرر( در اقالم مجموعه در شده ظاهرشود:

(2-6 )

به را آن که دارد ایقوی هاییال راس، آن که این یعنی باال اتصال قابلیت یک تربزرگ اتصال قابلیت دارای های کند. راسمی متصل بخش آن در دیگر هایراس

سایر و شوندمی گرفته نظر در بخش آن به متعلق شده، داده یآستانه یک از از )مشاهده قلم یک اتصال قابلیت شوند. مقدارمی حذف بخش آن از هاراس

اصلی فاکتور عنوان به چون دارد زیادی اهمیت شد، تعریف باال در صفحه( که همچنین رویکرد رود. اینمی بکار تجمعی پروفایل در موجود اقالم وزن تعیین در با توصیه، در آن کارایی و است شده استفاده وب سازیشخصی یحوزه در

است. شده مقایسه بندیخوشه رویکردهای سایر هاآن که شود اعمال ایگونه به وب های تراکنش به تواندمی همچنین بندیخوشه

بر الگوریتمی مثال، عنوان بگیرد. به نظر در دنباله بصورت بردار بجای را ترینطوالنی از تابع یک مبنای بر وب های تراکنش بندیخوشه برای گراف مبنای

صرف زمان هم آن، شباهت است. معیار شده معرفی هاآن مشترک یزیردنبالهگیرد.می نظر در را صفحه هر وزن هم و صفحات روی بر شده

این در که هاییآن مانند بندیخوشه رویکردهای که کنیممی مشاهده نهایت در عنوان شوند. به اعمال نیز محتوایی های داده به توانندمی شدند بحث بخش که محتوایی هایپروفایل با توانمی را کاربر های تراکنش بندیخوشه نتایج مثال،

53

Page 54: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ترکیب اند،آمده مفاهیم( بدست یا )عبارات متنی های ویژگی بندیخوشه از وارون به بندیخوشه الگوریتم یک اعمال طریق از ها ویژگی بندیکرد. خوشه

به ویژگی هر به رویکرد آید. اینمی بدست صفحه-ویژگیمشاهده ماتریس مرکز رو این کند. ازمی رفتار صفحات مشاهده فضای روی بر بردار یک عنوان

هایمشاهده بردار( از )یا مجموعه یک بصورت توانمی را ویژگی از خوشه هر است کاربرد های پروفایل مشابه نمایش، طرز دید. این هاآن هایوزن با صفحه

یک در صفحه مشاهده هر وزن مورد این در حال این با شد، بحث پیشتر که کند.می نمایندگی را خوشه آن با رابطه در صفحه آن هایویژگی اهمیت پروفایل، سازیشخصی برای توانمی را کاربرد هایپروفایل و محتوا از ترکیبی یمجموعه را جدید قلم مشکل که است آن رویکرد این مزیت برد. یک بکار وب موثرتر

حل دارد، وجود کاربرد بر مبتنی فقط و جمعی فیلترکردن رویکردهای در که سایت به تازه محصول( که یک یا صفحه )یک جدید قلم یک آنکه کند: احتمالمی

چون است کم باشد شده ظاهر کاربرد های پروفایل در است، شده اضافه تواندمی قلم این هم هنوز است. اما بوده کم آن به دسترسی یا کاربر های رای

بدست محتوایی های پروفایل توسط آن از که ایمعنایی هایویژگی براساسشود. توصیه کاربر به آمده،

وب سازی شخصی جهت شده کشف الگوهای از - استفاده2-1-3 یجلسه تطبیق توصیه، موتور هدف شد، اشاره مقدمه بخش در که طور همان و وب کاربرد کاویوب طریق از شده کشف تجمعی پروفایل با جاری کاربر شده توصیه اشیای یمجموعه است. به کاربر به اشیا از مجموعه یک یتوصیه

بخش بر ما تمرکز که آنجا از نامهپایان این شود. درمی گفته توصیه یمجموعه خودداری اضافه مطالب درج از است، وب سازیشخصی چارچوب خطیبرون

جزئیات بریم. برایمی نام را ها روش این از برخی خالصه بطور و کنیممی Anand] و[ Facca 2005] ،[Eirinaki 2003 a] به تواندمی خواننده بیشترکند. مراجعه[ 2005

الگوهای کاوش و انجمنی قواعد کاوش بندی،خوشه رویکردهای از یک هر از بندی،خوشه بر مبتنی روش کرد. در استفاده توصیه ایجاد برای توانمی ترتیبی

را تجمعی پروفایل و داد نشان اشیاء از بردار بصورت را جاری یجلسه توانمی کرد. در استفاده توصیه برای مبنا عنوان به دارد آن با را شباهت بیشترین که

یمجموعه با را کاربر جاری یجلسه توانمی انجمنی قواعد بر مبتنی رویکرد هستند اقالمی از مجموعه آن شامل که قوانینی از و کرد مقایسه مکرر اقالم

کرد. استفاده توصیه برای دارند، را شباهت بیشترین جاری یجلسه با که مبتنی روش تغییر و ترتیب گرفتن نظر در با نیز ترتیبی الگوهای بر مبتنی روش

کند. می عمل انجمنی قواعد بروب سازی شخصی تحقیقاتی های - زمینه2-1-4

بر وب سازیشخصی یزمینه در جدیدی های چالش و مسائل اخیر هایسال در-می هاآن ترین مهم یجمله از که است شده مطرح وب کاربرد کاویوب مبنای

54

Page 55: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

فرآیند در دامنه دانش کردن وارد نیز و تکاملی هایپروفایل کاوش به توان زیرمسائل و ها زمینه این از بخشی9-2 کرد. شکل اشاره وب سازیشخصی

منظور به معنا از استفاده به نامهپایان این تاکید کلی، دهد. بطورمی نشان را هاآن بطور و است وب سازیشخصی فرآیند در هاداده پردازشپیش یمرحله بهبود

این بسط به9-2 شکل در رو، این است. از نظر مورد کاربر مدل بهبود خاص،است. شده بیشتر توجه موضوعات

وب سازیشخصی تحقیقاتی هایزمینه از - بخشی9-2 شکل

شخصی سازی وب

کاوش پروفایلهای تکاملی

شخصی سازی معنایی وب

مهندسی واژگان شناختی

وارد کردن معنا در فازهای مختلف شخصی سازی

وبمنابع واژگان

شناختینمایش واژگان

شناختیساخت واژگان شناختی دامنه بصورت خودکار

مرحلهی توصیه

مرحلهی کشف الگو

مرحلهی پیش پردازش

نگاشت بین

دادههای کاربرد و موجودیت های معنایی

معیارهای

شباهت معنایی

مدیریت تغییر مفهوم در

پروفایل کاربران

ردیابی جهت گیری ها در

پروفایل کاربران

ساخت مدل کاربر

استخراج مفاهیم

استخراج کلمات کلیدی

رفع ابهام معنای کلمات

55

Page 56: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

لغوی معنایی - منابع2-2 ی. دسته [Cruse 1986] کرد تقسیم دسته دو به توانمی را کلمات بین ارتباطات

ساختار به ارتباط نوع است. این معروف لغوینحوی یاsyntagmatic به اول از بعد یا قبل باید کلمه کدام مثال که کندمی بیان و دارد بستگی جمالت نحوی معروف لغوی معنایی یاparadigmatic به دوم یگیرد. دسته قرار دیگر یکلمه به که است استنتاج و شمول ،شباهت مانند معنایی مفاهیم مبنای بر و است synonymy، hyponymy، meronymy، antonymy مانند ارتباطاتی به خود ینوبه

شوند. می منجر غیره و بین لغوی معنایی روابط را وب سازیشخصی فرایند در معنا کردن وارد اساس معنایی منابع در باید را کلمات بین لغوی معنایی دهند. روابطمی تشکیل کلمات معرفی به بخش این دارند. در گوناگونی انواع منابع کنیم. این جستجو لغوی مناسب منبع انتخاب برای نهایت در و پردازیممی خالصه بصورت هاآن ترینمهم

کنیم.می مقایسه هم با را هاآن نامهپایان این درلغت - فرهنگ2-2-1

فرهنگ مانند باشد،می لغت فرهنگ یک لغوی معنایی منبع یک از فرم ترینساده یک در لغوی های موجودیت تمامی از لیستی لغت فرهنگ . درLongman لغت

آن تعریف واقع در که دارد وجود توضیح یک کلمه هر دارد. برای وجود دامنهرود.می کار به هم به هاموجودیت اتصال برای و باشدمی

جامع های - فرهنگ2-2-2-می هاآن بین رابطه تعدادی و عبارات از لیستی شامل جامع فرهنگ یک معموال گوناگونی انواع از توانندمی ارنباطات . اینRoget's Thesaurus مانند باشد، ( وNT) ترجزئی عبارت (،BT) ترکلی عبارت (،RT) مرتبط عبارات مانند باشند

یک دانش گذاریاشتراک به و نمایش منظور به جامع هایفرهنگ غیره. بیشتر کل در توانمی را جامع هایفرهنگ رو این شوند. ازمی طراحی خاص یدامنه

برای مثال، عنوان گرفت. به نظر در معتبر های شناختیواژگان بصورت وارده سیب، و فرنگی توت هویج، زمینی، سیب سبزی، میوه، غذا، مفاهیم

باشند:می زیر مشابه لغت فرهنگ یک های

56

Page 57: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

بندی رده و شناختی - واژگان2-2-3-حوزه در ساختاریافته بصورتی دانش سازماندهی منظور به هاشناختی واژگان

-می قرار استفاده مورد معنایی وب و دانش مدیریت تا فلسفه از گوناگونی های است. یافته تکامل بتدریج اخیر سال پانزده در شناختی واژگان گیرند. تعریف

شناختی واژگان است: یک صورت این به شناختی واژگان از اولیه تعریف یک انتزاعی بسیار که این با تعریف . اینادراک یک خصوصیات ذکر از است عبارت.[Cimiano 2006]است شده پذیرفته ایگسترده بصورت اما است،

تعریفی شناختی، واژگان یپیچیده و فرمال تعریف درج بجای قسمت این در :[Davies 2006]کنیممی ذکر را آن از ترملموس و ترشهودی

زیر موارد از که شبکه( است )یا گراف ساختار یک شناختی، واژگان یکاست: شده تشکیل

گراف( های )راس مفاهیم از مجموعه یک.1 های )یال کنندمی متصل یکدیگر به را مفاهیم که ارتباطات از مجموعه یک.2

گراف( در دارجهتمفاهیم به شده داده نسبت های نمونه از مجموعه یک.3

گونه است. همان شده داده نشان10-2 شکل در شناختی واژگان از مثالی موجودیت مانند مفاهیمی شناختی واژگان این در شود،می مشاهده که

،طبیعی جغرافیایی موجودیت ،سکونت قابل جغرافیایی موجودیت جغرافیایی، پایتخت و هست از عبارتند موجود دارد. ارتباطات وجود غیره و کوه ،تهران.بودن

food NT vegetable NT fruitvegetable NT potato NT carot BT foodfruit NT apple NT strawberry BT foodpotato BT vegetablecarrot BT vegetable RT appleapple BT fruit RT carrot RT strawberrystrawberry BT fruit RT apple

57

Page 58: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

شناختی واژگان از ای- نمونه10-2 شکل

بکار شناختی واژگان خودکارنیمه ساخت برای توانمی را کاویداده های تکنیک بصورت خوب کیفیت با شناختی واژگان ساخت امکان حاضر حال برد. در

ندارد. بنابراین، وجود عملی دالیل به هم و نظری دالیل به هم خودکار کامال در باید تکنولوژی رو این دارد. از هزینه که است ضروری انسان دخالت

اطالعات بر تاکید پیشنهادات، کردن فراهم انسان، دخالت از مفید یاستفادهکند. کمک شده ساخته شناختی واژگان تصحیح و بالقوه توجه جالب

که دارد وجود آن متدولوژی و شناختی واژگان مهندسی برای گوناگونی تعاریف متدولوژی مثال، عنوان باشند. بهمی دانش مدیریت رویکرد مبنای بر اساسا

مهندسی برای را اصلی یمرحله پنج ،DILIGENT شناختی واژگان مهندسی ،محلی سازگارکردن ،ساخت از عبارتند که کندمی تعریف شناختی واژگان-واژگان ساخت دانش، کشف دیدگاه . ازمحلی کردنروزبه و بازبینی ،تحلیل

Davies]کرد تعریف زیر هم به مرتبط مراحل شامل توانمی را شناختی2006]: داریم؟ سروکار ایحوزه چه دامنه: با درک(1 خودکارنیمه ساخت با آن ارتباط و چیست موجود های داده: داده درک(2

چیست؟ شناختیواژگان را وظایفی آن، های ویژگی و موجود های داده وظیفه: براساس تعریف(3

کنید. تعریف شوند انجام باید که وظایف انجام برای که خودکارنیمه فرایند شناختی: یکواژگان یادگیری(4

رود.می بکار3 یمرحله در شده تعریف

موجودیت جغرافیایی

موجودیت جغرافیایی طبیعی

موجودیت جغرافیایی قابل

سکونت

کشورشهر

ایران

کوه رودخانه

دماوند تهرانپایتخت

بودن

هستهستهست

هستهست

هست

هست

58

Page 59: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

برای که را تغییری گونه تناوبی: هر فرایند یک در انسان کمک به تصحیح(5 قبل مراحل از یکی به و دهید انجام است نیاز مورد شناختیواژگان بهبود

بازگردید. است مطلوب که-مرحله سه نیازپیش و اند وابسته انسان یگسترده دخالت به اول یمرحله سه کرد، خودکار حدی تا توانمی را5 و4 مراحل که حالی باشند. درمی بعدی ی

در ادامه در مراحل، این میان است. از کاربر به وابسته شدت به آخر یمرحلهدهیم.می توضیح کمی شناختیواژگان یادگیری یمرحله موردشناختی واژگان یادگیری

دید هامدل از کالسی مانند را شناختی واژگان توانمی دانش، کشف دیدگاه از نوعی به باید ماشین( که یادگیری معمول هایمدل از ترپیچیده حدی تا )البته گوناگون فرضیات به شود. بسته ...( بیان و خطی توابع منطق، )مانند زبان وظایف با توانمی را ماشین یادگیری ورودی، هایداده کردن فراهم به راجع

بین ارتباطات یادگیری فقط مفاهیم، یادگیری داد: فقط انجام گوناگونی یک کردن ساکن ارتباطات، هم و مفاهیم هم یادگیری موجود، مفاهیم های داده جریان با داشتن سروکار موجود، ساختار یک یا شناختی واژگان

دیدهای یدهندهنشان که شناختی واژگان چندین کردن یکپارچه پویا،-واژگان یادگیری وظایف تر،رسمی غیره. بصورت و خاص های داده گوناگون کنیممی تعریف شناختیواژگان های مولفه بین نگاشت برحسب را شناختی

و ندارند وجود آن یمولفه چندین و است شده داده مولفه چندین آن در که یادگیری سناریوهای از کنیم. برخی استنتاج را ها مولفه این داریم قصد ما

باشند:می زیر بصورت شناختیواژگانشده داده های نمونه بندی خوشه یا مفاهیم استنتاج(1هاآن های نمونه و مفاهیم از ارتباطات استنتاج(2 داده های نمونه و شناختیواژگان یک از شناختی واژگان کردن ساکن(3

نشده دادهنسبت اما مرتبط یشده-پیش اطالعات سایر و شده داده های نمونه از شناختی واژگان تولید(4

ایزمینه شناختی واژگان یک از شناختی واژگان دادن گسترش یا کردنروزبه(5

الگوهای یا جدید های نمونه مانند ایزمینهپیش اطالعات و شده دادهشناختی واژگان کاربرد

شناختی واژگان یادگیری از باال مراحل تمام در را دانش کشف های روشبرد. بکار توانمی

بندی - رده2-2-3-2 با ها گره آن در که معنایی مراتب سلسله یک از است عبارت بندیرده یک

ویژگی اطالعاتی( یک )موجودیت گره مرتبطند. هر هم به زیرکالس یرابطه.[Daconta 2003] کندمی متمایز سایرین از را آن که دارد ممیزی

هر شود،می داده نمایش بندیرده باالی در آن یریشه با معموال بندیرده یک به فرزند از آن جهت که دهدمی نشان را زیرکالس یرابطه یک گره دو بین لینک

59

Page 60: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

-می حرکت مراتب سلسله در باال سمت به پایین از چه است. هر پدر سمت-می دیده11-2 شکل در بندیرده از ای شوند. نمونهمی ترانتزاعی هاگره کنیم،شود.

بندیرده یک از ای- نمونه11-2 شکل

موجود های بندی رده و هاشناختی - واژگان2-2-3-3 برهزینه و برزمان بسیار شناختی واژگان ساخت فرآیند شد، اشاره که طورهمان

کدام هر که باشندمی موجود اینترنت در گوناگونی هایشناختی باشد. واژگانمی دسته دو به توانمی را منابع این کلی، دارند. بطور را خود ضعف و قوت نقاط

-شناختی واژگان و خاص یدامنه یک به مربوط هایشناختی کرد: واژگان تقسیم را مواردی و کنیممی ذکر را هایی نمونه یک، هر به راجع ادامه عمومی. در هایداد. خواهیم توضیح بیشتر بصورت دارند بیشتری اهمیت نامهپایان این در که

خاص ی دامنه یک به مربوط های شناختی - واژگان2-2-3-3-1 بیان را خاص یدامنه یک ارتباطات و مفاهیم فقط ها شناختی واژگان گونه این منابع این از اینیستند. نمونه دسترس در عمومی بصورت معموال و کنندمی

Gene Ontologyاست. ژنتیک یدامنه به مربوط که باشد میعمومی های شناختی - واژگان2-2-3-3-2

مفاهیم و باشندنمی خاصی یحوزه به محدود ها شناختی واژگان گونه این خاص مفاهیم مورد در کم پوشش از نتیجه دارند. در خود در را تر عمومی

دهیم.می توضیح زیر های بخش در را موارد این از هاییبرند. نمونهمی رنج دامنه2-2-3-3-2-1 -CYCو OpenCYC

دهد جای خود در را بشر دانش تمام تا شد طراحیCYC [CYC] دانش پایگاه پایگاه این های واقعیت و قوانین در که است مفهوم صدهزار از بیش شامل و

بوده مرحله سه شاملCYC ساخت در رفته بکار اند. روششده کد دانش

موجود زنده

عامل

سازمان

شخص

مدیرکارمند

60

Page 61: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ضمنیcommon sense دانش های بخش و مقاالت اول یمرحله است. در و دوم یشدند. مرحله رمز و تدوین دستی بصورت مختلف منابع در موجود

زبان از استفاده با جدیدcommon sense دانش آوردن بدست شامل سوم آن مجانی و مختصرتر یاست. نسخه ماشین یادگیری ابزارهای یا طبیعی

OpenCYCدر و دارد نام [OpenCYC]است. موجود2-2-3-3-2-2 -WordNet

WordNet [Fellbaum 1998]است انگلیسی زبان برای لغوی یداده پایگاه یک 1985 سال ازPrinceton دانشگاه درCognitive Science آزمایشگاه توسط که

بینWordNet استاندارد، جامع های فرهنگ است. برخالف شده داده توسعه هاsynset این که شودمی قائل تمایز هاsynset معرفی با آن، معنی و کلمه یک

اطالعاتیWordNetدارند. یکسانی معنای ای،حوزه در هستند کلماتی شامل و فعل صفت، اسم، از عبارتند که گذاردمی اختیار در گفتاربخش چهار مورد در

مشخص هاsynset بین نیز و کلمات بین لغوی ارتباط تعدادیWordNetقید. از: عبارتند که است کردهsynonymyخاص، یحوزه یک در که هستند کلماتی معنی هم : کلمات

WordNet معنایی واحد اساس و پایه هاآن واقع دارند. در یکسانی معنایدهند.می تشکیل را هاsynset یعنی

hypernymyبین ارتباط : این synsetاگر خاص، شود. بطورمی تعریف ها s معنای اگر است s2 ازhypernym یک s1 گوییممی باشند،synset دو s2 و 1

s1، معنای s2دیگر، عبارت به کند، بندیرده را s1ابرکالس s2.باشد شود.می نامیدهhyponymy رابطه، این عکس

meronymyدو بین نیز رابطه : این synsetگوییمشود. میمی تعریف s1یک meronymاز s2اگر است s1از بخش یک s2 این دهد. عکس نشان را

شود.می نامیدهholonymy رابطه،antonymyدو بین ی: رابطه synsetمتضاد هم با معنایی نظر از که است

باشند.میدارد: وجود ها صفت بین زیر هایرابطه این، بر عالوهSimilar toمانند کند،می مرتبط مشابه های صفت به را ها : صفت bigو

great.attributeمی ربط کنندمی توصیف که ایویژگی یا کیفیت به را ها : صفت-

. size وbig مانند دهد،antonymyمانند دهدمی ربط هاآن متضاد های صفت به را ها : صفت bigو

small.derivationallyصفت یک که را گفتار های بخش سایر از : کلمات

.bigness وbig مانند دهد،می دارد ارتباط هاآن با اشتقاقی بصورتدهد.می نشان راWordNet در ها اسم بین ارتباطات از هایی مثال1-2 جدول ،synset هر برایWordNet ها،آن بین لغوی ارتباطات و هاsynset بر عالوه

را هاgloss واقع شود. درمی گفتهgloss آن به که دارد نیز را آن معنای توصیف

61

Page 62: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

(NLP) طبیعی زبان پردازش در هاآن و آورد حساب به مفاهیم توصیفات توانمی.[Cimiano 2006] دارند زیادی کاربردهای

WordNet در لغوی ارتباطات از هایی - مثال1-2 جدولExampleParaphraseType

"illness means the same Eis disease"=> synonym(disease,illness)

means the same asSynonym

"furniture is the general term for chair"=> hypernym (furniture, chair)

is the general term forHypernym

"a chair is a kind of furniture"=> hyponym(chair, furniture)

is a kind ofHyponym

"a branch is a part of a tree"=^ meronymfbranch, tree)"wood is the substance of a tree"=> meronym(wood, tree)"a person is member of a group"=> meronymfperson, group

is part

substance/

member of

Meronym

"a bicycle has a wheel as part"=> holonym(bicycle,u)heel)"a tree has wood as substance"=>• holonym (tree, wood)"a group has a person as member"=> holonym(group, person)

has part/

substance/

member

Holonym

"ascent is the contrary of descent"=> antonym(ascent, descent)

is the contrary ofAntonym

وب های - دایرکتوری2-2-3-3-2-3 از که گذارندمی اختیار در را عمومی بندیرده نوعی واقع در ساختارها این

با تدریج به و شودمی شروع بندیرده باالی سطوح در انتزاعی و کلی مفاهیم ساختار، این های گره از یک هر کند. برایمی پیدا گسترش خاص مفاهیم است. شده داده نسبت گره آن به مفهوم، آن با مرتبط وب یصفحه تعدادی

و کندمی توصیف را آن که دارد وجود جمله چند یا یک گره، هر ازای به همچنین ساختارها این ترین معروف جمله ازآورد. شمار بهgloss نوعی را آن توانمی

62

Page 63: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

برد. این نام راYahoo [YahooDir] وDmoz [Dmoz] وب هایدایرکتوری توانمی روز به یکبار هفته هر مثال مکرر بطور و اند شده ایجاد انسان توسط ساختارها

شوند. می نیستند. به متوازن بصورت معموال که است این ساختارها این مشکالت از یکی به مربوط های گره و اند شده گسترده بسیار خاصی های گره که معنی این

معنایی منبع کاربرد یحوزه اگر نتیجه اند. دریافته گسترش کمتر مفاهیم برخی داشته چندانی کمک توانندنمی ساختارها این باشد، دوم یدسته جزو لغوی

باشند. معنایی منبع یک عنوان به هاآن از استفاده جهت ساختارها این یعمده مشکل

داده نسبت مفهوم مورد در کمی بسیار اطالعات گره هر که است آن لغوی عمل باید بیشتر اطالعات به دستیابی منظور به و گذاردمی اختیار در آن به شده

وب صفحات پردازش به و است زمانبر که داد انجام ساختار روی را وب خزش در موجود فراوان نویز دلیل به کار، این انجام صورت در دارد. حتی نیاز

داده نسبت های سایتوب از مفهوم آن مورد در اطالعات دریافت وب، صفحات وجود ساختار این در نیز پوشش مشکل عالوه است. به مشکل آن به شده های جنبه تمامی است ممکن گره هر های سایت لیست که معنی این به دارد،

ندهند. پوشش را مفهوم آنشناختی واژگان نمایش های- زبان2-2-3-4

اینکه جمله باشند. ازمی مهم زیادی دالیل به شناختی واژگان نمایش های زبان-زبان این به ها شناختی واژگان بیشتر و دارند وجود استانداردی هایزبان امروزه

معنایی وب برایW3C توسط نمایش هایزبان از ایشوند. مجموعهمی ارائه هااست: شده توصیه

XMLاما کند،می فراهم ساختاریافته مستندات برای سطحی نحو : یک کند.نمی اعمال مستندات این معنای روی بر معنایی محدودیت هیچ

XML Schemaساختار روی بر دادن قرار محدودیت برای زبان : یک دهد.می گسترش ایداده انواع با راXML که استXML مستندات

RDFکه باشدمی هاآن بین ارتباطات )منابع( و اشیا برای داده مدل : یک تواندمی داده مدل کند. اینمی فراهم داده مدل این برای ساده معنای یکشود. داده نمایشXML نحو با

RDF Schemaهایکالس و ها ویژگی توصیف برای واژگان مجموعه : یک و هاویژگی این از تعمیم مراتب سلسله برای معنا با همراه ،RDF منابعباشد.می هاکالس

OWLاضافه هاکالس و هاویژگی توصیف برای بیشتری واژگان : مجموعه (،disjointness )مانند هاکالس بین ارتباطات به توانمی هاآن میان کند. ازمی

و هاویژگی از تریغنی انواع برابری، (،exactly one )مانند کاردینالیتی سه درOWLکرد. ( اشارهsymmetry )مانند هاویژگی هایمشخصه

سازیپیاده نیازهای برای یک هر که است شده ارائه مختلف ینسخه

63

Page 64: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

OWL Lite، OWL DL از عبارتند نسخه سه اند. اینشده طراحی خاصی.OWL Full و

وXOL+OIL ها،Topic Map مانند دارند، وجود نیز نمایش هایزبان سایرDAML+OILحال در و هستند شدن محو حال در هاییزبان چنین وجود، این . با

-می خواننده هازبان این جزئیات با آشنایی باشند. برای میOWL سمت به حرکتکند. مراجعه[Davies 2006] به تواند

عمومی های - فرهنگ2-2-4 ترینمعروف آورند. ازمی فراهم لغوی یوارده هر از مفصلی توصیف منابع این

اخیر، هایسال در وجود این برد. با نام راBritannica توانمی آن چاپی هاینسخهWikipediaفراوانی محبوبیت و عمومیت باشدمی برخط جامع فرهنگ یک که

فرهنگ این روی بر نامهپایان اصلی تمرکز و دستاورد که آنجا است. از یافته توضیح منبع این یدرباره تریمفصل بصورت بعدی بخش در است عمومیداد. خواهیم

2-2-4-1 -WikipediaWikipedia [Wikipedia]دارای و وب بر مبتنی چندزبانه، عمومی فرهنگ یک

شود.می ادارهWikimedia یموسسه توسط که است رایگان محتوایWikipediaقسمت و است شده نوشته جهان سراسر از داوطلبان همکاری با

دارد، دسترسی اینترنت به که کسی هر توسط تواندمی آن مقاالت اعظم است. نفر750000 از بیش آن مقاالت فعال نویسندگان شود. تعداد ویرایش

Wikipediaگوناگون زبان250 از بیش در که دارد به مقاله میلیون10 از بیش است.2340000 از بیش انگلیسی زبان به آن مقاالت اند. تعدادشده نوشته

ی تاریخچه Wikipedia ایجادNupedia از ایشعبه عنوان به بار نخستینWikipedia یموسسه

که بود رایگان جامع فرهنگ یک ایجاد برای ای پروژهNupediaشد. نیاز متخصص نویسندگان به و داشت مقاالت بازبینی برای سیستمی

،2000 سال رفت. درمی پیش کندی به آن مقاالت نوشتن اما داشت،Jimmy Walesو Larry Sangerتکمیل فکر به Nupediaپروژه یک بصورت-

تکنولوژی از استفاده به تصمیم هاافتادند. آن بازتر و ترگسترده و ترکامل یWikiگرفتند. یک برخط بصورت آن دادن اختیار در برای Wiki، یک

که است شده طراحی منظور این برای که است وب صفحات از مجموعه داشته نقش آن محتوای تغییر در بتواند دارد دسترسی آن به که کسی هر

از برخط ینسخه نخستین سال همان یژانویه دهم در ترتیب این باشد. بهWikipediaشد. ایجاد

Wikipedia در انگلیسی غیر هایزبان به مقاالت ،2001 سال مه ماه در فرانسوی ایتالیایی، آلمانی، چینی، به توانمی هاآن یجمله از که شدند ایجاد

کرد. اشارهدر کنندگان شرکت Wikipedia

64

Page 65: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ایجاد منظور بهWikipedia اعضای به کمک برای گوناگونی های مکانیسم صفحات نظارت به قادر کنندگان دارد. ویرایش وجود باکیفیت منابع

-می تضمین که دارند وجود خاص اختیارات با مدیر 1000 از هستند. بیش رهنمودهای و ها سیاست با مطابق امکان حد تا کاربران رفتار که کنند

Wikipediaمورد در نویسندگان بین مقاله، یک مورد در که باشد. هنگامی کمک بحث صفحات باشد، داشته وجود نظر اختالف مطالب یارائه ینحوه

که را نویسندگانی توانندمی شود. مدیران گرفته نهایی تصمیم یک تا کنندمی منع مقاالت ویرایش از دائمی یا موقت بصورت باشند نداشته مدنی رفتارکنند.

ی موسسه WikimediaWikimediaفلوریدای در2003 سال در که است خیریه یموسسه یک

با مرتبط های پروژه تمامی وWikipedia موسسه، شد. این ایجاد آمریکا یعنی شرکتopen source افزارنرم یتوسعه مسئول و کندمی اداره را آن

Mediawikiباشد. میدر بررسی Wikipedia

و ایجاد مشاهده، حال درWikipedia در مقاله هزاران زمان از لحظه هر در را مقاالت روی بر شده اعمال تغییرات یتاریخچه توانباشند. میمی بازبینی

دارد وجود مقاله هر ازای به که اخیر تغییرات صفحات یمشاهده با شناسایی برجسته یمقاله عنوان به مقاله1900 از کرد. بیش مشاهده

اند. به شده شناخته خوب هایمقاله عنوان به نیز مقاله3500اند. شده Wikipedia یابد. همچنینمی بهبود نیز ها مقاله سایر کیفیت زمان، مرور

داده کلیدی کلمات با مرتبط مقاالت توانمی که دارد نیز جستجو قابلیتیافت. آن کمک به را شده

در گردش Wikipedia-می آسانی به و هستند متصل لینک طریق از هم بهWikipedia در مقاالت

چندین به ها لینک کرد. این پیدا هاآن طریق از را مرتبط اطالعات توان داخل در شدهhighlight کلمات طریق از آن نوع دارند. یک وجود صورت

-می که باشدمی مقاالت انتهای های لینک دیگر، است. صورت مقاالت متن کننند. اشاره وب صفحات سایر یا وWikipedia داخل مقاالت به توانند

بندیدسته مراتبی سلسله ساختار یک درWikipedia مقاالت کل همچنینیافت. را نظر مورد مقاالت آن در گردش با توانمی که است شده

Wikipediaچاپی جامع های فرهنگ با مقایسه درWikipediaاینکه دارد. اول چاپی جامع هایفرهنگ به نسبت مزیت چندین

مطلب کردن اضافه که معنی این به است، پایین بسیار آن انتشار یهزینه-کم و آسان بسیار است، افزارینرم بصورت چون آن گستردن و آن به

داخل در اضافه توضیحات بجای آن مقاالت در اینکه است. دوم هزینه پاراگراف در مقاله هر یخالصه نیز و شودمی استفاده هالینک از صفحات،

چون است کوتاه بسیار آن ویرایش زمان مدت عالوه،دارد. به وجود آن اول را شده ویرایش ینسخه تواندمی کاربر هر تایید، یدکمه زدن محض به

65

Page 66: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

باید کاربر چاپی، جامع های فرهنگ مورد در که صورتی کند. در مشاهده گزاف یهزینه نیز و کند صبر آن بعدی ینسخه تا تغییرات، یمشاهده برای

ویرایش ویژگی رسدمی نظر به که حالی بپردازد. در نیز را بعدی ینسخه Giles [Giles شود،می آن مقاالت پایین کیفیت ایجاد باعثWikipedia جمعی کهBritannica مقاالت با حتی آن مقاالت کیفیت که داد نشان[2005

کند. می برابری است انگلیسی چاپی عمومی فرهنگ کاملترینWikipedia قوت و ضعف - نقاط2-2-4-1-1

و موضوعات آن، ساختار وWikipedia مقاالت ویرایش و ایجاد ینحوه مورد درپردازیم:می هاآن از مورد چند به زیر در که دارد وجود گوناگونی نکاتWikipediaهای زمینهپیش با کنندگان ویرایش از زیادی تعداد معرض در

ایناحیه و فرهنگی هایگیریجهت کاهش باعث امر باشد. اینمی گوناگون بنابراین شود،می آن در دارد، وجود دیگر انتشارات از بسیاری در که

دیگر، سوی است. از دشوار بسیار آن در خاصی نظر تحمیل یا سانسور از مطالب کردن فراهم باعث کننده، ویرایش از متنوع و وسیع طیف این

شود. ازمی مقاالت موضوعات برای زیاد عمق و گوناگون هایزاویه بطور است ممکن موضوعات از برخی که است آن امر این معایب داده پوشش دقیق بسیار بصورت برخی نیز و نشوند داده پوشش کامل

اکثرا که افراد از گروهی توسط مقاالت در ویرایشات عمل، شوند. در به متوسط مالی وضع و هستند مذکر جنس نیستند، زیادی سن دارای

کند. ایجاد گیریجهت مقداری تواندمی امر این و شودمی انجام دارند باالکه شودمی باعث مقاالت ویرایش جهت هرکسی به دادن اجازه

Wikipediaباشد. در نشدهبررسی اطالعات معرض در زیادی میزان به به و است تشخیص قابل آسانی به آن در آشکار هایخرابکاری که حالی

-می ظریف نظرهاینقطه معرض در آن مقاالت شود،می تصحیح سرعت-می تصحیح زمان مرور به نهایت در نیز مقاالت این که چند باشند. هر

یا جدید مقاالت اما رسند،می کیفیت از مطلوبی یدرجه به و شوند و نادرستی معرض در بسیار شوند،نمی نظارت درستی به که مقاالتی

که شودمی باعثWikipedia بازبودن دیگر، سوی باشند. ازمی خرابکاری باشد. بسیاری بدی وضعیت در تواندمی زمان از لحظه هر در ایمقاله هر کامل بطورWikipedia رهنمودهای و هاسیاست به کنندگان،ویرایش از

این دهند. با قرار را مرجع بدون اطالعات است ممکن یا و کنندنمی عمل مقاالت در اشتباهات که را این شانس ،Wikipedia باز رویکرد وجود، است. تعداد داده افزایش چشمگیری میزان به شود تصحیح و یافت از صفحات بر نظارت مشغول لحظه هر در کنندگانویرایش از زیادیباشند.می نظارت هایلیست و اخیر تغییرات طریق

مقاالت Wikipediaامر شوند. اینمی نوشته نامرئی و باز اجماع یک با نظراتنقطه تحمیل یا کردن دارد. سانسور را خود قوت و ضعف نقاط

مقاالت، بیشتر مورد در نهایت در و است دشوار بسیار آن در رسمی

66

Page 67: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

-بی نظرنقطه یک و شوندمی توصیف ها دیدگاه و نظراتنقطه تمامی است ممکن توافق به رسیدن فرآیند که چند آید. هرمی بدست طرفانه

بکشد. طول مدتیWikipedia - ساختار2-2-4-1-2

Wikipediaمورد در هایی بحث تصاویر، برای جداگانه صفحات مقاالت، شامل مقاله Wikipedia در اساسی باشد. عنصرمی غیره و مولفان مقاالت، محتوای

سایر یا و مقاالت سایر به و کندمی توصیف را رویداد یا موجودیت یک که باشدمی هر توانمی و دارد فرد به منحصر عنوان یک مقاله دارد. هر لینک وب صفحات

که طور آورد. همان شمار به فرد به منحصر مفهوم یک توصیف را مقاله یک در را مقاالت تمامی که دارد بندی دسته ساختار یکWikipedia شد، اشاره

باشدنمی درخت بندی،دسته مراتب کند. سلسلهمی سازماندهی مراتب سلسله معنایی،باشد. هم داشته بندیدسته ساختار در پدر چندین تواندمی مقاله یک و

که یافت آن مقاالت ارجاعات در توانمی را اختصاری کلمات و مختلف امالهای است ایمقاله به مقاله عنوان برای دیگر نام یک از ارجاعی های لینک شامل

طریق ازWikipedia در است. چندمعنایی عنوان آن برای توصیف شامل که یک برای که را مقاالتی تمامی صفحات، شود. اینمی اداره ابهام رفع صفحات های تگ کردن اضافه با را آن معنای و کنندمی لیست دارند، وجود خاص عبارت

کنند.می روشن پرانتز داخل در ابهام رفع پوشش و اندازه در لغوی معنایی منبع یک عنوان بهWikpedia اصلی مزیت-نقطه که باشدمی نامدار هایموجودیت و دامنه خاص عبارات به نسبت آن خوب

ها است. بررسیWordNet مانند عمومی هایشناختی واژگان اصلی ضعف ی توسط شده ایجاد هایبندیرده با مقایسه قابل آن پوشش که است داده نشان.[Milne 2006] باشدمی انسان

Wikipedia در لغوی معنایی اطالعات - انواع2-2-4-1-3 Wikipedia در که لغوی معنایی اطالعات انواع از کلی نمای یک2-2 جدول-می یک هر توضیح به زیر . در[Zesch 2008] دهدمی نشان را شودمی یافت

پردازیم. از کوتاهی تعریف شامل معموالWikipedia یمقاله یک از پاراگراف اولین

عبارات شامل مقاله کامل است. متن آن یدرباره مقاله که است مطلبی دهد.می توضیح مفصل بطور را مقاله عبارت مفهوم و معنا و است مرتبط

به که باشد صفحه های لینک در مقاله عبارت یترجمه شامل تواندمی همچنیندهد. ارجاع دیگر زبانی در آن معادل یمقاله باشند. این میWikipedia در دیگری لغوی معنایی منبعWikipedia های لینک واقع در لینک یک رو، این دهند. ازمی ارجاع دیگر یمقاله به مقاله یک از ها لینک

صفحات بین هایکند. لینکمی مشخص را مقاالت عبارات بین ارتباط نوعیWikipediaاین نوع اما کنندمی بیان را معنایی ارتباط هاآن رو، این از ندارند، نوع

مقاالت بین هایلینک کنند. تمامینمی بیان را آن قدرت یدرجه و ارتباط

67

Page 68: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Wikipediaگیرد. به قرار استفاده مورد تواندمی که دهندمی تشکیل را گراف یک گراف در هاآن مکان از را عبارت دو بین معنایی شباهت توانمی مثال عنوان

متن یک با لینک هر ،Wikipedia درHTML یصفحه یک روی کرد. بر محاسبهhighlightکرد. متن کلیک آن روی بر توانمی که است شده داده نشان شده highlightکه ایمقاله عنوان با شود( لزومامی نامیده لینک برچسب )که شده

مقاله به لینک زیادی تعداد مثال، عنوان باشد. بهنمی یکسان دهدمی ارجاع آن به برچسبBundesrepublik Deutchland با و دهندمی ارجاعDeutchland عنوان با

، ها معناهم به راجع اطالعاتی تواندمی لینک یک برچسب نتیجه، اند. درشده زده یا مرتبط دهد. عبارات قرار اختیار در مرتبط عبارات یا و گوناگون امالهای برچسب اطراف موضوعی یپنجره از توانمی را دهندمی رخ هم با که عباراتی

Benedikt لینک برچسب از قبل معموال مثال عنوان کرد. به استخراج لینک یکXVIعبارت Papstآید. می

Wikipedia در لغوی معنایی اطالعات - منابع2-2 جدول

Source Lexical semantic informationArticles First paragraph Full text Redirects Title

DefinitionDescription of meaning; related terms; translationsSynonymy; spelling variations, misspellings; abbreviationsNamed entities; domain specific terms or senses

Article Links Context Label Target

Related terms; co-occurrencesSynonyms; spelling variations; related termsLink graph; related terms

Categories Contained articles Hierarchy

Semantically related terms (siblings)Hyponymic and meronymic relations between terms

Disambiguation Article links Sense inventory

منظر نگریست. از منظر دو از توانمی راWikipedia در بندیدسته سیستم شود. در داده نسبت دسته دلخواهی تعداد به تواندمی مقاله هر ،محورمقاله منظر شود. ازمی محسوب مقاله آن برای معنایی تگ نوعی دسته هر واقع نظر از که باشد داشته مقاله دلخواهی تعداد تواندمی دسته هر ،محوردسته

زیردسته چندین تواندمی دسته هر هستند. همچنین متعلق دسته این به معنایی کنند. بنابراینمی بیان راmeronymy یاhyponymy یرابطه که باشد داشته

دهد. می تشکیل را جامع فرهنگ یک بندی،دسته سیستم

68

Page 69: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

داده نشان ابهام رفع صفحات طریق از معنی چند دارای عباراتWikipedia در شوند. اینمی ابهام رفع پرانتز داخل در ابهام رفع تگ طریق از که شوندمی

معموال ابهام رفع تگ بدون یگذارد. مقالهمی اختیار در معنا از مخزنی سیستماست. عبارت آن معنای ترینمعمول یدرباره

گیری - نتیجه2-2-5 شد. جهت ارائه مطالبی موجود لغوی معنایی منابع مورد در قبل های بخش در

مناسب لغوی معنایی منبع یک به وب، سازیشخصی فرایند در معنا کردن وارد دارند. در را خود معایب و مزایب شده، ارائه معنایی منابع از یک است. هر نیاز

شود. بامی دیده خالصه بصورت هاآن قوت و ضعف نقاط و منابع این3-2 جدول منابع عنوان بهWikipedia وWordNet نامه پایان این در جدول، این به توجه

شدند. انتخاب مناسب لغوی معناییوب سازیشخصی در استفاده جهت لغوی معنایی منابع انواع ی- مقایسه3-2 جدول

منبعمزایامعایبمفاهیم نکردن مشخصنوع نکردن مشخص

ارتباطساختار وجود عدم

مراتبیسلسلهنبودن دسترس در

نویسیبرنامه واسطمناسب

از مناسب پوشش عدم خاص هایدامنه

موجودیت از کم پوشش-نامدار های

باال کیفیت و دقتنسخه در سریع ویرایش-

برخط های

لغت فرهنگ

کم ارتباطات انواعمفاهیم از کم پوشش

دامنه خاصبه و ایجاد زیاد یهزینه-

رسانیروزنبودن دسترس در

رایگان بصورت

مفاهیم کردن مشخصباال کیفیت و دقت

جامع فرهنگ

ایجاد زیاد زمان وهزینه رسانیروزبه و

کاربرد به وابستگی خاص

نبودن دسترس در رایگان بصورت

مفاهیم از خوب پوشش دامنه خاص

باال دقت

واژگان شناختی مربوط

-دامنه بهواژگاخاص ی

-نشناخت

و ی-رده

بندی

مفاهیم از پوشش عدم دامنه خاص

ایجاد زیاد زمان وهزینه رسانیروزبه و

مفاهیم از خوب پوشش کلی

باال کیفیت و دقت

واژگان-شناختی های

عمومی

69

Page 70: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

بودن دسترس در عدم بصورت هاآن بیشتررایگان

زبان چند به محدودموجودیت از کم پوشش-

نامدار های

مانندCYC

مفاهیم از پوشش عدم دامنه خاص

ایجاد زیاد زمان وهزینه رسانیروزبه و

موجودیت از کم پوشش-نامدار های

مفاهیم از خوب پوشش کلی

باال کیفیت و دقتمفید ارتباطاتانواع بودن دسترس در

نویسیبرنامه هایواسطمختلف هایزبان به

رایگانزبان به بودن دسترس در-

مختلف های

WordNet

هست یرابطه فقطمفاهیم از پوشش عدم

دامنه خاصناکافی اطالعات

مفاهیم یدربارهوب خزش به نیاز قسمت در توازن عدم-

سلسله مختلف هایمراتب

زبان به محدود انگلیسی

واسط وجود عدم مناسب سازیبرنامه

مفاهیم از خوب پوشش کلی

باال کیفیت و دقترایگان

دایرکتوروب هایی

مفاهیم از پوشش عدم دامنه خاص

ایجاد زیاد زمان وهزینه رسانیروزبه و

بودن دسترس در عدم بصورت هاآن بیشتررایگان

نبودن دسترس در نویسیبرنامه واسط

مناسب

فرهنگباال کیفیت و دقت عمومیچاپی

فرهن گ

عمومی داده زیاد حجم

واسط وجود عدم بهینه نویسیبرنامه

صریح نکردن مشخص ارتباط نوع

مفاهیم از خوب پوشش دامنه خاص

از خوب بسیار پوشش نامدار هایموجودیت

مورد در دقیق اطالعات مفاهیم و مفهوم هر

Wikipedia

70

Page 71: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

مرتبطسریع بسیار رسانی روزبهانواع بودن دسترس در

معنایی اطالعات منابعلغوی

رایگان بصورت موجودتعداد به بودن دسترس در

هازبان از زیادیخوب کیفیت و دقت

مراجع

[Alesso 2006] H. P. Alesso and C. F. Smith, “Thinking on the Web”, John Wiley & Sons, 2006.

[Cimiano 2006] P.Cimiano, “Ontology Learning and Population from Text: Algorithms, Evaluation and Applications”, Springer, 2006.

[Coffey 2001] S. Coffey, “Internet audience measurement: A practitioner's view”, journal of Interactive Advertising, 2001.

[Cooley 1997] R. Cooley, B. Mobasher and J. Srivastava, “Grouping Web Page references into transactions for mining World Wide Web browsing patterns”, Technical Report TR 97-021, Department of Computer Science, University of Minnesota, 1997.

[Cooley 1999] R. Cooley, B. Mobasher and J. Srivastava, “Data Preparation for Mining World Wide Web Browsing Patterns”, Knowledge and Information Systems, 1:1, 1999, 5-32.

[Cruse 1986] D. A. Cruse, , “Lexical Semantics”, Cambridge University Press, 1986.

[CYC] http://www.cyc.com

[Daconta 2003] M. C. Daconta et.al, , “The semantic Web: A Guide to The Future of XML, Web Services, and Knowledge Management”, John Wiley & Sons, 2003.

71

Page 72: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Davies 2006] J.Davies, R. Studer and P. Warren, “Semantic Web Technologies: Trends and Research in Ontology-based Systems”, John Wiley & Sons , 2006.

[Dmoz] http://www.dmoz.org

[Eirinaki 2003 a] M. Eirinaki and M. Vazirgiannis, “Web Mining for Web Personalization”, ACM Transactions on Internet Technology, 3:1-27, 2003.

[Facca 2005] F. M. Facca and P. L. Lanzi, “Mining interesting knowledge from weblogs: a survey”, Data and Knowledge Engineering, 53:3, 2005,225-241.

[Fellbaum 1998] C.Fekllbaum, “WordNet, an electronic lexical database”, MIT Press, 1998.

[Giles 2005] J. Giles, “Internet encyclopedias go head to head”, Nature, 438(7070), 2005, 900-901.

[Han 2007] J. Han and M. Kamber, “Data Mining: Concepts and Techniques, Second Edition”, Morgan Kaufman Publishers, 2006.

[Li 2004] J. Li and O. R. Zaijane, “Combining usage, content, and structure data to improve web site recommendation”, 5th International Conference on Electronic Commerce and Web Technologies (EC-Web2004), 2004.

[Malicinski 2001] A. Malicinski, S. Dominic, and T. Hartrick. “Measuring Web Traffic, part 1: Getting to know your audience is the key to online success, makes the numbers work for you”, IBM DeveloperWorks, 2001.

[Milne 2006] D. Milne, O. Medelyan and I. H. Witten, “Mining Domain-Specific Thesauri from Wikipedia: A case study”, Proceedings of the IEEE/WIC/ACM International Conference, 2006.

[Mobasher 2004] B. Mobasher, “Web Usage Mining and Personalization”, Practical Handbook of Internet Computing, Chapman Hall and CRC Press, 2004.

72

Page 73: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Norguet 2006] J. P. Norguet, “Semantic Analysis in Web Usage Mining”, PhD thesis, University of Bruxell, 2006.

[OpenCYC] http://opencyc.org

[Pierrakos 2003] D. Pierrakos, G. Paliouras, C. Papatheodorou and C. D. Spyropoulos, “Web Usage Mining as a Tool for Personalization: A Survey”, User Modeling and User-Adapted Interaction, 13: 311-372, 2003.

[Spiliopoulou 1999] M. Spiliopoulou, L. C. Faulstich and K. Wilker, “A Data Miner Analyzing the Navigational Behavior of Users”, Proceedings of the Workshop on Machine Learning in User Modeling of the ACAI99, Chania, Greece, 1999, 54-64.

[Tan 2002] P. N. Tan and V. Kumar, “Discovery of Web Robot Sessions Based on their Navigational Patterns”, Data Mining and Knowledge Discovery, 6:1, 2002, 9-35.

[Tanasa 2005] Doru Tanasa, “Web Usage Mining:Contributions to Intersites Logs Preprocessing and Sequential Pattern Extraction with Low Support”, PhD thesis, University of Sophia Antipolis, 2005

[Wikipedia] http://en.wikipedia.org

[YahooDir] http://dir.yahoo.com

[Zesch 2008] T. Zesch, C. Muller and I. Gurevych, “Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary”, Proceedings of the Conference on Language Resources and Evaluation (LREC), 2008.

73

Page 74: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

سوم فصل

زمينه در شده انجام کارهای شخصی در کاربر مدلسازی

از استفاده با وب سازی وب محتوای

74

Page 75: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

در کاربر مدلسازی زمینه در شده انجام - کارهای3وب محتوای از استفاده با وب سازی شخصیمقدمه کاربرد کاویوب و کاربر مدلسازی مانند مختلفی هایحوزه در زیادی تحقیقات

او عالیق از مدلی ایجاد منظور به وب در کاربر رفتار از استفاده منظور به وب طور همان وب، سازیشخصی یزمینه است. در گرفته انجام ضمنی بصورت

هایداده مبنای بر فقط توانمی هم را کاربر مدل شد، گفته پیش فصل در که-می الگوها از سطحی درکی که[Mobasher 2000 a] مانند ساخت، وب کاربرد

کرد. در استفاده بهتر مدل ایجاد برای صفحات محتوای از توانمی هم و دهد کنیممی تاکید کاربر مدلسازی یزمینه در کارها از دسته آن روی بر فصل، این برای وب صفحات محتوای از و اندگرفته انجام وب سازیشخصی یحوزه در که

اند. گرفته بهره مدل بهبود در شده بکارگرفته های تکنیک اول بخش است. در بخش دو شامل فصل این

اختصار به سایت وب در کاربر مدلسازی مورد در گرفته صورت کارهای برای استفاده مورد هایتکنیک به توانمی هاآن یجمله شوند. ازمی معرفی یزمینه در کارهایی تازگی کرد. به اشاره کلمه دو معنایی ارتباط یمحاسبه-گرفته انجامWikipedia در کلمه دو یا مفهوم دو بین معنایی ارتباط یمحاسبه

ماشین توسط خواندن قابل مراتبیسلسله ساختارWikipedia که آنجا از و اند در که شوند بررسی نیز زمینه این در گرفته انجام کارهای است الزم لذا ندارد،

پرداخت. خواهیم نیز هاآن به بخش این یزمینه در ها تکنیک این براساس شده انجام رویکردهای دوم بخش در

دو به توانمی را کارها شوند. اینمی بررسی سایت وب در کاربر مدلسازی که هستند کلیدی کلمات مبنای بر رویکردهای اول یکرد. دسته تقسیم دسته تکرار تعداد وارون و عبارت تکرار تعداد مانند برداری فضای مدل های تکنیک

مدل و کنند استخراج وب مستندات از را عبارات تا برندمی بکار ( راtf-idf) سند استفاده در سعی که هستند معنایی هایرویکرد دوم یبسازند. دسته را کاربر

کنند. اینمی مدل بهبود برای اطالعات بازیابی یحوزه از معنایی های تکنیک از هستند آماری هایروش اول یشوند. دستهمی تقسیم دسته دو به خود رویکردها

دهند.می رخ هم با که گردندمی عباراتی میان پنهان معنایی ارتباطات دنبال به که یک ساخت طریق از که هستند مراتب سلسله بر مبتنی هایروش دوم یدستهکنند. می کاربر مدل بهبود در سعی بندی،رده یا و شناختیواژگاناستفاده مورد های - تکنیک3-1

زمینه در گرفته انجFFFام کارهFFFای در اسFFFتفاده مFFFورد هFFFایتکنیFFFک بخش این در صFFفحات محتFFوای از اسFFتفاده با وب سFFازیشخصFFی حFFوزه در کاربر مدلسازی

تعFFیین برایtf-idf تکنیک از عبارتند هاآن ترینگیرند. مهم می قرار بررسی مورد عبFFارات بردار ابعاد کاهش برای پنهان معنایی تحلیل تکنیک کلیدی، کلمات وزن

75

Page 76: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

دو بین معنFFایی ارتبFFاط یمحاسFFبه هFFایتکنیک و هاآن بین نهفته ارتباطات یافتن و داده توضFFیح هریک مFFورد در ادامه مراتFFبی. در سلسFFله سFFاختارهای در کلمه

شد. خواهدtf-idf - تکنیک3-1-1

درj مانند مستندات تمام ازای باشد. به وب مستندات مجموعهD کنید فرضDعبارت هر وزن سپس و شوندمی استخراج هاآن عبارات تمامی ابتدا iسند در jشود:می محاسبه زیر بصورت (3-1 )

وj سند درi وقوع دفعات تعداد با است برابر آن در که (3-2 )

با است برابر وD یمجموعFFFه اعضFFFای تعFFFداد با است برابر|D| آن در کهباشند. میi عبارت شامل که مستنداتی تعداد

پنهان معنایی تحلیل - تکنیک3-1-2 گردید. این معرفی[Dumais 1988] در بار ( اولینLSA) پنهان معنایی تحلیل بردارهای ،LSA دارد. در برداری مدل معنای بهبود و بعد کاهش در سعی روش

شوند. می نگاشت کمتر بعد با فضای در و باالتر سطح مفاهیم به عبارات بعدی دو ماتریس یک کلیدی، وکلمات مستندات یهمه پنهان، معنایی تحلیل در

Singular Value Decomposition روش دهند. سپس می تشکیل را مستند-کلمه(SVD)تجزیه را مستند-کلمه ماتریس معنایی، هایویژگی آوردن دست به برای

مستند- ماتریس نامربوط اطالعات حذف منظور به تواند می SVD کند. می کند. تبدیل کم ابعاد با مستند-کلمه ماتریس یک به را آن زیاد، ابعاد با کلمه باشد، می ماتریس یک که Xیمستند-کلمه ماتریس کنیممی فرض

باشد. می مستندات تعداد dو کلیدی کلمات تعداد t که طوری به شده ساخته Xدهد. می نشانd مستند در راt کلیدی یکلمه تکرار تعداد عنصر هر داریم: همچنین .وكنيم: مي تعريف صورت اين به را

هستند. تعریفX منظم مقادیر همگیS عناصر که طوری به دهیم. می نشانبا را منفرد مقادیر و کنیم می

Uو Vتوسط پردازش انجام از بعد هستند. و ترتیب به SVD، یمعادله شده داده نشان1-3 شکل در که شود می ساده به

k عنصر یابد. مقدار می کاهش و , به و , ابعاد است. در بیشتر منفرد مقدارk ،باشد. می اصلی فضای بردار ابعاد از کمتر

یک و مستند بردار یک دارد. همچنینمی نگه را مستند-کلمه ماتریس ساخته مستند-کلمه ماتریس یک وب، مستندات باشد. برای می کلمه بردار

V، S ماتریس سه آوردن دست به و یتجزیه برایSVD از سپس و شود می كافي مستندات، بين معنايي یرابطه كردن پيدا شود. برای می ستفادها U و

شامل زيرا دارد، زيادي اهميتkكنيم. پردازش را مستند بردار كه است

76

Page 77: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

معنايي یرابطه اين مستند، بردار هر باشد. براي مي پنهان معنايي یرابطه بردار آوردن بدست براي نهايت شود. در مي محاسبه پنهان

شود. مي محاسبه مستند هر معنايي ويژگي

d * t ماتریس تجزیه برایSVD از - استفاده1-3 شکل

کلمه دو معنایی ارتباط یمحاسبه به مربوط های - تکنیک3-1-3-می معرفی کلمه دو معنایی ارتباط یمحاسبه مهم معیارهای ابتدا بخش این در

ارتبFFاط یمحاسFFبه بFFرای آنها براسFFاس گرفته صورت کارهای ادامه در و شوندشود.می معرفیWikipedia در کلمه دو معنایی

سلسله ساختارهای در مهم معنایی ارتباط - معیارهای3-1-3-1مراتبی

سلسله ساختار به توجه با را مفهوم دو ارتباط مقدار معنایی، ارتباط معیارهای معیارهای برای موجود کنند. رویکردهایمی محاسبه هست یرابطه با مراتبی روش زیر های بخش در که کرد تقسیم دسته سه به توانمی را معنایی ارتباط

کنیم.می معرفی اختصار به را یک هر یمحاسبهمسیر بر مبتنی - رویکردهای3-1-3-1-1

بندیرده در موجود هاییال تعداد از تابعی بصورت را معنایی ارتباط معیارها این معیارها این ترینمهم جمله کنند. ازمی محاسبه مفهومی یگره دو امتداد در

از: عبارتندمعیار pl [Rada 1989](3-3)

مراتب سلسله درc2 وc1 بین مسیر کوتاهترین طولlength(c1,c2) آن در کهاست.

معیار lch [Leacock 1998](3-4)

باشد. می مراتب سلسله عمق حداکثرD آن در که

d

d * t kU kS kV

kk

kt

77

Page 78: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

معیار wup [Wu 1994](3-5)

باشد. میc2 وc1 مشترک پدر ترینعمق کمlcsc1,c2 آن در کهاطالعات محتوای بر مبتنی - رویکردهای3-1-3-1-2

را اطالعات مفهوم، دو که ای درجه براساس معنایی ارتباط رویکردها، این درشود. می محاسبه ،گذارندمی اشتراک به

معیار res [Resnic 1995](3-6)

(3-7)

برابرc وn یگFFره هFFایhyponym تعFFداد با است برابرhypo(n) آن در که مراتب. سلسله در مفهومی هایگره کل تعداد با است

متن همپوشانی بر مبتنی - رویکردهای3-1-3-1-3 gloss بین متنی همپوشانی از تابعی بصورت معنایی ارتباط رویکردها این در

شود.می محاسبه مفهوم دو های

Extended gloss overlap [Banerjee 2003](3-8)

(3-9)

است.n-phrasal m-word بصورت همپوشانی آن در که برای کلمه دو معنایی ارتباط ی محاسبه - رویکردهای3-1-3-2

هست ی رابطه غیر روابط اطالعFFات محتFFوای از تواننمی نیستند، مراتبیسلسله کهx مانند روابطی برای نظر در با مقدار این زیرا ،[Seco 2004] و[Resnic 1995 F] کرد استفاده هاگره

معیارهFFای تFFرینمعFFروف شFFود. ازمی محاسFFبه مراتFFبی سلسFFله سFFاختار گرفتن شامل که است[Bergmann 1998] در شده معرفی معیار مورد، این در موجود

است: بخش دوانگر قدرت است. این رابطه نوع قدرت معادل که ثابت وزن یکFFنش

خFFود در تواندمی ارتبFFاط نFFوع این که است اطالعFFاتی محتFFوای حFFداکثر باشFFیم داشFFته اگر ،x نFFوع از شFFده داده ارتبFFاط یک باشد. بFFرای داشته

نظر در اطالعFات حFاوی ارتبFFاط یک عنFFوان به ارتبFFاط از نوع این آنگاه ، هزینه ، باشFFد. بFFرای پFFایین باید آن یFFال یهزینFFه و شودمی گرفته

78

Page 79: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

یال ، برای و بود خواهد مراتبیسلسله ارتباط یک یهزینه برابر اطالعات محتوای که دهدمی اجازه ما به وزن بود. این خواهد پرهزینه آن

بیشFFتر در مثFFال، عنFFوان کFFنیم. به بررسی را ارتباطات از مختلفی انواع تضFFاد یرابطFFه و یک از کمFFتر دارایhas-a یرابطFFه هاسیسFFتم

باشند.می یک از بیشتر دارایبه برای فرمولیFFاثیر یمحاسFFول تFFیر طFFه در مسFFیر. در یهزینFFاین مس

در که را شFFرطی دوx یرابطه برای مسیر یهزینه است آن هدف مورد افFFزایش مسFFیر طFFول افFFزایش ( با1باشFFد: داشFFته شوند،می ذکر ادامه ممکن مقFFدار بFFدترین یدهنFFده نشFFان که باشد به ( محدود2یابد. نهایت(. بی طول با مسیر یک )مقدار استx یرابطه شامل مسیر برای

طبق ،x مراتFFبیغیرسلسFFله یرابطه در مفهوم دو معنایی ارتباط نتیجه، درشود:می تعریف10-3 یرابطه

(3-10)

معنایی ارتباط ی محاسبه مورد در شده انجام - کارهای3-1-3-3Wikipedia در کلمه دو بر1-3-1-3 بخش در شده معرفی معنایی ارتباط معیارهای[Strube 2006] در

شده سازی پیادهWikipedia بندیدسته سیستم مراتبیسلسله ساختار روی چشمگیری تفاوت دهدمی نشان که است گرفته قرار مقایسه مورد و است و شده انجامWikiRelate افزار نرم در سازی پیاده ندارد. این وجود هاآن میانباشد.می کردن دانلود قابل

Gabrilovich] در شده ارائهExplicit Semantic Analysis (ESA) روش در مفاهیم از وارون بردار یکWikipedia در رفته بکار یکلمه هر ازای به ،[2007

آن برای مفهوم هر وزن که شودمی آن( ساخته )مقاالتWikipedia در موجود Wikipedia در موجود مقاالت متون به توجه با وtf-idf معیار از استفاده با کلمه

شباهت معیار کلمه، دو بین معنایی ارتباط یمحاسبه شود. برایمی محاسبهشود:می محاسبهy وx یعنی هاآن متناظر بردار دو بین کسینوسی

(3-11 )

است. شده داده نشان2-3 شکل در شده ارائه سیستم

79

Page 80: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ESA [Gabrilovich 2007] سیستم معنایی - مفسر2-3 شکل

زیادی زمان بهESA سیستم انسانی، قضاوت با بیشترcorrelation وجود بادارد. نیاز شباهت یمحاسبه نیز وWikipedia پردازشپیش برای وب در کاربر مدلسازی یزمینه در شده انجام - رویکردهای3-2

صفحات محتوای از استفاده با سایت کارهFFای یارائFFه یدهد. نحFFوهمی تشکیل را فصل این اصلی قسمت بخش، این

و شFFودمی معرفی آن الگوریتم و روش ابتدا که است صورت این به شده انجام و شFFودمی ارائه ارزیFFابی پارامترهFFای براسFFاس آن کاربرد از حاصل نتایج سپس و دقت از عبارتند معمFFول بطFFور ارزیابی گیرد. پارامترهایمی قرار تحلیل مورد

S با را سیسFFتم توسط خFFروجی وH با را انسFFان توسط خFFروجی یادآوری. اگرشوند:می محاسبه زیر بصورت نظر مورد مقادیر آنگاه دهیم، نشان-می مرتبط که سیسFFتم خFFروجی مفFFاهیم تعFFداد نسFFبت از است : عبارتدقت

باشند. (3-12 )

وجFFود سیستم خروجی در که مرتبط مفاهیم نسبت از است : عبارتیادآوریدارند.

(3-13 ) قواعد کFFارایی مFFیزان براسFFاس کFFاربر از شده ایجاد مدل مقاالت، از برخی در

روی بر تاکید نامه پایFFFFان این اسFFFFت. در شFFFFده سFFFFنجیده حاصل انجمFFFFنیشوند.می استفاده ترمعمول بطور که است پارامترهایی

80

Page 81: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کلیدی کلمات مبنای بر - رویکردهای3-2-1 که آورندمی در هاییمدل بصورت را کاربر عالیق ها سیستم نوع این از بسیاری

در دیگر کلمات با هاآن رخدادیهم یا هاآن تکرار تعداد مانند کلمات های ویژگی از] به توانمی هاآن یجمله برند. ازمی بهره کاربر توسط شدهدیده وب مستندات

Minio 1996]، [Lieberman 1999]، [Claypool 1999]و [Mobasher 2000 b] .کرد اشاره

داده وزنtf-idf براسFFاس سFFایت،وب در موجود کلمات به معموال هاروش این در وب سFFند هر آسFFتانه، حد یک از کمFFتر وزن با کلمFFات حFFذف از پس و شFFودمی

شFFود.می گرفته نظر کلیدی( در کلمات )یا باقیمانده عبارات از برداری بصورت-می بگیریم، نظر در را کاربر توسط شده دیده مستندات اگر عمل همین مشابه هاآن وزن و کلیFFدی کلمFFات از بFFرداری بصFFورت نFFیز را کFFاربر هر پروفایل تFFوان

داد. نمایش برای2 فصل در شده ارائه چارچوب مشابه چارچوبی[Mobasher 2000 b] در

از بFFرداری بصFFورت صFFفحه مشFFاهده اسFFت. هر شFFده ارائه وب سازیشخصی تجمعی هFFایشFFود. پروفایFFلمی گرفته نظر کلیFFدی( در )کلمFFات متFFنی هایویژگی

شوند.می داده نمایش هاویژگی این از بردارهایی بصورت صفحات نیز و کاربران کسینوسی شFFباهت معیFFار از او پروفایل و کاربر جاری یجلسه یمقایسه برای

) توصFFFیه شFFFود. امتیFFFازمی داده نشFFFانmatch(S,C) با و شFFFودمی اسFFFتفادهRecommendation Scoreبه14-3 یرابطه از صفحه مشاهده هر ( برایFFمحاس

شود:می(3-14 )

نFFواقص وجFFود، این دهFFد. بامی نشFFان را0.53 امتیFFاز میFFانگین ارزیFFابی، نتFFایج هاآن در عبارات بین معنایی ارتباط زیرا دارد، وجود هاروش گونه این در ایعمده

رفتFFFار و عالیق از دقیقی نمFFFایش توانندنمی نتیجه در و شFFFودنمی گرفته نظر درکنند. ارائه را کاربر

معنایی - رویکردهای3-2-2 و ذخیره در که را معنایی های تکنیک که است شده کوشش اخیر های سال در

ببرند. دو بکار عبارات بردار رویکرد بهبود جهت روند،می بکار اطالعات بازیابی در که اند شده ایجاد منظور این برای مراتب سلسله بر مبتنی و آماری روشدهیم.می توضیح را یک هر بعدی هایبخش

آماری های - روش3-2-2-1 گردنFFد.می رخFFدادهم اشFFیای بین نهفته ارتباطFFات دنبFFال به آمFFاری هFFای تکنیک

اسFFاس بر گرفته صFFورت کارهای جمله است. ازLSA روش هاآن ترین معروف کرد. در اشاره[Zhang 2005] به توانمی کاربر مدلسازی یزمینه در روش اینشود.می ساخته کاربران پروفایل مرحله، سه از پس کار این

n شامل سایتوب کنید دارد. فرض نام کاربردی هایداده تشخیص اول یمرحله انFFد. کرده دیدن آن از معین زمانی یبازه یک طول در کاربرm که است صفحه

81

Page 82: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

بFFازه این در شFFده مالقFFات صFFفحات کل شFFامل که(P) صفحه مشاهده مخزنشوند:می داده نشان زیر ( بصورتS) کاربران جلسات مجموعه و است

(3-15 )(3-16 )(3-17 )

-می را کاربران جلسات هایداده کل نتیجه، باشد. در میsi در pj وزنaij آن در کهداد. نمایش یعنیsession-page view ماتریس یک بصورت توان

session-page view [Zhang 2005] - ماتریس3-3 شکل روی بر شFFده صرف زمان مقدار وsi درpj تکرار دفعات تعدادaij یمحاسبه درpjدارند. دخالتLatent نFFFFام به جدیFFFFدی الگFFFFوریتم از اسFFFFتفاده با دوم یمرحله در Usage

Information(LUI)وریتم مبنای بر کهFFالگ k-meansد، میFFات باشFFاربران جلسFFک هر برای ،SP ماتریس روی برSVD از پس کار، این شوند. برایمی بندیخوشه شFFباهت آید. معیFFارمی بدست`si یعنی کمتر بعد با فضای در برداریsi یجلسه

ابعFFاد با بFFردار دو بین کسینوسی شFFباهت از اسFFتفاده با بنFFدیخوشه الگFFوریتم-می اعمFFال آن روی بر الگFFوریتم شود. سFFپسمی محاسبهsj و si از حاصل کمترشود.

-می سFFاخته آمFFده بدست هایخوشه روی از کاربران پروفایل سوم یمرحله در-می محاسFFبه آن میFFانگین بFFردار طریق از خوشه هر مرکز کFار، این شود. برای

هاآن وزن و صFFفحاتمشاهده از برداری بصورت کاربر پروفایل نهایت در و شودشود.می داده نشان

از ارزیFFابی بFFرای باشد،می آن بندیخوشه الگوریتم بر مقاله این تاکید که آنجا از بر که است شده استفادهWAVP(Weighted Average Visit Percentage) معیار که است احتمFFالی براسFFاس منفFFرد بصFFورت کFFاربر پروفایل هر ارزیابی مبنای یبقیه شامل است، خوشه درون صفحات مشاهده تمامی شامل که ایجلسه

از حاصل باشFFد. نمFFودار نFFیز جلسه همFFان در خوشه داخل صFFفحات مشFFاهده PACT نFFام به مشFFابهی روش به نسFFبت را بیشFFتریWAVP مقFFدار ارزیFFابی،

دهد.می نشان هFFایتکنیFFک که رسFFاندمی را واقعیت این مشابه کارهای و کار این از حاصل نتایج

کلیFFدی کلمFFات با مقایسه در کFFاربر مFFدل بهبود در موثری نقشLSA بر مبتنیکنند.می ایفا

82

Page 83: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

مشFFكل حل در سFFعي خFFود نامه پايان در]1385مسعوديفر[مسعوديفر بهرنگ از اسFFتفاده با وب تحت كننFFده توصFFيه سيسFFتمهاي در جديد كFFاربر به مربFFوط

و ها داده او از كه كFFاربري يعFFني جديد كFFاربر اسFFت، نمFFوده آمFFاري روشFFهاي تالشی کFFار این در حFFال، این اسFFت.با دسFFترس در كمي كاري تعامالت سوابق

است. نشده انجام وب سازیشخصی فرآیند بهبود جهت کاربر مدل بهبود برای خوشه تكنيكهFFاي از اسFFتفاده با خFFود نامه پايFFان در ]1384اکبری[ اكبري علي

پيونFFدهاي انطبFFاق و تغيير طريق از وب صفحات انطباق جهت را روشي بندي، كFFاربر بر منطبق و آسFFانتر بصوررت صفحات پيمايش جهت صفحات در موجود

است. نموده ارائهمراتب سلسله بر مبتنی های - روش3-2-2-2

مانند بندی رده یا شناختی واژگان یک از استفاده با معموال هاروش اینWordNetجهت ها،روش این بیشتر دارند. در برداری فضای مدل بهبود در سعی

-می استفاده معنایی ارتباط معیارهای از اشیاء، به کاربرد های داده نگاشتشود.

مانند ناظر بدون یادگیری های روش که است شده ادعا[Nasraoui 2000] در یک اساس این بر و باشندمی آلایده کاربران هایداده تحلیل برای بندی، خوشه Competitive Agglomeration for نام به فازی بندیخوشه برای جدید روش

Relational Data (CARD)است. شده ارائه کاربران جلسات نیز کاربر یجلسه و شودمی داده نسبت یکتا عدد یکURL هر به مقاله این در

URL یک حضور عدم یا حضور که شودمی داده نسبت دودویی بردار یک بصورت گونه هر غیاب در که کندمی بیان مقاله دهد. اینمی نشان جلسه یک در را

برد. نوع بکار توانمی بندیخوشه نوع دو کاربران، های داده مورد در دانشی نوع و کنندمی ها( کارویژگی بردار )یا شیئی هایداده با که هستند هاییروش اول که شده ادعا مقاله این کنند. درمی کار ایرابطه هایداده با که هاییروش دوم برای رو این از و هستند ترمناسب وب کاربرد هایداده برای دوم نوع هایروش

شباهت یمحاسبه نیازمند ایرابطه شکل به کاربران جلسات هایداده تبدیل-می ارائه مقاله این در جدیدی شباهت معیار نتیجه باشد. درمی جلسه دو هر بین

دلیل شود. بهمی لحاظ آن در سایتوب ساختار هم و صفحاتURL هم که شود-می شود. خوانندهمی نظر صرف هاآن ذکر از قسمت این در ها،فرمول بودن زیاد

کند. مراجعه[Nasraoui 2000] به بیشتر جزئیات برای تواند آن شباهت معیار و بندیخوشه الگوریتم کار، این دستاورد ترینمهم که آنجا از

ارزیابی برای ها خوشه درون یفاصله و ها خوشه بین یفاصله از لذا است، ها آنURL حد در تنها صفحات، محتوای از مقاله این است. در شده استفاده شمار به محتوایی روش یک دقیق، بصورت را آن تواننمی و شودمی استفاده

آورد. بهWordNetDomains از[Magnini 2004] در شده ارائهSiteIF سیستم در

گسترش ینسخه یکWordNetDomainsاست. شده استفاده بندیرده عنوان برچسب یک حداقل باsynset هر آن در و استWordNet از زبانی چند و یافته

83

Page 84: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

وب مستندات نمایش در سعی مقاله است. این شده نویسیحاشیه دامنه (WDD) کلمه یدامنه ابهام رفع از کار این برای و کند می هاsynset براساس باعث که است این دامنه از استفاده برای مقاله این کند. استداللمی استفاده-مرحله دو فرآیند یکWDDشود. می کلمه معنای ابهام رفع در پیچیدگی کاهش

متن در کلمه یدامنه اول، یمرحله در که است کلمه معنای ابهام رفع برای ای استفاده با دوم مرحله در و کندمی مشخصWordNetDomains از استفاده با راکند.می پیدا را مستند آن در کلمه آن معنای ترینمناسب آن از

part-of-speech وlemmatization مراحل و شوندمی پردازش وب صفحات ابتدا taggingبصورت صفحات مرحله، این از شود. پسمی اعمال هاآن روی بر

,word lemma, WordNet part of speech< های تایی سه از بردارهاییposition in the text< هر به نسبت دامنه هر به شوند. سپسمی داده نمایش

lemmaاز استفاده با WordNetDomainsای داده شود. ساختمانمی داده وزن domain) دامنه بردار کندمی نگهداریlemma هر برای را دامنه اطالعات که

vectorاست. برای شده معرفی مقاله در دامنه بردار نوع شود. سهمی ( نامیده یدامنه بردار با آن یدامنه بردار شباهت متن، در موجودlemma هر ابهام رفع با معنای و شودمی مقایسه18-3 یرابطه طریق از آن مختلف معانی تمام

شود.می داده نسبت آن به شباهت بیشترین

(3-18 ) Synset عمل این که شودمی داده نمایش هاsynset از لیستی بصورت مستند هر

Document Representation (SDR)کاربر مدل سیستم، این شود. درمی نامیده هایsynset آن، هایگره که شودمی داده نمایش معنایی یشبکه یک بصورت

هاگره بین هاییال و است کاربر توسط شده داده مستندات از شده استخراج میزان باشند. سپسمی مستندات این در هاsynset رخدادیهم ارتباط نشانگر و شودمی محاسبه19-3 یرابطه طریق از مدل این با صفحه هر ارتباط

شوند.می توصیه کاربر به ارتباط مقدار بیشترین با صفحات(3-19)

% در34 افزایش ارزیابی، است. نتایج یادآوری و دقت ارزیابی، پارامترهای -می نشان کلیدی کلمات روش به نسبت را یادآوری % در10 افزایش و دقت

- میWordNetDomains به وابسته شدت به مدل این پوشش وجود، این دهد. با از کم پوشش مشکل از شد اشاره پیش فصل در که گونههمان و باشد

نیز رایگان بصورت و بردمی رنج کند رسانی روزبه نیز و نامدار های موجودیتباشد. نمی موجود

-دست بندیرده یک از[Eirinaki 2003 b] در شده ارائهSEWeP سیستم در شده استفاده جامع فرهنگ عنوان بهWordNet از نیز و سایتوب برای ساخته

84

Page 85: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

-C به معروف انتزاعی های ثبت از کاربر کردن مدل برای کار، این است. درlogاست. شده استفاده

C-logیشوند. مرحلهمی ساخته کاربر هایثبت از ایمرحله دو فرایند یک در ها اول یاست. زیرمرحله مرحله زیر دو شامل و دارد نام محتوا بندیطبقه اول

برای کلیدی کلمات آن در که است سایتوب صفحات از کلیدی کلمات استخراج در کلمات تکرار تعداد ،p در کلمات تکرار تعداد از استفاده باp مانند صفحه هر

دارند، لینکp به که صفحاتی ترینمهم و دارد لینک هاآن بهp که صفحاتی که دارد نام طبقه به کلیدی یکلمه نگاشت دوم یشوند. زیرمرحلهمی استخراج

با و جامع فرهنگ عنوان بهWordNet از استفاده با کلیدی یکلمه هر آن در یکلمه آن معانی تمام بینwup معنایی ارتباط یمحاسبه معیار از استفاده

که دوم یمرحله شود. درمی نگاشت بندیرده در مفهوم ترینمناسب به کلیدی کلمات و صفحات یدسته برچسب با کاربر های ثبت دارد، نام ثبت تبدیل هاآن از سپس و استC-log آن حاصل که شوندمی غنی هاآن به مرتبط کلیدی راC-log ساخت ی مرحله4-3 شود. شکلمی استفاده کاربر به توصیه برای معنایی شباهت معیار یک معرفی با[Eirinaki 2006] در کار دهد.اینمی نشاناست. شده تکمیل جدید

C-log [Eirinaki 2003 b] - تولید4-3 شکل

-می گرتوصیه کامل سیستم یک مقاله، این در شده ارائه سیستم که آنجا از عوض در و نشده ارزیابی یادآوری و دقت نظر از هاC-log خروجی لذا باشد،

میزان نظر از آن، یشده تولید هایتوصیه یعنی سیستم، کلی خروجی

85

Page 86: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

relevanceبدست0.62 متوسط مقدار که اندشده ارزیابی کاربران نیاز با ها آن سایتوب بندیرده که است شده فرض مورد دو هر در حال، این است. با آمده

خبری های سایتوب یاYahoo مانند پرتالی برای امر این که باشدمی دسترس دراست. برزمان و برهزینه بسیار

[Dai 2002]های پروفایل که کندمی معرفی وب سازیشخصی چارچوب یک سازد.می شناختیواژگان از استفاده با را جمعی فیلترکردن سیستم یک کاربرد

واژگان اشیای از مجموعه یک با صفحه هر نمایش طریق از هاپروفایل این فرض کار این شوند. درمی تبدیل دامنه سطح تجمعی های پروفایل به شناختی

یا شناختی، واژگان اشیای به محتوایی ویژگی هر نگاشت که است شده شود.می انجام ناظر با یادگیری هایروش از استفاده با یا و دستی بصورت رو این از باشد،می هاآن هاینمونه و هاکالس شامل شده، تعریف شناختی واژگان

انجام دارند تعلق کالس یک به که مختلفی هاینمونه بندیگروه طریق از تجمع دودویی تطابق طریق از سیستم این توسط شده تولید هایشود. توصیهمی

است( با شده بیان شناختیواژگان های نمونه برحسب )که کاربر جاری بازدید از غیر معنایی ارتباط هیچ و شودمی انجام دامنه سطح تجمعی های پروفایل

hyponymyو hypernymyشود.نمی برده بکار] در شناختی واژگان مفاهیم از استفاده با وب های ثبت کردن غنی یایده

Oberle 2003]سایتوب یک برمبنای چارچوب است. این شده گرفته بکار نیز -وب است. این شده ساخته موجود شناختیواژگان یک روی بر که است معنایی واژگان از که است پویا صفحات شامل هم و ایستا صفحات شامل هم سایت،

عمومی چارچوب یک مقاله، این شوند. درمی تولید خودکار بصورت شناختی به معنایی های ثبت این روی بر توانمی را کاویداده آن در که است شده ارائه

و کاربران ترجیحات کاربران، هایگروه یدرباره دانش استخراج منظور وب دانش پرتال یک روی بر شده ارائه چارچوب داد. چون انجام قوانین نویسیحاشیه معنایی بصورت ذاتا آن وب محتوای است، شده ساخته معنایی

شده بحث کار این گیرد. درمی بهره پرتالRDF هایحاشیه از که است شده واژگان تخصیص یا تعمیم از استفاده با توانمی را چارچوب این چگونه که است

تاکید وجود این با داد، گسترش وب سازیشخصی پشتیبانی برای نیز و شناختیاست. کاویوب روی بر آن اصلی

مدلسازی برمبنای وب سازیشخصی چارچوب یک[Acharyya 2003] در شامل شده ارائه است. متدولوژی شده ارائه کاربر گردشی رفتار از مفهومی-سلسله یک اعمال مفهوم، یا عنوان یک به شده مالقات یصفحه هر نگاشت یک پارامترهای تخمین سپس و هاعنوان این روی بندی( بر)رده درختی مراتب یشده مشاهده مسیرهای مبنای بر درخت این روی بر مارکفنیمه فرایند-وب معنایی مشخصات تعیین مارکف، مدل بر مبتنی کار این باشد. درمی کاربر

شباهت معیار هیچ از این، بر شود. عالوهمی انجام دستی بصورت سایت یا تعمیم در فقط امر این و شودنمی استفاده بینیپیش فرایند بهبود برای معنایی

شود.می استفاده شناختی واژگان عبارات تخصیص

86

Page 87: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Middleton 2004]در کاربر مدلسازی فرایند در را شناختی واژگان از استفاده یتوصیه روی بر کار کند. اینمی بررسی جمعی کردن فیلتر های سیستم پروفایل کار، این دارد. در تاکید دانشگاه یک پرسنل به علمی تحقیقاتی مقاالت

سلسله )یک تحقیقاتی مقاالت شناختی واژگان یک عبارات از استفاده با کاربر از استفاده با تحقیقاتی مقاالت شود. همچنینمی داده ( نمایشهست مراتب ترکیبی گرتوصیه سیستم این اند. در شده بندیطبقه شناختیواژگان های کالس

محتوای است، محتوا بر مبتنی و جمعی یتوصیه های تکنیک مبنای بر که عبارات برحسب مستندات های کننده بندیطبقه از استفاده با مستندات

دارد نیاز آموزشی یمجموعه به رو این از و شودمی مشخص شناختی واژگان یا تعمیم برای شناختی باشد. واژگان شده زده برچسب دستی بصورت که

ارزیابی، گیرد. پارامترهایمی قرار استفاده مورد کاربران پروفایل از تخصیص افزایش که دهدمی نشان ارزیابی باشند. نتایجمی ها توصیه خطای نرخ و دقت خطا نرخ ،0.84 دقت ازای در است. چنانکه همراه خطا نرخ افزایش با دقتباشد. می0.55 با برابر

[Kearney 2005]برای فیلم فروش سایت یک به مربوط شناختی واژگان یک از کاربر گردشی رفتار روی بر شناختی واژگان مختلف مفاهیم تاثیر یمحاسبه است. اطالعات تئوری مبنای بر تاثیر مقدار این کند.می اقالم( استفاده )انتخاب

تری دقیق بصورت توانندمی تاثیر مقادیر این که است شده پیشنهاد کار، این در در موجود اقالم سایر و کاربران ترجیحات نیز و مختلف کاربران بین یفاصله

کنند. تعیین را سایتوبشود:می گرفته نظر در زیر بصورت کاربر بازدید هر

(3-20 )دهیم:می نشان مفاهیم از برداری بصورت را pi هر ابتدا

(3-21 ) زیرمجموعه یکxk است شناختی واژگان در موجود مفاهیم تعدادm آن در که:Ck هاینمونه از(3-22 )

Vp بردار یک بصورت را mدهیم:می نمایش بعدی(3-23 )(3-24 )

استنتاج Ci روی برCk مفهوم یک تاثیر بصورت یال هر برای impkj مقدارشود:می تعریف زیر بصورتV بازدید در کاربر گردشی رفتار از شده

(3-25 )

Ck در را بودن تصادفی میزان که استentropy یدهندهنشان کسر صورت

[0,1] یبازه به تاثیر مقدار کردن محدود برای نیز کسر گیرد. مخرجمی اندازهاست. شده استفادهشود:می تعریف زیر بصورت کاربر پروفایل

87

Page 88: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

(3-26 )(3-27 )(3-28 )

واژگان در موجود روابط نوع به توجه با ها نمونه وزن یمحاسبه برای سپس بیشتر جزئیات برای تواندمی خواننده که است شده ارائه هاییفرمول شناختی

کند. مراجعه[Kearney 2005] به است. شایان شده محاسبه سایت در موجود مفاهیم برای تاثیر مقدار سپس

آینده به شده تولید های توصیه طریق از ها پروفایل این ارزیابی که است ذکراست. شده موکول

واژگان تكنيكهاي از خود نامه پايان در]1384آبادی مبارک[آبادي مبارك بهاره بازيابي سيستمهاي در كاربر عالئق و نيازها كردن مدل جهت وب در شناختی یحوزه است. اما كرده استفاده وب تحت اطالعات كردن فيلتر و اطالعات

باشد.نمی وب سازیشخصی پروژه این کاری جهت روشي خود نامه پايان در]1384جعفری[جعفري اسماعيل محمد

زير در كه است نموده ارائه كاربر پروفايل بر مبتني اطالعات بازگرداندن با متفاوت ایحوزه نیز کار گيرد. این مي قرار اطالعات فيلترينگ مجموعه

با آن مدل ساخت برای ایداده منابع زیرا دارد، نامه پایان این کاری یحوزهاست. متفاوت نامه پایان این

بندی جمع کاربر مدلسازی بهبود یزمینه در گرفته انجام کارهای ترینمهم فصل این در رویکرد براساس گرفته انجام شدند. کارهای بررسی وب سازیشخصی در

کرد. تقسیم توانمی کلی یدسته دو به را هستند بندیرده بر مبتنی که معنایی WordNet مانند عمومی شناختیواژگان یک از که هستند کارهایی اول یدسته

دامنه خاص مفاهیم از کم پوشش کارها این ضعف یاند. نقطه کرده استفاده کاربر عالیق عنوان به کلی مفاهیم انتخاب باعث که است نامدار هایموجودیت و

ساخته دست شناختی واژگان یک از که هستند کارهایی دوم یشود. دستهمی بسیار هایدامنه برای هاآن تمامی ها،روش این خوب دقت رغمبرند. علیمی بهره

هاآن اساسی فرض و اند شده فیلم( ارائه فروش سایتوب یک )مثال محدود در را چندزبانه و گسترده خبری سایتوب است. یک سایتوب از بندیرده وجود از یک دهد. هیچ ارائه شده سازیشخصی هایسرویس دارد قصد که بگیرید نظر شناختی واژگان ساخت چون برد، بکار مورد این در تواننمی را هاروش گونه این

انسان به وابسته شدت به هم هنوز شد، اشاره2 فصل در که طور همان در موجود مفاهیم تمامی آن یدامنه که سایتیوب چنین برای بنابراین و است امری دستی، بصورت خوب کیفیت با شناختیواژگان ساخت است، جهان

تجارت های سایت وب برای رسدمی نظر به که چند آید. هرمی نظر به غیرممکن-می تولید داده های پایگاه از خودکار بصورت صفحاتشان بیشتر که الکترونیکی

منبع داده هایپایگاه این )شمای باشند مناسب دوم یدسته هایروش شوند در اما است(، سایت وب شناختی واژگان خودکار نیمه تولید برای مناسبی

88

Page 89: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

بزرگی چالش سایت،وب یدامنه بودن گسترده صورت در و منابعی چنین غیابآید.می بوجود کاربر از تریدقیق مدل داشتن جهت سازیشخصی سیستم برای

ارزیابی برای ای جداگانه معیار از مقاالت از یک هر که شودمی دیده متاسفانه به شود. بعالوه،نمی دیده ارزیابی گونههیچ مقاالت برخی در و کنندمی استفاده

یمقایسه امکان حوزه، این در استاندارد هایداده مجموعه وجود عدم دلیل محیط بودن بفرد منحصر دلیل به ندارد. همچنین وجود هاروش بین ایمنصفانه

به دیگران کارهای با ای مقایسه مقاالت بیشتر در مقاله، هر آزمایشگاهی را حوزه این در تحقیقاتی موانع ترینمهم مشکالت، خورد. ایننمی چشم

این تحقیقاتی یجامعه سوی از جدی تصمیمی اتخاذ به که دهندمی تشکیلدارند. نیاز هاآن حل برای حوزه

مراجع بر مبتي تطبيقي سايت وب يك "طراحي اكبري، علي ]1384اکبری[

دانشگاه رحمتی، محمد دكتر راهنمایی تحت الگو"، شناسائي تكنييكهاي.1384 اطالعات، فناوري و كامپيوتر مهندسي دانشكده كبير، امير صنعتي

وب تحت سيستم يک طراحي" جعفري، اسماعيل محمد ]1384جعفری[ دانشكده بهشتي، شهيد دانشگاه "، کاربر با سازگار اطالعات بازيابي براي

.1384 اطالعات، فناوري و كامپيوتر مهندسي

هستان بر مبتني كاربر كردن "مدل آبادي، مبارك بهاره ]1384آبادی مبارک[ رزازی، محمدرضا دكتر راهنمایی تحت اطالعات"، بازيابي براي شناسي اطالعات، فناوري و كامپيوتر مهندسي دانشكده كبير، امير صنعتي دانشگاه

1384.

كاربر مشكل حل براي روشهايي "ارائه مسعوديفر، بهرنگ ]1385مسعوديفر[ راهنمایی تحت حافظه"، مبناي بر همكارانه كننده توصيه سيستمهاي در جديد دانشكده كبير، امير صنعتي دانشگاه بروجردي، مطش محمدرضا دكتر

.1385 اطالعات، فناوري و كامپيوتر مهندسي

[Acharyya 2003] S. Acharyya and J. Ghosh, “Context-Sensitive Modeling of Web Surfing Behaviour Using Concept Trees”, Proceedings of the fifth WEBKDD Workshop, 2003.

[Banerjee 2003] S. Banerjee and T. Pedersen, “Extended gloss overlap as a measure of semantic relatedness”, Proceedings of IJCAI-03, 2003, 805-810.

89

Page 90: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Bergmann 1998] R. Bergmann and A. Stahl, “Similarity measures for object-oriented case representations”, Proceedings of the European Workshop on Case-Based Reasoning, 1998.

[Claypool 1999] M. Claypool, A. Gokhale, T. Miranda, P. Murnikov, D. N etes, and M. Sartin. “Combining Content-based and Collaborative Filters in an Online Newspaper”, Proceedings of the ACM SIGIR ’99 Workshop on Recommender Systems: Algorithms and Evaluation, 1999.

[Dai 2002] H. Dai and B. Mobasher, “Using Ontologies to Discover Domain-Level Web Usage Profiles”, Proceedings of the second Workshop on Semantic Web Mining, 2002.

[Dumais 1988] S. T. Dumais et.al, “Using Latent Semantic Analysis to Improve Access to Textual Information”, Proceedings of the Conference on Human Factors in Computing Systems, 1988.

[Eirinaki 2003 b] M. Eirinaki, M. Vazirgiannis, I. Varlamis, “SEWeP: using site semantics and a taxonomy to enhance the Web personalization process”, Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003.

[Eirinaki 2006] M. Eirinaki, D. Mavroeidis, G. Tsatsaronis and M. Vazirgiannis, “Introducing Semantics in Web Personalization: The Role of Ontologies”, Proceedings of EWMF/KDO 2005, LNAI 4289, 2006, 147-162.

[Gabrilovich 2007] E. Gabrilovich and S. Markovitch, “computing semantic relatedness using Wikipedia-based explicit semantic analysis”, Proceedings of IJCAI, 2007, 1606-1611.

[Kearney 2005] P. Kearney and S. S. Anand, “Employing a Domain Ontology to gain insights into user behaviour”, Proceedings of the third Workshop on Intelligent Techniques for Web Personalization (ITWP 2005), 2005.

[Leacock 1998] C. Leacock and M. Chodorow, “Combining local context and WordNet similarity for word sense identification”, in C.Fellbaum (Ed.), WordNet: An electronic lexical database, MIT Press, 1998, 265-283.

90

Page 91: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Lieberman 1999] H. Lieberman, N. W. V. Dyke and A. S. Vivacqua, “Let's Browse : A Collaborative Web Browsing Agent”, Proceedings of the 1999 International Conference on Intelligent User Interfaces, 1999, 65-68.

[Magnini 2004] B. Magnini and C. Strapparava , “User Modeling for News Web Sites with Word Sense Based Techniques”, User Modeling and User-Adapted Interaction, 2004, vol. 14, 239-257.

[Middleton 2004] S. E. Middleton, N. R. Shadbolt and D. C. De Roure, “Ontological User Profiling in Recommender Systems”,ACM Transactions on Information Systems (TOIS), 2004, 22(2), 54-88.

[Minio 1996] M. Minio and C. Tasso, “User Modeling for Information Filtering on internet Services: Exploiting an Extended Version of the UMT Shell”, Proceedings of Workshop on User Modeling for Information Filtering on the World Wide Web, 1996.

[Mobasher 2000 a] B. Mobasher, R. Cooley and J. Srivastava, “Automatic Personalization based on Web Usage Mining”, Communications of the ACM, 2000, vol. 43, 142-151.

[Mobasher 2000 b] B. Mobasher, H. Dai, T. Luo, Y. Sun, and J. Zhu, “Combining web usage and content mining for more effective personalization”, Proceedings of the International Conference on ECommerce and Web Technologies (ECWeb), 2000.

[Nasraoui 2000] O. Nasraoui, R. Krishnapuram, H. Frigui and A. Joshi, “Extracting Web User Profiles Using Relational Competitive Fuzzy Clustering”, International Journal on Artificial Intelligence Tools, 2000, vol. 9, 509-526.

[Oberle 2003] D. Obrele, B. Berendt, A. Hotho and J. Gonzalez, “Conceptual User Tracking”, Proceedings of the first Atlantic Web Intelligence Conference (AWIC) ,2003.

[Rada 1989] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and application of a metric to semantic nets”, IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(1), 17-30.

91

Page 92: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Resnic 1995] P. Resnic, “Using Information content to evaluate semantic similarity in a taxonomy”, Proceedings of IJCAI-95, 1995, vol. 1, 448-453.

[Seco 2004] N. Seco, T. Veale, J. Hayes, “An Intrinsic Information Content Metric for Semantic Similarity in WordNet”, Proceedings of ECAI 2004, the 16th European Conference on Artificial Intelligence, 2004, pp. 1089- 1090.

[Sieg 2004] A. Sieg, B. Mobasher and R. Burke, “Inferring User's Information Context: Integrating User Profiles and Concept Hierarchies”, presented at the 2004 Meeting of the International Federation of Classification Societies, 2004.

[Strube 2006] M. Strube and S. P. Ponzetto, “Wikirelate! computing semantic relatedness using Wikipedia”, Proceedings of the Twenty-First National Conference on Artificial Intelligence, 2006.

[Yatez 1999] R. B. Yatez and B. R. Neto, “Modern Information Retrieval”, Addison Wesley, New York, 1999.

[Wu 1994] Z. Wu and M. Palmer, “Verb semantics and lexical selection”, Proceedings of ACL-94, 1994, 133-138.

[Zhang 2005] Y. Zhang, G. Xu and X. Zhou, “A Latent Usage Approach for Clustering Web Transaction and Building User Profile”, Proceedings of ADMA 2005, LNAI 3584, 2005, 31-42.

92

Page 93: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

چهارم فصل

پيشنهادی روش

93

Page 94: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

پیشنهادی - روش4مقدمه

در کاربر رفتار از برداری فضای مدل بهبود جهت پیشنهادی روش فصل این در لیستچک و شودمی بیان مساله دقیق تعریف ابتدا شود. درمی ارائه سایت وب

و شده ارائه سیستم، معماری شود. سپسمی ارائه مدل مطلوب هایویژگیشود.می داده توضیح هاآن عملکرد ینحوه و آن هایمولفه

مساله - تعریف4-1 کلیدی کلمات از برداری فضای مدل بهبود برای روشی یارائه نامهپایان هدف

باشد: داشته را زیر های ویژگی که است سایتوب در کاربر رفتار ازشود. ساخته کاربر مستقیم دخالت بدون یعنی ضمنی بصورت مدلوجود خاص مدل یک کاربر هر ازای به یعنی باشد، فردی بصورت مدل

باشد. داشتهدو مثال زمان از خاصی یبازه در کاربر گردشی رفتار براساس مدل

شود. ساخته سایتوب در او گردش هفتهباشد. خودکار بصورت امکان حد تا مدل ساخت فرایندکاربر بازدیدهای در هاآن ارزش همراه به دامنه خاص مفاهیم حاوی مدل

باشد. سایتوب صفحات ازT زمانی یبازه درU کاربر کنید فرض تر،فرمال بصورت

یک ساختن است. هدف، داشته را{s1,s2,…,sm} جلسات و است کرده دیدن,…,V=<(c1,w1),(c2,w2) یعنی است، هاآن هایوزن و دامنه مهم مفاهیم از بردار

(cn,wn)>، باشند شده انتخاب درستی به آن در موجود مفاهیم که بطوری -نشان امکان حد تا نیز هاآن هایوزن باشند( و داشته خوب یادآوری و دقت )یعنیباشد. زمانی یبازه آن در کاربر رفتار در هاآن اهمیت یدهنده

جدید روش - طراحی4-2 طور است. همان شده داده نشان1-4 شکل در پیشنهادی سیستم معماری

در را یک هر که است مولفه چند شامل سیستم شود،می دیده شکل در کهدهیم.می توضیح بعد های بخش

94

Page 95: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

پیشنهادی سیستم کلی - معماری1-4 شکل

ثبت ی اولیه پردازش پیش ی - مولفه4-2-1 بخش )به سرور وب های ثبت یاولیه پردازش پیش اعمال مولفه این یوظیفه

یجلسه شناسایی کاربر، شناسایی داده، پاکسازی قبیل کنید( از مراجعه2-1 سایتوب صفحات و سرور وب های ثبت مولفه، این باشد. ورودی... می و کاربر

باشد.می کاربران جلسات آن خروجی وسایت وب صفحات از کلیدی کلمات استخراج ی - مولفه4-2-2 که هستند عباراتی و کلمات از دسته آن وب، یصفحه یک در کلیدی کلمات

عبارات شامل معموال کلمات شوند. اینمی محسوب مهم صفحه آن برای با مرتبط کلمات سایر و جدید اصطالحات نامدار، های موجودیت تخصصی،

کلمات شناسایی عمل کلیدی، کلمات باشند. استخراجمی صفحه آن محتوایباشد.می صفحه یک در خودکار بصورت کلیدی

Website pagesWebserver logs

Wikipedia

Basic log preprocessing

component

Website keyword extraction component

Website domain concept extraction

component

Mapping component

Keyword vector Website domain concepts

Keyword vector builder

component

Concept vector

Domain Wikipedia

articles

95

Page 96: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کلیدی کلمات استخراج برای ناظر بدون و باناظر از اعم مختلفی های روش ،Naïve Bayes مانند ماشین یادگیری هایمدل باناظر، های دارد. روش وجود

decision treeبکار نحوی های ویژگی نظیر ویژگهایی از استفاده با را غیره و اند. روشداده نشان موفق عمل این در نیز ناظر بدون های برند. روشمی

است[Mihalcea 2007] روش مبنای بر اساسا نامه پایان این در استفاده مورد-می و کندمی استفادهWikipedia از که باشدمی ناظر بدون یادگیری روش یک که

به کلیدی کلمات استخراج درstate-of-the-art روش یک عنوان به را آن توانآورد. شمار

مقاله آن در دارند قصد که کسانی برایWikipedia که شد اشاره2 فصل درجمله: از است کرده ارائه رهنمودهایی کنند، ویرایش یا بنویسند

عنوان از تری عمیق درک که کنند ایجاد مقاالتی به لینک باید نویسندگان(1-مکان ها،نام تخصصی، عبارات مانند آن در موجود خاص عبارات یا مقاله

کنند.می ... فراهم و ها ندارند متناظری یمقاله که عباراتی و اصلی عنوان با نامرتبط عبارات(2

کرد. لینک نباید را چون شود، مقاله یک در کلیدی کلمات تعداد انتخاب در باید خاصی توجه(3

شوند.می مقاله اصلی موضوع از خواننده توجه مانع زیاد خیلی های لینک انتخاب معیارهای مشابه بسیارWikipedia در لینک انتخاب معیارهای که آنجا از

مانند را کلیدی کلمات شناسایی توانمی باشند،می مستندات در کلیدی کلماتگرفت. نظر درWikipedia یمقاله یک در کلمات کردن لینک کلمات که است این شودمی استنباط2 یشماره رهنمود از که مهمی ینکته

در معتبر متناظر یمقاله یک که باشند هاییآن به محدود باید کاندیدا کلیدیWikipediaکلیدی کلمات برای واژگانمجموعه یک توانیممی رو این دارند. از

سایتوب یدامنه به مربوط Wikipedia مقاالت عناوین شامل فقط که بسازیم کلیدی کلمات استخراج برای واژگان مجموعه این از و باشد نظر مورد

محدود را کلیدی کلمات کردن پیدا قابلیت امر این وجود، این کنیم. با استفاده چنین نیست. اگر یکسان مقاالت عناوین با لزوما هالینک برچسب چون کند،می

بدهیم. از دست از را کلمات از بخشی است ممکن بگیریم، نادیده را حاالتی-می گسترش ها لینک های برچسب تمامی با را اولیه واژگان مجموعه رو، این

در باشد،می ناظر بدون که کلیدی کلمات استخراج یمولفه دهیم. جزئیات مولفه، این کردن انتخاب ناظر بدون است. دلیل شده داده نشان2-4 شکل

از عبارتند که باشدمی قسمت دو شامل مولفه باشد. اینمی بیشتر کاراییندیدا.کا بندیرتبه و کاندیدا استخراج

n-gram تمامی و کرده پردازش را وب صفحات کاندیدا، استخراج یمولفه بندیرتبه یکند. مولفهمی استخراج دارند، وجود واژگان مجموعه در که را هایی

این که این احتمال که دهدمی اختصاص کاندیدا هر به عددی مقدار یک کاندیدا،دهد. می نشان را باشد کلیدی یکلمه یک کاندیدا

96

Page 97: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کلیدی کلمات استخراج یمولفه - جزئیات2-4 شکل

مزیت این کلیدی کلمات استخراج برای محدود واژگان مجموعه یک از استفاده کلمات استخراج هایروش سایر در موجود مشکالت از برخی از که دارد را

واژگان، مجموعه این در کلیدی کلمات تمامی مثال، عنوان شود. بهمی اجتناب" قبیل از ندارد، وجود آن در معنیبی عبارات و باشندمی قبول قابل عبارات

products are". شده داده نشان3-4 شکل در کاندیدا استخراج بخش کد شبه است. دارد. در نامkeyphraseness نامه پایان این در استفاده مورد بندیرتبه روش

در کلیدی یکلمه یک عنوان بهW مانند عبارت یک آنکه احتمال روش، این بصورت هاآن در کلمه این که مستنداتی تعداد شمردن با شود، انتخاب صفحه

شده ظاهر هاآن در کلمه این که مستنداتی کل تعداد بر تقسیم آمده لینکآید.می بدست

(4-1 )

کاندیدا کلمات استخراج مولفه کد - شبه3-4 شکل

Wikipedia در کلمه یک کرد: هرچه تفسیر صورت این به توانمی را احتمال این باشد، شده انتخاب لینک عنوان به بیشتر رخدادش، دفعات تعداد میان در

Candidate Extraction

Candidate Ranking

Domain Wikipedia articles

Website pages

Function candidateExtraction() For each article a in filteredArticles For each link l in a If (l.article.title is in domainVocabulary and l.label is not indomainVocabulary) add l.label to domainVocabulary End for End forEnd

97

Page 98: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

در احتمال است. این بیشتر شود انتخاب لینک بصورت دیگر بار آنکه احتمال یمشاهده برای تواندمی کند. خوانندهمی تعیین را کلیدی یکلمه وزن واقع

که است ذکر به کند. الزم مراجعه[Mihalcea 2007] به روش این ارزیابی مقاالت هایلینک و عناوین که شود ساخته ای گونه به باید واژگان یمجموعه

چگونه که دهیممی توضیح بعد بخش باشد. در نظر مورد یدامنه به محدود فقط کد کرد. شبه استخراج خودکار بصورتWikipedia از را دامنه مقاالت توانمی

است. شده داده نشان4-4 شکل در کاندیدا بندیرتبه بخش

کاندیدا کلمات بندیرتبه مولفه کد - شبه4-4 شکل

سایت وب از دامنه مفاهیم استخراج ی - مولفه4-2-3-می سایتوب صفحات از دامنه خاص مفاهیم استخراج مولفه، این یوظیفه

نظر در مفهوم یک عنوان بهWikipedia یمقاله هر نامه، پایان این باشد. در یا رویداد یک روی بر مقاله هر که است آن امر این است. دلیل شده گرفته

موضوعات و آن به مربوط مهم اطالعات و کندمی تمرکز خاص موجودیت که طور همان نیز مولفه دهد. اینمی ارائه مناسب ساختاری با را آن به مرتبط

استخراج از عبارتند که است بخش دو شامل شود،می دیده5-4 شکل در.کاندیدا کردن فیلتر و کاندیدا مفاهیم

Function candidateRanking() For each word w in domainVocabulary Dkey=number of occurrences of w as a link in domainArticles; Dw=number of occurrences of w in domainArticles;

keyphraseness(w)= Dkey/Dw

if keyphraseness(w)<threshold remove w; End forEnd

98

Page 99: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

دامنه مفاهیم استخراج یمولفه - جزئیات5-4 شکل

- میWikipedia بندیدسته ساختار کاندیدا، مفاهیم استخراج بخش کار اساس فناوری یدامنه شامل کلی بطور نظر مورد سایتوب کنید باشد. فرض

وجود کلی کالس10 بندی،دسته ساختار از سطح باالترین باشد. در اطالعات تشخیص هانآ میان از را نظر مورد سایتوب کالس توانمی راحتی به که دارد

تمامی توان می اول-سطح، جستجوی با و خودکار بصورت آن، از داد. پس 5 فصل آورد. در بدست وب خزش عمل به نیاز بدون را کالس آن مقاالت را کاندیدا مفاهیم مقاالت، این پایان، شد. در خواهد ذکر سازیپیاده جزئیاتدهند.می تشکیل بر اگر و باشندمی زیاد بسیار کاندیدا، استخراج بخش از آمده بدست مفاهیم

رو این شود. ازمی سیستم کارایی کاهش باعث نشود انجام فیلتری هاآن روی مفاهیم نظر، مورد سایتوب ساختار از استفاده با کاندیدا کردن فیلتر بخشکند.می فیلتر را سایتوب به ترمرتبط مجازی مراتبیسلسله ساختار یک در ها سایت وب در وب مستندات بیشتر]کندمی بندیدسته را هاآن محتوای نوع ضمنی بصورت که اند شده بندیطبقه

Chang 2005]عبارات که دهندمی نشان را واقعیت این دایرکتوری، . ساختارهای یک به نزدیکی بطور خاص زیردایرکتوری یک صفحات متون در دامنه خاص

است. شده مشخص دایرکتوری آن نام در که هستند وابسته مشترک موضوع محتوای با کمتری ارتباط که مفاهیمی کردن حذف برای توانمی ویژگی این از

برد. بهره دارند سایت وب صفحات که )کلماتیURL در موجود مهم کلمات ابتدا کاندیدا کردن فیلتر بخش

stopwordیک هر معنایی ارتباط و کندمی استخراج را سایتوب نیستند( صفحات

Candidate Extraction

Candidate Filtering

Domain Wikipedia

articles

Website pages Wikipedia

99

Page 100: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Wikipedia از استفاده باExtended gloss overlap روش به کاندیدا مفاهیم با را به محاسبه سادگی متن، همپوشانی رویکرد از استفاده کند. دلیلمی محاسبه

باشد. هرمی بیشتر کارایی نتیجه در و مراتبیسلسله ساختار به نیاز عدم دلیل هاURL در موجود مهم کلمات یهمه با آن معنایی ارتباط که کاندیدی مفهوم

6-4 شکل در کاندیداها فیلترکردن یمولفه کد شود. شبهمی حذف باشد، صفراست. شده داده نشان

اگر که است اهمیت حائز نکته اینrelatednessgloss(c,k) یمحاسبه ینحوه در آنگاه شد منجر ابهام رفع یصفحه یک بهWikipedia در k یکلمه برای جستجو

relatednessgloss(c,k)های لینک تمامی میان در معنایی ارتباط مقدار بیشترین دهد.می نشان را ابهام رفع

کاندیدا کردن فیلتر بخش کد - شبه6-4 شکل

کلیدی کلمات بردار ی سازنده ی - مولفه4-2-4 از هاآن مناسب وزن همراه به کلیدی کلمات استخراج مولفه، این یوظیفه

ایصفحه برای کلیدی کلمات استخراج یمولفه است. خروجی کاربر جلساتاست: زیر بصورتpi مانند

(4-2 ) u کاربر کنید باشد. فرضمی ها آنkeyphraseness همان کلمات هایوزن که

است: داشته را زیر یجلسه (4-3 )

است. کرده صرفpi یصفحه روی بر کاربر که است زمانی مدت ti آن در کهکنیم:می تعریف زیر بصورت را کاربر یجلسه برای کلیدی کلمات بردار

(4-4 )آن: در که

(4-5 ) (4-6 ) (4-7 )

Function candidateFiltering() For each candidate concept c sims=0; For each keyword k in website URLs sims=sims+relatednessgloss(k,c) End for If sims==0 then remove c End forEnd

100

Page 101: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

s_maxدقیقه30 برابر نامه پایان این در و باشدمی جلسه زمان طول حداکثر بیشتری زمان کاربر چه هر که دهدمی ( نشان7-4) یاست. رابطه شده فرض

اهمیت او برای صفحه آن کلیدی کلمات کند صرف صفحه یک روی بر را آخرین روی بر شده صرف زمان مدت که کنید کنند. توجهمی پیدا بیشتری

زد. تخمین را آن باید و آورد بدست سروروب ثبت از تواننمی را جلسه یصفحه بردارهای تمامی در آن وزن مجموع برابر جلسه کل در کلیدی یکلمه وزن

باشد:می کلیدی کلمات (4-8 )

پردازیم.می مثالی به مطلب شدن ترروشن برای p3 وp1، p2 یصفحه سه شامل نظر مورد سایت وب کنید - فرض1مثال

است.s={(p1,10),(p2,8),(p3,4)} بصورت کاربر یجلسه یک کنید باشد. فرضدهد.می نشان را صفحه هر برای کلیدی کلمات بردار1-4 جدول

1مثال سایتوب صفحات کلیدی کلمات - بردارهای1-4 جدولKeyword-weight vectorpage

(data structures,0.8),(tree,0.62),(traversal,0.43)P1

(data structures,0.73),(list,0.54)P2

(data structures,0.75),(hash table,0.36)P3

در صفحات برای کلیدی کلمات بردار ها،صفحهمشاهده گرفتن نظر در باآید.می بدست2-4 جدول در کاربر یجلسه

1مثال در شده داده یجلسه کلیدی کلمات - بردارهای2-4 جدولKeyword-weight vectorpage

(data structures,0.26),(tree,0.21),(traversal,0.14)P1

(data structures,0.19),(list,0.14)P2

(data structures,0.10),(hash table,0.04)P3

آید:می بدست زیر بصورت جلسه برای کلیدی کلمات بردار نهایت، در s=<(data structures,0.55),(tree,0.21),(traversal,0.14),(list,0.14),(hash

table,0.04)> -کلمه هر وزن باشیم، داشته کاربر از جلسهn نظر، مورد زمانی یبازه در اگر بدستn بر تقسیم جلسات یهمه در آن وزن مجموع از بازه، آن در کلیدی یاست. شده داده نشان7-4 شکل در مولفه این کد آید. شبهمی

101

Page 102: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کلیدی کلمات بردار سازنده مولفه کد - شبه7-4 شکل

نگاشت ی - مولفه4-2-5 کلیدی کلمات نگاشت طریق از کاربر مدل ساخت مولفه، این یوظیفه

فیلتر مفاهیم به نظر مورد زمانی یبازه در کاربر توسط شده مالقات صفحات کلمات برای مفاهیم ترینمرتبط یافتن مرحله، این باشد. هدفمی دامنه یشده

مفهوم یا و کلمه با متناظر دقیق مفهوم است ممکن مفهوم است. این کلیدی مسیر بر مبتنی معنایی ارتباط رویکرد از منظور این باشد. برای تریانتزاعی

در ضمنی بصورت که ایمعنایی ارتباط رویکرد، این چون کنیم،می استفاده نظر در راhyponymy وhypernymy مانند دارد وجود مراتبی سلسله ساختار

کلیدی، یکلمه متناظربا دقیق مفهوم نکردن یافت صورت در و گیردمیکند.می پیدا را آن ابرکالس

جلسات در موجود صفحات کلیدی کلمات معنایی ارتباط نگاشت، منظور به بیشترین با مفهوم و کنیممی محاسبه شده فیلتر مفاهیم با یکی یکی را کاربر

هر ازای به پایان، دهیم. درمی نسبت کلیدی یکلمه هر به را معنایی ارتباط هاآن به مفهوم این که کلیدی کلمات تمام وزن مجموع از را آن وزن مفهوم، نشان8-4 شکل در الگوریتم این کد آوریم. شبهمی بدست شده، داده نسبت

است. شده داده

Function keywordVectorBuilder(User u) n=number of u’s sessions in period T for each session s in u.sessions for each (page,time) (p,t) in s for each keyword k in p

weight(s,k)+=keyphraseness(k)* t/30 ; end for

end for end for weight(k)=weight(s,k)/n;End

102

Page 103: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

نگاشت یمولفه کد - شبه8-4 شکلدهیم:می ارائه مثالی مطلب شدن روشن برای

هایوزن و باشد {primate,earth} شامل شده فیلتر مفاهیم کنید - فرض2مثال بدست کاربر جلسات از کلیدی کلمات بردار یسازنده یمولفه از3-4 جدولاست(. غیرواقعی و فرضی ها وزن )مقادیر باشند آمده

2 مثال در هاآن فرضی هایوزن و کلیدی - کلمات3-4 جدولgorillarainforestprimatemonkeykeyword

34567weight

بهearth مفهوم وgorilla وmonkey، primate بهprimate مفهوم که کنید فرضforestیکلمه برای و شوند داده نسبت rainنداشته وجود متناظری هیچ نیز این شده(. در فیلتر مفاهیم تمام با آن معنایی ارتباط بودن صفر دلیل )به باشد

آیند.می بدست4-4 جدول مشابه مفاهیم هایوزن صورت2 مثال در هاآن هایوزن همراه به کاربر جلسات صفحات در موجود - مفاهیم4-4 جدول

weightkeywordsconcept16monkey,primate,gorillaprimate5forestearth

یبازه این طول در کاربر مدل همان واقع در نگاشت، یمرحله از حاصل بردار

معنای ابهام رفع عملمولفه این در که است ذکر به باشد. الزممی زمانی به است ممکن کلمات از برخی زیرا شود،نمی انجام مستقیم بصورت کلمه،

و شوند نگاشت متناظرشان دقیق مفهوم به نسبت تریانتزاعی مفاهیم مکان یک در کلیدی یکلمه یک که شودنمی مشخص مولفه این در همچنین

صفحه از یکباره صفحه، مهم مفاهیم بلکه آمده، ایمعنی چه به صفحه، از خاص یکی کلمه، معنای ابهام رفع رویکرد از استفاده عدم شوند. دلیلمی استخراج

Function extractConceptVector(User u) For each keyword k in session pages For each concept c in filteredConcepts Calculate relatednessWUP(k,c); End for Assign concept with maximum relatedness to k; End for For each concept c in filteredConcepts For each keyword k to which c is assigned Weight(c)+= w(u,k); End for Add (c,weight(c)) to conceptVector End for Return conceptVectorEnd

103

Page 104: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

در چون باشد،می امر این به نیاز عدم اصوال دیگری و است کارایی افزایش یکلمه یک معنای نه و است مدنظر صفحه مهم کاربر،مفاهیم مدل ساختصفحه. از قسمت یک در خاص نوع ازWikipedia در ها دسته بین روابط یعمده اگرچه که است تاکید به الزمis-aوجود این با باشد، می Wikipediaساختار در dumpودFFوع خFFاط این نFFرا ارتب

is-a بصFFورت روابط این تمامی نامه پایان این است. در نکرده مشخص صریحا معنایی ارتباط معیار بایدhas-a یرابطه گرفتن نطر در است. برای شده فرض

-3 بخش در که گFFرفت نظر در رابطه نFFوع این براساس را نگاشت یمولفه درشد. داده توضیح-1-3-2

سیستم اصلی های قسمتUML های - دیاگرام4-6 sequence وclass diagram ها،آن عمل ترتیب و ها مولفه بهتر درک منظور به

diagramشده داده نشان10-4 و9-4 هایشکل در سیستم اصلی های مولفه است.

gnissecorperP goL cisaB

++

)( goLnaelc)( ezinoisses

diov :diov :

noitcartxE tpecnoC niamoD etisbeW

++

)( noitcartxEetadidnac)( gniretliFetadidnac

diov :diov :

redliuB rotceV drowyeK

+)( rotceVdrowyeKtcartxe diov :

noitcartxE drowyeK etisbeW

++

)( noitcartxEetadidnac)( gniknaRetadidnac

diov :diov :

gnippaM

+)( rotceVtpecnoCtcartxe diov :

redliuBledoM

+)( niam diov :

سیستم اصلی های مولفهclass diagram- 9-4 شکل

104

Page 105: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

مساله صورت با پیشنهادی طرح تطابق - بررسی4-7 در که است شرایطی تمامی واجد آیدمی بدست کاربر از ترتیب این به که مدلیشد: گفته فصل ابتدای

است. آمده بدست کلیدی کلمات بردار روش بهبود بادارد. نیاز سروروب هایثبت به فقط زیرا است، ضمنیزمانی یبازه یک در کاربر رفتار از مدل نیاز مورد وب کاربرد اطالعات

است. آمده بدست سایتوب روی بر خاصانسان دخالت بدون سیستم، هایمولفه تمامی شد بیان که طور همان

کنند.می عملاز چون دارد، نامدار هایموجودیت و دامنه خاص مفاهیم از خوبی پوشش

Wikipediaمفهوم هر وزن برد. همچنینمی بهره مفاهیم استخراج برای زمان و صفحه در آن به مرتبط کلیدی کلمات رخداد دفعات تعداد با

این از و دارد مستقیم نسبت صفحه آن روی بر کاربر توسط شده صرفکند. می منعکس را کاربر یعالقه رو

براساس هم معنایی روابط از glossبرای مراتبسلسله براساس هم و دامنه، مفاهیم استخراج یمولفه است. در شده استفاده آن بهبود

یمولفه شود. درمی انجام معنایی شباهت براساس مفاهیم فیلترکردن ساختار در موجود مراتبی سلسله ارتباطات از خاص بطور نگاشت مفاهیم به کلیدی کلمات نگاشت برایWikipedia مراتبی سلسلهشود.می استفاده

105

Page 106: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

rotceVtpecnoc nruter

)(rotceVtpecnoCtcartxe

)(rotceVdrowyeKtcartxe

)(gniknaRetadidnac

)(noitcartxEetadidnac

)(gniretliFetadidnac

)(noitcartxEetadidnac

)(ezinoisses

)(goLnaelc

rotcartxEtpecnoCniamoD rotcartxEdrowyeKetisbeW rotcartxErotceVdrowyeK reppaMrossecorPgoL redliuBledoM

rotceVtpecnoc nruter

)(rotceVtpecnoCtcartxe

)(rotceVdrowyeKtcartxe

)(gniknaRetadidnac

)(noitcartxEetadidnac

)(gniretliFetadidnac

)(noitcartxEetadidnac

)(ezinoisses

)(goLnaelc

سیستم اصلی بخشsequence diagram- 10-4 شکل

بندی جمع سایت، وب در کاربر مدل استخراج برای پیشنهادی روش فصل این در

که شد شد. بیان ارائه وب صفحات در او یعالقه مورد مهم مفاهیم براساس تواندمی دنیا سراسر از افراد توسط شدهساخته عمومی فرهنگ یک چگونه

برطرف را وب سازیشخصی در سنتی لغوی معنایی منابع یعمده مشکالت مفاهیم کردن فیلتر دامنه، مفاهیم استخراج فرایندهای که شد کند. مشاهده

سیستم در دامنه مفاهیم به هاآن نگاشت و کلیدی کلمات استخراج دامنه، را آن که سیستم این های ویژگی گیرد. ازمی انجام خودکار بصورت پیشنهادی

بسیار معنایی منبع یک از استفاده به توانمی سازدمی متمایز قبلی کارهای از کردن فیلتر دامنه، خاص مفاهیم خودکار استخراج مدل، بهبود برای غنی

دایرکتوری ساختار از استفاده با سایت وب با مرتبط یدامنه مفاهیم خودکار کرد. از اشاره دامنه مفاهیم به کلیدی کلمات خودکار نگاشت و سایت وب

کارایی مدل، ساخت سیستم، عملکرد بودنoffline دلیل به دیگر سوی نتایج و ارزیابی معیارهای6 فصل دهد. درنمی کاهش را سازیشخصی سیستم

شد. خواهد ارائه شده انجام آزمایشات

106

Page 107: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

مراجع

[Mihalcea 2007] R. Mihalcea and A. Csomai, “Wikify! : linking documents to encyclopedic knowledge”, Proceedings of the sixteenth ACM Conference on information and knowledge Management CIKM'07, 2007, 233-242.

[Chang 2005 ]J. S. Chang, “Domain Specific Word Extraction from Hierarchical Web Documents: A First Step Toward Building Lexicon Trees from Web Corpora”, Proceedings of the Fourth SIGHAN Workshop on Chinese Language, 2005.

107

Page 108: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

پنجم فصل

سازی پياده جزئيات

108

Page 109: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

سازی پیاده - جزئیات5مقدمه

شود. اگرچهمی داده شرح پیشنهادی روش سازیپیاده جزئیات فصل این در پروژه، این انجام فرآیند در اما آمده، پیشین هایفصل یادامه در فصل این

است. بوده توجه مورد مطالعه با موازی و همگام بصورت سازیپیاده همواره محیط معرفی بلکه باشد،نمی هابرنامه اصلی کد یا کد شبه درج فصل، این هدف

قدرتمند ابزارهای با است. آشنایی توجه مورد رفته، بکار ابزارهای و عملیاتی کار اعتبار و دقت و سرعت در تحقیقاتی، کار مختلف هایزمینه در مناسب و

در که هستند ابزارهایی نامه، پایان این در رفته بکار دارد. ابزارهای زیادی تاثیر پیاده در و اندیافته توسعه تحقیقاتی یزمینه این معتبر افراد های آزمایشگاه

طریق از نیز هاآن با آشنایی یشود. نحوهمی استفاده هاآن از مقاالت سازی هاآن تحقیقاتی هایآزمایشگاه و هاآن نویسندگان وب صفحات و معتبر مقاالت

فرض نامه پایان این در شد، گفته پیش فصل در که طور است. همان بوده دسترس در آن کاربران هایثبت و صفحات تمامی با سایتوب یک که است شده

جاوا سازی برنامه زبان از سیستم، هایمولفه سازی پیاده باشد. برایمی]در هامولفه است. کد شده استفادهEclipse 3.3 ابزار و1.5 ینسخه

Ghaderyan Homepage]یک هر سازیپیاده مهم نکات ادامه است. در موجود شود.می داده شرح سیستم هایمولفه از

ثبت ی اولیه پردازش پیش ی - مولفه5-1سرور وب ثبت دریافت ی- نحوه5-1-2

این دارنFFد. در خFود خFاص فFFرامین با را ثبت هFایفایFFل ایجFFاد قابلیت سرورهاوب-می توضFFیحIIS وapache معروف سروروب دو در را ثبت گرفتن ینحوه قسمتدهیم:رفتن ثبتFFدر گ apacheانFFوای و : مکFFتور توسط دسترسی ثبت محتFFدس

CustomLogترلFFتورمی کنFFود. دسFFش LogFormatرای تواند میFFاده بFFس- دارایCustomLog رود. دسFFتور بکFFار ها ثبت محتFFوای انتخFFاب سFFازی

است: زیر مشخصات

109

Page 110: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

CustomLog دستور - ساختار1-5 جدولSets filename and format of log fileDescriptionCustomLog file|pipe format|nickname [env=[!]environment-variable]

Syntax

server config, virtual hostContextBaseStatusmod_log_configModule

است: زیر ساختار دارایLogFormat دستورLogFormat دستور - ساختار2-5 جدول

Describes a format for use in a log fileDescriptionLogFormat format|nickname [nickname]SyntaxLogFormat "%h %l %u %t \"%r\" %>s %b"Default

server config, virtual hostContextBaseStatusmod_log_configModule

مثال: #CustomLog with format nickname

LogFormat "%h %l %u %t \"%r\" %>s %b" commonCustomLog logs/access_log common

#CustomLog with explicit format stringCustomLog logs/access_log "%h %l %u %t \"%r\" %>s %b"

کنید. مراجعه[Apache] به بیشتر اطالعات برایدر گرفتن ثبت IISدارد: قرار زیر مسیر در ثبت فایل فرض پیش : مکان

c:\winnt\system32\LogFiles\W3SVC1 از دلخواه مکان در هاثبت یذخیره دارند. برای راex*.log فرمت هافایل این

Internet Service Managerکنید: استفاده Windows 2000—Click Start > Settings > Control Panel > Administrative

Tools > Internet Services Manager. Windows NT 4.0—Start > Programs > Windows NT 4.0 Option Pack >

Microsoft Internet Information Server > Internet Service Manager.

دهید: انجام را زیر مراحل سپسInternet یگزینFFه روی-1 Information ServiceارFFتا کنید کلیک دوب

کنید. مشاهده را مربوطه سرورهای از لیستی سرور روی هایسایت از لیستی تا کنید کلیک دوبار سرور نام روی-2

کنید. مشاهده را راproperties و کنید راست-کلیک استفاده مورد سایت نام روی-3

کنید. انتخاب

110

Page 111: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

نام به فیلدی توانیدمی کنید. حال کلیک”enable logging“ بخش در-4log file directoryبرای اکنون که را ایپوشه که کنید، مشاهده را

کند.می لیست را است شده تنظیم گرفتن ثبتکنید. مراجعه[IIS] به بیشتر اطالعات برای استفادهWUM [Spiliopoulou 1999] افزار نرم از مولفه این سازی پیاده برای باشد.می سرور وب های ثبت پردازش پیش برای مفید ابزاری که است شده دسترس در رایگان بصورت و شده سازی پیاده جاوا زبان به افزار نرم این

این است. در آن کاربرپسند واسط افزار، نرم این مفید های ویژگی است. از 30 یآستانه زمان مدت با افزار نرم این توسط کاربران جلسات نامه، پایان

پس و سازدمی پوشه یک نظر، مورد تحلیل برایWUMشدند. شناسایی دقیقه از کند،می تولید خروجی عنوان به را فایل چندین ثبت، فایل یاولیه پردازش از

،IP آدرس شناسه، مانند کاربران مشخصات آن در کهWebSiteVisitors جمله صفحات آن در کهWebSitePages دارد، وجود ها کوکی اطالعات و کاربر عامل

دارد، وجود هاآن به دسترسی تعداد و هاآن یشناسه سایت،وب یشده دسترسی ایجاد آن، ینتیجه که کند جلسه تولید به اقدام تواندمی کاربر غیره. سپس و

است: زیر مشابه آن فرض پیش فرمت و استSessionLog فایل

طول جلسه، شروع تاریخ جلسه، یشناسه از عبارتند آن خط هر هایوارده زمان درج برای شده. تنظیماتی دسترسی صفحات یشناسه و جلسه

فایل، دارد. این وجود آن در نیز نیاز مورد اطالعات سایر و صفحه یمشاهده روی از و شودمی داده ورودی، عنوان به ثبت یاولیه پردازشپیش یمولفه در

شود.می ایجاد کارا هایداده ساختمان آن،

وب صفحات از کلیدی کلمات استخراج ی - مولفه5-2سایت

به نیازیWikipedia هایداده به دسترسی برای که شد اشاره پیش فصل در به مربوطXML هایdump سایت، این واقع باشد. درنمی وب خزش عمل

به و دهدمی قرار اختیار در کردن دانلود برای و کندمی روز به هفته هر را سایت ایجاد سربار سروروب روی بر )که وب خزش بجای که است کرده توصیه افراد

اطالعات برایWikipedia هایdumpکنند. استفاده هاdump این کند( ازمی dumpغیره. و کاربران نظرات مقاالت، قبیل از باشند،می موجود آن گوناگون

در عمده مشکل باشد. یک میarticles.xml نامه پایان این در استفاده مورد مهم هایdump حجم که است آن تحقیقاتی کار برایWikipedia از استفاده مورد

هستند،XML بصورت که آنجا از و است گیگابایت چندین و زیاد بسیار آن در که آنجا از و کنندمی ایجاد بهینه بصورت آن از استفاده برای بزرگی چالش

از زیادی حجم نیازمند است، نیاز لغوی معنایی اطالعات انواع به پروژه این گوناگون ابزارهای بررسی از پس نامه پایان این در باشد. لذامی نویسیبرنامه

به دسترسی عملیات بیشتر انجام برایJWPL [Zesch 2008] ابزار موجود،شد. انتخابWikipedia هایداده

111

1000011 "1995/08/01/00:01:32" 4 "[5000000;1]" "[3000017;1]" "[3000023;1]" "[3000030;1]"1000021 "1995/08/01/00:03:45" 4 "[5000000;1]" "[3000001;1]" "[3000043;1]" "[3000047;1]"

Page 112: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

JWPL (Java Wikipedia Library)زبان به کاربردی نویسی برنامه واسط یک ازWikipedia در موجود اطالعات تمامی به دسترسی یاجازه که است جاوا

برای و دهدمی را غیره و لینک ساختار مقاالت، بندی،دسته ارجاعات، جمله API این مفید هایویژگی است. از شده سازی پیاده باال مقیاسNLP هایبرنامه

در موجود ایداده منابع کردن انتزاعی کندمی آسان بسیار را آن از استفاده کهWikipediaمانند متعددی های کالس مثال، عنوان است. به شیئ قالب در

Category، Page، Tiltleدارد. وجود آن در غیره وJWPLیک براساس واقع در فایل ازMysql درداده پایگاه یک ابتدا و شده طراحیobject-relational مدل

XMLدهد.می انجام آن طریق از را هادسترسی پس آن از و سازد می ،dump در آیند. اگرمی کروشه داخل در ها لینک مقاالت، هایdump ساختار در

این در که است معنی این به باشد شده ظاهر[a|b] صورت به ای کروشه فایل داخل درb برچسب با که دارد وجودa عنوان با یمقاله به لینکی قسمت،HTMLیمقاله در آن برچسب با ارجاعی یمقاله عنوان شود. اگرمی دیده عنوان شود. بهمی ظاهر[[a]] بصورتdumpدر باشد، یکسان دهنده ارجاع Shakespeare is buried in the [[chancel]] of" یجمله ،XML فایل در اگر مثال

[Holy Trinity Church, Stratford-upon-Avon|Holy Trinity Church] in [[Stratford-upon-Avon]]."لینک سه که است معنی این به باشد، شده ظاهر

یکHoly Trinity Church هاآن میان در و دارد وجود جمله این در مقاله به- میHoly Trinity Church, Stratford-upon-Avo عنوان بامقاله برای برچسب

باشد. از برخی اما باشد میWikipedia با کار برای مفیدی ابزارJWPL که چند هر

وجود آن در ساختهپیش بصورت کلیدی، کلمات استخراج یمولفه نیازهای باید مقاالت، در کلمه یک وقوع دفعات تعداد یافتن برای مثال عنوان ندارد. به سازیپیاده را قابلیت اینPage کالس از)(getText متد از استفاده با خودمان

گرداند.برمی متن صورت به را صفحه یکXML متن که کنیم تگ تمامی ابتدا سایت،وب صفحات محتوای از کلیدی کلمات استخراج از پیش یکتابخانه یک کهHTML Parser [HTML Parser] از استفاده باHTML های

باشدمی وب صفحات با کردن کار برای جاوا زبان بهopensource و قدرتمند یکتابخانه از سایتوب صفحات از نیز هاn-gram استخراج گردید. برای حذف

opennlp [Opennlp]است. شده استفاده

سایت وب از دامنه مفاهیم استخراج ی - مولفه5-3JWPLاست. از نکرده سازی پیاده را کلمه دو بین معنایی ارتباط ی محاسبه

در نامه پایان در معنایی ارتباط یمحاسبه برای رفته بکار رویکردهای رو این سازی پیادهJWPL ازCategory وPage های کالس از استفاده با مولفه این

خروجی از کهWebSitePages فایل از نیز صفحات آدرس کلیدی شدند. کلماتشدند. استخراج باشد، میWUM افزار نرم های

112

Page 113: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

کلیدی کلمات بردار ی سازنده ی - مولفه5-4 از جداول، و هاماتریس سازیپیاده شد. برای نوشته جاوا زبان به مولفه این کد

قابلیت از نیز و باشندمی کارا بسیار که جاواHashMap ساختارهایSerializationگردید. استفاده

نگاشت ی - مولفه5-5 متدهای از استفاده باwup معنایی ارتباط معیار مولفه، این سازی پیاده برایشد. سازی پیادهPage وCategory هایکالس

آزمایشات سازی - پیاده5-6 WordNet از استفاده نتایج با بایدWikipedia از استفاده با آزمایشات نتایج

کلیدی کلمات استخراج یمولفه در زیر مراحل کار، این شود. برای مقایسهشد: انجامهای تگ حذف HTMLحذف stopwordمحتوای مورد در مهمی اطالعات که )کلماتی ها

غیره( وthe، a، is مانند دهند،نمی مستنداتstemالگوریتم از استفاده با کلمات کردن Porter [Porter 1980]مستندات کردن اندیسیمحاسبه tf-idfکلیدی کلمات استخراج

به دسترسی شد. برای انتخاب سازیپیاده برایWordNet از2.0 ینسخهWordNetمعروف ماژول از WordNetSimilarityزبان به که Perlاز و باشد می [

WordNetSimilarity]گردید. استفاده است، دانلود قابل

بندی جمع را آن و رودمی شمار به تحقیقاتی کار انجام در مهمی یمرحله سازی،پیاده و مناسب ابزارهای با آشنایی آورد. عدممی در لمس قابل بصورت محقق، برای نامعتبر نتایج یا کار شکست به تواندمی که باشدمی مهمی موانع از قبول، مورد نامه پایان این سازی پیاده در رفته بکار ابزارهای فصل این شود. در منجر

زمان در توجهی قابل جوییصرفه باعث ابزارها این از شدند. استفاده معرفی جدیدتر هاینسخه به دسترسی گردید. برای سازیپیاده برای الزم فعالیت و

کند. مراجعه شده یاد مراجع به تواندمی خواننده ابزارها، این

مراجع

[Apache] http://httpd.apache.org/docs/2.0/logs.html

113

Page 114: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Ghaderyan Homepage] http://ceit.aut.ac.ir/~ghaderyan/Web%20Personalization.htm

[HTML Parser] http://htmlparser.sourceforge.net/

[IIS] http://www.microsoft.com/technet/prodtechnol/windowsserver2003/library/IIS/

[Mihalcea 2007] R. Mihalcea and A. Csomai, “Wikify! : linking documents to encyclopedic knowledge”, Proceedings of the sixteenth ACM Conference on information and knowledge Management CIKM'07, 2007, 233-242.

[Opennlp] http://opennlp.sourceforge.net/projects.html

[Porter 1980] M. F. Porter, “An algorithm for suffix stripping”, program-automated library and information systems, 1980, 14(3), 130-137.

[Spiliopoulou 1999] M. Spiliopoulou, L. C. Faulstich and K. Wilker, “A Data Miner Analyzing the Navigational Behavior of Users”, Proceedings of the Workshop on Machine Learning in User Modeling of the ACAI99, Chania, Greece, 1999, 54-64.

[WordNetSimilarity] http://www.d.umn.edu/~tpederse/similarity.html

[Zesch 2008] T. Zesch, C. Muller and I. Gurevych, “Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary”, Proceedings of the Conference on Language Resources and Evaluation (LREC), 2008.

114

Page 115: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ششم فصل

پيشنهادی روش ارزيابی

115

Page 116: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

پیشنهادی روش - ارزیابی6مقدمه

-می ارائه پیشنهادی روش ارزیابی برای شده انجام آزمایشات فصل این در بررسی مورد آن های ویژگی و استفاده مورد هایداده مجموعه شوند. ابتدا

آزمایشات ادامه، شوند. درمی معرفی ارزیابی پارامترهای سپس و گیردمی قرار مورد آزمایشات نتایج نیز پایان شود. درمی گزارش هاآن نتایج و شده انجام

گیرند.می قرار تحلیل و بررسیها داده - مجموعه6-1 مجموعه کمبود وب، سازیشخصی یحوزه در تحقیقاتی بزرگ مشکالت از یکی هFFای ثبت معموال بودن، خصوصی یمساله دلیل باشد. بهمی استاندارد هایداده مFوقعی خصوصا مسFاله گFیرد. ایننمی قFرار عمFوم دسFترس در سFرورها وب

مجموعه باشFFد. تمFFامی نیFFاز نFFیز سFFایت محتوای اطالعات به که شودمی حادتر به شده ارجاع صفحات و باشندمی پیش سال چندین به متعلق موجود، های داده

بFFرای رو این از و است یافته تغیFFFیر بسFFیار قطعا باشFFFد، موجFFود هم اگر هاآن. [Perkowitz data] و[Depaul CTI data] جمله از باشدنمی مناسب ارزیابی

قابل نکته دو امیرکبFFیر دانشFFگاه مورد در خاص بطور ها داده مجموعه مورد در به باشد. صفحات،می صفحات محتوای و تعداد مورد در اول یاست. نکته توجه محتFFوا نظر از نFFیز موجFFود هایدرس صفحات و باشندنمی موجود درس، هر ازای

هانآ صفحات در دروس به مربوط مفاهیم زیرا باشند،نمی مطلوب کیفیت دارای است. بطور صفحات این به مراجعات تعداد مورد در دوم یشود. نکتهنمی دیده کم هاآن هFFایدسترسFFی تعFFداد و صFFفحات این به کننFFده مراجعه افFFراد تعداد کلی

ارزیFFابی بFFرای مناسFFبی آمFFاری ینمونFFه تواندنمی آن هFFایثبت رو این از و استباشد.

مFFدل بهبFFود بFFرای وب صFFفحات محتوای از که مقاالتی تمامی در دیگر سوی از دانشFFگاه و دانشFFکده سFFایت وب به مربFFوط هاداده انFFد، کFFرده اسFFتفاده کاربر

محصFFوالت فFFروش الکFFترونیکی تجFFارت سایت وب یک یا و مقاالت نویسندگان قFFرار عمFFوم دسFFترس در مFFورد دو این از یک هیچ که باشدمی برخط بصFFورت

ندارد. بFFرای دانشFFکده یک وب صFFفحات از نامه پایFFان این در مقFFاالت، بیشFFتر همانند

کFFامپیوتر مهندسی یدانشFFکده سرور وب هایاست. ثبت شده استفاده ارزیابیCE] شFFریف صFFنعتی دانشگاه Website]رایFFایش بFFورد آزمFFتفاده مFFرار اسFFق

دروس مFFورد در وب ی صFFفحه6000 حFFدود شFFامل مجموعFFه، گرفتنFFد. این شخصی صFFفحات همFFراه به گونFFاگون تحصFFیلی هFFایسFFال و هاتFFرم در مختلف 2008 آوریل13 از هفته یک مدت برای هاباشد. ثبت... می و جویاندانش اساتید،

تعFFداد شخصFFی، اطالعFFات حذف از پس و شدند آوری جمع2008 آوریل20 تا شده انجام آزمایشات شد. در استخراج هاآن از صفحات به دسترسی264883

116

Page 117: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Wikipedia از dumpبه مربوط February یاسFFت. دسFFته شده استفاده2007 اول جسFFتجوی از باشFFد. پس میComputing آزمFFایش، مFFورد سFFایتوب عمومی

فیلFFترکردن از بعد که آمد بدست اولیه مفهFFوم25211 تعداد دسته، این سطح از آمFFد. پس بدست مرتبط مفهFFوم19102 هاURL کلیدی کلمات توسط هاآن

مقاله419937 اولیFFه، هFFایدسFFته در شده بندیدسته مقاالت تمامی استخراج کFFردن اضFFافه از بعد و دادند تشFFکیل را اولیه واژگFFان مجموعه که آمد بدست

Surface formرسید.429694 به واژگان یمجموعه یاندازه آن، به ها ارزیابی - پارامترهای6-2

هFFای داده مقالFFه، هر که آنجا از زمینFFه، این به مربوط یشده انجام کارهای در ایجFFاد یک هر در دستی بصورت نیز مربوطه شناختیواژگان و دارد را خود خاص دیگر سFFوی داد. از انجFFام هاروش بین مناسFFبی یمقایسFFه تFFواننمی است، شده

نامهپایFFان این در اسFFتفاده مFFورد داده مجموعه بFFرای شFFناختی واژگFFان ایجFFاد استفاده مورد ارزیابی روش رو، این از و است بوده ممکن غیر دستی بصورت

درشFFود. می انجام حوزه این مقاالت تمامی در که است همان نامه پایان این در مفFFاهیم، بFFردار همFFان یعFFنی پیشFFنهادی سیسFFتم نهFFایی خروجی نامه پایان این

بصFFورت جلسFFه100 تعFFداد منظFFور این گFFیرد. بFFرایمی قFFرار ارزیFFابی مFFورد به سیسFFتم توسط دیگر بFFار و انسFFان توسط بFFار یک و شFFده انتخFFاب تصFFادفی

نگاشت در که است آن توجه قابل یشFFFوند. نکتFFFهمی نگاشت مفFFFاهیم بFFFردار و شFFده بررسی انسFFان توسط صFFفحات، انسFFان، توسط مفFFاهیم به جلسFFات مفFFاهیم با مفFFاهیم این شFFوند. سFFپسمی اسFFتخراج او خFFود توسط هاآن مفاهیم تمFامی انسFان، رفتFFار سFازی شFبیه شFوند. بFرایمی مقایسه سیسFتم خروجی

دارای مفهFFFوم %( از20) ثFFFابت اختالف یک از کمFFFتر هاآن وزن که مفFFFاهیمی کل رو این انFد. از شFFده حFذف اسFFت، بFوده کFاربر یجلسFه در وزن بیشFترین نگاشFFت. دلیل یمولفFFه تنها نه و گFFیردمی قFFرار ارزیFFابی مورد سیستم عملکرد یداده مجموعه در که است آن سیستم توسط منفرد بصورت جلسات نگاشت

این دیگر سFFوی از و کرد شناسایی یکتا بصورت را کاربران تواننمی نظر، مورد وزن شFFد، اشFFاره4 فصل در که طور همان چون کند،نمی وارد کار به خللی امر

اگر رو این از و آیندمی بدست کاربر جلسات کل در هاآن وزن میانگین از مفاهیم، شده حاصل مطلوب ینتیجه شود، انجام درستی به مفاهیم به جلسات نگاشت

مفFFاهیم به جلسFFات صFFحیح نگاشت است مهم آنچه دیگFFر، عبFFارت اسFFت. بهاست.

یجلسه یک اگر .یادآوری و دقت از عبارتند استفاده مورد ارزیابی پارامترهای به سیسFتم توسط و شFود نگاشتH مفFاهیم مجموعه به انسان توسط کاربر،

محاسFFبه زیر بصFFورت نظر مFFورد مقادیر آنگاه شود نگاشتهS مفاهیم مجموعهشوند:می

-می مرتبط که سیسFFتم خFFروجی مفFFاهیم تعFFداد نسFFبت از است : عبارتدقتباشند.

117

Page 118: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

(6-1 )

وجFFود سیستم خروجی در که مرتبط مفاهیم نسبت از است : عبارتیادآوریدارند.

(6-2 )

سیستم هایمولفه درستی - بررسی6-3] به تواندمی خواننFFFده ثبت، یاولیFFFه پFFFردازشپیش یمولفFFFه بررسی بFFFرای

Spiliopoulou از کلیFFدی کلمات استخراج یمولفه کند. ارزیابی مراجعه[1999 Mihalcea] در و دارد خاصی اهمیت سFFایت وب صFFفحات داده توضFFیح[2007

-وب از دامنه مفFFاهیم اسFFتخراج یهFFامولفه خروجی نامهپایان این است. در شده قFFرار ارزیFFابی مFFورد مسFFتقیم بصFFورت کلیدی کلمات بردار یسازنده و سایت

یکجا بصورت نگاشت یمولفه عملکرد با همراه هاآن عملکرد واقع در و گیردنمیشود.می ارزیابی سیستم خروجی قالب در

شده انجام - آزمایشات6-4 به مربFFوط آزمFFایش اسFFت. اولین گرفته انجFFام نامهپایFFان این در آزمFFایش سه

جFFایگزینی با آزمFFایش اسFFت. دومینWikipedia منبع با پیشFFنهادی سیسFFتمWordNetایFFبج Wikipediaدکی وFFیر انFFرد در تغیFFام ها مولفه عملکFFگرفته انج

-واژگFFان نبFFود صFFورت درWordNet شFFد، گفته3 فصل در که طور است. همان-می محسFFوبstate-of-the-art معنایی منبع یک سایت، وب برای دستی شناختی

tf-idf کلیFFدی کلمFFات بر مبتنی معروف روش به مربوط آزمایش شود. سومین آزمایشFFات آن( در معنFFایی منبع از نظر )صرف پیشنهادی مدل واقع در باشدمی،3 آزمFFایش نتایج با آن نتایج یمقایسه و شودمی ارزیابی2 و1 اصFFلی هFFدف

واقع در تFFوانمی را2 و1 آزمایشات نتایج یاست. مقایسه نامهپایان در ارزیابیکرد. تلقیWordNet وWikipedia معنایی منبع دو یمقایسهاستفاده مورد افزار - سخت6-4-1

4/3 فرکFFانس باDual-Core پنFFتيوم پردازنFFده يک از اسFFتفاده با آزمايشFFات اين-2002 ويFFرايشXP وينFFدوز عامل سيسFFتم و گیگابFFايت2 حافظه هرتFFز، گيگاSP2، شد. داده توضیح5 فصل در سازیپیاده است. جزئیات گرديده انجام

آزمایشات - نتایج6-4-2 دقت متوسط دهد. مقادیرمی نشان را شده انجام آزمایش سه نتایج1-6 جدول

(Average Precisionیادآوری متوسط ( و (Average Recallبه از ( پسFFیمحاس گFFرفتن و ارزیFFابی مFFورد ی جلسFFه100 از جلسه هر بFFرای یFFادآوری و دقت

اند. آمده بدست میانگین

118

Page 119: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

تصادفی ی جلسه100 روی بر شده انجام آزمایشات - نتایج1-6 جدول

Average RecallAverage PrecisionWikipedia: 1آزمایش51.1%49.6%WordNet: 2آزمایش42.5%37.8% کلمات : روش3آزمایش31.3%29.5%

کلیدی

آزمایشات نتایج - تحلیل6-4-3 از اسFFتفاده که دهدمی نشFFان سFFوم آزمFFایش با اول آزمایش دو نتایج یمقایسه کFFاربر مFFدل دقت افFFزایش به منجر وب سFFازیشخصی فرآیند در معنایی روابط

بFFودن پFFایین شFFود. دلیلنمی گرفته نظر در کلیFFدی کلمات رویکرد در که شودمی خFوبی معیFFار کلمه یک تکFFرار تعFداد که است آن کلیFFدی کلمFFات روش در دقت در اهمیFFتی اما شFFود تکرار زیاد کلمه یک است ممکن و نیست آن اهمیت جهت-صFFورت به است ممکن اهمیت با مفهFFوم یک دیگر سوی باشد. از نداشته دامنه کم آن تکFFرار تعداد است ممکن نیز و شود ظاهر وب یصفحه در مختلفی های

باشFFد. پFFایین کلیFFدی کلمFFات روش یFFادآوری که است شFFده باعث این که باشد به نسFFبتWikipedia برتFFری اول، آزمFFایش دو نتFFایج یمقایسFFه از همچFFنینWordNetخصFFود. دقتمی مشFFادآوری و شFFاالتر یFFبت آن بFFبه نس WordNetبه

است. به نامدار های موجودیت و دامنه خاص مفاهیم از آن خوب پوشش دلیل آزمFFایش مFFورد سFFایت وب صفحات در موجود مفاهیم از بسیاری مثال، عنوانVLSI، digital مانند circuit، Software engineeringدر و ... WordNetودFFوج مقFاالت هاآن از یک هر بFرای آنکه حFال دارد، تFریکم یFادآوری رو این از و ندارد

WordNet در موجFFود مفاهیم بودن است. عمومی موجودWikipedia در کاملی و شFFوند انتخاب مهم مفاهیم عنوان به کلی مفاهیم برخی که است شده باعث

بیاورند. پایین را دقت نتیجه در و دقت که است آن شFFودمی اسFFتنباط اول آزمFFایش نتFFایج از که دیگFFری ینکتFFه

کلمFFات اسFFتخراج یمولفFFه یادآوری و دقت به وابسته بسیار روش این یادآوری کFFFارایی در بسFFFزایی نقش مولفه این بهبFFFود رسدمی نظر به و باشدمی کلیFFFدیداشت. خواهد سیستم بر مسFتقیمی اثر نFیز آزمFایش مFورد سFایت وب محتFوای که است ذکر شایان که یFFابیممی در صFFفحات در دقت کمی اسFFت. با کFFرده ایفا آمده بدست مقادیر اکثر )که است زیاد صفحات درcomputer science یدامنه خاص مفاهیم اگرچه

اطالعFFات هادرس صFFفحات در وجFFود این با نیسFFتند(، موجFFودWordNet در آنها اگر رسدمی نظر به و خFFFوردمی چشم به دروس محتFFFوای مFFFورد در محFFFدودی

بFFاالتر کیفیت محتFFوای با های سایتوب دسترسی های ثبت روی بر اول آزمایش شFFد. اما خواهد نمایFFان تFFریشایسFFته بصFFورتWikipedia جایگFFاه شود، انجام

119

Page 120: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

ها سFFایتوب دسترسی هFFای ثبت شد، اشاره نیز ترپیش که طور همان متاسفانهندارد. قرار عموم دسترس در

بندی جمع شFFده انجFFام آزمایشFFات در اسFFتفاده مFFورد هFFای داده مجموعه فصل این در

در را پیشFFنهادی روش برتFFری که شد ارائه ارزیFFابی نتFFایج شد. سFFپس معرفی با چه وWordNet از اسFFتفاده با چه کFFاربر مدلسFFازی بFFرای معنا از اسFFتفاده دهFFFد.می نشFFFان کلیFFFدی کلمFFFات روش با مقایسه درWikipedia از اسFFFتفاده

مFFدل بهبFFود درWordNet به نسبتWikipedia برتری ارزیابی، نتایج از همچنین-می نشFFان یFFادآوری % در9 و دقت % در12 حدود شد. افزایش مشخص کاربر وب سFازیشخصFFی فرآیند در مFوثری معنایی منبع راWikipedia توانمی که دهد

آورد. شمار به

مراجع

[CE Website] http://ce.sharif.edu

[Depaul CTI data] http://maya.cs.depaul.edu/~classes/ect584/resource.html

[Mihalcea 2007] R. Mihalcea and A. Csomai, “Wikify! : linking documents to encyclopedic knowledge”, Proceedings of the sixteenth ACM Conference on information and knowledge Management CIKM'07, 2007, 233-242.

[Perkowitz data] http://www.cs.washington.edu/research/adaptive/

[Spiliopoulou 1999] M. Spiliopoulou, L. C. Faulstich and K. Wilker, “A Data Miner Analyzing the Navigational Behavior of Users”, Proceedings of the Workshop on Machine Learning in User Modeling of the ACAI99, Chania, Greece, 1999, 54-64.

120

Page 121: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

هفتم فصل

آينده کارهای و گيرینتيجه

121

Page 122: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

آینده کارهای و گیری - نتیجه7مقدمه

و شFFده ارائه پFFروژه در گرفته انجFFام کارهFFای از بنFFدیجمFFع یک فصل این در-می ارائه آینFFده کارهFFای برای پیشنهاداتی شوند. سپسمی بیان آن دستاوردهای

شوند.پروژه از حاصل - نتایج7-1 وب، سازیشخصی سیستم های مولفه ترین اصلی از یکی عنوان به کاربر مدل

شFFود، سFFاخته بهFFتری بصFFورت مFFدل این چه هر دارد. چنانچه فFFراوانی اهمیت از بود. هدف خواهد ترعمیق و تردقیق شودمی انجام آن مبنای بر که هایی توصیه از استفاده با سایتوب در کاربر مدل بهبود برای روشی یارائه پروژه این انجام

مFFدل که است مطلFFوب و است خودکFFار بصFFورت صFFفحات در موجFFود معنFFای این شFFود. بFFرای او( سFFاخته مستقیم دخالت بدون )یعنی ضمنی بصورت کاربر شFFد. روش اسFFتفادهWikipedia یعFFنی غFFنی لغFFوی معنFFایی منبع یک از امFFر،

با و خودکار بصورت سایت یدامنه مفاهیم ابتدا که است قرار این از پیشنهادی کلمFFات سFFپس و شFFوندمی اسFFتخراجWikipedia از صFFفحاتURL از اسFFتفاده

آیندمی بدستWikipedia از استفاده با کاربر توسط شده مرور صفحات کلیدی یکلمه یک وزن یمحاسبه شود. درمی ساخته کلیدی کلمات بردار هاآن روی از و

یصFFفحه روی بر کFFاربر توسط شFFده صFFرف زمFFان مFFدت بردار، این در کلیدی یمولفFFه توسط کلیFFدی کلمFFات دارد. سFFپس مسFFتقیم اثر کلمه آن با متنFFاظر از حاصل شFFوند. نتFFایجمی نگاشFFته اول یمرحلFFه از حاصل مفFFاهیم به نگاشت روش به نسبت بهتری یادآوری و دقت پیشنهادی روش که دهدمی نشان ارزیابی دارد. WordNet از استفاده نیز و کلیدی کلمات

پروژه - دستاوردهای7-2 در کFFاربر مFFدل ساخت برای جدید سیستم یک یارائه پروژه دستاورد ترینمهم

جFFامع منبع یک عنFFوان بهWikipedia از اسFFتفاده با خودکFFار بصFFورت سFFایتوباز: عبارتند پروژه دستاوردهای سایر راستا، این باشد. درمی لغوی معنایی

انتخاب و معرفی Wikipediaوان بهFFایی منبع یک عنFFوی معنFFامع لغFFدر ج در شده انجام تحقیقات کاربر: در مدلسازی و وب سازی شخصی حوزه

یک هر قFFوت و ضFFعف نقFFاط و گونFFاگون لغوی معنایی منابع نامهپایان این عنوان بهWikipedia ( و2فصل به کنید )رجوع گرفت قرار بررسی مورد اسFFتخراج یمولفFFه شFFد. در معرفی وب سازیشخصی برای جامعی منبع

رویکFFرد از اسFFتفاده با معنFFایی ارتباط سایت،وب مفاهیم از کلیدی کلمات ارتباط نگاشت، یمولفه در دیگر، سوی شد. از محاسبه متن همپوشانی

آمFFFد. نتFFFایج بدست مسFFFیر بر مبتFFFنی رویکFFFرد از اسFFFتفاده با معنFFFایی

122

Page 123: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

بFFFرای مناسFFFبی معنFFFایی منبعWikipedia که دهدمی نشFFFان آزمایشFFFاتشود.می محسوب وب سازیشخصی

تمی طراحیFFامع سیسFFرای جFFتخراج بFFدل اسFFاربر مFFایت وب در کFFبا س کلیFFدی: کلمFFات روش بهبود و خودکار بصورت معنایی روابط از استفاده کارهFFای بررسی و مطالعه حاصل نامFFه،پایFFان این در پیشFFنهادی معمFFاری در هاآن کFFردن برطFFرف در سFFعی و هاآن ایFFرادات شناسFFایی و مشFFابهاست. بوده سیستم طراحی

تخراجFFار اسFFاهیم خودکFFه مفFFایتوب با مرتبط یدامنFFتفاده با سFFاز اس سFFایتوب از دامنه مفFFاهیم اسFFتخراج ی: مولفFFه آن دایرکتFFوری سFFاختار و کندمی اسFFتخراجWikipedia از را دامنه مفاهیم یکلیه خودکار بصورت

سFFاختار که ایFFده این بکFFارگیری با مفFFاهیم، فیلFFترکردن یزیرمولفFFه در دهFFد،می قFFرار اختیار در صفحات از بندیدسته نوعی سایتوب دایرکتوری

-می واقع کنFFد. درمی اسFFتخراج را سFFایتوب به دامنه مفFFاهیم ترین مرتبط سیستم با تطبیق برایWikipedia پردازشپیش نوعی را فرایند این توان

کرد. تلقی توانمی پیشنهادیار نگاشتFFات خودکFFدی کلمFFاهیم به کلیFFه مفFFه: مولفFFبا نگاشت یدامن

به نیFFاز بFFدون را کلیدی کلماتWikipedia بندیدسته ساختار از استفاده-می نگاشت ترعمFFومی متنFFاظر مفFFاهیم یا و متناظر مفاهیم به ابهام، رفعکند.

آینده - کارهای7-3 یتعبیFFه داد انجFFام نامه پایFFان این نتFFایج از تFFوانمی بالفاصله که کارهایی از یکی هFFایتوصFFیه ارزیFFابی و گرتوصFFیه سیستم یک در روش این از آمده بدست مدل

امکان هاداده مجموعه محدودیت دلیل به نامهپایان این باشد. درمی آن از حاصلنشد. میسر کار این انجام

وWikipedia از اسFFتفاده با جFامع شFناختیواژگFان ساخت آینده کارهای دیگر از انجام زمینه این در کارهایی است. هرچند معنایی وب های تکنولوژی بکارگیری

-دامنه برای و اندبوده عمومی بسیار حاصل هایشناختی واژگان اما است، شدهنیستند. مناسب تخصصی های

کFFاربر مدلسازی یزمینه در مطرح موضوعات جدیدترین از یکی دیگر سوی از باشFFد. عالیقمی تکFFاملی هFFایپروفایFFل با داشFFتن سFFروکار وب، سازیشخصی در

خاص های برهه به بستگی یا تغییرات کند. اینمی تغییر زمان گذشت با کاربران زمFان گFذر با کFاربر طبع تغیFFیر اثر بر یا و جدیFد، سFال اوایل مانند دارد، زمانی تشFFخیص مسFFتلزم کFFاربران پروفایل در تکامل گFFرفتن نظر شFFود. درمی ایجFFاد

بصورت باید را کاربر جلسات رو این باشد. از( میconcept drift) مفهوم حرکتکنند. می تغییر زمان گذر با که گرفت نظر در هایی داده جریان

123

Page 124: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

124

Page 125: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

مراجع

بر مبتي تطبيقي سايت وب يك "طراحي اكبري، علي ]1384اکبری[ دانشگاه رحمتی، محمد دكتر راهنمایی تحت الگو"، شناسائي تكنييكهاي

.1384 اطالعات، فناوري و كامپيوتر مهندسي دانشكده كبير، امير صنعتي وب تحت سيستم يک طراحي" جعفري، اسماعيل محمد ]1384جعفری[

دانشكده بهشتي، شهيد دانشگاه "، کاربر با سازگار اطالعات بازيابي براي.1384 اطالعات، فناوري و كامپيوتر مهندسي

هستان بر مبتني كاربر كردن "مدل آبادي، مبارك بهاره ]1384آبادی مبارک[ رزازی، محمدرضا دكتر راهنمایی تحت اطالعات"، بازيابي براي شناسي اطالعات، فناوري و كامپيوتر مهندسي دانشكده كبير، امير صنعتي دانشگاه

1384. مشكل حل براي روشهايي "ارائه مسعوديفر، بهرنگ ]1385مسعوديفر [

تحت حافظه"، مبناي بر همكارانه كننده توصيه سيستمهاي در جديد كاربر كبير، امير صنعتي دانشگاه بروجردي، مطش محمدرضا دكتر راهنمایی.1385 اطالعات، فناوري و كامپيوتر مهندسي دانشكده

[Achananuparp 2007] P. Achananuparp, H. Han, O. Nasraoui and R. Johnson, “Semantically Enhanced User Modeling”, Proceedings of the 2007 ACM Symposium on Applied Computing (Seoul, Korea, March 11 - 15, 2007). SAC '07. ACM, New York, NY, 1335-1339.[Acharyya 2003] S. Acharyya and J. Ghosh, “Context-Sensitive Modeling of Web Surfing Behaviour Using Concept Trees”, Proceedings of the fifth WEBKDD Workshop, 2003.[Alesso 2006] H. P. Alesso and C. F. Smith, “Thinking on the Web”, John Wiley & Sons, 2006.[Anand 2005] S. S. Anand and B. Mobasher, “Intelligent Techniques for Web Personalization”, LNAI 3169, Springer-Verlag ,2005, 1–37.[Apache] http://httpd.apache.org/docs/2.0/logs.html[Banerjee 2003] S. Banerjee and T. Pedersen, “Extended gloss overlap as a measure of semantic relatedness”, Proceedings of IJCAI-03, 2003, 805-810.[Bergmann 1998] R. Bergmann and A. Stahl, “Similarity measures for object-oriented case representations”, Proceedings of the European Workshop on Case-Based Reasoning, 1998.[CE Website] http://ce.sharif.edu[Chang 2005] J. S. Chang, “Domain Specific Word Extraction from Hierarchical Web Documents: A First Step Toward Building Lexicon Trees from Web Corpora”, Proceedings of the Fourth SIGHAN Workshop on Chinese Language, 2005.

125

Page 126: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Cimiano 2006] P.Cimiano, “Ontology Learning and Population from Text: Algorithms, Evaluation and Applications”, Springer, 2006.[Claypool 1999] M. Claypool, A. Gokhale, T. Miranda, P. Murnikov, D. N etes, and M. Sartin. “Combining Content-based and Collaborative Filters in an Online Newspaper”, Proceedings of the ACM SIGIR ’99 Workshop on Recommender Systems: Algorithms and Evaluation, 1999.[Coffey 2001] S. Coffey, “Internet audience measurement: A practitioner's view”, journal of Interactive Advertising, 2001. [Cooley 1997] R. Cooley, B. Mobasher and J. Srivastava, “Grouping Web Page references into transactions for mining World Wide Web browsing patterns”, Technical Report TR 97-021, Department of Computer Science, University of Minnesota, 1997.[Cooley 1999] R. Cooley, B. Mobasher and J. Srivastava, “Data Preparation for Mining World Wide Web Browsing Patterns”, Knowledge and Information Systems, 1:1, 1999, 5-32.[Cruse 1986] D. A. Cruse, , “Lexical Semantics”, Cambridge University Press, 1986.[CYC] http://www.cyc.com[Daconta 2003] M. C. Daconta et.al, , “The semantic Web: A Guide to The Future of XML, Web Services, and Knowledge Management”, John Wiley & Sons, 2003.[Dai 2002] H. Dai and B. Mobasher, “Using Ontologies to Discover Domain-Level Web Usage Profiles”, Proceedings of the second Workshop on Semantic Web Mining, 2002.[Dai 2005] H. Dai and B. Mobasher, “Integrating Semantic Knowledge with Web Usage Mining for Web Personalization", Web Mining: Applications and Techniques, Idea Group Publishing, 2005, 276-306.[Davies 2006] J.Davies, R. Studer and P. Warren, “Semantic Web Technologies: Trends and Research in Ontology-based Systems”, John Wiley & Sons , 2006.[Depaul CTI data] http://maya.cs.depaul.edu/~classes/ect584/resource.html[Dmoz] http://www.dmoz.org[Dumais 1988] S. T. Dumais et.al, “Using Latent Semantic Analysis to Improve Access to Textual Information”, Proceedings of the Conference on Human Factors in Computing Systems, 1988.[Eirinaki 2003 a] M. Eirinaki and M. Vazirgiannis, “Web Mining for Web Personalization”, ACM Transactions on Internet Technology, 3:1-27, 2003.[Eirinaki 2003 b] M. Eirinaki, M. Vazirgiannis, I. Varlamis, “SEWeP: using site semantics and a taxonomy to enhance the Web personalization process”,

126

Page 127: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003.[Eirinaki 2006] M. Eirinaki, D. Mavroeidis, G. Tsatsaronis and M. Vazirgiannis, “Introducing Semantics in Web Personalization: The Role of Ontologies”, Proceedings of EWMF/KDO 2005, LNAI 4289, 2006, 147-162.[Facca 2005] F. M. Facca and P. L. Lanzi, “Mining interesting knowledge from weblogs: a survey”, Data and Knowledge Engineering, 53:3, 2005,225-241.[Fellbaum 1998] C.Fekllbaum, “WordNet, an electronic lexical database”, MIT Press, 1998.[Gabrilovich 2007] E. Gabrilovich and S. Markovitch, “computing semantic relatedness using Wikipedia-based explicit semantic analysis”, Proceedings of IJCAI, 2007, 1606-1611.[Ghaderyan Homepage] http://ceit.aut.ac.ir/~ghaderyan/Web%20Personalization.htm[Giles 2005] J. Giles, “Internet encyclopedias go head to head”, Nature, 438(7070), 2005, 900-901.[Han 2007] J. Han and M. Kamber, “Data Mining: Concepts and Techniques, Second Edition”, Morgan Kaufman Publishers, 2006.[HTML Parser] http://htmlparser.sourceforge.net/[IIS] http://www.microsoft.com/technet/prodtechnol/windowsserver2003/library/IIS/[Kearney 2005] P. Kearney and S. S. Anand, “Employing a Domain Ontology to gain insights into user behaviour”, Proceedings of the third Workshop on Intelligent Techniques for Web Personalization (ITWP 2005), 2005. [Leacock 1998] C. Leacock and M. Chodorow, “Combining local context and WordNet similarity for word sense identification”, in C.Fellbaum (Ed.), WordNet: An electronic lexical database, MIT Press, 1998, 265-283.[Li 2004] J. Li and O. R. Zaijane, “Combining usage, content, and structure data to improve web site recommendation”, 5th International Conference on Electronic Commerce and Web Technologies (EC-Web[Lieberman 1999] H. Lieberman, N. W. V. Dyke and A. S. Vivacqua, “Let's Browse : A Collaborative Web Browsing Agent”, Proceedings of the 1999 International Conference on Intelligent User Interfaces, 1999, 65-68.[Magnini 2004] B. Magnini and C. Strapparava , “User Modeling for News Web Sites with Word Sense Based Techniques”, User Modeling and User-Adapted Interaction, 2004, vol. 14, 239-257.

127

Page 128: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Malicinski 2001] A. Malicinski, S. Dominic, and T. Hartrick. “Measuring Web Traffic, part 1: Getting to know your audience is the key to online success, makes the numbers work for you”, IBM DeveloperWorks, 2001.[Middleton 2004] S. E. Middleton, N. R. Shadbolt and D. C. De Roure, “Ontological User Profiling in Recommender Systems”,ACM Transactions on Information Systems (TOIS), 2004, 22(2), 54-88.[Mihalcea 2007] R. Mihalcea and A. Csomai, “Wikify! : linking documents to encyclopedic knowledge”, Proceedings of the sixteenth ACM Conference on information and knowledge Management CIKM'07, 2007, 233-242.[Milne 2006] D. Milne, O. Medelyan and I. H. Witten, “Mining Domain-Specific Thesauri from Wikipedia: A case study”, Proceedings of the IEEE/WIC/ACM International Conference, 2006.[Minio 1996] M. Minio and C. Tasso, “User Modeling for Information Filtering on internet Services: Exploiting an Extended Version of the UMT Shell”, Proceedings of Workshop on User Modeling for Information Filtering on the World Wide Web, 1996.[Mobasher 2000 a] B. Mobasher, R. Cooley and J. Srivastava, “Automatic Personalization based on Web Usage Mining”, Communications of the ACM, 2000, vol. 43, 142-151.[Mobasher 2000 b] B. Mobasher, H. Dai, T. Luo, Y. Sun, and J. Zhu, “Combining web usage and content mining for more effective personalization”, Proceedings of the International Conference on ECommerce and Web Technologies (ECWeb), 2000.[Mobasher 2004] B. Mobasher, “Web Usage Mining and Personalization”, Practical Handbook of Internet Computing, Chapman Hall and CRC Press, 2004.[My Yahoo] http://my.yahoo.com[Nasraoui 2000] O. Nasraoui, R. Krishnapuram, H. Frigui and A. Joshi, “Extracting Web User Profiles Using Relational Competitive Fuzzy Clustering”, International Journal on Artificial Intelligence Tools, 2000, vol. 9, 509-526.[Nasraoui 2008] O. Nasraoui, M. Soliman, E. Saka, A. Badia and R. Germain, “A Web Usage Mining Framework for Mining Evolving User Profiles in Dynamic Web Sites”, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2008, vol. 20, 1041-4347.[Norguet 2006] J. P. Norguet, “Semantic Analysis in Web Usage Mining”, PhD thesis, University of Bruxell, 2006.[Oberle 2003] D. Obrele, B. Berendt, A. Hotho and J. Gonzalez, “Conceptual User Tracking”, Proceedings of the first Atlantic Web Intelligence Conference (AWIC) ,2003.

128

Page 129: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[OpenCYC] http://opencyc.org[Opennlp] http://opennlp.sourceforge.net/projects.html[Perkowitz data] http://www.cs.washington.edu/research/adaptive/[Pierrakos 2003] D. Pierrakos, G. Paliouras, C. Papatheodorou and C. D. Spyropoulos, “Web Usage Mining as a Tool for Personalization: A Survey”, User Modeling and User-Adapted Interaction, 13: 311-372, 2003.[Pierrakos 2003] D. Pierrakos, G. Paliouras, C. Papatheodorou and C. D. Spyropoulos, “Web Usage Mining as a Tool for Personalization: A Survey”, User Modeling and User-Adapted Interaction, 13: 311-372, 2003.[Porter 1980] M. F. Porter, “An algorithm for suffix stripping”, program-automated library and information systems, 1980, 14(3), 130-137.[Rada 1989] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and application of a metric to semantic nets”, IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(1), 17-30.[Resnic 1995] P. Resnic, “Using Information content to evaluate semantic similarity in a taxonomy”, Proceedings of IJCAI-95, 1995, vol. 1, 448-453.[Seco 2004] N. Seco, T. Veale, J. Hayes, “An Intrinsic Information Content Metric for Semantic Similarity in WordNet”, Proceedings of ECAI 2004, the 16th European Conference on Artificial Intelligence, 2004, pp. 1089- 1090.[Sieg 2004] A. Sieg, B. Mobasher and R. Burke, “Inferring User's Information Context: Integrating User Profiles and Concept Hierarchies”, presented at the 2004 Meeting of the International Federation of Classification Societies, 2004.[Spiliopoulou 1999] M. Spiliopoulou, L. C. Faulstich and K. Wilker, “A Data Miner Analyzing the Navigational Behavior of Users”, Proceedings of the Workshop on Machine Learning in User Modeling of the ACAI99, Chania, Greece, 1999, 54-64.[Spiliopoulou 1999] M. Spiliopoulou, L. C. Faulstich and K. Wilker, “A Data Miner Analyzing the Navigational Behavior of Users”, Proceedings of the Workshop on Machine Learning in User Modeling of the ACAI99, Chania, Greece, 1999, 54-64.[Strube 2006] M. Strube and S. P. Ponzetto, “Wikirelate! computing semantic relatedness using Wikipedia”, Proceedings of the Twenty-First National Conference on Artificial Intelligence, 2006.[Tan 2002] P. N. Tan and V. Kumar, “Discovery of Web Robot Sessions Based on their Navigational Patterns”, Data Mining and Knowledge Discovery, 6:1, 2002, 9-35.[Tanasa 2005] Doru Tanasa, “Web Usage Mining:Contributions to Intersites Logs Preprocessing and Sequential Pattern Extraction with Low Support”, PhD thesis, University of Sophia Antipolis, 2005

129

Page 130: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

[Wikipedia] http://en.wikipedia.org[WordNetSimilarity] http://www.d.umn.edu/~tpederse/similarity.html[Wu 1994] Z. Wu and M. Palmer, “Verb semantics and lexical selection”, Proceedings of ACL-94, 1994, 133-138.[YahooDir] http://dir.yahoo.com[Yatez 1999] R. B. Yatez and B. R. Neto, “Modern Information Retrieval”, Addison Wesley, New York, 1999.[Zesch 2008] T. Zesch, C. Muller and I. Gurevych, “Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary”, Proceedings of the Conference on Language Resources and Evaluation (LREC), 2008.[Zhang 2005] Y. Zhang, G. Xu and X. Zhou, “A Latent Usage Approach for Clustering Web Transaction and Building User Profile”, Proceedings of ADMA 2005, LNAI 3584, 2005, 31-42.2004), 2004.

130

Page 131: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

نامه واژه

Aggregation اجتماعSocial اجتماعیConceptualization ادراکRelation ارتباطBackward reference عقب به ارجاعReferrer دهنده ارجاعThreshold آستانهConfidence اطمینانItems اقالمData Preparation داده سازی آمادهUser tutoring کاربر آموزشTransition انتقالIndexing گذاریانديسData Types ایداده انواعStop ایستLoad بارInformation retrieval اطالعات بازيابیE-banking الکترونیکی بانکداریPart of Speech گفتاربخشStateless حالت بدونUnsupervised ناظر بدونOnline برخطVector بردارInverted vector وارون بردارOffline خطی برونDownward closure پایین به رو بستاریReal-time بالدرنگMemorization سپاری خاطر بهInter-page صفحات بینResponse پاسخData Cleaning ها داده پاکسازیDatabase داده پایگاهSparse پراکندهNatural Language Processing طبیعی زبان پردازشProcess پردازهQuery پرسش

131

Page 132: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Aggregated Profile تجمعی پروفایلEvolving profile تکاملی پروفایلSupport پشتیبانیTask performance support وظیفه اجرای پشتیبانیContext Window موضوعی یپنجرهCoverage پوششDynamic پویاPrefetching واکشیپیشErrand رسانی پیغامSingle-pixel واحد پیکسلBusiness تجارتE-commerce الکترونیکی تجارتParse تجزیهLatent Semantic Indexing پنهان معنایی تحلیلCorrelation Analysis همبستگی تحلیلTransaction تراکنشPreferences ترجیحاتCustomization تطبیقTerm Frequency عبارت تکرار تعدادConcept Drift مفهوم تغییرPath completion مسیر تکمیلTag تگTrend تمایلCurrent focus of attention جاری توجه تمرکزDescription توصیفCharacterization صفات توصیفRecommendation توصیهGloss توضیحComments توضیحاتLog ثبتAlternative جایگزینSession جلسهSessionization بندیجلسهCollaborative جمعیTrend گیری جهتFramework چارچوبMaximal forward reference جلو به ارجاع حداکثرAccess rights دسترسی حقوقRaw خام

132

Page 133: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Crash خرابCrawler خزشگرPrivacy بودن خصوصیUser salutation کاربر به خوشامدگوییClustering بندی خوشهIntra-page صفحات داخلDomain دامنهBackground knowledge ایزمینهپیش دانشDomain Knowledge دامنه دانشRequest درخواستCapture دریافتCategory دستهEpisode دورهSpecification خصوصیات ذکرRelevance ربطRating بندی رتبهSubsumption بندی ردهTaxonomy بندیردهTracking ردیابیWord Domain Disambiguation کلمه یدامنه ابهام رفعProcedure روالMarkov chain مارکف یزنجیرهSubclass زیرکالسRecord سابقهBrowsing history مرور یسابقهLink structure ارتباطی ساختارAdaptation کردن سازگارPopulate کردن ساکنApplication Server کاربردی خدمات سرورHierarchy مراتب سلسلهSimilarity شباهتWeb personalization وب سازیشخصیSchema شماExplicit صریحHomepage اصلی یصفحهHybrid page ترکیبی یصفحهAuxiliary page دلخواه یصفحهTarget page هدف یصفحهImplicit ضمنی

133

Page 134: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Reference length ارجاع طولTerm عبارتInterest عالقهFunction عملکردConcatenation Operator اتصال عملگرThesaurus جامع فرهنگContent only محتوایی فقطSignificance filtering ارزشی فیلترکردنFiltering فیلترکنندهPortable حمل قابلConnectivity اتصال قابلیتApplication Template کاربردی قالبEffectiveness کاراییActive user جاری کاربرAssociation Rule Mining انجمنی قواعد کاوشPacket sniffing بسته کشیدنKeyword کلیدی کلمهForeign key خارجی کلیدCookie کوکیInformation overload اطالعات شدن گرانبارNavigation گردشScalability پذیری گسترشPattern الگوSequential Patterns ترتیبی الگوهایMission ماموریتMission-critical بحرانی ماموریتMetadata متادادهItemset اقالم مجموعهFrequent Itemset مکرر اقالم مجموعهData Set داده مجموعهContent محتواInformation Content اطالعات محتوایData warehouse ها داده مخزنUser model کاربر مدلSelective Markov model انتخابی مارکف مدلCivil مدنیKnowledge Management دانش مدیریتNegotiation مذاکرهPage view صفحه مشاهده

134

Page 135: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Client مشتریLoyal customer جایبرپا مشتریDomain specification دامنه مشخصاتCharacteristics مشخصهNew item problem جدید قلم مشکلSemantic معناییSemantic Relatedness Measure معنایی ارتباط معیارConcept مفهومFeatured Article برجسته یمقالهHeuristics ایمکاشفهLexical Semantic Resource لغوی معنایی منبعOntology Engineering شناختی واژگان مهندسیRecommendation Engine توصیه موتورSearch engine جستجو موتورEntity موجودیتNamed entity نامدار موجودیتPromiscuous mode بیقاعده مودSyntax نحوBookmarking کردن نشانSite map سایت ینقشهInstance نمونهRequirement نیازمندیContiguous همجوارCo-occurrence رخدادیهمGlobal Synchronization سراسری همزمانیNeighborhood همسایگیInverse Document Frequency سند تکرار تعداد وارونOntology شناختی واژگانWeb mining کاوی وبWeb usage mining وب کاربرد کاوی وبSemantic Web معنایی وبLogin ورودAttribute ویژگیRecall یادآوریSupervised Learning ناظر با یادگیریE-learning وب تحت یادگیریIntegration سازی یکپارچه

135

Page 136: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

Abstract

Information overload is a major problem in the current World Wide Web. To tackle this problem, web personalization systems have been proposed that adapt the contents and services of a website to individual users according to their interests and navigational behaviors. A major component in any web personalization system is its user model. The content of the pages in a website can be utilized in order to create a more precise user model, but keyword based approaches lack a deep insight of the website. Recently a number of researches have been done to incorporate semantics of a website in representation of its users. All of these efforts use either a specific manually constructed taxonomy or ontology or a general purpose one like WordNet to map page views into semantic elements. However, building a hierarchy of concepts manually is time consuming and expensive. On the other hand, general purpose resources suffer from low coverage of domain specific terms. In this thesis we intend to address both these shortcomings. Our main contribution is that we introduce a mechanism to automatically improve the representation of the user in the website using a comprehensive lexical semantic resource. We utilize Wikipedia, the largest encyclopedia to date, as a rich lexical resource to enhance the automatic construction of vector model representation of user interests. The proposed architecture consists of a number of components namely basic log preprocessing, website domain concept extraction, website keyword extraction, keyword vector builder and keyword to concept mapping. Another important contribution is using the structure of the website to automatically narrow down domain specific concepts. Finally the last contribution is a new keyword to concept mapping method. Our evaluations show that the proposed method along with its comprehensive lexical resource represents users more effectively than keyword based approaches and WordNet based approaches.

Keywords:User Modeling, Wikipedia Mining,Semantic Techniques, Web Personalization

136

Page 137: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

AmirKabir University of Technology

Department of Computer Engineeringand Information Technology

Msc Thesis

Improving Website User Model Automatically UsingSemantics with Domain Specific Concepts

AuthorMeysam Ghaderyan

Advisor

Dr. Ahmad Abdollahzadeh Barfouroush

2008

137

Page 138: ceit.aut.ac.irceit.aut.ac.ir/~ghaderyan/thesis-site/thesis document... · Web viewمعماری ارائه شده شامل تعدادی مولفه است که عبارتند از:

138