گزارش سمینار کارشناسی ارشد کاوشگر های وب معنایی

گزارش سمینار کارشناسی ارشد

کاوشگر های وب معنایی

ریحانه امامدادیاستاد راهنما: جناب دکتر کاهانی

1391پاییز

کاوشگر وب•

وب معنایی•

چالش های کاوشگر های سنتی برای وب معنایی•

کاوشگر های وب معنایی•

کاوشگر های متمرکز برای وب معنایی•

نتیجه گیری•

فهرست مطالب

2

برنام0ه ای اس0ت ک0ه ب0ه ص0ورت خودک0ار، •

وب را از طری0ق دانل0ود ک0ردن ص0فحات

و دنب0ال ک0ردن پیون0د ه0ا، از ص0فحه ای ب0ه

صفحه ای دیگر، پیمایش می کند.

جمع آوری داده•

ایج0اد • ب0رای نی0از م0ورد مولف0ه اولین

شاخص گذاری و بازیابی اسناد وب

•crawler، spider، robot... ،

[Mae2006]چرخه کاوش

کاوشگر وب

3

)سیاست انتخاب صفحه(چه صفحاتی باید دانلود شوند؟ •

محبوبیت محور–

عالقه محور–

)سیاست به روز رسانی(چگونه صفحات باید به روز شوند؟ •

بررسی به روز بودن صفحه–

اولویت به روز رسانی–

چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ •

(politeness)سیاست

robot.txtمجوز کاوش سایت: فایل –

رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت –

)سیاست موازی سازی( چگونه باید فرآیند کاوش را موازی کرد؟ •

یک صفحه یکسان چندین بار توسط کاوشگر های مختلف کاوش نشود. –

رفتار کاوشگر

4

وب معنایی

5

•rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs ، owl:import

می rdf. که اشاره به یک سند با پسوند htmlپیوند های موجود در اسناد •

کنند.

T-Box و A-Boxدنبال کردن پیوند های •

(subject, predicate, object)استدالل بر روی سه گانه ها –

–T-Box)کالس ها و خصیصه ها )شمای یک سند :

•URI هرpredicate

•URI مربوط به هرobejct در سه گانه مورد نظر، ، در صورتی کهpredicate آن از نوع

type ..باشد

–A-Box نمونه های تعریف شده :

•URI مربوط به هر Subject و یا Object

روش ها ی پیوند اسناد در وب معنایی

6

حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به •

کاوش جامع و کامل وب

عدم اتصال کافی بین منابع•

تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد•

شیوه متفاوت پیوند بین منابع•

به روز رسانی اسناد•

چالش های کاوشگر های سنتی برای وب معنایی

7

کاوشگر های وب معنایی

8

کاوش وب معنایی

9

های اولیه URIجمع آوری •

توسط کاربر URIوارد کردن –

استفاده از خروجی موتور های جستجو و بعضی از سایت ها–

فیلتر های معنایی•

جلوگیری از واکشی و ذخیره داده های غیر معنایی–انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند –

URI نوع رسانه/محتوا -

رسرهای معناییپا•

–Jena - Any23 – NxParser

استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها–

(subject, predicate, object, context)چهارگانه = –

کاوش وب معنایی

10

[Din2005]روش کاوش کران دار •

اس0ت – ممکن معن0ایی س0ند ی0ک اط0راف در

اس0ناد معن0ایی دیگ0ری ن0یز وج0ود داش0ته باشد.

کاوش تمام صفحات متعلق به یک سایت–

یافتن منابع منزوی–

کشف اسناد معنایی بیشتر–

روش های کاوش

روش اول-سطح•

کاوش زودتر صفحات مرتبط –

تنوع بیشتر در دیتاست های کاوش شده–

روش اول-عمق•

مسیر های عمیق تر در داخل یک سایت–

11

صف های کاوش

• Top-Level Domain (TLD)–.com , .net , .uk –cc-TLD : co.uk , edu.au

• Pay level domain (PLD)– amazon.com , det.wa.edu.au

مزایای صف های مبتنی بر دامنه •

[Lee2008]

کنترل کردن سایت ها با حجم باال–

رعایت عدالت میان دامنه ها–

جلوگیری از تاثیر سایت های اسپم–12

صف های کاوش

13

[Hog2011]نسبت مفید اعتبار

14

• BioCrawler یک کاوشگر هوشمند :

مجموعه ای از کاوشگر ها با ویژگی های زیر:•قابلیت حرکت - بردار دید - قابلیت ارتباط - مدل دانش - انرژی–

هدف•(RDFیا OWLافزایش انرژی = کاوش بیشتر سایت های معنایی ) –

الگوریتم پایه: کاوش اول-عمق•

مدل دانش: مجموعه قوانین •

–IF < vision_vector > THEN < select_domain>

امکان تبادل قوانین میان کاوشگر ها•

[Bat 2012]روش مبتنی بر یادگیری

15

- PLDرعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه )•

سایت(

های کاوش شده به ازای هر دامنه URI تعیین حداکثر تعداد•

در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده•

هاPLDمشکل قحطی •

[Hog2011]فعال به تعداد کافی PLDعدم داشتن –

دالیل–

واکشی سایت ها با فاکتور انشعاب داخلی باال•

عدم اتصال خوب اسناد در وب معنایی•

راه حل –

بازگشت از دور•

Politenessسیاست های

16

بازه به روز رسانی•

بر حسب تقاضا–

خودکار–

بررسی به روز بودن•

صفحه HTTP( در هدر last-modified-sinceبررسی فیلد )–

هش محتوای صفحه–

"Pingthesemanticweb.com" استفاده از سرویس –

استفاده از نقشه سایت–

اولویت به روز رسانی•

میزان غنی بودن دامنه از نظر معنایی–

اولویت باال برای کاربر–

به روز رسانی داده ها

17

مدل های طراحی

18

چارچوب توزیع شده •

افزایش مقیاس پذیری–

Master-Slave [Hog2011]مدل –

ها Slaveبین Masterتوسط seedهای URIپراکنده کردن •

ها Slaveاجرای یک دور از فرآیند کاوش توسط •

ها بین یکدیگر در پایان هر دور Slaveها توسط URIپراکنده کردن •

[Har2006]مدل خط لوله •

جدا کردن مولفه واکشی از مولفه پردازش–

اجرای هر یک از مولفه های کاوش به صورت چند نخی–

افزایش مقیاس پذیری و توان عملیاتی–

مدل های طراحی

19

جدا کردن مولفه واکشی )کنترل کننده-کارگر( از مولفه پردازش )تولید •کننده-مصرف کننده(

SLUGمعماري کاوشگر

20

مدل ترکیبی کنترل کننده-کارگر [Dod2006]و تولید کننده-مصرف کننده

BioCralwer

[Bat2012]

LDSpider

[Ise2010]

Slug

[Dod2006]

Watson

[Sab2007]

Falcons

[Che2009]

Swoogle

[Han2006]

Sindice

[Cyg2011]

SWSE

[Hog2011]

نام کاوشگر

موتور جستجوWebOWL

عمومیعمومیموتور جستجوWatson

موتور

جستجو Falcons

موتور جستجوSwoogle

موتور جستجوSindice

موتور جستجوSWSE

محیط اجرایی

RDF/XML

RDF/XML

Turtle

RDFa

Notation3

میکرو فرمت ها

RDF/XMLRDF/XMLRDF/XML

HTML محدودRDF/XML

N-Triples

N3

RDF/XML

Turtle

N-Triples

RDFa

Notation3

RSS1.0

میکروفرمتها

RDF/XMLورودی

ObjectRDF/XML

N-QUADSN-TripleN-TripleQuadN-Triple

N-Triple بههمراه

شناسه های subject، dataset و

URLسند

Quadخروجی

اول-عمقاول-سطح

اول-عمقاول-سطحاول-سطحکران دار---

روش کاوش

مبتنی بر --PLDمبتنی بر مبتنی بر دامنهPLD

PLDمبتنی برمبتنی بر سایت-صف های

کاوش

معنایی بودن دامنه مبتنی

بریادگیری

های URIتعداد موجود در

PLDصف ----

اولویت باال برای کاربر

تعداد پیوند های

URIورودی

نسبت مفید اعتبار

معیار اولویت

21

BioCralwer

[Bat2012]

LDSpider

[Ise2010]

Slug

[Dod2006]

Watson

[Sab2007]

Falcons

[Che2009]

Swoogle

[Han2006]

Sindice

[Cyg2011]

SWSE

[Hog2011]

نام کاوشگر

جنا

RdfXml

Nx

Any23

پارسرجناAny23جناجناجناجنا

db4oفایل

RDFSore

پایگاه داده رابطه ای

mysqlmysqlmysqlHbaseyars2نوع مخزن

---

Swoogle

کتابخانه Protege

کاربر

Swoogle

گوگل

PSW

کاربر

گوگل

کاربر

PSW

کاربر

( URI و نقشهسایت(

-جمع آوری

URI های اولیه

عامل های هوشمند

(JADE )

توزیع شده

-

مشتری-مصرف کننده

کنترل کننده-کارگر

---خط لوله

توزیع شده

خط لوله

توزیع شدهمدل

طراحی

مبتنی بر یادگیری

کد باز

طراحی دو لغت نامه

برای ثبت فعالیت های کاوش و فراداده ها

کد باز

استفاده از کاوشگر های آرشیو اینترنت

-ایجاد آرشیو

وب معنایی

پشتیبانی از

نقشه سایت Ping APIمعنایی

-ویژگی

خاص

یونان

ایرلند

موسسه تحقیقاتی

DERI

-انگلیس

KMموسسه

چین

گروه تحقیقاتی

Websoft

گروه eBiquity در

UMBC

ایرلند

موسسه DERIتحقیقاتی

ایرلند

موسسه DERIتحقیقاتی

کشور/ موسسه

22

دالیل•

رشد روز افزون و تغییر سریع محتوای وب–

نیاز به اسناد با کیفیت و ارتباط باال–

به روز رسانی صفحات بر اساس محبوبیت نه ارتباط–

محدود کردن مرزهای کاوش و تمرکز بر روی نقاط مرتبط با •

موضوع

مزایا•

حفظ قابل توجه منابع سخت افزاری و شبکه –

حجم کمتر، به روز رسانی و نگهداری آسان تر شاخص–

23

کاوش متمرکز

محاسبه فرکانس ترم ها در اسناد•امتیاز دادن به روابط در آنتالوژی•نگاشت بین آنتالوژی موضوع و آنتالوژی سند•س0اختار • اس0اس ب0ر س0ند ترم ه0ای بین فاص0له محاس0به

آنتالوژی

انتخاب موضوع از روی سلسله مراتب •موضوعی

پرس جوی کلمه کلیدی•دادن آنتالوژی نمونه•دادن اسناد هدف•

سلسله مراتب موضوعی با مجموعه ای از •اسناد نمونه

آنتالوژی•ایجاد گراف زمینه برای اسناد هدف•

24

مراحل کاوش متمرکز

25

محاسبه ارتباط در کاوش متمرکز

26

کاوشگر های متمرکز

چالش ها•

تعریف یک هدف کاوش رضایت بخش1.

یک سند مرتبط ممکن است به یک سند نامرتبط پیوند دهد2.

یک سند نامرتبط ممکن است به یک سند مرتبط پیوند دهد 3.

شناسایی نقاطی که به تعداد زیادی اسناد مرتبط پیوند می دهند4.

معیار های ارزیابی•(harvestمیانگین تعداد اسناد مرتبط )1.

تعداد اسناد مرتبط / تعداد کل اسناد بازیابی شده1.میانگین ارتباط اسناد 2.

توانایی کاوشگر برای حفظ تمرکز بر روی اسناد مرتبط1.

مجموع ارتباط اسناد / تعداد کل اسناد بازایابی شده2.27

کاوشگر های متمرکز

[Mae2008][Yuv2006][Ehr2003][Dil2000][Cha1999]کاوشگر

HTML - RDFHTMLHTML - RDFHTMLHTMLفرمت داده

نوع کاوشگرکالسیکیادگیرندهمعناییمعناییمعنایی

آنتالوژیمخزنی از آنتالوژی ها

آنتالوژیایجاد گراف زمینه برای اسناد هدف

استفاده از سلسله مراتب موضوعی

مدل کردن موضوعات

دادن آنتالوژی نمونه

پرس جوی کلمه کلیدی و انتخاب آنتالوژی مرتبط

تر

تعیین اسناد هدفدادن آنتالوژی نمونهانتخاب موضوعات از روی

طبقه بندی موضوعی

تعیین موضوعات مورد عالقه

نوع تشابهمتنی - محتوامتنی – محتوامعنایی – محتوامعنایی – فراپیوندمعنایی-محتوا

RDF نگاشت بین :آنتالوژی هاHTML: TF-IDF

امتیاز بندی روابط در آنتالوژی

فاصله بین ترم ها بر اساس آنتالوژی

TF-IDFدسته بند / احتمال وقوع یک ترم

موضوع در میان ترم های سند / دسته بند

روش محاسبه ارتباط

RDF مجموع ضرایب :تشابه بدست آمده از

فرآیند نگاشتHTML ضرب ضرایب :

TF-IDF

میانگین امتیاز های روابط آنتالوژی

بین ترم های پرس جو و

ترم های فراپیوند

مجموع امتیاز های بدست آمده به ازای

هر ترم

انتخاب دسته با بیشترین میزان

ارتباط

انتخاب دسته با بیشترین میزان ارتباط

معیار ارتباط

نگهداری المان های نگاشت توسط

سیستم-

بهبود آنتالوژی توسط کاربر

بهبود گراف زمینه توسط سیستم

بهبود مدل موضوع توسط کاربر

شناسایی هاب ها توسط سیستم

ارتقای عملکرد

چالش ها2/3/43/42/3/41/2/41/2/3

harvest باالتر نسبت به یک کاوشگر متمرکز مبتنی بر کلمه کلیدی

فراخوانی باالتر نسبت به شاخص گذاری تمام متن

harvest باالتر نسبت به کاوشگر های اول

سطح و متمرکز مبتنی بر کلمه

کلیدی

harvest و میانگین ارتباط باالتر

نسبت به کاوشگر اول سطح و

متمرکز کالسیک

کاوش صفحات مرتبط به صورت پیوسته، و مقاوم به

URLانحراف در مجموعه اولیه، نسبت به کاوشگر

اول سطح

نتایج ارزیابی

28

کاوش هر چه بیشتر اسناد معنایی•

اجتناب از بازیابی اسناد غیر معنایی•

صرفه جویی در مصرف منابع محاسباتی و –

شبکه

کم تر شدن حجم شاخص–

پشتیبانی از انواع داده ها ی معنایی •

استخراج فراداده های معنایی از اسناد غیر –

معنایی

جدا کردن مولفه تبدیل از مولفه واکشی–

کاوش اول-سطح مبتنی بر دامنه•

کاهش سربار ناشی از کاوش بر روی –

دامنه ها

ها PLDقطحی –29

نتیجه گیری

عدم اتصال خوب اسناد در وب •

معنایی

کشف منابع اولیه اسناد معنایی–

کاوش کران دار–

انتخاب و به روز رسانی منابع •

معنایی تر

نسبت مفید اعتبار–

استفاده از روش های مبتنی بر –

یادگیری

استفاده از روش های کاوش متمرکز–

توزیع شدگی•

توزیع بار بر اساس میزان معنایی –

ها URIبودن

[Bat2012] A. Batzios, P. A. Mitkas, “WebOWL: A Semantic Web search engine development experiment.” Journal of Expert Systems with Applications, vol. 39, pp. 5052–5060, 2012.

[Kum2012] R. K. Rana, N. Tyagi, “A Novel Architecture of Ontology-based Semantic Web Crawler.” International Journal of Computer Applications, vol. 44, Apr. 2012.

[Hog2011] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the SemanticWeb Search Engine.” Journal web semantics, vol. 9, pp. 365-401, 2011.

[Cyg2011] R. Cyganiak, D1.1 Deployment of Crawler and Indexer Module, Linking Open Data Around The Clock (LATC) Project, 2011.

[Jal2011] O. Jaliian, H. Khotanlou, “A New fuzzy-Based Method to Weigh the Related Concepts in Semantic Focused Web Crawlers,” IEEE Conference, 2011.

[Dhe2011] S. S. Dhenakaran, K. T. Sambanthan, “WEB CRAWLER - AN OVERVIEW.” International Journal of Computer Science and Communication, vol. 2, pp. 265-267, Jun 2011.

[Ise2010] R. Isele, J. Umbrich, C. Bizer, A. Harth, “LDSpider: An open-source crawling framework for the Web of Linked Data,” In Poster. ISWC2010, Shanghai, Chinam, 2010.

[Del2010] R. Delbru, “Searching Web Data: an Entity Retrieval Model.” Ph.D thesis, at Digital Enterprise Research Institute, National University of Ireland, Sep. 2010.

30

مراجع

[Che2009] G. Cheng, Y. Qu, “Searching Linked Objects with Falcons: Approach, Implementation and Evaluation.” International Journal on Semantic Web and Information Systems, vol. 5, pp. 50-71, Sep. 2009.

[Ore2008] E. Oren, R. Delbru, M. Catasta, R. Cyganiak, H. Stenzhorn, G. Tummarello, “Sindice.com: A document-oriented lookup index for open linked data.” International Journal Metadata Semant and Ontologies, vol. 3, pp. 37-52, 2008.

[Umb2008] J. Umbrich, A. Harth, A. Hogan, S. Decker, “Four heuristics to guide structured content crawling,” in Proc. of the 2008 Eighth International Conference on Web Engineering-Volume 00, IEEE Computer Society, Jul. 2008, pp.196-202.

[Cyg2008] R. Cyganiak, H. Stenzhorn, R.Delbru, S. Decker, G. Tummarello, “Semantic Sitemaps: Efficient and Flexible Access to Datasets on the Semantic Web,” in Proc. of the 5th European semantic web conference on The semantic web: research and applications, 2008, pp. 690-704.

[Lee2008] H. T. Lee, D. Leonard, X. Wang, D. Loguinov, “Irlbot: scaling to 6 billion pages and beyond .” in Proc. of the 17th international conference on World Wide Web, 2008, pp. 427-436.

[Don2008] H. Dong, F. K. Hussain, E. Chang, “State of the art in metadata abstraction crawlers,” IEEE International Conference on Industrial Technology, Chengdu, 2008.

31

مراجع

[Sab2007] M. Sabou, C. Baldassarre, L. Gridinoc, S. Angeletou, E. Motta, M. d'Aquin, M. Dzbor, “WATSON: A Gateway for the Semantic Web,” in ESWC poster session, 2007.

[Bat2007] A. Batzios, C. Dimou, A. L. Symeonidis, P. A. Mitkas, “BioCrawler: An intelligent crawler for the Semantic Web.” Journal of Expert Systems with Applications, vol. 35, pp. 524-530, 2007.

[Dod2006] L. Dodds, Slug: A Semantic Web Crawler, 2006.

[Han2006] L. Han, L. Ding, R. Pan, T. Finin, Swoogle's Metadata about the Semantic Web, 2006.

[Har2006] A. Harth, J. Umbrich, S. Decker, “Multicrawler: A pipelined architecture for crawling and indexing semantic web data,” In 5th International Semantic Web Conference, 2006, pp. 258–271.

[Mae2006] F. V. D. Maele. “Ontology-based Crawler for the Semantic.” M.A. thesis, Department of Applied Computer Science, Brussel, 2006.

[Yuv2006] M. Yuvarani, N. Ch. S. N. Iyengar, A. Kannan, “LSCrawler: A Framework for an Enhanced Focused Web Crawler based on Link Semantics,” in Proc. of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, 2006.

[Din2005] L. Ding, T. Finin, A. Joshi, R. Pan, P. Reddivari, “Search on the semantic web.” Journal IEEE Computer, vol. 10, pp. 62-69, Oct. 2005.

32

مراجع

[Din2004] T. Finin, Y. Peng, R. S. Cost, J. Sachs, R. Pan, A. Joshi, P. Reddivari, R. Pan, V. Doshi, L. Ding,“Swoogle: A Search and Metadata Engine for the Semantic Web,” in Proc. of the Thirteenth ACM Conference on Information and Knowledge Management, 2004.

[Ehr2003] M. Ehrig, A. Maedche, “Ontology-focused crawling of Web documents,” in Proc. of the 2003 ACM Symposium on Applied Computing, 2003, pp. 1174-1178.

[Ara2001] A. Arasu, J. Cho, H. G. Molina, A. Paepcke, S. Raghavan, “Searching the Web.” ACM Transactions on Internet Technology, vol. 1, pp. 2–43, Aug. 2001.

[Ber2001] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web.” Journal of Scientific American, vol. 284, pp.35-43, May 2001.

[Dil2000] M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles, M. Gori, “Focused crawling using context graphs,” in Proc. of 26th International Conference on Very Large Databases, 2000, pp. 527–534.

[Cha1999] S. Chakrabarti, M. V. D. Berg, B. Dom, “Focused crawling: a new approach to topic-specific web resource discovery.” Journal of Computer Networks, vol. 31, pp. 1623-1640, 1999.

[Kle1998] J. Kleinberg, “Authoritative sources in a hyperlinked environment,” in Proc. ACM-SIAM Symposium on Discrete Algorithms, 1998.

33

مراجع

با تشکر از توجه شما•

34

گزارش سمینار کارشناسی ارشد کاوشگر های وب معنایی

Documents