آليات التكشيف على الويب وأدواته

75
ه ت دوا وا ب ي و ل ى ا عل ف ي ش ك ت ل ا ات ت ل ا ور ت ك الد ور ت ك الد ح ل ى صا س ي ع ماد ع ح ل ى صا س ي ع ماد ع, ارك ش م ل ا ومات ل ع م ل م ا عل اد ت س ا, ارك ش م ل ا ومات ل ع م ل م ا عل اد ت س ا ه ودت ع س ل ، ا ز ي ز لع دا ت ع, ك ل م ل ا عه م ا ج ه ودت ع س ل ، ا ز ي ز لع دا ت ع, ك ل م ل ا عه م ا ج

Upload: emad-saleh

Post on 17-May-2015

2.165 views

Category:

Technology


4 download

DESCRIPTION

محاضرة ألقيت في ندوة الأدوات الحديثة لفهرسة وتكشيف مصادر المعلومات في البيئة الرقمية والتي أقامها المعهد العالي للتوثيق بالتعاون مع الاتحاد العربي للمكتبات والمعلومات (اعلم)، تونس، ابريل 2013

TRANSCRIPT

Page 1: آليات التكشيف على الويب وأدواته

آليات التكشيف على الويب وأدواتهالدكتورالدكتورصالح عيسى صالح عماد عيسى عماد

أستاذ علم المعلومات أستاذ علم المعلومات المشاركالمشارك

جامعة الملك عبدالعزيز، جامعة الملك عبدالعزيز، السعوديةالسعودية

Page 2: آليات التكشيف على الويب وأدواته

ومصطلحات مفاهيم

Page 3: آليات التكشيف على الويب وأدواته

ومصطلحات مفاهيم الكشافIndex:

الكشاف بمعناه العام هو ما يكشف عما هو مغمور أو مجهول فيوسط معين.

.هنري دليل أو مؤشر إلى موقع المعلومات التي نبحث عنها(

هويتلي(

دليل منظم يرشد إلى ما يمكن البحث عنه أو استرجاعه، منمفردات أو حقائق أو معلومات أو نصوص أو وثائق، أو بدائل

)حشمت قاسم(النصوص والوثائق.

:تتلخص وظائف الكشاف في ،التحقق من المعلومات التي يمكن أن تكون متصلة بموضوع ما

وتحديد موقعها في الوثيقة و/أو الوثائق المكشفة.

،استبعاد الحاالت التي يرد فيها ذكر الموضوعات على نحو عابروال تقدم شيئا يذكر للمستفيد.

،تحليل المفاهيم أو االفكار للخروج بمداخل كشفية مالئمةإعتمادا على المصطلحات الدالة عليها.

Page 4: آليات التكشيف على الويب وأدواته

ومصطلحات (مفاهيم تابع)

:)وظائف الكشاف )تابع.بيان ما بين الموضوعات من عالقات

توجيه المستفيدين المستفيدين للمصطلحات الكشفيةالمستخدمة بديال عن المصطلحات التي يبحثون بها.

توجيه المستفيدين نحو موضوعات يمكن البحث عنهاأيضا وتتصل بالموضوع.

لغة التكشيفIndexing Language مجموعة الرموز أو المصطلحات أو المفردات التي تشكل

اللغة المستهدفة التي تترجم إليها المفاهيم الدالة على المحتوى الموضوعي للوثيقة/الوثائق، بمعنى أنها تمثل

المداخل الموضوعية السترجاع الوثيقة

لغة التكشيف أيا كان شكلها ونوعها هي االساس فينظام المضاهاة واالسترجاع الموضوعي لوثائق.

Page 5: آليات التكشيف على الويب وأدواته

ومصطلحات (مفاهيم تابع)

:هناك نوعين من التكشيف في نظم االسترجاع:التكشيف بالتعيين:التكشيف بالتعيين

يعتمد على الجهد الفكري للمكشف في تحديد عناصرالمحتوى الموضوعي للوثيقة ثم اختيار المصطلحات أو

الرموز الكشفية الدالة عليها،

،يعتمد في االساس على لغة مقيدة )مكنز، خطة تصنيفقائمة رءوس موضوعات(

:التكشيف االشتقاقي أو باالشتقاق:التكشيف االشتقاقي أو باالشتقاق وفيه تقتبس أو تشتق جميع المصطلحات أو الواصفات

الموضوعية من الوثيقة أو الوثائق المكشفة، فهو يعتمد في االساس على اللغة الطبيعية

Page 6: آليات التكشيف على الويب وأدواته

الموضوعي التحليل خطواتتحليل المفاهيم أو تحليل محتوى مصدر ،الخطوة األولى

المعلومات: تهتم بفحص وتصفح مصدر المعلومات بهدف تحديد المفاهيم

مصدر.الواألفكار التي يتناولها ترجمة أو التعبير عن ناتج التحليل:، الخطوة الثانية

تهتم بالتعبير عن ناتج تحليل المفاهيم باستخدام مجموعة من نقاط ، رموز،الوصول الموضوعية أو مؤشرات المحتوى )مصطلحات

عبارات أو جمل( يتم الحصول عليها إما من لغة مصدر المعلومات نفسه أو من لغة

استفسارات وأسئلة المستفيدين، أو تعيينها من لغة أخرى خارج نطاق مصدر المعلومات.

الخطوة الثالثة: الربط بين نقاط الوصول الموضوعية وبينمصدر المعلومات:

.تحديد الروابط أو مؤشرات المكان أو موقع المعلومات

Page 7: آليات التكشيف على الويب وأدواته

INDEX

االسترجاع نظم

INFORMATION NEED DOCUMENTS

User InterfaceQUERY

RESULTS

DOCS.

RESULT REPRESENTATION

INDEXING

SEARCH

Source: Wolfgang Hürst (2006). Web Search

Page 8: آليات التكشيف على الويب وأدواته

INDEX

INFORMATION NEED DOCUMENTS

User Interface

Source: Wolfgang Hürst (2006). Web Search

QUERY

QUERY PROCESSING (PARSING & TERM

PROCESSING)

LOGICAL VIEW OF THE INFORM. NEED

SELECT DATA FOR INDEXING

PARSING & TERM PROCESSING

SEARCHING

RANKING

RESULTS

DOCS.

RESULT REPRESENTATION

االسترجاع (نظم تابع)

Page 9: آليات التكشيف على الويب وأدواته
Page 10: آليات التكشيف على الويب وأدواته

الكشافات أنواع

كشاف الموقع

كشافات االنترانتواالنترنت

كشافات الميتاداتا

كشاف الكتاب

كشافاتالنصوص

الكشافاتالببليوجرافية

الويب

يمكن تقسيم الكشافات إلى

ثالث فئات رئيسية:

يمكن تقسيم الكشافات إلى

ثالث فئات رئيسية:

هل يمكن مقابلتها بـاألنواع التالية:

هل يمكن مقابلتها بـاألنواع التالية:

Page 11: آليات التكشيف على الويب وأدواته
Page 12: آليات التكشيف على الويب وأدواته
Page 13: آليات التكشيف على الويب وأدواته

الويب تكشيف

Web Indexing

Copyright © 2009 13

Page 14: آليات التكشيف على الويب وأدواته

Source: Netcraft Web Server Survey, December 2012. http://news.netcraft.com/archives/2012/12/04/december-2012-web-server-survey.html

Page 15: آليات التكشيف على الويب وأدواته
Page 16: آليات التكشيف على الويب وأدواته

2.4 billion – Number of Internet users worldwide

Page 17: آليات التكشيف على الويب وأدواته

) الويب ) الوثائق مصادر خصائصكم ضخم من البيانات، والنمو المستمر، ارتفاع معدل تغير:تنوع كبير وعدم التجانس

جودة ومصداقية المصادر

الوثائق الثابتة في مقابل الديناميكية

)أنواع مختلفة من الوسائط )نص، صور، صوت، الفيديو

( صيغ مختلفة من الملفاتHTML، flash، PDF…،)

تنوع في الموضوعات، واللغات

اإلعالنات النص الفائق )التشعبي(، واالرتباطlinking والروابط ،

Brokenالمعطلة التكرارRedundancy موزعة

Page 18: آليات التكشيف على الويب وأدواته

الويب تكشيف

يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع علىاختالف أنواعها على أساليب التكشيف اآللي حيث أنه األسلوب

، واالتساع Sizeالذي يتناسب مع طبيعة الويب من حيث الحجم scalability والتحديث ،Update .المستمر لمحتواها

( وصف لينشLynch,1996,Online الحاجة إلى التكشيف )اليدوي والتكشيف اآللي على أنهما ضرورة تفرضها تنوع احتياجات المستفيدين وتنوع مصادر الويب، حيث يرى أن

مهارات التصنيف واالختيار الدقيق التي يمتلكها المكتبيون البد أن يكملها قدرات وإمكانيات علماء الحاسب اآللي في ميكنة

عمليات التكشيف وتخزين المعلومات.

أساليب التكشيفIndexing Methods أوال: التكشيف بواسطة الناشرين علي الويبBy Web

Publishers

ثانيا: التكشيف فى محركات البحثby Search Engines

Page 19: آليات التكشيف على الويب وأدواته

علي: الناشرين بواسطة التكشيف أوالالويب

يتولى األفراد أو المؤسسات التي تضع صفحات معلومات عليالويب تكشيف محتويات هذه الصفحات بواسطة مجموعة من الكلمات المفتاحية أو الداللية التي تصف بدقه محتويات هذه

الصفحات والتي يمكن أن تستخدم عند تكشيف هذه الصفحات من خالل محركات البحث.

.يتيح أسلوب لتوجيه محركات البحث عند تكشيف هذه الصفحات

( يعد كود/تاج الميتاMeta Tag أحد اكواد لغة تكويد النصوص )من أكثر الوسائل التي يعتمد عليها ناشري HTMLالفائقة

الويب إلعداد ميتاداتا تساعد علي وصف المحتوي الموضوعي ، وتاج Keywordsلتك الصفحات )مثل: تاج الكلمات المفتاحيه

(Descriptionالوصف

تخزن هذه المعلومات داخل الملف النصي لصفحات الويبولكنها ال ت�عرض علي الشاشة.

Page 20: آليات التكشيف على الويب وأدواته

علي: الناشرين بواسطة التكشيف أوال(الويب تابع)

خداع محركات البحث مشكلة تكشيف صفحات الويب تتمثل في قدرة ناشري الويب

على معالجة الترتيب من خالل وضع كلمات مفتاحية مكررة في الصفحات لخداع محركات البحث، وهو ما يشار إليه بالعديد من

،Engine Search Persuasion، Stuffingالمصطلحات )مثل: Spam-Indexing، Keyword Spam.)

تتجاهل العديد من محركات البحث تكشيف الميتاداتا نظراألنهم يعتبروه حقال مخادع وغير حقيقي.

:من أنواع التكشيف بواسطة البشر)واصفات البيانات )الميتاداتا

التوسيم والفوكسونومي

Page 21: آليات التكشيف على الويب وأدواته

البحث: محركات فى التكشيف ثانيا

تعمل محركات البحث على بناء كشافات لمصادرالمعلومات المنشورة على الويب من خالل اشتقاق كلمات أو عبارات من النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات باالعتماد على أساليب

البحث واالسترجاع المعروفة )مثل: المنطق البولينى، وتجاور المصطلحات، والبتر، الخ(.

أن هذه الملفات ليست أكثر من الملفات المقلوبةالتقليدية التي استخدمت في االسترجاع منذ أن حل

االسترجاع العشوائي محل االسترجاع التسلسلي.

Page 22: آليات التكشيف على الويب وأدواته

البحث محركات

Search Engines

Page 23: آليات التكشيف على الويب وأدواته

How far do people look for results?

(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)

Page 24: آليات التكشيف على الويب وأدواته

البحث محركات

تأتي محركات البحث على رأس أدوات البحث واالسترجاعللمحتوى على الويب:

من اجمالي إجراءات البحث عن المحتوى, 84نسبة استخدام تقارب %

مليون 150بلغ عدد االستفسارت الموجه إلى محركات البحث نحو استفسار في اليوم الواحد،

40% من المستخدمين يصلون إلى محتوى الويب من خالل نتائج محركات البحث .

:ومع ذلك من محتوى الويب القابل للتكشيف16تكشف فقط نحو %

80% من المستخدمين اليتجاوزا استخدام أول صفحيتين من نتائج محركات البحث

بلغت نسبة التكرار في استرجاع المحتوى بين محركات البحث بعضها%84.9البعض نحو

بلغت نسبة عدم الرضا من قبل المستفيدين تجاه نتائج محركات البحث%44التقليدية

Page 25: آليات التكشيف على الويب وأدواته

Standard Web Search Engine Architecture

The Web

Ad indexes

Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages

Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages

Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages

Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages

Sponsored Links

CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com

Web spider

Indexer

Indexes

Search

User

Page 26: آليات التكشيف على الويب وأدواته

البحث محرك SE Architectureبنية

الزواحفThe crawler : برنامج يعمل على توفير المحتوى لمحرك البحث حيث يقوم

بتتبع الروابط الفائقة بين المواقع للوصول إلى الصفحات واعطائها إلى URLsالتي تشتمل على المحتوى. ثم استخراج

وحدة التحكم للزاحف.

وحدة التحكم للزاحفCrawler Control : تحديد أي الروابط الفائقة التي سيتم زيارتها مستقبال وتغذية

الزاحف بالخوارزميات الخاصة بعملية الزحف.

وحدة تحليل المجموعاتCollection analysis module:

مسئولة عن انشاء الكشافات من واقع تحليل الوثائق وتحديدطبيعة البني التكوينية للوثائق.

Page 27: آليات التكشيف على الويب وأدواته

البحث محرك (بنية تابع)

المكشفIndexer يشتمل على ثالثة أنماط من : الكشافات.

كشافات النصtext index يشتمل على الكلمات المفتاحية : والعناوين والجمل الداللية الواردة في محتوى الوثيقة المكشفة.

حيث يعمل على استخراج كافة الكلمات من كافة الصفحات، وتسجيل محددات فريدة للمواقع ومكان ظهور كل كلمة.

كشافات البناءStructure index تعكس الروابط بين :الصفحات، وتشتمل على المعلومات التي تتعلق ببنية الروابط الفائقة للصفحات المكشفة وتحفظ في ملف يعرف بالكشاف االساسي، وتعتمد عليه الزواحف في تتبع الصفحات لسحبها

من خالل الروابط الفائقة.

كشافات األغراض الخاصة Utility index ككشافات الكيانات :األخرى غير الكيانات المكودة بالنصوص الفائقة، مثل كشافات

وكشافات الصور.PDFملفات

Page 28: آليات التكشيف على الويب وأدواته

البحث محرك (بنية تابع)

مستودع الوثائقpages repository : تقوم محركات البحث باختزان وحفظ الصفحات الملتقطة من

الويب في مستودع الصفحات.

محرك االستفسارquery engine : المسئول عن استالم طلبات البحث واالستفسارات من

المستفيدين.

وحدة الترتيبRank Module : المسئولة عن ترتيب وفرز النتائج ذات الصلة باستفسارات

المستفيدين.

Page 29: آليات التكشيف على الويب وأدواته

General Web Search Engine Architecture

CLIENT

QUERY ENGINE

RANKING

CRAWL CONTROL

CRAWLER(S)

USAGE FEEDBACK

RESULTSQUERIES

WWW

COLLECTION ANALYSIS MOD.

INDEXER MODULE

PAGE REPOSITORY

INDEXESSTRUCTUREUTILITY TEXT

Page 30: آليات التكشيف على الويب وأدواته

البحث (محرك تابع)

:تختلف محركات البحث من حيث طبيعة المواد التي تنتقيها من مصادر الويب

األساليب التي تستخدمها في تكشيف تلك المواد

تنوع المصادر المكشفة نفسها

القدرات التي تتيحها لبحث المواد

:كما تختلف أيضا من حيث اإلجراءات التي تتبعها في تحديد حجم المادة المكشفة التي

تتراوح ما بين التكشيف االنتقائي والتكشيف الشامل،

.عدد الحروف أو الكلمات التي يتم تكشيفها من الصفحة

بعض محركات البحث تقوم أوال ببناء مستخلص للصفحاتالمكشفة، ثم تستخدم هذا المستخلص في تكشيف الصفحة.

تفسير تفسير

اختالف اختالف

النتائج النتائج

المسترجعة المسترجعة

لنفس لنفس

االستفسار االستفسار

باختالف باختالف

محركات محركات

البحثالبحث

تفسير تفسير

اختالف اختالف

النتائج النتائج

المسترجعة المسترجعة

لنفس لنفس

االستفسار االستفسار

باختالف باختالف

محركات محركات

البحثالبحث

Page 31: آليات التكشيف على الويب وأدواته

Crawler (Robots, Spiders)الزواحف

تتعامل الزواحف مع الويب من خالل استخدام مجموعة( كنقاط إرتكازية. URLsمحددات المصدر الموحدة )

:تقوم الزواحف بمسح الويب أما أفقيا: بأن تبدأ بصفحة واحدة ثم تتبع كل الصفحات المرتبطة بها

من خالل تتبع الروابط الفائقة المتاحة داخل هذه الصفحة

رأئيا: بأن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهيمن العمق المطلوب في تتبع الروابط.

معظم الزواحف تقوم بتقديم معلومات عن الصفحات منأجل تكشيفها ويتم تخزين هذه المعلومات في

مستودعات للوثائق بمحركات البحث تربط بين معلومات التكشيف وهذه الصفحات في مواقعها.

إن نمطية عمل الزواحف يتم تحديدها وفقا لمجموعة منالسياسات.

Page 32: آليات التكشيف على الويب وأدواته

الزاحف Crawler policiesسياسات

سياسة االختيار سياسة االختيارSelection policySelection policy حيث يحدد فيها :طبيعة المحتوى الذي يجب أن يجمع، وتقسم محركات

البحث وفقا لسياسات االختيار إلى: محركات البحث ، ومحركات البحث العالمية Verticalالعمودية

Global .ومحركات البحث الموضوعية ،

سياسة تكرار زيارة الصفحات سياسة تكرار زيارة الصفحاتPage Re-visiting Page Re-visiting

policypolicy : : وتتمثل في تحديد أوقات إعادة التجميعوالجدول الزمني لها.

السياسة األخالقية للزاحف السياسة األخالقية للزاحفPoliteness policyPoliteness policy : :وتتمثل في سياسة التهذيب في عدم االثقال على

المواقع في تحميلها.

Page 33: آليات التكشيف على الويب وأدواته

المقلوب الملف أو InvertedالكشافIndex (or File)

هو ذلك الملف الذي يعمل على توفير سبل للوصولإلى محتوى الوثائق.

يشتمل على المصطلحات الكشفية بشكل يضمنالفاعلية في االسترجاع.

يوفر طريقة مختصرة في عملية البحث، بدال من بحثقاعدة بيانات الوثائق بأكملها لتحديد المصطلحات

الواردة في االستفسار.

يعمل على تنظيم المعلومات في قائمة مختصرة منالمصطلحات ومن ثم االعتماد على المصطلح في

تحديد مجموعة الوثائق المالئمة.

Page 34: آليات التكشيف على الويب وأدواته

المقلوب (الكشاف تابع)

( نتيجة لتتنوع صيغ الملفات المنشورة على الويبhtml , pdfالخ(؛ ،

البد من تطويع أو تطبيع النصوص للمعالجةText Normalization .وفقا لشكل موحد

إنشاء مصفوفة المصطلح ــ الوثيقةterm-document matrix : التأخيذTokenization وتشمل تفتيت النصوص الكاملة :

لكلمات وتحديدها.

قائمة االستبعادstopwords وتتمثل في استبعاد الكلمات :التي تحمل دالالت معلوماتية ولغوية ضئيلة في الوثيقة، وفي

نظم استرجاع المعلومات عادة ما يتم التخلص من هذة الكلمات السباب تتعلق بالكفاءة.

جذور الكلماتstemming وتعمل على استخراج الجذور :الصرفية لكل كلمات الوثيقة.

Page 35: آليات التكشيف على الويب وأدواته

المقلوب (الكشاف تابع)Term Doc #now 1is 1the 1time 1for 1all 1good 1men 1to 1come 1to 1the 1aid 1of 1their 1country 1it 2was 2a 2dark 2and 2stormy 2night 2in 2the 2country 2manor 2the 2time 2was 2past 2midnight 2

Now is the time

for all good men

to come to the aid

of their country

Now is the time

for all good men

to come to the aid

of their country

It was a dark and

stormy night in

the country manor.

The time was past

midnight

It was a dark and

stormy night in

the country manor.

The time was past

midnight

Doc 1

Doc 2

Term Doc # Freqa 2 1aid 1 1all 1 1and 2 1come 1 1country 1 1country 2 1dark 2 1for 1 1good 1 1in 2 1is 1 1it 2 1manor 2 1men 1 1midnight 2 1night 2 1now 1 1of 1 1past 2 1stormy 2 1the 1 2the 2 2their 1 1time 1 1time 2 1to 1 2was 2 2

Page 36: آليات التكشيف على الويب وأدواته

How Inverted Files are Created

Dictionary/LexiconTerm Doc # Freqa 2 1aid 1 1all 1 1and 2 1come 1 1country 1 1country 2 1dark 2 1for 1 1good 1 1in 2 1is 1 1it 2 1manor 2 1men 1 1midnight 2 1night 2 1now 1 1of 1 1past 2 1stormy 2 1the 1 2the 2 2their 1 1time 1 1time 2 1to 1 2was 2 2

Doc # Freq2 11 11 12 11 11 12 12 11 11 12 11 12 12 11 12 12 11 11 12 12 11 22 21 11 12 11 22 2

Term N docs Tot Freqa 1 1aid 1 1all 1 1and 1 1come 1 1country 2 2dark 1 1for 1 1good 1 1in 1 1is 1 1it 1 1manor 1 1men 1 1midnight 1 1night 1 1now 1 1of 1 1past 1 1stormy 1 1the 2 4their 1 1time 2 2to 1 2was 1 2

Postings

Page 37: آليات التكشيف على الويب وأدواته

الخفي الويب عن / The HiddenماذاInvisible Web

يقصد به مجموعة الصفحات الديناميكية والتفاعليةالتي تخزن في قواعد البيانات أو يتم تجميعها حسب

الطلب.

:من بينها Content found in databases:

Example: ERIC database, Library catalogs.

Subscription database content: Examples: EBSCOhost databases, LexisNexis Academic.

Sites requiring login authorization Examples: Blackboard, membership sites.

Sites blocked by Robot Exclusion Protocols )with a no-index protocol(

etc.

Page 38: آليات التكشيف على الويب وأدواته

Metadata

البيانات واصفات( الميتاداتا(

Page 39: آليات التكشيف على الويب وأدواته

... والحل المشكلة

:المشكلة تضخم مخرجات النشر الفردي والمؤسسي على شبكة

الويب وما ترتب عليه من إشكالية ضبط وتنظيم مصادر . الويب وتنظيمها لتيسير استكشافها واسترجاعها

:الحل المقترح أن تصاحب مصدر المعلومات بياناته الواصفة

)الميتاداتا( التي تيسر تحديد هويته واسترجاعه وضبط استخدامه والذي يتولى منشئ الوثيقة تضمينها أو من

ينوب عنه.

Page 40: آليات التكشيف على الويب وأدواته

والمفهوم التعريف

المرتبطةالمرتبطةما أو في كيان¹المتضمنةالمتضمنةالميتاداتا هي "البيانات

-ISO 8459) ”.استرجاعهاسترجاعه هذا الكيان وتساعد في وتصفوتصفبكيان¹ ما

5-2002)

وتحديد هوية ومالمح بوصفبوصفالميتاداتا هي مصطلح ارتبط

قائم على شبكة Information Object معلوماتيمعلوماتي كيانكيانوصفات

(شريف شاهين) .الويبالويب

الوصفية الوصفية الميتاداتاالميتاداتاDescriptive MetadataDescriptive Metadata :: تستخدم في تحديد خصائص الكيان المعلوماتي ووصفه ألغراض

التكشيف واالسترجاع، فهي تشمل عناصر مثل العنوان والمؤلف والمستخلص والكلمات المفتاحية.

توفر معلومات مهيكلةstructured information تعزز عمليات ، Fielded searchesالمعالجة اآللية )مثل: إتاحة البحث بالحقول

تقييد البحث، الخ(

Page 41: آليات التكشيف على الويب وأدواته

بمصدر الميتاداتا ربط طرقالمعلومات

:½التضمين أوالEmbedded metadata

حيث يتم إنشاء الميتاداتا في نفس وقت إنشاء المصدر ومتضمنة مع

لغة تكوين الوثيقة.

:½المصاحبة ثانياAssociated metadata

وفيها يتم إنشاء ملف يحتوي على الميتاداتا ويصاحب أو يزاوج ملف

؛ بمعنى أن لدينا ملفين األول للمحتوى والثاني المصدر محل الوصف

.لعناصر وصف المحتوى )الميتاداتا(

:½المستقلة ثالثاThird-Party metadata

وفيها يتم االحتفاظ بالميتاداتا بمستودعات مستقلة عن المصادر من

قبل مؤسسات قد تملك أو ال تملك حق التحكم في المحتوى، وغالبا

ما تكون الميتاداتا مخزنة في قواعد بيانات.

Page 42: آليات التكشيف على الويب وأدواته
Page 43: آليات التكشيف على الويب وأدواته
Page 44: آليات التكشيف على الويب وأدواته

Source

Web site

Metadata

Page 45: آليات التكشيف على الويب وأدواته

الميتاداتا schema خطط

خطط الميتاداتا هي عبارة عن مجموعة من عناصر الميتاداتا، مع.� � معينا قواعد استخدامها، وقد ق�صد بهذه المجموعة أن تحقق هدفا

بأي خطة من خطط الميتاداتا، وهي: عناصر رئيسية مرتبطة ثالثة هناك

semanticsدالالت عناصر البيانات 1.

content rulesقواعد المحتوى 2.

التي ترد فيها عناصر البيانات Syntax الصيغةالتركيبة أو3.

معيار دبلنDC

يستهدف دعم استكشاف المصادر اإللكترونية على شبكة الويبووصفها.

يتسم بعمومية استخدامه حيث يوجه لكل المشتغلين بالمعلوماتمن أخصائيي مكتبات وموردين ومطوري المحتوى الرقمي.

Page 46: آليات التكشيف على الويب وأدواته

المحتوى عناصر

عنوانTitle: عرف به� اسم يعطى للمصدر، هو االسم الذي ي.المصدر رسميا

موضوع وكلمات مفتاحيةSubject: يعبر عن موضوع محتوىالمصدر، بكلمات أو عبارات مفتاحية، أو برموز تصنيف تصف

موضوع المصدر. ويوصى باختيارها من قائمة مصطلحات مقيدة، .أو من خطة تصنيف رسمية

وصفDescription: بيان محتوى المصدر، وتشتمل أمثلةالوصف على: مستخلص، أو قائمة محتويات، أو إشارة إلى تمثيل

رسومي للمحتوى، أو نص حر يصف المحتوى، ولكنه ال يقتصر .على ذلك فقط

مصدرSource: إشارة إلى مصدر استمد منه المصدر الحالي،قديستمد المصدر الحالي كليا أو جزئيا من مصدر آخر، ويوصى عند

تعريف المصدر استخدام رقم أو سلسلة أرقام تؤخذ من نظام .رسمي لتحديد الهوية

Page 47: آليات التكشيف على الويب وأدواته

المحتوى (عناصر تابع)

لغةLanguage: لغة المحتوى الفكري للمصدر، ويوصى باستخدام التي تستخدم حرفين أو ثالثة حروف لتيجان ISO639المواصفة الدولية

" للغة األكادية، Akk" للغة اإلنجليزية، و"Eng" أو "ENاللغة. ومثال ذلك "" للغة اإلنجليزية المستخدمة في المملكة المتحدة.EN-GBو"

عالقةRelation: إشارة إلى مصدر ذي عالقة أو ارتباط، ويوصى عندتعريف المصدر استخدام رقم أو سلسلة تؤخذ من نظام رسمي لتحديد

.الهوية

تغطيةCoverage: المدى أو المجال لمحتوى المصدر، وتشتمل التغطيةعلى حيز مكاني )اسم مكان، أو إحداثيات جغرافية(، أو فترة زمنية )مميز

فترة، أو تاريخ، أو مدى تاريخي(، أو سلطة )مثل اسم كيان إداري(. ويوصى باختيار قيمة من قائمة مصطلحات مقيدة )مثل، مكنز األسماء

.( واستخدام أسماء األماكن أو الفترات الزمنية[TGN]الجغرافية

Page 48: آليات التكشيف على الويب وأدواته

Tagging & tags

والواسمات التوسيم

Page 49: آليات التكشيف على الويب وأدواته

والمفهوم التعريف

الموضوعية للميتاداتا مأتى مصادر التوسيم من متعددة ألنواعالناس الويب التشاركي بواسطة واالسترجاع التنظيم ألغراض ؛

معقدة، للمعلومات، تطبيق قواعد أو قيود دون

و الخبراء، غير بواسطة تتم أن للفهرسة أيمكن مكلف غير بديل نها . اإلنترنت لمصادر (التقليدية عبدالهادي) فتحي

لقطعة يخصص هرمي غير مصطلح أو مفتاحية كلمة هي الواسمةمفضلة، ) إنترنت روابط كمبيوتر، ملف رقمية، صورة مثل معلومات

والعثور(. ما مادة وصف في الميتاداتا من النوع هذا ويساعد الخ . يتم عام وبشكل البحث أو التصفح بواسطة إما أخرى مرة عليها

يقوم من أو المادة منشيء جانب من الداللية الكلمات اختيار . بارتباطه التوسيم انتشر وقد النظام على إعتمادا باستعرضها

الويب خدمات من للعديد مهمة خاصية فهو الويب من الثاني بالجيل2. (Wikipedia)

Page 50: آليات التكشيف على الويب وأدواته

والمفهوم (التعريف تابع)

أن يمكن الداللية الكالمات أو على:تعتمد الواسمات) الميتاداتا ) الطبخ، مثل الموضوع

) المدونات ) الصور، مثل الشكل

) السفر ) التسليم، مثل الغرض

( ،اآلن فبراير، مثل (2009الوقت المستقبل ،

) ملكي ) تفرز، تقرأ، مثل الوضع او األفعال

) أكاديمي ) مؤلف بارد، مثل النقدية أو المؤثرة األفعال ردود

Page 51: آليات التكشيف على الويب وأدواته

.. ؟ الواسمات ننشئ لماذا

المعلومات لتنظيم

البحث عملية لدعم

بعد فيما الواسمات نفس إليجاد

اآلخرين مع ومشاركتها الموقع الستكشاف

العقلي النموذج مع تتناغم فئات في ضخمة مجموعة لتنظيمللمستفيد..

/ استخدامها وزيادة إظهارها علنا لكشفها

/ المتاحة اإلمكانية الوظيفية من لالستفادة

آراءهم عن للتعبير طريقة

.. لعبة للعب

Page 52: آليات التكشيف على الويب وأدواته

التوسيم أنواع

الجمهور :public taggingتوسيم . بهم الخاص المحتوى واسمات وإدراة إضافة الموقع لزائري يسمح فيه

التوسيم وبال فإن التكشيف؛ أساليب من وغيرها التقليدي بالتبويب مقارنة / لوصف المفتاحية الداللية للكلمات االختيار حرية للزائرين يسمح العام

ب المحتوى،

أو ارتباطها مدى يحددون الذين هم المحتوى من المستفيدين أن معنىبالموضوع مواقع صلتها مثل االجتماعية ، ,Digg.comمثل )المفضالت

Del.icio.us.) الرابط أو بالمحتوى صلة ذات واسمات بتعيين المستفيدين يقوم عندما

البحث اآلخرين للمستفيدين يمكن بعدها للموقع؛ تحميله أو إرساله تم الذي . فإن ثم ومن المحتوى على للعثور الواسمات بحث بهذه بعملية القيام عند ه

ارتباط يكون على واتفاقهم المحتوى مستخدمي توسيم على االعتمادالواسمات على فقط االعتماد من أفضل بالمحتوى، المستخدمة الواسمات

. المحتوى ناشر أو منشيء وضعها التي

Page 53: آليات التكشيف على الويب وأدواته

التوسيم أنواع

الناشر :publisher taggingتوسيم من فقط هو المحتوى ناشر أو منشيء أن في فقط األول النوع عن يختلف

الواسمات قي بوضع الداللية وم الكلمات المستفيدين أو من لغيره يسمح وال ، . إنشاءها أو بإضافتها

فليكر موقع النوع، Flickerيعد هذا على االمثلة أكثر من الصور لمشاركةمنها كيم حيث كل توسيم من الصور بمشاركة يقوم الذي للشخص ن

لمستخدمي بعدها يمكن بحيث الداللية، أو المفتاحية الكلمات من بسلسلةقبل من المصاغة الواسمات تلك اعتماداعلى الصور عن البحث الموقع

الصور .ناشري

Page 54: آليات التكشيف على الويب وأدواته

الجمهور الجمهور توسيم توسيم

الناشر الناشر توسيم توسيم

Page 55: آليات التكشيف على الويب وأدواته

التوسيم نظم Tagging SystemsنموذجModel

“ ” النموذج أن سميث أوضحيتكون التوسيم لنظم االساسي : المستفيد، هي عناصر، ثالثة من

. والواسمات والمصادر،

المراد الكيانات هي المصادرتوسيمها.

الكلمات هي الواسماتالداللية أو المفتاحية

التوسيم نظم :تحدد التوسيم بعملية يقوم من

توسيمه يمكن الذي ما

/ الداللية الكلمات الواسمات نوع مااستخدامها يمكن التي

مستفيد

واسمات

مصادر

Page 56: آليات التكشيف على الويب وأدواته

العيوب

. للمصدر الوصول لضمان الواسمات صياغة في التضليل

( ،كئيب أنا مثل الغامضة أو داللة ذات غير الواسمات استخدامzzzzzzz ، ثم ،(5 . الومن تحويها التي للمواد واصفة تكون

الوصول الصعوبة من يجعل للواسمات مقيدة لغة وجود عدما ل . وألمواد جميع عنها البحث

Page 57: آليات التكشيف على الويب وأدواته

الواسمات/ حشود tag cloudسحب

للتيجان؛ مرئية تمثيالت عن عبارة األساس هي في تستهدفبعينها، لتيجان االستخدام شدة أو تكرار لمعدالت المرئي التمثيل

. التيجان من بغيرها قياسا النسبية أهميتها على يدلل مما

Page 58: آليات التكشيف على الويب وأدواته
Page 59: آليات التكشيف على الويب وأدواته
Page 60: آليات التكشيف على الويب وأدواته
Page 61: آليات التكشيف على الويب وأدواته

Folksonomy

الفوكسونومي

Page 62: آليات التكشيف على الويب وأدواته

والمصطلح المفهوم

” مصطلح ظهور “ Folksonomyيرجع فاندر“ ” توماس لـ مقال إلىThomas Vander 2004عام , المستخدمون يبتكره تصنيف عن للتعبير ؛

” / : البشر الناس مصطلحين بين المزج من المصطلح ،“ Folkويتكون“.Taxonomyوالتصنيف ”

المستفيد بواسطة م�نشا نظام هو User-generatedالفوكسونومي

جمل أو كلمات باستخدام المفضلة الرقمية مصادرهم بتوسيم يسمح. يخترونها التي الطبيعية اللغة

الواسمات وإدارة إنشاء في تعاونية لمنهجية ممارسة هو الفوكسونوميتوضيح أو . categorizeوتبويب annotateلشرح المحتوى

الويب على والكيانات للمعلومات الحر التوسيم ناتج هو الفوكسونوميللمصدر( موحد عنوان له شئ وألغراضه) URLأى المستفيد بواسطة

االسترجاعية.

غير المستخدمين خالل من الويب محتوى عن تعبير هو الفوكسونوميتأثرهم خالل من رؤيتهم وفق التنظيم هذا يكون أن على المهنيين،

استرجاع يتم أن على كثيرة، أخرى وأشياء واللغة والمجتمع بالثقافة. التنظيم طريقة بنفس المحتوى

Page 63: آليات التكشيف على الويب وأدواته
Page 64: آليات التكشيف على الويب وأدواته

الفوكسونومي عناصر الفوكسونومي إنشاء مقومات تتمثل

: المصادر، رئيسية عناصر ثالثة فيالكلمات ( والواسمات والمستفيديون،

( الدالة/ الداللية

تطوير السابقة العناصر إلى يضافالجيل ( الويب على مبنية تعاونية بيئة

الويب من ).web 2.0الثاني

هذا صيانة مهمة المستفيدون يتولىمن للمزيد إضافتهم خالل من التصنيف

الواسمات

Page 65: آليات التكشيف على الويب وأدواته

األنواع

Broad FolksonomyBroad Folksonomyالفوكسونومي العريض الفوكسونومي العريض 1(1( أن من المستفيدين من عدد يتمكن خالله من الذى التصنيف وهو

هو كما نظرهم وجهة من المناسبة الداللية الكلمة أو الرمز يضعوا ( الشكل ( دليشيز فى الحال

أثناء المستخدمين من مجموعة اتجاهات لكشف كأداة يستخدمتلك استخدام ذلك بعد يمكن بحيث واحدة، وثيقة أو لعنصر وضعهم

ذلك عن للتعبير المصطلحات أفضل الختيار و�ضعت التى القائمةالمحتوى.

Narrow FolksonomyNarrow Folksonomyالضيق الضيق الفوكسونومي الفوكسونومي 2(2( وضعها ويتم فقط السهاماته ا رموز� يحدد أن للمستفيد يمكن فيه

تلك توسيم من آخر لمستفيد يمكن وال فقط، واحدة مرةاإلسهامات.

في الجوهري الفرق النوعين الداللية؛ بين الكلمات يضع ففي منالضيق ) الفوكسونومي الداللية ( الكلمات الواسمات وضع يقتصر

غيره خدم المستعلى دون فقط الموقع إلى المحتوى رفع ، الذيالعريض الفوكسونومي في يسمح والعكس خدمين للمستحيث

للمحتوى.واسمات وضع بجميعا

Page 66: آليات التكشيف على الويب وأدواته

http://technorati.com/tag

Page 67: آليات التكشيف على الويب وأدواته

المزايا

:ي فهو المستفيدين، الشمولية جانب من المستخدمة المفردات عكساألخرى بالنظم مقارنة ديمقراطية أكثر بأنه يوصف أن يمكن بذلك وهو . لكل الفرصة األسلوب هذا يقدم حيث المقيدة اللغات على تعتمد التى

الخاصة بطريقته الموضوعى المحتوى عن للتعبير والسماح ،مستفيدالرموز فى المستفيدين من غيره عن بمشاركة للتعبير الموضوعة

. واحدة وثيقة

: الفوكسونومي خالل من يمكن واإلتساع للمظاهر المالئمة يتسع أن. معين لموضوع أو معين مجال فى الجديدة

األفراد ق²بل من استخدامها يتم التي المصطلحات فعليا يعكس. المعلومات لمصادر المستخدمين

( على ( العمل لبداية نواة يعتبر حيث ، مكنز نظام لتصميم بداية يعتبر. جيد مكنز لتكوين واالستبعاد التنقيح

Page 68: آليات التكشيف على الويب وأدواته

المزايا

مقارنة حداثة أكثر تكون قد األفراد يستخدمها التي المصطلحاتمن يضاف ما لكل المستمرة لمتابعتهم ذلك يرجع وقد بالمهنيين،

. اهتماماتهم مجال في مصطلحات من يستحدث وما مصادر

. واحد مصدر عن للتعبير المصطلحات من العديد إضافة إمكانية

من النوع هذا عليها يعتمد دالة كلمات أو مصطلحات وجود عدميراها التى الرموز يضع أن مستفيد ألى فيمكن ثم ومن التصنيف؛

. تكون ال وقد بالفعل مناسبة تكون وقد نظره، وجهة من مناسبة

وصف بها يمكن التي الخاصة للغته المستخدم استخدام إمكانية. ثقافته تعكس بكلمات المعلومات

تعكس معينة معاني ذات لمصطلحات المستخدم استخدام إمكانية. بالموضوع اهتمامه مدى

الخاصة االهتمامات تجميع طريق عن الموضوعية المشاركة. االهتمام بهذا المتعلقة المصادر وإتاحة كلهم بالمستخدمين

Page 69: آليات التكشيف على الويب وأدواته

المزايا

يكون أن المستخدم يحتاج ال وبالتالي التنظيم؛ في الهرمية وجود عدمفهم إلى يحتاج ال حيث الموقع، ليتصفح معين تصنيف بنظام ملما

أي في التفكير محاولة حتى أو المختلفة الروابط وإيجاد المصطلحات. استفساره تحته يندرج موضوع رأس

على التدريب إلى الحاجة دون المصطلحات أو الواصفات وضع سهولة. التكشيف أو التصنيف

( واصفة ( كمصطلحات شائعة استخداما األكثر المصطلحات استخداملغير الشائعة بالطريقة استرجاعها سهولة على يساعد مما للمعلومات

المهنيين.

. تحديثها أو وتغييرها جديدة واصفات أي إدراج السهل من

Page 70: آليات التكشيف على الويب وأدواته

اإلنتقادات : وضع أو تحديد الموقع لمستخدمي يسمح الضبط غياب الدقة نقص

ذلك وعلى ما، لوثيقة الموضوعى المحتوى عن تعبر التى الكلماتوالجمع المفرد صيغة الواحدة، للكلمة مختلفة أشكال نجد أن فيمكن

. ومستوياتهم األفراد ثقافات لتباين وذلك اإلختصارات؛ لألسماء،

. توضيحية مالحظات أو لإلستخدام دليل على يشتمل ال الحر التصنيف

الداللية؛ الكلمات بين العالقات استكشاف مشكالت من عدد عنه ينتجللتعبير المستخدمة الكلمات مستوى طبيعية لتفاوت طبيعية كنتيجةمصطلحات إلى العمومية فى غاية مصطلحات بين ما المحتوى عن

. التخصيص فى غاية

عن يبحث الذي فالشخص األحيان؛ بعض في االسترجاع صعوبةحتى اآلخرين؛ بثقافة دراية على يكون أن عليه يجب معين موضوع

الواضعين األشخاص بعض به أتى الذي بالمصطلح البحث من يتمكن. ق²بلهم من للواصفات

Page 71: آليات التكشيف على الويب وأدواته

اإلنتقادات حيث من المرادفات كثرة بجانب المعاني في واالختالف الغموض

. ( واحد ( لمعنى مصطلح مسمى من أكثر إعطاء

) كلمة يضع من هناك حيث المحتوى، لرصد األشكال استخدام تعدد ) ( جملة) ( أو جملة شبه يضع من وهناك المحتوى لوصف واحدة

كاملة).

،المعنى اختالف مع الكتابة طريقة في المصطلحات بعض تشابه.( ) ( ) ( الغرب: ( جهة المغرب ، صالة المغرب ، دولة المغرب مثال

( ) ، المفردة بالصيغة يعبر من فهناك المصطلحات عن التعبير اختالف.( الجمع ( بالصيغة يعبر من وهناك

التي الواصفات على الموقع عن المسئولين ق�بل من رقابة وجود عدماأللفاظ بعض وجود إلى يؤدى مما المستخدمين ق²بل من وضعها يتم

الخارجة.

. المستخدمين من معينة فئة ق²بل من لغوية غير مصطلحات استخدام

Page 72: آليات التكشيف على الويب وأدواته

اإلنتقادات. المحتوى عن للتعبير واحدة لغة من أكثر استخدام

. – : كلب كلبي مثال الضمائر، أو الخاصة للكلمات البعض استخدام

- & : مثـال االسترجاع، عملية تعيق التي العالمات من الكثير استخدام.- %

. كواصفات العامية المصطلحات استخدام

Page 73: آليات التكشيف على الويب وأدواته

.. .. مصادر قراءات المعلومات من مزيد . قاسم : حشمت . غريب، دار القاهرة ـ واالستخالص التكشيف لدراسة .2000مدخل

Larson and Hearst’s slides, at UC-Berkeley. http://www.sims.berkeley.edu/courses/is202/f00/

Wolfgang Hürst (2006). Web Search, Albert-Ludwigs-University Freiburg, Germany, Summer Term

Zdravko Markov and Daniel T. Larose, Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage, Wiley, 2007. Slides for Chapter 1: Information Retrieval an Web Search

K.T. Anuradha. Search Engines for Intranets. National Centre for Science Information (NCSI), Indian Institute of Science, Bangalore

Dragomir R. Radev. Search Engine Technology

. الفتاح عبد : خالد . محركات مؤتمر في العنكبوتية الشبكة بحث محركات في النتائج وفرز تحليلفبراير الشيخ، شرم االنترنت، على .2005البحث

النشرتي سيد المحتوى. مؤمن استرجاع في البحث محركات خوارزميات تواجه التي التحديات-. تحليلية مسحية دراسة العالمية العنكبوتية الشبكة على 29ع.- Cybrarians Journal العربي

(.2012سبتمبر)

Page 74: آليات التكشيف على الويب وأدواته

الهادي عبد فتحي قطاع. محمد وموقف للمعلومات الموضوعي التحليل في الحديثة االتجاهات : . المغرب، والمعلومات، للمكتبات العربي االتحاد مؤتمر في منها العربي .2009المعلومات

كامل الموضوعي .. شاهين شريف التحليل في الحديثة والمعلومات ـ االتجاهات المكتبات مجلةس ع 24العربية، .41-5ص .(2004)2،

Smith, Gene. Tagging: People-Powered Metadata for the Social Web.- Berkeley, California:

New Riders,2008

Getting, B. (2007). What Are “Tags” And What Is “Tagging?”. Retrieved 5 2, 2011, from

http://www.practicalecommerce.com/articles/589-What-Are-Tags-And-What-Is-Tagging-

Page 75: آليات التكشيف على الويب وأدواته