Διαδικασίες βελτιστοποίησης...

195
Διαδικασίες βελτιστοποίησης διαλειτουργικότητας κατανεμημένων πληροφοριακών συστημάτων συμβατών με το πρωτόκολλο Z39.50 και ολοκλήρωση βιβλιογραφικών μεταδεδομένων Διατριβή που υποβλήθηκε στο Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας του Ιονίου Πανεπιστημίου για την υποψηφιότητα του τίτλου του Διδάκτορα Μιχάλης Ε. Σφακάκης Κέρκυρα, Απρίλιος 2010

Upload: others

Post on 18-Sep-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Διαδικασίες βελτιστοποίησης διαλειτουργικότητας

κατανεμημένων πληροφοριακών συστημάτων

συμβατών με το πρωτόκολλο Z39.50 και

ολοκλήρωση βιβλιογραφικών μεταδεδομένων

Διατριβή που υποβλήθηκε στο

Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

του Ιονίου Πανεπιστημίου

για την υποψηφιότητα του τίτλου του

Διδάκτορα

Μιχάλης Ε. Σφακάκης

Κέρκυρα, Απρίλιος 2010

Page 2: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

©Μιχάλης Ε. Σφακάκης 2010 Some rights reserved.

Το έργο αυτό διέπεται από άδεια Creative Commons Αναφορά προέλευσης-Μη

Εμπορική Χρήση 3.0 Ελλάδα. Προκειμένου να δείτε ένα αντίγραφο της άδειας αυτής,

επισκεφτείτε http://creativecommons.org/licenses/by-nc/3.0/gr/ ή στείλτε γράμμα στο

Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105,

USA.

ii

Page 3: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Η παρούσα Διδακτορική Διατριβή του Μιχάλη Ε. Σφακάκη με τίτλο "Διαδικασίες

βελτιστοποίησης διαλειτουργικότητας κατανεμημένων πληροφοριακών συστημάτων

συμβατών με το πρωτόκολλο Z39.50 και ολοκλήρωση βιβλιογραφικών μεταδεδομένων"

εξετάσθηκε και εγκρίθηκε από τις επιτροπές:

Συμβουλευτική επιτροπή:

1. Επόπτης: Σαράντος Καπιδάκης, καθηγητής Τμήματος Αρχειονομίας και

Βιβλιοθηκονομίας Ιονίου Πανεπιστημίου,

2. Μέλος: Χρήστος Παπαθεοδώρου, αναπληρωτής καθηγητής Τμήματος

Αρχειονομίας και Βιβλιοθηκονομίας Ιονίου Πανεπιστημίου,

3. Μέλος: Τιμολέων Σελλής, καθηγητής Σχολής Ηλεκτρολόγων Μηχανικών &

Μηχανικών Υπολογιστών Εθνικού Μετσόβιου Πολυτεχνείου.

Εξεταστική επιτροπή:

Τα τρία μέλη της συμβουλευτικής επιτροπής (σύμφωνα με την παράγραφο 5 του

άρθρου 12 του νόμου 2083/92) και οι:

4. Εμμανουήλ Γιαννακουδάκης, καθηγητής Τμήματος Πληροφορικής

Οικονομικού Πανεπιστημίου Αθηνών,

5. Θεόδωρος Καλαμπούκης, καθηγητής Τμήματος Πληροφορικής Οικονομικού

Πανεπιστημίου Αθηνών,

6. Χρήστος Σκουρλάς, καθηγητής Τμήματος Πληροφορικής Τεχνολογικού

Εκπαιδευτικού Ιδρύματος Αθηνών,

7. Εμμανουήλ Γεργατσούλης, αναπληρωτής καθηγητής Τμήματος Αρχειονομίας

και Βιβλιοθηκονομίας Ιονίου Πανεπιστημίου.

iii

Page 4: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

iv

Page 5: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Περίληψη

Ο τεράστιος όγκος και η ποικιλομορφία των διαθέσιμων πληροφοριών σε συνδυασμό

με τις μεθόδους πρόσβασης και το περιβάλλον χρήσης των πηγών πληροφόρησης

οδήγησαν στην ανάπτυξη των συστημάτων ενιαίας πρόσβασης. Μία από τις

αρχιτεκτονικές των συστημάτων ενιαίας πρόσβασης είναι η μετα-αναζήτηση ή,

εναλλακτικά αποκαλούμενη, federated search ή παράλληλη αναζήτηση ή εικονικός

συλλογικός κατάλογος.

Σε ένα περιβάλλον μετα-αναζήτησης, ο χρήστης θέτει τις επερωτήσεις του σε

ένα κεντρικό σύστημα το οποίο τις προωθεί στις πηγές και στη συνέχεια ενοποιεί και

παρουσιάζει στο χρήστη τις απαντήσεις που θα λάβει από αυτές. Είναι άξιο αναφοράς

ότι ένας μεγάλος αριθμός πηγών, ραγδαία αυξανόμενος, είναι κρυμμένος πίσω από

πληροφοριακά συστήματα που διαθέτουν τους πόρους τους μέσα από

προκαθορισμένες διαδικασίες και γλώσσες επερωτήσεων, χωρίς να παρέχουν καμία

δυνατότητα άμεσης πρόσβασης στους πόρους και τη δομή των πηγών.

Η αποτελεσματικότητα (effectiveness) ενός περιβάλλοντος μετα-αναζήτησης

καθορίζεται από τη δυνατότητα που έχει να μετατρέπει τις επερωτήσεις που του

θέτουν στην αντίστοιχη επερώτηση που απαιτεί η κάθε πηγή, καθώς επίσης και η

ικανότητά του να κατανοεί και να επεξεργάζεται τις απαντήσεις από τις πηγές. Οι

δυνατότητες αυτές προσδιορίζονται άμεσα από το επίπεδο της συντακτικής

(syntactic), λειτουργικής (functional) και σημασιολογικής (semantic)

v

Page 6: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

διαλειτουργικότητας των κατανεμημένων πληροφοριακών συστημάτων διάθεσης των

πόρων. Επίσης, οι απαιτήσεις για αυξημένη αποδοτικότητα του συστήματος μετα-

αναζήτησης, όπου η online φύση του απαιτεί να δοθεί η απάντηση στον ελάχιστο

δυνατό χρόνο, περιορίζουν τις λύσεις στα προβλήματα αποτελεσματικότητας του

συστήματος.

Σε αρκετές περιπτώσεις οι διαδικασίες πρόσβασης και οι γλώσσες

επερωτήσεων των πηγών έχουν κοινά χαρακτηριστικά ή είναι συμβατές με διεθνή

πρότυπα αναζήτησης και ανάκτησης πληροφοριών. Επιπλέον, οι απαντήσεις των

πηγών είναι συμβατές με πρότυπα περιγραφής δεδομένων και μεταδεδομένων. Η

χρήση κοινών προτύπων είναι αρκετά συνηθισμένη σε περιπτώσεις όπου οι πηγές

ανήκουν σε όμοιες πληροφοριακές κοινότητες διευκολύνοντας, παράλληλα, την

εξισορρόπηση των παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης στην

ανάπτυξη των συστημάτων. Ειδικότερα, η κοινότητα των βιβλιοθηκών θεωρείται μια

αντιπροσωπευτική περίπτωση ευρείας εφαρμογής προτύπων κωδικοποίησης και

πρωτοκόλλων διάθεσης των πηγών.

Στόχος της παρούσας διατριβής είναι η ανάπτυξη μεθόδων και διαδικασιών

βελτίωσης της αποτελεσματικότητας των συστημάτων μετα-αναζήτησης στο

περιβάλλον των ψηφιακών βιβλιοθηκών. Οι προτεινόμενες διαδικασίες και μέθοδοι,

βασιζόμενες στα κύρια χαρακτηριστικά των πρωτοκόλλων επικοινωνίας και των

μεταδεδομένων που χρησιμοποιούν τα συστήματα διάθεσης των πηγών, στοχεύουν

στην έμμεση επίτευξη καλύτερης λειτουργικής και σημασιολογικής

διαλειτουργικότητας. Ιδιαίτερη έμφαση δίνεται στο πρωτόκολλο Ζ39.50 μιας και η

δεδομένη καθολική χρήση του στο χώρο των βιβλιοθηκών το καθιστά ένα βασικό

ρυθμιστή αποτελεσματικότητας και απόδοσης στα περιβάλλοντα μετα-αναζήτησης

που υλοποιούνται.

Οι κύριες κατευθύνσεις μελέτης και συνεισφοράς της διατριβής αφορούν: (α)

Τις διαδικασίες προώθησης της επερώτησης στις πηγές καθώς επίσης και την

ασύγχρονη τμηματική συλλογή και επεξεργασία των αποτελεσμάτων. (β) Την

περιγραφή των χαρακτηριστικών αναζήτησης της κάθε πηγής και τον έλεγχο για το

εάν η πηγή υποστηρίζει την εκάστοτε επερώτηση. Στην περίπτωση που η πηγή δεν

υποστηρίζει την επερώτηση, η επερώτηση μετεγγράφεται σε μία άλλη ή σε ένα

σύνολο επερωτήσεων που υποστηρίζει η πηγή και είναι σημασιολογικά ισοδύναμες,

vi

Page 7: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

αν αυτό είναι εφικτό, ή η ανάκληση και η ακρίβειά τους βρίσκονται σε ένα

προκαθορισμένο εύρος ανοχής από αυτό της αρχικής επερώτησης. Η μετεγγραφή

βασίζεται στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης, που είναι ένας

σημασιολογικός γράφος εκφρασμένος σε γλώσσα RDFS και ο οποίος προκύπτει

έμμεσα από τη σημασιολογία των μεταδεδομένων με αυτόματες διαδικασίες. (γ) Την

ταύτιση και κατηγοριοποίηση των αποτελεσμάτων σε συστάδες σύμφωνα με την

Έργο-κεντρική (work-entity) προσέγγιση του FRBR εννοιολογικού μοντέλου.

vii

Page 8: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Abstract

The significant number of available information sources in conjunction with the

different access methods led to the development of ‘one-stop’ search interfaces. An

implementation of such search interfaces is meta-search engines, also known as

federated search, broadcast search, virtual union catalogues, etc. Meta-search engines

help users access uniformly a great number of distributed and autonomous

information sources. Most of these information sources are hidden behind query

interfaces without any access to the underlying data structures and query methods. In

some cases query methods for the underlying sources share common characteristics or

conform to a standard information retrieval protocol. This is mostly the case when

metadata describe materials from a common information community.

Meta-search challenges refer to performance, source availability and

interoperability. Interoperability decides the fate of the meta-search engine regarding

effective querying of the sources and integration of the results. One significant task

affecting the effectiveness of the meta-search engine is its ability to transform the

user’s query into every underlying source’s query system. Moreover, within the

library community, many information sources publicize their metadata with query

interfaces based on the concept of the abstract Access Point and mainly conforming to

the Z39.50 information retrieval protocol. The varying or poor implementations of the

protocol restrict the query interfaces to a relatively small number of available Access

viii

Page 9: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Points. Unsupported Access Points are very common, especially when searches are

addressed to more than one source. When a query contains an unsupported Access

Point the query either fails or generates an inconsistent answer if the source

substitutes the unsupported Access Point with a supported one.

The aim of this thesis is to develop methods to improve the effectiveness of

the meta-search engines in the context of digital libraries. The proposed methods,

based on key characteristics of the communication protocols and the metadata used by

the information sources, were designed to indirectly achieve better functional and

semantic interoperability. Due to the universal use of Z39.50 protocol in the library

community particular emphasis is placed on it as a key regulator of effectiveness and

efficiency in the development of the meta-search engines.

The main directions of research and the contribution of the thesis concern (a)

the methods for the query broadcast to the sources, as well as the asynchronous and

gradual retrieval and process of the retrieved results, (b) the description of the

supported search characteristics of the source and the appropriate rewriting of the user

query to supported queries by the source. In case where a source does not support a

query, the query is rewritten either to another supported query, or a set of supported

queries, with equivalent semantics, if it is possible, or the recall and the precision of

the rewritten queries to fulfill predefined user preferences. Query rewritings are based

on the Semantic Access Point Network (SAPN), which is an auto-generated semantic

graph from metadata semantics in RDFS language, and (c) the process of the query

results and the composition of work entity clusters according to the FRBR conceptual

model.

ix

Page 10: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

x

Page 11: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Στη Βάσω, Ασπασία και Αγλαΐα.

xi

Page 12: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

xii

Page 13: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Ευχαριστίες

Η προτροπή για την εκπόνηση της παρούσας διατριβής έγινε από τον καθηγητή του

Ιονίου Πανεπιστημίου κ. Σαράντο Καπιδάκη, ο οποίος στη συνέχεια ήταν ο

επιβλέπων καθηγητής στην τριμελή συμβουλευτική επιτροπή. Ως εκ τούτου θα ήθελα

να τον ευχαριστήσω τόσο για την πολύτιμη βοήθεια και συνεργασία του κατά τη

διάρκεια της εκπόνησης της διατριβής όσο και για την προτροπή του, που χωρίς αυτή

δεν θα είχε εκπονηθεί η παρούσα διατριβή.

Ευχαριστώ θερμά το μέλος της συμβουλευτικής επιτροπής αναπληρωτή

καθηγητή του Ιονίου Πανεπιστημίου κ. Χρήστο Παπαθεοδώρου για τη μεγάλη

υποστήριξη και την άψογη συνεργασία που είχαμε, καθώς επίσης και το τρίτο μέλος

της συμβουλευτικής επιτροπής καθηγητή του ΕΜΠ κ. Τιμολέοντα Σελλή για τις

εύστοχες παρατηρήσεις και τις ουσιαστικές προτάσεις του, οι οποίες ήταν

καθοριστικές στην ανάπτυξη των θεμάτων που μελετήθηκαν.

Για τις εποικοδομητικές συζητήσεις και το σχολιασμό που έκαναν στις

δημοσιεύσεις των επιμέρους αποτελεσμάτων της διατριβής θα ήθελα να ευχαριστήσω

τα μέλη της πρώην ομάδας ανάπτυξης και υποστήριξης του ΑΒΕΚΤ Άννα Μάστορα,

Λίνα Μπουντούρη και Μανόλη Πεπονάκη.

Από τις ευχαριστίες δεν είναι δυνατόν να απουσιάζει και η οικογένεια μου

τόσο για την υπομονή όσο και για την ανοχή της στο χρόνο που απαιτήθηκε για την

ολοκλήρωση της διατριβής.

xiii

Page 14: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Πίνακας Περιεχομένων

Περίληψη...................................................................................................................v

Abstract..................................................................................................................viii

Ευχαριστίες.............................................................................................................xiii

Κεφάλαιο 1

Εισαγωγή...................................................................................................................1

1.1 Μετα-αναζήτηση.............................................................................................2

1.2 Στόχοι, διάρθρωση διατριβής..........................................................................9

Κεφάλαιο 2

Συστήματα ενιαίας πρόσβασης στο περιβάλλον των βιβλιοθηκών.........................14

2.1 Μετα-αναζήτηση...........................................................................................17

2.1.1 Μετεγγραφή κατά προσέγγιση..............................................................19

2.1.2 Ταξινόμηση συστημάτων μετα-αναζήτησης.........................................21

2.1.2.1 Σύμφωνα με το λογικό διαχωρισμό των διαδικασιών...................21

2.1.2.2 Σύμφωνα με τις παρεχόμενες υπηρεσίες.......................................23

2.1.3 Αποδοτικότητα σε σχέση με την επίδοση χρόνου ................................24

2.2 Το Πρωτόκολλο Z39.50................................................................................30

2.2.1 Μηχανισμός Αναζήτησης......................................................................30

2.2.1.1 Σημεία Πρόσβασης........................................................................34

2.2.2 Διάχυση χαρακτηριστικών αναζήτησης................................................39

2.2.2.1 Δυνατότητα επεξήγησης χαρακτηριστικών διακομιστή................39

2.2.2.2 Προφίλ υλοποίησης ......................................................................40

2.2.3 SRU/SRW: Search & Retrieve via URL/Web Service..........................42

2.2.4 Αποδοτικότητα μετα-αναζήτησης στο περιβάλλον Z39.50..................42

2.3 Μεταδεδομένα..............................................................................................44

2.3.1 Σύνθεση αποτελεσμάτων αναζήτησης..................................................46

2.3.2 Functional Requirements for Bibliographic Records (FRBR)..............49

2.4 Σύνοψη .........................................................................................................56

Κεφάλαιο 3

Αρχιτεκτονική επαναληπτικής ανάκτησης και σύνθεσης αποτελεσμάτων με

παράλληλες διαδικασίες σε εικονικό συλλογικό κατάλογο.....................................58

xiv

Page 15: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

3.1 Εικονικοί συλλογικοί κατάλογοι...................................................................60

3.2 Επαναληπτική ανάκτηση και σύνθεση αποτελεσμάτων με παράλληλη

υλοποίηση διαδικασιών .....................................................................................64

3.2.1 Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους.....68

3.2.2 Βήματα εκτέλεσης μιας επερώτησης....................................................72

3.2.2.1 Επεξεργαστής αποτελεσμάτων......................................................75

3.2.3 Απόδοση................................................................................................78

3.3 Σύνοψη..........................................................................................................83

Κεφάλαιο 4

Περιγραφή χαρακτηριστικών αναζήτησης με τη γλώσσα RQDL...........................85

4.1 Στοιχειώδης παρουσίαση χαρακτηριστικών της γλώσσας RQDL................90

4.2 Σχεδιότυπα Σημείου Πρόσβασης .................................................................91

4.3 Σχεδιότυπα Επερώτησης ..............................................................................96

4.4 Σύνοψη........................................................................................................100

Κεφάλαιο 5

Κατά προσέγγιση σημασιολογική μετεγγραφή επερώτησης.................................102

5.1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης σε περιβάλλον Z39.50 .......104

5.1.1 Μεθοδολογία δημιουργίας σημασιολογικού γράφου..........................107

5.2 Σημασιολογική αντικατάσταση μη υποστηριζόμενων Σημείων Πρόσβασης

...........................................................................................................................111

5.2.1 Τακτικές αντικατάστασης μη υποστηριζόμενου Σημείου Πρόσβασης

......................................................................................................................112

5.2.1.1 Αντικατάσταση με διεύρυνση σημασιολογίας.............................113

5.2.1.2 Αντικατάσταση με σύμπτυξη σημασιολογίας..............................117

5.2.2 Αποτίμηση ανάκλησης και ακρίβειας.................................................120

5.2.3 Μέτρηση αντικατάστασης...................................................................124

5.3 Υπηρεσία παγκόσμιου ιστού για ανοικτή πρόσβαση στο Σημασιολογικό

Δίκτυο Σημείων Πρόσβασης ...........................................................................125

5.4 Σύνοψη........................................................................................................127

Κεφάλαιο 6

μετα-Συνθέτης.......................................................................................................130

6.1 Αρχιτεκτονική συστήματος μετα-Συνθέτης ...............................................131

xv

Page 16: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

6.1.1 pazpar2................................................................................................132

6.1.2 Μετεγγραφέας επερωτήσεων Σημασιολογικού Δικτύου Σημείων

Πρόσβασης (ΣηΔιΣηΠ)................................................................................133

6.1.3 Ολοκλήρωση υποσυστημάτων............................................................134

6.1.3.1 Χρησιμοποιώντας το μετα-Συνθέτη............................................137

6.2 FRBR συστάδες..........................................................................................140

6.3 Σύνοψη........................................................................................................144

Κεφάλαιο 7

Γενική συζήτηση....................................................................................................145

7.1 Αναζήτηση χωρίς αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις.....146

7.2 Σχετικές εργασίες........................................................................................151

7.3 Συμπεράσματα ...........................................................................................156

7.4 Μελλοντική έρευνα ....................................................................................159

Παράρτημα Α

Ενδεικτικά παραδείγματα Z39.50 πηγών με τα Σημεία Πρόσβασης που

υποστηρίζουν.........................................................................................................162

Παράρτημα Β

Γλωσσάρι...............................................................................................................166

Βιβλιογραφία

............................................................................................................................168

xvi

Page 17: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κατάλογος Εικόνων

1.1. Ένα απλοποιημένο αντιπροσωπευτικό δείγμα από το Σημασιολογικό Δίκτυο

Σημείων Πρόσβασης..........................................................................................6

1.2. Μία ιεραρχική FRBR Έργο-κεντρική συστάδα που περιλαμβάνει Εκφράσεις

και Εκδηλώσεις από το συλλογικό κατάλογο MELVYL...................................9

2.1. Αναπαράσταση αποτελεσμάτων αρχικής επερώτησης Q και μετεγγραμμένης

κατά προσέγγιση επερώτησης S......................................................................20

2.2. Αρχιτεκτονική συστήματος μετα-αναζήτησης.................................................22

2.3. Αρχιτεκτονική ενδιάμεσου...............................................................................23

2.4. Παραδείγματα ορισμού σημασιολογίας Bib-1 Σημείων Πρόσβασης..............35

2.5. Τα τρία Bib-1 Σημεία Πρόσβασης που υποστηρίζονται από τις περισσότερες

Z39.50 πηγές....................................................................................................38

2.6. Αριθμός Z39.50 πηγών που υποστηρίζουν υπηρεσία αναζήτησης...................38

2.7. Οι οντότητες της πρώτης ομάδας και οι συσχετίσεις τους...............................51

2.8. Συσχετίσεις με έννοιες και αντικείμενα από το βιβλιογραφικό σύμπαν με τις

αντίστοιχες FRBR οντότητες...........................................................................53

2.9. Αποτελέσματα αναζήτησης σε ιεραρχική Έργο-κεντρική συστάδα από το

σύστημα μετα-Συνθέτης. .................................................................................55

3.1. Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους................67

3.2. Αναπαράσταση ροής διαδικασιών εικονικού συλλογικού καταλόγου.............79

3.3. Αλληλουχία σταδιακής ανάκτησης και παράλληλης επεξεργασίας

αποτελεσμάτων................................................................................................80

5.1. Συσχέτιση Σημείου Πρόσβασης με τη σχέση υποσυνόλου............................105

5.2. Αντιπροσωπευτικό δείγμα του γράφου συσχέτισης των Bib-1 Σημείων

Πρόσβασης.....................................................................................................106

5.3. Βήμα 1: Δημιουργία του γράφου G. Ο αριθμός δίπλα σε κάθε κόμβο εκφράζει

τον έσω-βαθμό του.........................................................................................107

5.4. Βήμα 2: Ο γράφος G μετά την τοπολογική ταξινόμηση................................108

5.5. Βήμα 3: Ο γράφος G0, το ελάχιστο υποσύνολο του G..................................109

5.6. Αντιπροσωπευτικό δείγμα του RDF Schema που αναπαριστά τη

σημασιολογική συσχέτιση των Bib-1 Σημείων Πρόσβασης. ........................110

xvii

Page 18: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

5.7. Μονοπάτια ιεραρχίας προγόνων από τα οποία επιλέγεται μη επιθυμητό Σημείο

Πρόσβασης.....................................................................................................116

5.8. Υπηρεσία ανοικτής πρόσβασης στο Σημασιολογικό Δίκτυο Σημείων

Πρόσβασης.....................................................................................................126

5.9. Απόκριση σε μορφή XML της υπηρεσίας Σημασιολογικού Δικτύου Σημείων

Πρόσβασης.....................................................................................................127

6.1. Αρχιτεκτονική μονάδας ελέγχου και αντικατάστασης Σημείων Πρόσβασης.

........................................................................................................................134

6.2. Αρχιτεκτονική μετα-Συνθέτη..........................................................................135

6.3. Διεπαφή αναζήτησης......................................................................................137

6.4. Διεπαφή χρήσης Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ),

προεπιλογές στάθμισης ανάκλησης και ακρίβειας, εφικτές τακτικές

αντικατάστασης και προτεινόμενη αντικατάσταση.......................................138

6.5. Διεπαφή ανάκτησης........................................................................................139

6.6. Μία FRBR Έργο-κεντρική συστάδα διευθετημένη περαιτέρω σε Εκφράσεις

και Εκδηλώσεις..............................................................................................140

Α.1. Αναπαράσταση του γράφου συσχετίσεων Σημείων Πρόσβασης. Οι κόμβοι με

πράσινο χρώμα συμβολίζουν τα Σημεία Πρόσβασης που υποστηρίζει η

Library of Congress. .....................................................................................164

Α.2. Αναπαράσταση του γράφου συσχετίσεων Σημείων Πρόσβασης. Οι κόμβοι με

πράσινο χρώμα συμβολίζουν τα Σημεία Πρόσβασης που υποστηρίζει η

βιβλιοθήκη του Πανεπιστημίου Κρήτης. ......................................................165

xviii

Page 19: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κατάλογος Πινάκων

5.1. Παραδείγματα τιμών ταξινομικής ακρίβειας και ανάκλησης για μερικές

ενδιαφέρουσες αντικαταστάσεις διεύρυνσης και σύμπτυξης αντίστοιχα......124

7.1. Αντιπροσωπευτικές συνόψεις απαντήσεων από τρεις πηγές για την

επερώτηση: Author-name-conference (1006) = “IEEE”. Η ακρίβεια και η

ανάκληση σταθμίζονται ισοδύναμα...............................................................148

7.2. Οι αριθμοί των αποτελεσμάτων εκτελώντας την επερώτηση του

παραδείγματος 6.1 χωρίς αντικατάσταση και με αντικατάσταση τού μη

υποστηριζόμενου Σημείου Πρόσβασης.........................................................149

7.3. Σύνοψη χαρακτηριστικών αντικαταστάσεων διεύρυνσης και σύμπτυξης για

την επερώτηση: Author-Title-Subject (1036) = “Malinowski”.....................150

7.4. Αποτελέσματα μετρικής F-measure με διαφορετικές σταθερές στάθμισης.. .151

Α.1. Τα Σημεία Πρόσβασης που υποστηρίζουν τα συστήματα διάθεσης των

καταλόγων της Library of Congress, των συλλογικών καταλόγων MELVYL

και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του

Πανεπιστήμιου Κρήτης..................................................................................162

Α.2. Τα κοινά Σημεία Πρόσβασης που υποστηρίζουν τα συστήματα διάθεσης των

καταλόγων της βιβλιοθήκης της Library of Congress, των συλλογικών

καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της

βιβλιοθήκης του Πανεπιστήμιου Κρήτης......................................................164

xix

Page 20: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1

Εισαγωγή

Η κυρίαρχη αντίληψη για τον ορισμό και το ρόλο των Ψηφιακών Βιβλιοθηκών τις

θεωρεί ως συστήματα τα οποία παρέχουν στους χρήστες συνεκτική πρόσβαση σε

μεγάλες οργανωμένες πηγές πληροφορίας και γνώσης (Larson, 2001; Leiner, 1998).

Η αποτελεσματική χρήση των όλο και αυξανόμενων κατανεμημένων πηγών

πληροφορίας και γνώσης (Ψηφιακών Βιβλιοθηκών) προϋποθέτει την ανάπτυξη

πληροφοριακών συστημάτων που παρέχουν ενιαία και ομοιόμορφη πρόσβαση στις

πηγές, θεωρώντας τις ως μία οντότητα.

Η ποικιλομορφία των διαθέσιμων πόρων σε συνδυασμό με τις μεθόδους

πρόσβασης και το περιβάλλον χρήσης των πηγών οδήγησε στην ανάπτυξη

συστημάτων ενιαίας πρόσβασης (“One stop” systems) με ποικίλες αρχιτεκτονικές.

Καθοριστικός παράγοντας στην ανάπτυξη των συστημάτων ενιαίας πρόσβασης είναι

τα χαρακτηριστικά, οι περιορισμοί και το κόστος των διαθέσιμων τεχνολογιών και

υποδομών. Ένας πολύ μεγάλος αριθμός πηγών, ο οποίος αυξάνεται με ταχύτατους

ρυθμούς (Bergman, 2001), είναι κρυμμένος πίσω από πληροφοριακά συστήματα τα

οποία διαθέτουν τους πόρους τους μέσα από προκαθορισμένες διαδικασίες και

γλώσσες επερωτήσεων χωρίς να παρέχουν καμία δυνατότητα άμεσης πρόσβασης

στους πόρους και τη δομή των πηγών.

Σε αρκετές περιπτώσεις, οι διαδικασίες πρόσβασης και οι γλώσσες

1

Page 21: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 2

επερωτήσεων των πηγών έχουν κοινά χαρακτηριστικά ή είναι συμβατές με διεθνή

πρότυπα αναζήτησης και ανάκτησης πληροφοριών. Επιπλέον, οι απαντήσεις των

πηγών είναι συμβατές με πρότυπα περιγραφής δεδομένων και μεταδεδομένων. Η

χρήση κοινών προτύπων είναι αρκετά συνηθισμένη σε περιπτώσεις όπου οι πηγές

ανήκουν σε όμοιες πληροφοριακές κοινότητες διευκολύνοντας, παράλληλα, την

εξισορρόπηση των παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης στην

ανάπτυξη των συστημάτων (LeVan, 2006).

Ειδικότερα, η κοινότητα των βιβλιοθηκών θεωρείται μια αντιπροσωπευτική

περίπτωση ευρείας εφαρμογής προτύπων κωδικοποίησης και πρωτοκόλλων διάθεσης

των πηγών. Ενδεικτικά παραδείγματα ευρέως χρησιμοποιουμένων προτύπων

μεταδεδομένων είναι οι παραδοσιακές MARC κωδικοποιήσεις, καθώς επίσης και οι

σύγχρονες εκδοχές τους MARCXML και MODS εκφρασμένες σε γλώσσα XML.

Σχετικά με τα πρωτόκολλα διάθεσης, το πρωτόκολλο αναζήτησης-ανάκτησης

πληροφοριών Z39.50 χρησιμοποιείται ευρύτατα και αποτελεσματικά από τις

βιβλιοθήκες τουλάχιστον τα τελευταία δεκαπέντε έτη.

1.1 Μετα-αναζήτηση

Μία από τις αρχιτεκτονικές των συστημάτων ενιαίας πρόσβασης είναι η μετα-

αναζήτηση ή, εναλλακτικά αποκαλούμενη, federated search ή παράλληλη αναζήτηση

ή εικονικός συλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης ο χρήστης

θέτει τις επερωτήσεις του σε ένα κεντρικό σύστημα το οποίο τις προωθεί στις πηγές

(συστήματα προορισμού) και στη συνέχεια ενοποιεί και παρουσιάζει στο χρήστη τις

απαντήσεις που θα λάβει από αυτές.

Η αποτελεσματικότητα (effectiveness) ενός περιβάλλοντος μετα-αναζήτησης

καθορίζεται από:

• Τη δυνατότητα που έχει να μετεγγράφει τις επερωτήσεις που του θέτουν στην

αντίστοιχη επερώτηση που απαιτεί η κάθε πηγή.

• Την ικανότητα του να συλλέγει, να κατανοεί, να επεξεργάζεται και να

συνθέτει τις απαντήσεις από τις πηγές.

Οι δυνατότητες αυτές προσδιορίζονται άμεσα από το επίπεδο της συντακτικής

(syntactic), λειτουργικής (functional) και σημασιολογικής (semantic)

Page 22: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 3

διαλειτουργικότητας των κατανεμημένων πληροφοριακών συστημάτων διάθεσης των

πόρων (Moen, 2001). Επιπροσθέτως, οι απαιτήσεις για αυξημένη αποδοτικότητα

(efficiency) του συστήματος μετα-αναζήτησης, όπου η online φύση του απαιτεί να

δοθεί η απάντηση στον ελάχιστο δυνατό χρόνο, περιορίζουν τις λύσεις στα

προβλήματα αποτελεσματικότητας του συστήματος.

Αδυναμία αποτελεσματικής μετεγγραφής της επερώτησης από το σύστημα

μετα-αναζήτησης στη μορφή που υποστηρίζει η κάθε υποκείμενη πηγή συνεπάγεται

εναλλακτικά:

• Είτε αποτυχημένη επερώτηση (query failure), δηλαδή την απόρριψή της από το

σύστημα που προορίζεται.

• Είτε ασυνεπή απάντηση (inconsistent answer), δηλαδή την αυθαίρετη

μετεγγραφή της από το σύστημα προορισμού σε μορφή που να είναι δυνατή η

εκτέλεσή της από αυτό.

Στην περίπτωση της αποτυχημένης επερώτησης, ο χρήστης, παρότι δε λαμβάνει

απάντηση, ενημερώνεται ότι το σύστημα δεν υποστηρίζει το χαρακτηριστικό της

επερώτησής του. Βέβαια, σε ένα περιβάλλον όπου η επερώτηση υποβάλλεται

ταυτόχρονα σε πολλές πηγές είναι αρκετά πιθανό ο χρήστης να λάβει μόνο

διαγνωστικά μηνύματα λάθους ή να μη δει ή ξεχωρίσει τα μηνύματα αυτά ανάμεσα

σε αποτελέσματα άλλων πηγών. Στην εναλλακτική περίπτωση της ασυνεπούς

απάντησης, ο χρήστης θα λάβει απάντηση χωρίς όμως να γνωρίζει πώς προήλθε, και

το σπουδαιότερο, δε θα ενημερωθεί ότι έγινε η αυθαίρετη μετεγγραφή. Το

πλεονέκτημα στην περίπτωση αυτή, και ιδιαίτερα σε περιπτώσεις μη έμπειρων

χρηστών που αναζητούν ταυτόχρονα πολλές πηγές, είναι ότι ο χρήστης θα λάβει

τουλάχιστον κάποια σχετική απάντηση και δε θα αποτραπεί από την έρευνά του.

Αξίζει να σημειωθεί ότι οι τρέχουσες υλοποιήσεις συστημάτων μετα-

αναζήτησης δίνουν ιδιαίτερη έμφαση σε προσεγγίσεις που παρέχουν σχετικά

αποτελέσματα στο χρήστη αποφεύγοντας τις περιπτώσεις αποτυχημένων

επερωτήσεων. Για το λόγο αυτό, οι κυριότερες εναλλακτικές υλοποιήσεις που

εφαρμόζουν τα συστήματα αυτά περιλαμβάνουν:

1. Τον περιορισμό των χαρακτηριστικών επερώτησης στο ελάχιστο υποσύνολο

με τα χαρακτηριστικά που υποστηρίζονται από όλες τις πηγές.

2. Αγνοούν τις πηγές που δεν υποστηρίζουν την επερώτηση.

Page 23: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 4

3. Επιτρέπουν στην πηγή να εκτελέσει την επερώτηση κάνοντας αυθαίρετες

μετεγγραφές.

Η πρώτη προσέγγιση περιορίζει τα χαρακτηριστικά αναζήτησης των πηγών, η

δεύτερη περιορίζει τις διαθέσιμες πηγές, ενώ η τρίτη παράγει ασυνεπείς απαντήσεις.

Η δεδομένη καθολική χρήση του πρωτοκόλλου Z39.50 στο χώρο των

βιβλιοθηκών το καθιστά βασικό συντελεστή στην αποτελεσματικότητα και

αποδοτικότητα των συστημάτων μετα-αναζήτησης. Ο μηχανισμός αναζήτησης του

πρωτοκόλλου βασίζεται στη χρήση Συνόλων Γνωρισμάτων (Attribute Sets), τα οποία

είναι συνδυασμός από προκαθορισμένα Σημεία Πρόσβασης (Abstract Access Points)

με ειδικά γνωρίσματα που προσδιορίζουν τη δομή του. Σύμφωνα με τις απαιτήσεις

συμβατότητας του Z39.50, το Σύνολο Γνωρισμάτων Bib-1 πρέπει να αναγνωρίζεται,

χωρίς όμως να είναι απαραίτητη η πλήρης υλοποίησή του.

Παρά την ύπαρξη και ευρεία χρήση του Z39.50 από την κοινότητα των

βιβλιοθηκών, οι ποικίλες ή οι ελλιπείς υλοποιήσεις του από τις πηγές περιορίζουν

σημαντικά τα χαρακτηριστικά αναζήτησης και ιδιαίτερα τα διαθέσιμα Σημεία

Πρόσβασης. Στην πλειοψηφία τους, οι Z39.50 πηγές, όταν θα πρέπει να απαντήσουν

μία επερώτηση που περιέχει ένα Σημείο Πρόσβασης το οποίο δεν υποστηρίζουν,

υλοποιούν την πρακτική της αποτυχημένης επερώτησης. Ενδεικτικά αναφέρονται τα

συστήματα διάθεσης των συλλογικών καταλόγων MELVYL1 και COPAC2, καθώς

επίσης και το σύστημα καταλόγου Library and Archives Canada (LAC)3.

Εναλλακτικά, το σύστημα διάθεσης της Library of Congress (LC)4 είναι ένα από τα

συστήματα που έχουν υλοποιήσει την προσέγγιση της ασυνεπούς απάντησης.

Κατά την ανάπτυξη ενός συστήματος μετα-αναζήτησης, το οποίο εφαρμόζει

τις προαναφερθείσες τρέχουσες προσεγγίσεις υλοποίησης, θα τεθούν προβλήματα

σχετικά με τη διαδικασία αναζήτησης. Το παράδειγμα που ακολουθεί είναι ενδεικτικό

αυτών των προβλημάτων.

Παράδειγμα 1.1: Ας θεωρήσουμε ότι αναπτύσσεται ένα σύστημα μετα-αναζήτησης

για τις Z39.50 πηγές της Library of Congress, του συλλογικού καταλόγου COPAC και

του καταλόγου της βιβλιοθήκης του Πανεπιστημίου Κρήτης. Τα Σημεία Πρόσβασης

που υποστηρίζουν όλες οι πηγές είναι μόνο εννέα, όπως φαίνεται στον πίνακα Α.2 του

1 http://melvyl.cdlib.org .2 http://copac.ac.uk . 3 http://www.collectionscanada.gc.ca/amicus/index-e.html . 4 http://catalog.loc.gov .

Page 24: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 5

παραρτήματος Α, ο οποίος παρουσιάζει τα κοινά Σημεία Πρόσβασης. Αυτό

συνεπάγεται ότι, για να υποστηρίζονται όλες οι επερωτήσεις του χρήστη από τις

πηγές, το σύστημα μετα-αναζήτησης θα πρέπει να διαθέτει στο χρήστη -από το

σύνολο των ενενήντα εννέα Σημείων πρόσβασης που ορίζει το Bib-1 Σύνολο

Γνωρισμάτων του Z39.50- μόνο τα εννέα κοινά Σημεία Πρόσβασης που υποστηρίζουν

όλες οι πηγές.

Επιπροσθέτως, για την περίπτωση που είναι αναγκαίο οι χρήστες να θέσουν

εξειδικευμένες επερωτήσεις και το σύστημα μετα-αναζήτησης έχει περιορίσει τα

διαθέσιμα Σημεία Πρόσβασης το παράδειγμα που ακολουθεί είναι αντιπροσωπευτικό

για τα προβλήματα που ανακύπτουν.

Παράδειγμα 1.2: Με τις υποθέσεις του παραδείγματος 1.1 ας θεωρήσουμε επιπλέον

ότι ένας χρήστης θέλει να αναζητήσει τα πρακτικά των συνεδρίων της IEEE και

μόνον αυτά. Διευκρινίζεται ότι ο χρήστης δεν ενδιαφέρεται για άλλες εκδόσεις της

IEEE, όπως είναι τεχνικές εκθέσεις, πρότυπα, κλπ. Το Z39.50 Bib-1 Σύνολο

Γνωρισμάτων προβλέπει τη χρήση εξειδικευμένων επερωτήσεων και ειδικότερα το

Σημείο Πρόσβασης Author-name-conference για τη συγκεκριμένη επερώτηση του

χρήστη. Όπως δείχνει ο πίνακας Α.1 του παραρτήματος Α, μόνο ο συλλογικός

κατάλογος COPAC υποστηρίζει το Σημείο Πρόσβασης. Σε περίπτωση που το σύστημα

μετα-αναζήτησης διαθέτει για αναζήτηση στο χρήστη μόνο τα κοινά Σημεία

Πρόσβασης από όλες τις πηγές, τότε το Author-name-conference δεν θα είναι

διαθέσιμο, επομένως ο χρήστης δεν θα έχει τη δυνατότητα να εκφράσει πλήρως την

εξειδικευμένη του επερώτηση. Αντίθετα, αν το σύστημα μετα-αναζήτησης διαθέτει

για αναζήτηση ένα ευρύτερο σύνολο από τα κοινά Σημεία Πρόσβασης όλων των

πηγών, περιλαμβάνοντας και το Author-name-conference, τότε η μοναδική συνεπής

απάντηση που θα ικανοποιούσε το αίτημα του χρήστη θα προέλθει από το COPAC,

που υποστηρίζει το Σημείο Πρόσβασης. Το σύστημα του Πανεπιστημίου Κρήτης δεν

θα εκτελέσει την επερώτηση και θα επιστρέψει το αντίστοιχο μήνυμα σφάλματος

(αποτυχημένη επερώτηση). Η πηγή Library of Congress, παρά το ότι δεν υποστηρίζει

το Σημείο Πρόσβασης, θα εκτελέσει την επερώτηση, αντικαθιστώντας αυθαίρετα το

Author-name-conference με ένα Σημείο Πρόσβασης που υποστηρίζει και χωρίς να

ενημερώσει το χρήστη για την αντικατάσταση που έκανε (ασυνεπής απάντηση). Το

πρόβλημα που προκαλούν οι ασυνεπείς απαντήσεις είναι ιδιαίτερα σοβαρό όσο

Page 25: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 6

αυξάνεται ο αριθμός των πηγών που ακολουθούν αυτήν την πολιτική, αφού είναι

δυνατό η τελική απάντηση να είναι σημασιολογικά εντελώς διαφορετική από εκείνη

που έθεσε αρχικά ο χρήστης.

Σύμφωνα με τα στατιστικά στοιχεία που παρουσιάζονται στο κεφάλαιο 2,

υπάρχουν πολλές διαφορετικές υλοποιήσεις του πρωτοκόλλου Z39.50. Επίσης, όσο

μεγαλύτερος είναι ο αριθμός των Z39.50 πηγών που συμμετέχουν σε ένα σύστημα

μετα-αναζήτησης τόσο μειώνεται ο αριθμός των κοινών χαρακτηριστικών

αναζήτησης. Επιπλέον, είναι πιθανόν να μην υπάρχει ένα Σημείο Πρόσβασης που να

υποστηρίζεται από όλες τις πηγές που αναζητούνται από το σύστημα μετα-

αναζήτησης.

Εικόνα 1.1. Ένα απλοποιημένο αντιπροσωπευτικό δείγμα από το Σημασιολογικό Δίκτυο Σημείων

Πρόσβασης.

Μια κύρια συνεισφορά της παρούσας διατριβής είναι η ανάπτυξη του

Σημασιολογικού Δικτύου Σημείων Πρόσβασης (εικόνα 1.1), που είναι ένας γράφος

σημασιολογικής συσχέτισης των Bib-1 Σημείων πρόσβασης, καθώς επίσης και η

Page 26: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 7

σημασιολογική μετεγγραφή των επερωτήσεων που περιλαμβάνουν μη

υποστηριζόμενα Σημεία Πρόσβασης. Η μετεγγραφή βασίζεται στο Σημασιολογικό

Δίκτυο Σημείων Πρόσβασης και η επερώτηση μετεγγράφεται είτε σε μία άλλη

ισοδύναμη, αν αυτό είναι εφικτό, είτε σε ένα σύνολο επερωτήσεων που η ανάκληση

και η ακρίβειά τους θα βρίσκονται σε ένα προκαθορισμένο εύρος ανοχής από αυτό

της αρχικής.

Η προσέγγιση του προβλήματος αυτού γίνεται χρησιμοποιώντας τη θέση

κάθε Σημείου Πρόσβασης στο σημασιολογικό γράφο συσχετίσεων των Σημείων

Πρόσβασης. Το παράδειγμα που ακολουθεί παρουσιάζει συνοπτικά τη λογική

ανάπτυξης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης, καθώς επίσης και των

διαδικασιών μετεγγραφής μίας επερώτησης σε περίπτωση που περιλαμβάνει ένα

Σημείο Πρόσβασης το οποίο δεν υποστηρίζει μία πηγή.

Παράδειγμα 1.3: Ένα Σημείο Πρόσβασης που μπορεί να χρησιμοποιηθεί είναι το

Author-Title-Subject υποδηλώνοντας ότι ο όρος αναζήτησης θα πρέπει να ταυτιστεί

μόνο με πληροφορίες από τα πεδία Author ή Title ή Subject. Από την εικόνα 1.1, το

Σημείο Πρόσβασης Author-Title-Subject μπορεί να θεωρηθεί υπερσύνολο των

Σημείων Πρόσβασης Name, Title, Subject, Music-key και Identifier-thematic. Επίσης,

το Author-Title-Subject μπορεί να θεωρηθεί υποσύνολο από το Σημείο Πρόσβασης

Any. Σε περίπτωση επερώτησης με το Author-Title-Subject σε μια πηγή που δεν το

υποστηρίζει, αυτό το Σημείο Πρόσβασης θα μπορούσε να αντικατασταθεί από την

λογική ένωση των υποστηριζόμενων Σημείων Πρόσβασης Subject και Title

(υποθέτουμε ότι η πηγή υποστηρίζει αυτά τα δύο Σημεία Πρόσβασης). Βέβαια, με τον

τρόπο αυτό περιορίζονται τα αποτελέσματα της επερώτησης (συμπτύσσεται η

σημασιολογία της). Εναλλακτικά, σε περίπτωση που είναι επιθυμητό να διευρυνθεί το

σύνολο των αποτελεσμάτων, θα μπορούσε να αντικατασταθεί με το Any (διευρύνεται

η σημασιολογία της επερώτησης).

Ζητήματα που αφορούν την ενιαία και ομοιόμορφη πρόσβαση αυτόνομων

πληροφοριακών πηγών έχουν μελετηθεί ευρύτατα και από την κοινότητα των βάσεων

δεδομένων. Ειδικότερα, αρκετά συστήματα ολοκλήρωσης πληροφοριών που είναι

συμβατά με το μοντέλο mediator-wrapper (Wiederhold, 1992; Ullman, 1997) έχουν

αντιμετωπίσει ζητήματα που αφορούν την περιγραφή των παρεχομένων δυνατοτήτων

επερώτησης από κάθε πηγή, καθώς επίσης και τη μετεγγραφή τους έτσι ώστε να είναι

Page 27: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 8

δυνατή η εκτέλεσή τους από την πηγή. Ενδεικτικά αντιπροσωπευτικά συστήματα των

διαφορετικών προσεγγίσεων στην αντιμετώπιση των ζητημάτων περιγραφής και

μετεγγραφής επερωτήσεων θεωρούνται τα Information Manifold (Kirk et al., 1995),

TSIMMIS (Chawathe et al., 1994), Garlic (Carey et al., 1995), DISCO (Tomasic et

al., 1996). Παρά το ότι η παρουσίαση των εργασιών και των συστημάτων που έχουν

αντιμετωπίσει συναφή προβλήματα με την παρούσα διατριβή γίνεται στο κεφάλαιο 7,

στο σημείο αυτό αναφέρουμε ότι η παρούσα διατριβή διαφοροποιείται από τις

εργασίες που αντιμετωπίζουν αντίστοιχα θέματα καθώς εστιάζει στην αυτόματη

ανάκτηση και χρήση σημασιολογίας η οποία προκύπτει έμμεσα από τα μεταδεδομένα

που υποστηρίζουν τα συστήματα διάθεσης.

Σχετικά με τον επόμενο παράγοντα αποτελεσματικότητας ενός συστήματος

μετα-αναζήτησης, κυρίαρχα ζητήματα είναι η συλλογή, η σύνθεση και η παρουσίαση

των αποτελεσμάτων στο χρήστη στον ελάχιστο δυνατό χρόνο. Η συλλογή και

σύνθεση όλων των αποτελεσμάτων αρχικά και στη συνέχεια η παρουσίασή τους στο

χρήστη θεωρείται μη ρεαλιστική προσέγγιση, ιδιαιτέρως σε συστήματα που είτε

συμμετέχουν πολλές πηγές είτε ο αριθμός των αποτελεσμάτων είναι μεγάλος. Η

προσέγγιση αυτή, εκτός του ότι απαιτεί συνήθως αρκετά μεγάλο χρόνο για να

υλοποιηθεί, το κυριότερο, περιορίζει την απόδοση του συστήματος μετα-αναζήτησης

στο χρόνο της πιο αργής πηγής. Για το λόγο αυτό, η αρχιτεκτονική που προτείνεται

βασίζεται στην ασύγχρονη τμηματική συλλογή και επεξεργασία μικρού αριθμού

αποτελεσμάτων και στην όσο το δυνατό συντομότερη παρουσίαση μέρους τους στο

χρήστη. Με τον τρόπο αυτό το σύστημα εκμεταλλεύεται την πιο αποδοτική πηγή και

επεξεργάζεται τα επόμενα πακέτα απαντήσεων το διάστημα που ο χρήστης εξετάζει

τα αποτελέσματα που έλαβε.

Η σύνθεση των αποτελεσμάτων αναζήτησης βασίζεται στην οντότητα έργο

(work) του εννοιολογικού μοντέλου Functional Requirements for Bibliographic

Records (FRBR) (IFLA, 1998), το οποίο αναπτύχθηκε από την IFLA. Με την

προσέγγιση αυτή δημιουργούνται συστάδες με ιεραρχική δομή από εγγραφές

μεταδεδομένων που αναφέρονται στο ίδιο έργο, ανεξάρτητα από τη γλώσσα

έκφρασης και την υλική υπόσταση του αντικειμένου που περιγράφεται από κάθε

εγγραφή.

Στην εικόνα 1.2 παρατίθεται ένα παράδειγμα σύνθεσης αποτελεσμάτων

Page 28: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 9

βασισμένο στην FRBR Έργο-κεντρική προσέγγιση. Η σύνθεση της συστάδας του

έργου έχει προκύψει από την ανάκτηση τεσσάρων εγγραφών. Οι εγγραφές αυτές

εκφράζουν τεκμήρια σε δύο γλώσσες, Αγγλικά και Ισπανικά, ενώ υπάρχουν δύο

διαφορετικές εκδόσεις για την έκφραση της αγγλικής γλώσσας. Ακολουθώντας την

παραδοσιακή προσέγγιση ανίχνευσης και ταύτισης ομοίων εγγραφών, οι τέσσερις

εγγραφές που ανακτήθηκαν θα είχαν ενοποιηθεί σε τρεις εγγραφές. Μία για την

αγγλική έκδοση του 2002, μία άλλη για την επίσης αγγλική έκδοση του 1901 και

τέλος μία για την ισπανική έκδοση του έργου. Στην περίπτωση αυτή, για το ίδιο έργο

ο χρήστης θα έβλεπε τρεις διαφορετικές απαντήσεις, που πιθανότατα θα ήταν σε

εντελώς διαφορετικές σελίδες εμφάνισης των αποτελεσμάτων.

Εικόνα 1.2. Μία ιεραρχική FRBR Έργο-κεντρική συστάδα που περιλαμβάνει Εκφράσεις και

Εκδηλώσεις από το συλλογικό κατάλογο MELVYL.

1.2 Στόχοι, διάρθρωση διατριβής

Στόχος της παρούσας διατριβής είναι η ανάπτυξη ενός ενδιάμεσου συστήματος

(mediator) από συλλογές συστημάτων διάθεσης συμβατών με το πρωτόκολλο Z39.50,

το οποίο θα παρέχει τη δυνατότητα στο χρήστη να τις θεωρεί σαν έναν ενιαίο

εικονικό κατάλογο Έργο-κεντρικών οντοτήτων, απαλλάσσοντάς τον από τη γνώση

των επιμέρους λειτουργικών και σημασιολογικών διαφορών των υποκείμενων πηγών.

Οι προτεινόμενες διαδικασίες και μέθοδοι στις οποίες βασίζεται η ανάπτυξη

του ενδιάμεσου συστήματος μετα-αναζήτησης στοχεύουν στην έμμεση επίτευξη

καλύτερης λειτουργικής και σημασιολογικής διαλειτουργικότητας χρησιμοποιώντας

Page 29: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 10

τα κύρια χαρακτηριστικά επικοινωνίας και μεταδεδομένων των συστημάτων

διάθεσης. Η ιδιαίτερη έμφαση που δίνεται στο πρωτόκολλο Z39.50, χωρίς να

θυσιάζεται η γενικότητα και η δυνατότητα ευρύτερης χρήσης των μεθόδων, οφείλεται

στην δεδομένη καθολική του χρήση στο χώρο των βιβλιοθηκών.

Οι κύριες κατευθύνσεις μελέτης και συνεισφοράς της διατριβής αφορούν σε:

• Διαδικασίες προώθησης της επερώτησης στις πηγές καθώς επίσης και την

ασύγχρονη τμηματική συλλογή και επεξεργασία των αποτελεσμάτων.

• Περιγραφή των χαρακτηριστικών αναζήτησης κάθε πηγής και τον έλεγχο για

το αν η πηγή υποστηρίζει την εκάστοτε επερώτηση. Στην περίπτωση που η

πηγή δεν υποστηρίζει την επερώτηση, η επερώτηση μετεγγράφεται είτε σε μία

άλλη ισοδύναμη, αν αυτό είναι εφικτό, είτε σε ένα σύνολο επερωτήσεων που

η ανάκληση και η ακρίβειά τους θα βρίσκονται σε ένα προκαθορισμένο εύρος

ανοχής από αυτό της αρχικής. Η μετεγγραφή βασίζεται στο Σημασιολογικό

Δίκτυο Σημείων Πρόσβασης, που προκύπτει έμμεσα από τη σημασιολογία των

μεταδεδομένων με αυτόματες διαδικασίες.

• Ταύτιση και κατηγοριοποίηση των αποτελεσμάτων σε συστάδες σύμφωνα με

την Έργο-κεντρική (work-entity) προσέγγιση του FRBR εννοιολογικού

μοντέλου.

Τα επόμενα κεφάλαια της διατριβής οργανώνονται ως ακολούθως: στο

δεύτερο κεφάλαιο αναλύεται η δομή και τα εναλλακτικά μοντέλα μετα-αναζήτησης,

με κύρια έμφαση στο μοντέλο του ενδιάμεσου (Middleware-Mediator model).

Παρουσιάζονται τα υφιστάμενα πρωτόκολλα ανάκτησης πληροφοριών καθώς επίσης

και τα κοινώς αποδεκτά και ευρέως χρησιμοποιούμενα βιβλιογραφικά πρότυπα

κωδικοποίησης μεταδεδομένων στις βιβλιοθήκες. Αναλύεται το εννοιολογικό μοντέλο

Functional Requirements for Bibliographic Records (FRBR) και παρουσιάζονται οι

νέες κατευθύνσεις που θέτει η εφαρμογή του στην οργάνωση των βιβλιογραφικών

δεδομένων. Οριοθετούνται οι λειτουργικές απαιτήσεις που πρέπει να πληρούν τα

συστήματα μετα-αναζήτησης εστιάζοντας στα προβλήματα που επηρεάζουν την

αποτελεσματικότητα και αποδοτικότητά τους στο περιβάλλον του ενδιάμεσου.

Επιπροσθέτως, παρουσιάζονται τα χαρακτηριστικά αναζήτησης που υποστηρίζουν οι

πηγές που είναι συμβατές με τα προαναφερθέντα μεταδεδομένα και πρωτόκολλα

ανάκτησης και προσδιορίζονται οι αιτίες που ευθύνονται για τις αποτυχημένες

Page 30: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 11

επερωτήσεις. Δίδεται έμφαση στα μοντέλα αναζήτησης που οι επερωτήσεις τους

χρησιμοποιούν Αφηρημένα Σημεία Πρόσβασης (abstract access points) και

παρουσιάζονται αφενός μεν οι επιπτώσεις από τα μη υποστηριζόμενα Σημεία

Πρόσβασης αφετέρου δε στοιχεία για τη συχνότητα που τίθενται επερωτήσεις με μη

υποστηριζόμενα Σημεία Πρόσβασης. Το Z39.50 Bib-1 Σύνολο Γνωρισμάτων

(attribute set) είναι το βασικό σύνολο Σημείων Πρόσβασης που αναλύεται και

μελετάται.

Στο τρίτο κεφάλαιο προτείνεται μία αρχιτεκτονική για την υλοποίηση ενός

συστήματος μετα-αναζήτησης σε επίπεδο ενδιάμεσου και ειδικότερα ενός εικονικού

συλλογικού καταλόγου συστημάτων συμβατών με το πρωτόκολλο Z39.50. Η

αρχιτεκτονική αυτή που αναπτύχθηκε στο πλαίσιο της παρούσας διατριβής βασίζεται

στην ασύγχρονη μετεγγραφή και προώθηση της επερώτησης καθώς επίσης και στην

τμηματική ανάκτηση και επεξεργασία των αποτελεσμάτων στο παρασκήνιο

(background) κατά τη διάρκεια ανάγνωσης των αποτελεσμάτων από το χρήστη. Για

κάθε πηγή πρώτα γίνεται έλεγχος αν η επερώτηση υποστηρίζεται από αυτήν. Στην

περίπτωση που η πηγή δεν υποστηρίζει την επερώτηση, το σύστημα τη μετεγγράφει

με μεθόδους που αναπτύχθηκαν και παρουσιάζονται σε επόμενες ενότητες της

διατριβής. Στη συνέχεια, μόλις δημιουργηθούν οι πρώτες FRBR Έργο-κεντρικές

συστάδες (clusters) από ένα μικρό αριθμό αποτελεσμάτων που θα ανακτηθεί

αποστέλλονται (παρουσιάζονται) στον χρήστη. Ο αριθμός των αποτελεσμάτων που

θα ανακτηθεί εξαρτάται από την αποδοτικότητα των πηγών. Το σύστημα συνεχίζει να

ανακτά αποτελέσματα τα οποία είτε τα εντάσσει στις ήδη υπάρχουσες συστάδες είτε

δημιουργεί νέες. Οι FRBR Έργο-κεντρικές συστάδες δεν είναι μόνο ομάδες όμοιων

εγγραφών του ιδίου αντικειμένου αλλά ομάδες εγγραφών που αναφέρονται στο ίδιο

έργο ενός δημιουργού, όπως ορίζει το αντικείμενο έργο (work-entity) του

εννοιολογικού μοντέλου FRBR (conceptual model). Η περαιτέρω επεξεργασία της

συστάδας που αφορά τη δημιουργία των λοιπών οντοτήτων που προβλέπει το

μοντέλο γίνονται είτε από το διακομιστή, πριν σταλούν τα αποτελέσματα στο χρήστη,

είτε από το σταθμό εργασίας που θα λάβει τα αποτελέσματα. Εφαρμόζοντας αυτήν τη

διαδικασία το ενδιάμεσο σύστημα έχει στη διάθεσή του περισσότερο χρόνο για να

εφαρμόσει πιο αποτελεσματικές διαδικασίες για τη διαχείριση των συστάδων και

επιπλέον οι τυχόν καθυστερήσεις ή αδυναμίες απόκρισης των κατανεμημένων

Page 31: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 12

συστημάτων θα επηρεάσουν κατά το λιγότερο δυνατόν την απόδοσή του.

Συγκεκριμένα, η αρχική απόδοση του συστήματος θα καθορίζεται από την απόδοση

της ταχύτερης πηγής και όχι από την απόδοση της βραδύτερης, ενώ ο συνολικός

χρόνος απάντησης θα είναι συνάρτηση του χρόνου της βραδύτερης πηγής και όχι του

αθροίσματος των χρόνων απόκρισης των πηγών.

Μια προσέγγιση βασισμένη στη συντακτική περιγραφή των χαρακτηριστικών

και τη μετεγγραφή των επερωτήσεων (grammar based mappings) αναπτύσσονται στο

τέταρτο κεφάλαιο. Η μετεγγραφή των επερωτήσεων εξαρτάται από τις δυνατότητες

αναζήτησης που έχει η εκάστοτε πηγή και προσδιορίζεται από ένα σύνολο κανόνων

που περιγράφει ο διαχειριστής του συστήματος σε μια προκαθορισμένη γλώσσα

περιγραφής κανόνων (rule-based language). Τα υποστηριζόμενα χαρακτηριστικά

αναζήτησης απεικονίζονται από ένα σύνολο αποδεκτών επερωτήσεων από την πηγή

(query templates) εκφρασμένες στην ενιαία γλώσσα επερωτήσεων του ενδιάμεσου

(mediator), καθώς επίσης και τις αντίστοιχες μετεγγραφές τους στη γλώσσα

επερωτήσεων της πηγής. Η περιγραφή γίνεται με την Relational Query Description

Language που βασίζεται στην datalog.

Στο πέμπτο κεφάλαιο, παρουσιάζονται οι εναλλακτικές διαδικασίες που

αναπτύχθηκαν για τη μετεγγραφή κατά προσέγγιση των επερωτήσεων. Οι διαδικασίες

μετεγγραφής βασίζονται στη σημασιολογική συσχέτιση των χαρακτηριστικών

αναζήτησης που υποστηρίζει κάθε πηγή. Στο ίδιο κεφάλαιο ορίζεται και γίνεται η

αναλυτική περιγραφή του τρόπου δημιουργίας και αναπαράστασης του

Σημασιολογικού Δικτύου Σημείων Πρόσβασης. Το Σημασιολογικό Δίκτυο Σημείων

Πρόσβασης είναι ένας σημασιολογικός γράφος συσχέτισης των σημείων πρόσβασης

εκφρασμένος σε γλώσσα RDFS. Η δημιουργία του προκύπτει από τις συσχετίσεις της

σημασιολογίας των Σημείων Πρόσβασης και των μεταδεδομένων που τα ορίζουν και

περιλαμβάνει τα Σημεία Πρόσβασης που ορίζονται στο Z39.50 Bib-1 Σύνολο

Γνωρισμάτων. Ακολουθεί η αναλυτική περιγραφή της μεθόδου που αναπτύχθηκε για

την κατά προσέγγιση σημασιολογική αντικατάσταση των μη υποστηριζόμενων

Σημείων Πρόσβασης περιλαμβάνει: (α) Τους αλγορίθμους αντικατάστασης μη

υποστηριζόμενων Σημείων Πρόσβασης με διεύρυνση ή σύμπτυξη της σημασιολογίας

του μη υποστηριζόμενου Σημείου Πρόσβασης. Στη συνέχεια, περιγράφεται και η

αντίστοιχη βελτιστοποίηση της κάθε περίπτωσης, έτσι ώστε να προκύπτει το

Page 32: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 1 13

πλησιέστερο σημασιολογικά σύνολο Σημείων Πρόσβασης με το αρχικό μη

υποστηριζόμενο Σημείο Πρόσβασης. (β) Ορίζονται τα κριτήρια μέτρησης της

σημασιολογικής ομοιότητας μεταξύ Σημείων Πρόσβασης και (γ) Ορίζεται ο τύπος για

τη βέλτιστη αντικατάσταση του Σημείου Πρόσβασης σύμφωνα με προεπιλογές που

αφορούν την ανάκληση και ακρίβειά (recall, precision) του. Το κεφάλαιο

ολοκληρώνεται με την παρουσίαση της υπηρεσίας ανοικτής πρόσβασης, που

αναπτύχθηκε στο πλαίσιο της παρούσας διατριβής, για τη σημασιολογική

αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης.

Στο έκτο κεφάλαιο, παρουσιάζεται το σύστημα μετα-Συνθέτης που

αναπτύχθηκε προκειμένου να υλοποιηθούν οι μέθοδοι που παρουσιάστηκαν στα

προηγούμενα κεφάλαια. Τόσο ο μετα-Συνθέτης όσο και η υπηρεσία ανοικτής

πρόσβασης για την αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης

χρησιμοποιούν ένα προεπιλεγμένο σύνολο πηγών ελεύθερης πρόσβασης από όλο τον

κόσμο. Το σύστημα μετα-Συνθέτης δημιουργεί τις συστάδες από τα αποτελέσματα

αναζήτησης σύμφωνα με την FRBR Έργο-κεντρική προσέγγιση. Η μέθοδος

δημιουργίας των συστάδων καθώς επίσης και των απαιτούμενων εργαλείων

(wrappers) για τη δημιουργία των κλειδιών ταύτισης των μεταδεδομένων

αναπτύσσονται σε αυτή την ενότητα.

Στο τελευταίο κεφάλαιο, παρουσιάζονται και σχολιάζονται τα αποτελέσματα

από τη χρήση του μετα-Συνθέτη σε πηγές παγκοσμίου ενδιαφέροντος όπως η Library

of Congress, οι συλλογικοί κατάλογοι COPAC και MELVYL, κλπ, και γίνεται η

παρουσίαση των εργασιών και των συστημάτων που έχουν αντιμετωπίσει συναφή

προβλήματα με την παρούσα διατριβή. Η διατριβή ολοκληρώνεται με τη σύνοψη των

αποτελεσμάτων της, καθώς επίσης και με μια σύντομη αναφορά σε ενδιαφέροντα

ζητήματα για μελλοντική έρευνα.

Page 33: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2

Συστήματα ενιαίας πρόσβασης στο

περιβάλλον των βιβλιοθηκών

Η ανάπτυξη των βιβλιοθηκών, ψηφιακών ή παραδοσιακών, σε συνδυασμό με άλλα

πληροφοριακά συστήματα άμεσης πρόσβασης, προσφέρει στο χρήστη έναν τεράστιο

πλούτο πληροφορίας και γνώσης. Αξίζει να σημειωθεί ότι στο τέλος του 20ου αιώνα

είχαν ήδη αναπτυχθεί οι μέθοδοι και οι τεχνολογίες που επέτρεπαν στις βιβλιοθήκες

να διαθέτουν τους καταλόγους του υλικού τους στο κοινό μέσω του διαδικτύου. Οι

κατάλογοι αυτοί, γνωστοί ως OPACs (Online Public Access Catalogues), μέσα σε

λίγα χρόνια αποτέλεσαν αυτονόητη υπηρεσία για το σύνολο των βιβλιοθηκών.

Επιπροσθέτως, η εξέλιξη της τεχνολογίας και η πληθώρα του υλικού που υπήρχε σε

ψηφιακή μορφή έφερε στο προσκήνιο την ανάγκη της διάθεσης στους χρήστες όχι

μόνο του καταλόγου αλλά και του ίδιου του υλικού. Αυτή η ποικιλομορφία της

πληροφορίας, σε συνδυασμό με την ετερογένεια και την πολυπλοκότητα των

συστημάτων που τη διαθέτουν, δημιουργεί στους χρήστες δυσκολίες να εντοπίσουν

την κατάλληλη πηγή καθώς και να αναζητήσουν και να ανακτήσουν την πληροφορία

που τους ενδιαφέρει. Με δεδομένη την ύπαρξη και άλλων πηγών πληροφόρησης στο

διαδίκτυο, το πρόβλημα αυτό γίνεται ολοένα και εντονότερο τόσο λόγω της συνεχώς

αυξανόμενης διαθέσιμης πληροφορίας όσο και των συστημάτων διάθεσής της

(Bergman, 2001).

14

Page 34: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 15

Τα συστήματα ενιαίας πρόσβασης είναι οι προσεγγίσεις που στοχεύουν να

απαλλάξουν το χρήστη από την πολυπλοκότητα που δημιουργείται στην πρόσβαση

των πληροφοριακών πηγών ένεκα του μεγάλου αριθμού και της ετερογένειάς τους. Η

αποτελεσματικότητα ενός συστήματος ενιαίας πρόσβασης καθορίζεται από τη

δυνατότητα του να:

• γνωρίζει που βρίσκονται οι πηγές πληροφόρησης και ποια είναι τα

χαρακτηριστικά των συστημάτων που τις διαθέτουν,

• παρέχει ενιαίο τρόπο επερώτησης και πρόσβασης,

• συνθέτει τις πληροφορίες από τις πηγές πληροφόρησης σε μία ενιαία

οντότητα.

Ο βαθμός δυσκολίας που απαιτεί η υλοποίηση ενός συστήματος ενιαίας πρόσβασης

καθορίζεται από το επίπεδο διαλειτουργικότητας των πληροφοριακών πηγών που

συμμετέχουν σε αυτό, ενώ η χρήση κοινών προτύπων από τις πηγές εξισορροπεί τις

παραμέτρους λειτουργικότητας και ευκολίας υλοποίησης του συστήματος.

Τα συστήματα ενιαίας πρόσβασης, ανάλογα με το μοντέλο πρόσβασης που

υλοποιούν, ταξινομούνται σε δύο κύριες κατηγορίες, χωρίς να είναι αδύνατος ο

συνδυασμός τους σε υβριδικές προσεγγίσεις. Η πρώτη προσέγγιση, η οποία

αναφέρεται ως συγκομιδή, συγκεντρώνει τους πόρους ή τις περιγραφές τους

(μεταδεδομένα) σε ένα κεντρικό σύστημα από όπου και τους διαθέτει. Στο μοντέλο

αυτό οι επερωτήσεις που τίθενται στο σύστημα απαντώνται από τη μηχανή

αναζήτησης του ενιαίου συστήματος πρόσβασης. Τυπικά παραδείγματα της

απλούστερης εφαρμογής αυτού του μοντέλου είναι η συγκέντρωση, η ευρετηρίαση

και η διάθεση HTML σελίδων από τις γνωστές μηχανές αναζήτησης Google και

Yahoo!.

Ενώ η συγκομιδή των HTML σελίδων θεωρείται ως η ευκολότερη και με

λιγότερο κόστος προσέγγιση, ένας ολοένα και αυξανόμενος αριθμός πηγών είναι

κρυμμένος πίσω από πληροφοριακά συστήματα που διαθέτουν τους πόρους τους

μέσα από προκαθορισμένες διαδικασίες και γλώσσες επερωτήσεων, χωρίς να

παρέχουν καμία δυνατότητα άμεσης πρόσβασης στους πόρους και τη δομή τους

(Bergman, 2001). Παρά το γεγονός ότι τα περισσότερα από αυτά τα συστήματα

διαθέτουν τους πόρους τους δια μέσω HTML σελίδων, η ευρετηρίαση αυτών των

HTML σελίδων από τις μηχανές αναζήτησης είναι αδύνατη λόγω της προσωρινής

Page 35: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 16

ύπαρξής τους. Αυτές οι σελίδες υπάρχουν μόνο κατά τη διάρκεια του εκάστοτε

κύκλου πρόσβασης, σαν αποκρίσεις του συστήματος σε επερωτήσεις.

Ένα πιο εξελιγμένο και πολύπλοκο σύστημα που ξεπερνά το πρόβλημα των

κρυμμένων πόρων και ακολουθεί το μοντέλο της συγκομιδής είναι το σύστημα

MARIAN. Το σύστημα MARIAN παρέχει ενιαία πρόσβαση σε μία μεγάλη συλλογή

μεταδεδομένων διατριβών, την οποία συλλέγει από ένα μεγάλο αριθμό

κατανεμημένων πηγών σε όλο τον κόσμο (Gonçalves et al., 2001). Για να γίνει η

συγκομιδή των πληροφοριών, το σύστημα κάνει επερωτήσεις στα επιμέρους

συστήματα διάθεσης πληροφοριών. Στη συνέχεια, μετατρέπει τα δεδομένα σε ένα

ενιαίο σχήμα, τα ευρετηριάζει και τα διαθέτει από το δικό του σύστημα διάθεσης. Σε

αντίθεση με τη συλλογή των HTML σελίδων, όπου τα δεδομένα είναι άμεσα

διαθέσιμα και προσβάσιμα, στην περίπτωση του MARIAN δεν υπάρχει άμεση

πρόσβαση στα δεδομένα ώστε να καταστεί δυνατή η συγκομιδή από τις πηγές. Στην

περίπτωση αυτή, η συλλογή των δεδομένων γίνεται από τα αποτελέσματα ανάκτησης

των επερωτήσεων που κάνει το σύστημα στις πηγές. Λόγω της ετερογένειας των

συστημάτων διάθεσης, το MARIAN αρχικά μετεγγράφει και προσαρμόζει την

εκάστοτε επερώτηση στα χαρακτηριστικά κάθε τοπικού συστήματος ώστε να είναι

δυνατή η εκτέλεση της επερώτησης από το τοπικό σύστημα. Επιπροσθέτως, για κάθε

διαφορετική διάταξη κωδικοποίησης μεταδεδομένων που εφαρμόζουν οι πηγές, το

MARIAN έχει υλοποιήσει και τον κατάλληλο μεταφραστή που θα μετατρέπει τα

μεταδεδομένα από τη διάταξη της πηγής στο ενιαίο σχήμα.

Δεδομένου ότι οι διαδικασίες της συγκομιδής δε γίνονται σε πραγματικό

χρόνο, υπάρχει η δυνατότητα να εφαρμοστούν αρκετά σύνθετες και αποτελεσματικές

διαδικασίες συγκέντρωσης και σύνθεσης, έτσι ώστε η τελική πρόσβαση στα δεδομένα

αφενός μεν να είναι αρκετά αποδοτική, αφετέρου δε να μην επηρεάζεται από την

προσωρινή έλλειψη διαθεσιμότητας κάποιας πηγής.

Παρά το γεγονός ότι το μοντέλο της συγκομιδής θεωρείται αρκετά

αποτελεσματικό και αποδοτικό, δεν μπορεί να εφαρμοστεί πάντοτε για την ενιαία

πρόσβαση σε όλες τις πληροφοριακές πηγές. Οι κυριότεροι λόγοι που καθιστούν πολύ

δύσκολη έως και απαγορευτική την εφαρμογή του αφορούν είτε τον τεράστιο όγκο

δεδομένων που θα συγκεντρωθεί από τη συγκομιδή είτε τον τύπο των δεδομένων είτε

τις πολιτικές διάθεσης που εφαρμόζει η εκάστοτε πηγή. Αξίζει να σημειωθεί ότι κατά

Page 36: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 17

τη μετατροπή των δεδομένων στο ενιαίο σχήμα του συστήματος, πολύ συχνά

καταργούνται αρκετά από τα ιδιαίτερα χαρακτηριστικά που περιλαμβάνουν τα

δεδομένα κάθε πηγής.

Σε αντίθεση με το μοντέλο της συγκομιδής, η δεύτερη προσέγγιση γνωστή με

διάφορες ονομασίες όπως μετα-αναζήτηση, Federated Search, παράλληλη αναζήτηση,

κλπ, δε συγκεντρώνει τους πόρους από τις πηγές, αλλά, σε περιβάλλον άμεσης

επικοινωνίας, προωθεί τις επερωτήσεις στα συστήματα αναζήτησης των πηγών και

στη συνέχεια ενοποιεί και παρουσιάζει τα αποτελέσματα αναζήτησης που θα λάβει

από αυτές.

Η παρούσα διατριβή πραγματεύεται προβλήματα της εφαρμογής του

μοντέλου μετα-αναζήτησης, με ιδιαίτερη έμφαση στο περιβάλλον των βιβλιοθηκών

που εφαρμόζουν συστήματα διάθεσης συμβατά με το πρωτόκολλο Z39.50. Στην

αμέσως επόμενη ενότητα 2.1 γίνεται η παρουσίαση του μοντέλου μετα-αναζήτησης.

Ακολουθεί η περιγραφή των χαρακτηριστικών αναζήτησης και ανάκτησης του

πρωτοκόλλου Z39.50 και στη συνέχεια εξειδικεύονται τα προβλήματα που

προκύπτουν από την εφαρμογή του μοντέλου μετα-αναζήτησης στο περιβάλλον του

πρωτοκόλλου.

2.1 Μετα-αναζήτηση

Μετα-αναζήτηση είναι η διαδικασία αναζήτησης πολλαπλών πληροφοριακών πηγών

από ένα κεντρικό σημείο πρόσβασης και η επιστροφή ενός ενιαίου και ομοιόμορφου

συνόλου αποτελεσμάτων. Ειδικότερα, ένα σύστημα μετα-αναζήτησης παρέχει:

• μια κεντρική διεπαφή επερωτήσεων διαμέσου της οποίας είναι δυνατή η

αναζήτηση συναφών συστημάτων που καλύπτουν τις πληροφοριακές ανάγκες

των χρηστών,

• ένα εσωτερικό μοντέλο αναπαράστασης, στο οποίο μετατρέπει και ενοποιεί τα

αποτελέσματα των επερωτήσεων, έτσι ώστε να είναι δυνατή η ενιαία και

ομοιόμορφη διάθεσή τους.

Ο εικονικός συλλογικός κατάλογος που διατίθεται από το συνδυασμό του InforM25

Z39.50 διακομιστή και του Copac-M25 interface (Cousins and Sanders, 2006) είναι

ένα τυπικό παράδειγμα εφαρμογής του μοντέλου στο περιβάλλον των βιβλιοθηκών,

Page 37: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 18

ενώ οι μηχανές μετα-αναζήτησης Vivisimo5 και A96 είναι παραδείγματα από το

ευρύτερο περιβάλλον πηγών του διαδικτύου. Μια επισκόπηση και παρουσίαση των

κυριοτέρων χαρακτηριστικών των πιο δημοφιλών συστημάτων μετα-αναζήτησης

γίνεται από τους Manoj και Jacob (2008) και τους Zhang και Cheung (2003), ενώ μια

συγκριτική μελέτη των συστημάτων βασισμένη στα χαρακτηριστικά αναζήτησης που

υποστηρίζουν γίνεται από το Moghaddam (2007).

Ένα σύστημα μετα-αναζήτησης για να εκτελέσει μια επερώτηση και να

συνθέσει ένα ενιαίο σύνολο αποτελεσμάτων διενεργεί τις ακόλουθες λειτουργίες:

• αποδοχή της επερώτησης στη γλώσσα του συστήματος μετα-αναζήτησης,

• δημιουργία της αντίστοιχης επερώτησης στη γλώσσα κάθε πηγής

μετεγγράφοντας την επερώτηση από τη γλώσσα του συστήματος μετα-

αναζήτησης στην αντίστοιχη γλώσσα επερωτήσεων της πηγής,

• προώθηση σε κάθε πηγή της επερώτησης με την κατάλληλη μετεγγραφή και

ενεργοποίηση της τοπικής διαδικασίας αναζήτησης,

• ανάκτηση αποτελεσμάτων, δηλαδή ενεργοποίηση της διαδικασίας ανάκτησης

της κάθε πηγής για την ανάκτηση καθορισμένου συνόλου εγγραφών,

• επεξεργασία και σύνθεση των ανακτηθέντων αποτελεσμάτων σε ένα ενιαίο

σύνολο, και τέλος

• παρουσίαση των αποτελεσμάτων.

Είναι φανερό ότι το σύστημα μετα-αναζήτησης για να μετεγγράψει την επερώτηση

από τη γλώσσα που διαθέτει στην αντίστοιχη γλώσσα κάθε πηγής, θα πρέπει να

γνωρίζει τα χαρακτηριστικά αναζήτησης που υποστηρίζει η πηγή.

Σε ένα σύστημα μετα-αναζήτησης είναι αρκετά συνηθισμένο να μην είναι

δυνατή η μετεγγραφή της αρχικής επερώτησης σε μια ισοδύναμη, ιδιαίτερα σε

περιπτώσεις που ο αριθμός των πηγών που συμμετέχουν στο σύστημα είναι μεγάλος.

Στην περίπτωση που δεν είναι δυνατή η μετεγγραφή σε μία ισοδύναμη επερώτηση, η

πιο συνήθης πρακτική που υλοποιείται από τα συστήματα μετα-αναζήτησης είναι ο

περιορισμός των χαρακτηριστικών αναζήτησης των πηγών στο σύνολο με τα

ελάχιστα κοινά χαρακτηριστικά αναζήτησης που υποστηρίζουν όλες οι πηγές. Σε

άλλες περιπτώσεις, τα συστήματα μετα-αναζήτησης είτε αγνοούν τις πηγές που δεν

5 http://vivisimo.com 6 http://a9.com/-/company/productsearch.jsp

Page 38: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 19

υποστηρίζουν την επερώτηση και δεν την αποστέλλουν είτε επιτρέπουν στην πηγή να

μετεγγράψει αυθαίρετα την επερώτηση και στη συνέχεια να την εκτελέσει. Όπως έχει

ήδη αναφερθεί, η πρώτη προσέγγιση, παρότι είναι η απλούστερη σε υλοποίηση,

περιορίζει τα χαρακτηριστικά αναζήτησης των πηγών, η δεύτερη περιορίζει τις

διαθέσιμες πηγές, ενώ η τρίτη παράγει ασυνεπείς απαντήσεις.

Ειδικότερα στην περίπτωση της αυθαίρετης μετεγγραφής της επερώτησης, το

σύστημα μετα-αναζήτησης δε γνωρίζει ποια είναι η ακριβής σημασιολογία της

ασυνεπούς απάντησης ενώ στην περίπτωση που υπάρχουν περισσότερες από μία

διαφορετικές αυθαίρετες μετεγγραφές, η σημασιολογία του τελικού συνόλου

αποτελεσμάτων είναι πιθανό να είναι αρκετά διαφορετική από τη σημασιολογία της

αρχικής επερώτησης. Το κυριότερο, το σύστημα δεν έχει καμία δυνατότητα να

προσδιορίσει τη σημασιολογική διαφορά μεταξύ των αποτελεσμάτων που έλαβε από

την πηγή και των αντίστοιχων αποτελεσμάτων της αρχικής επερώτησης. Αυτό έχει ως

συνέπεια την αδυναμία του συστήματος να αποφασίσει εάν θα επεξεργαστεί τα

αποτελέσματα που έλαβε από την πηγή ή θα ενημερώσει το χρήστη για την αλλαγή

της σημασιολογίας της επερώτησης.

2.1.1 Μετεγγραφή κατά προσέγγιση

Σε περίπτωση που δεν είναι δυνατή η μετεγγραφή της αρχικής επερώτησης σε μία

ισοδύναμη, το πρόβλημα που προκαλεί η αυθαίρετη μετεγγραφή από την πηγή μπορεί

να βελτιωθεί σημαντικά αν το σύστημα μετα-αναζήτησης έχει τη δυνατότητα να

μετεγγράψει την επερώτηση σε μία άλλη που να υποστηρίζεται από την πηγή και να

έχει τη μεγαλύτερη δυνατή σημασιολογική συνάφεια με την αρχική. Μετεγγράφοντας

την επερώτηση το σύστημα μετα-αναζήτησης γνωρίζει πόσο διαφέρει σημασιολογικά

η προκύπτουσα επερώτηση από την αρχική, οπότε έχει τα δεδομένα για να επιλέξει τη

βέλτιστη διαδικασία που θα ακολουθήσει.

Τα αποτελέσματα μιας μετεγγραφής κατά προσέγγιση, όπως φαίνεται στην

εικόνα 2.1, είναι δυνατόν να περιλαμβάνουν αφενός μεν περιπτώσεις που δεν

περιλαμβάνονται στα αποτελέσματα της αρχικής επερώτησης (λάθος θετικά7),

αφετέρου δε να παραλείπουν περιπτώσεις που περιλαμβάνονται στα αποτελέσματα

7 false positives.

Page 39: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 20

της αρχικής επερώτησης (λάθος αρνητικά8). Για να μετρηθεί η απόκλιση του συνόλου

των αποτελεσμάτων της αρχικής επερώτησης από το σύνολο της επερώτησης που

προέκυψε από την μετεγγραφή, χρησιμοποιούνται οι μετρικές ακρίβεια (P) και

ανάκληση (R) που ορίζονται ως εξής.

Έστω:

a) Q είναι το σύνολο των αποτελεσμάτων από την αρχική επερώτηση U,

b) S είναι το σύνολο των αποτελεσμάτων από την επερώτηση Ui που είναι η

μετεγγραφή κατά προσέγγιση της επερώτησης U για την πηγή i, τότε:

η ακρίβεια είναι

P=∣Q∩S∣∣S∣

, (1)

ενώ η ανάκληση είναι

R=∣Q∩S∣∣Q∣

. (2)

Όπως φαίνεται και από την εικόνα 2.1, η ακρίβεια εκφράζει την αναλογία των

σωστών περιπτώσεων σε σχέση με τα αποτελέσματα της μετεγγραφής κατά

προσέγγιση ενώ η ανάκληση την αναλογία των σωστών περιπτώσεων σε σχέση με τα

αποτελέσματα της αρχικής επερώτησης.

Εικόνα 2.1. Αναπαράσταση αποτελεσμάτων αρχικής επερώτησης Q και μετεγγραμμένης κατά

προσέγγιση επερώτησης S.

8 false negatives.

Page 40: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 21

Οι τιμές της ακρίβειας και ανάκλησης είναι μεταξύ του κλειστού διαστήματος

[0 : 1], ενώ όσο προσεγγίζουν την τιμή 1, δηλαδή το S προσεγγίζει το Q άρα Q ∩ S ≈

Q, τόσο πλησιέστερη είναι η σημασιολογία της μετεγγραμμένης κατά προσέγγιση

επερώτησης με την αρχική. Στην περίπτωση που και οι δύο τιμές ισούνται με 1,

ουσιαστικά πρόκειται για σημασιολογικά ισοδύναμες επερωτήσεις. Επιπροσθέτως,

μεγαλύτερη ανάκληση συνεπάγεται λιγότερα λάθος αρνητικά, ενώ μεγαλύτερη

ακρίβεια συνεπάγεται λιγότερα λάθος θετικά.

Όπως έχει ήδη αναφερθεί, ζητήματα που αφορούν την ομοιόμορφη πρόσβαση

αυτόνομων πληροφοριακών συστημάτων, τα οποία θα περιγραφούν αναλυτικότερα

στο κεφάλαιο 7, έχουν μελετηθεί συστηματικά και από την κοινότητα των βάσεων

δεδομένων. Μεταξύ των κοινών θεμάτων είναι και η μετεγγραφή επερωτήσεων,

συμπεριλαμβανομένων και διαδικασιών προσεγγιστικών μετεγγραφών ή, όπως

ειδικότερα αναφέρονται, διαδικασιών χαλάρωσης επερωτήσεων.

Μία από τις συνεισφορές της παρούσας διατριβής είναι και η κατά

προσέγγιση σημασιολογική μετεγγραφή των επερωτήσεων. Χρησιμοποιώντας το

Σημασιολογικό Δίκτυο Σημείων Πρόσβασης ανιχνεύονται μετεγγραφές που είτε

επεκτείνουν είτε συμπτύσσουν τη σημασιολογία της αρχικής επερώτησης. Στην

ενότητα 2.2.1.1 γίνεται εξειδίκευση των θεμάτων της μετεγγραφής κατά προσέγγιση

με τη χρήση σημασιολογίας στο περιβάλλον του Z39.50 ενώ η προτεινόμενη

περιγραφή των μεθόδων για τη σημασιολογική μετεγγραφή παρατίθεται στο

κεφάλαιο 5.

2.1.2 Ταξινόμηση συστημάτων μετα-αναζήτησης

2.1.2.1 Σύμφωνα με το λογικό διαχωρισμό των διαδικασιών

Τα συστήματα μετα-αναζήτησης ανάλογα με το λογικό διαχωρισμό των διαδικασιών

που υλοποιούν διακρίνονται σε αυτά της αρχιτεκτονικής 2-επιπέδων και σε εκείνα της

αρχιτεκτονικής περισσοτέρων επιπέδων. Ένα σύστημα αρχιτεκτονικής 2-επιπέδων,

εικόνα 2.2, δέχεται άμεσα τις επερωτήσεις του χρήστη, στη συνέχεια τις μετεγγράφει

και τις προωθεί στις πηγές, ενώ μόλις λάβει τις απαντήσεις συνθέτει τα αποτελέσματα

Page 41: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 22

σε ένα ενιαίο σύνολο, το οποίο και παρουσιάζει στο χρήστη. Η αρχιτεκτονική αυτή

χρησιμοποιείται συνήθως σε συστήματα που λειτουργούν σε σταθμούς εργασίας και

εξυπηρετούν ανάγκες μεμονωμένων χρηστών. Χαρακτηριστικός αντιπρόσωπος της

αρχιτεκτονικής 2-επιπέδων που λειτουργεί σε σταθμό εργασίας είναι το σύστημα

μετα-αναζήτησης Copernic9.

Εικόνα 2.2. Αρχιτεκτονική συστήματος μετα-αναζήτησης.

Παρά το γεγονός ότι τα συστήματα που λειτουργούν σε σταθμούς εργασίας

καταναλώνουν τους πόρους του σταθμού εργασίας και έχουν τη δυνατότητα

εφαρμογής αποτελεσματικότερων διαδικασιών αναζήτησης και σύνθεσης

αποτελεσμάτων, οι απαιτήσεις τους για ειδικές προϋποθέσεις λογισμικού και

διαδικασιών ενημέρωσης θεωρούνται σοβαρά μειονεκτήματα. Επιπροσθέτως, αν και

η αρχιτεκτονική των 2-επιπέδων θεωρείται η ευκολότερη στην υλοποίησή της, το

κυριότερο μειονέκτημά της είναι η αδυναμία του συστήματος να συμμετέχει σε

ευρύτερα περιβάλλοντα που συνθέτουν περαιτέρω υπηρεσίες.

Η αρχιτεκτονική του ενδιάμεσου, εικόνα 2.3, είναι η γενίκευση της

αρχιτεκτονικής των 2-επιπέδων με περισσότερα από δύο επίπεδα. Εφαρμόζεται σε

συστήματα που λειτουργούν σε διακομιστή και είναι η αρχιτεκτονική που εφαρμόζει

η πλειοψηφία των συστημάτων μετα-αναζήτησης. Ενώ η υλοποίηση της

αρχιτεκτονικής του ενδιάμεσου είναι πολυπλοκότερη από την αρχιτεκτονική των 2-

9 www.copernic.com

Page 42: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 23

επιπέδων, θεωρείται αρκετά πιο ευέλικτη, επεκτάσιμη και καταλληλότερη για την

ανάπτυξη συστημάτων ευρύτερης κλίμακας.

Εικόνα 2.3. Αρχιτεκτονική ενδιάμεσου.

Ειδικότερα, σύμφωνα με την αρχιτεκτονική του mediator-wrapper

(Wiederhold, 1992; Ullman, 1997), ο ενδιάμεσος (mediator) δέχεται επερωτήσεις από

το χρήστη ή από μία άλλη εφαρμογή στη γλώσσα επερωτήσεων που υποστηρίζει. Στη

συνέχεια, γνωρίζοντας τα χαρακτηριστικά των επερωτήσεων που μπορεί να

απαντήσει ο wrapper, μετεγγράφει την επερώτηση σε ένα σύνολο επερωτήσεων που

υποστηρίζονται από το wrapper και τις προωθεί σε αυτόν. Τέλος, ο wrapper

μετεγγράφει την επερώτηση στη γλώσσα κάθε πηγής και την προωθεί σε αυτή.

Σύμφωνα με την προσέγγιση αυτή, ένας ενδιάμεσος είναι δυνατόν να θεωρηθεί σαν

ένας wrapper στα υποσυστήματα του υψηλότερου επιπέδου.

2.1.2.2 Σύμφωνα με τις παρεχόμενες υπηρεσίες

Μια περαιτέρω κατηγοριοποίηση των συστημάτων μετα-αναζήτησης ορίζεται

λαμβάνοντας υπόψη τις υπηρεσίες που παρέχουν. Τα συστήματα που δε συνθέτουν τα

αποτελέσματα από τις πηγές σε ένα ενιαίο σύνολο αποτελεσμάτων αλλά απλά τα

παραθέτουν ή τα ομαδοποιούν κατά πηγή απαρτίζουν την κατηγορία των ψευδο-

Page 43: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 24

συστημάτων μετα-αναζήτησης. Αντίθετα, τα συστήματα που συνθέτουν τα

αποτελέσματα από τις πηγές σε ένα ενιαίο σύνολο αποτελεσμάτων απαρτίζουν την

κατηγορία των πραγματικών συστημάτων μετα-αναζήτησης.

Είναι προφανές ότι τα πραγματικά συστήματα μετα-αναζήτησης υπερτερούν

σε αποτελεσματικότητα έναντι των ψευδο-συστημάτων αλλά σε αρκετές περιπτώσεις

λόγοι αποδοτικότητας επιβάλουν την υιοθέτηση των ψευδο-συστημάτων μετα-

αναζήτησης. Εκτενής επισκόπηση και κατηγοριοποίηση με βάση τα χαρακτηριστικά

των κυριοτέρων συστημάτων μετα-αναζήτησης γίνεται στις εργασίες που

περιγράφουν οι Manoj και Jacob (2008) και Moghaddam (2007) και Zhang και

Cheung (2003).

2.1.3 Αποδοτικότητα σε σχέση με την επίδοση χρόνου

Σύμφωνα με τις διαδικασίες που υλοποιεί ένα σύστημα μετα-αναζήτησης για να

απαντήσει μια επερώτηση, οι παράγοντες που προσδιορίζουν την αποδοτικότητά του

σε σχέση με την παράμετρο του χρόνου είναι:

• ο χρόνος απόκρισης κάθε πηγής στις επερωτήσεις,

• ο χρόνος ανάκτησης των αποτελεσμάτων από τις πηγές,

• η πολυπλοκότητα της επεξεργασίας και σύνθεσης των αποτελεσμάτων.

Ο πρώτος παράγοντας καθορίζεται αποκλειστικά από την αποδοτικότητα της

υπηρεσίας αναζήτησης κάθε πηγής ενώ ο δεύτερος τόσο από την αποδοτικότητα της

υπηρεσίας ανάκτησης κάθε πηγής όσο και από την αποδοτικότητα του δικτύου

επικοινωνίας. Τέλος, ο τρίτος παράγοντας καθορίζεται αποκλειστικά και μόνο από

την πολυπλοκότητα που εφαρμόζει το σύστημα μετα-αναζήτησης στη σύνθεση και

επεξεργασία των αποτελεσμάτων. Αξίζει να σημειωθεί ότι οι δύο πρώτοι παράγοντες

εκτός από την άμεση επίδραση πού έχουν στην απόδοση του συστήματος σχετικά με

την αναζήτηση και ανάκτηση των αποτελεσμάτων επηρεάζουν έμμεσα και την

ποιότητα της σύνθεσης και επεξεργασίας τους, δεδομένου ότι όσο περισσότερο χρόνο

διαθέτει το σύστημα μετα-αναζήτησης για την επεξεργασία των αποτελεσμάτων τόσο

αποτελεσματικότερη μπορεί να είναι η σύνθεσή τους σε ένα ενιαίο σύνολο.

Η συσχέτιση των τριών προαναφερομένων παραμέτρων με την αποδοτικότητα

του συστήματος μετα-αναζήτησης καθορίζεται από το μοντέλο επεξεργασίας που

Page 44: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 25

υλοποιούνται οι διαδικασίες της αναζήτησης, της ανάκτησης και της επεξεργασίας

των αποτελεσμάτων. Τα βασικά μοντέλα υλοποίησης των διαδικασιών είναι το:

• Το σειριακό, δηλαδή η επερώτηση αποστέλλεται στην επόμενη πηγή εφόσον

έχει απαντήσει η προηγούμενη. Ομοίως, η ανάκτηση των αποτελεσμάτων από

μία πηγή αρχίζει μόλις ολοκληρωθεί η ανάκτηση των αποτελεσμάτων από την

προηγούμενη, ενώ στη βασική μορφή του μοντέλου η κάθε διαδικασία αρχίζει

με τη λήξη της προηγούμενης. Σε μία τυπική υλοποίηση του μοντέλου, ένα

σύστημα μετα-αναζήτησης αρχικά προωθεί την επερώτηση σε κάθε πηγή για

να την εκτελέσει, στη συνέχεια ανακτά τα αποτελέσματα κάθε απάντησης και,

τέλος, επεξεργάζεται και συνθέτει τα αποτελέσματα σε ένα ενιαίο σύνολο

αποτελεσμάτων.

• Το παράλληλο, δηλαδή η επερώτηση αποστέλλεται ταυτόχρονα σε όλες τις

πηγές και αναμένονται τα αποτελέσματα. Ομοίως, η ανάκτηση των

αποτελεσμάτων γίνεται ταυτόχρονα από όλες τις πηγές, καθώς επίσης η κάθε

διαδικασία μπορεί να αρχίσει είτε μετά την ολοκλήρωση της προηγούμενης

και ακολουθώντας τη διάταξη “αναζήτηση, ανάκτηση και επεξεργασία

αποτελεσμάτων” είτε υπό προϋποθέσεις, ανεξάρτητα από την ολοκλήρωση

της άλλης.

Ανάλογα με το περιβάλλον λειτουργίας ενός συστήματος μετα-αναζήτησης, η

απόδοσή του είναι δυνατόν να αποτιμηθεί από τα μεγέθη που υπολογίζουν:

• το συνολικό χρόνο P που απαιτείται για να ολοκληρωθούν οι διαδικασίες

αναζήτησης, ανάκτησης και επεξεργασίας όλων των δεδομένων και (συνολική

απόδοση)

• τον ελάχιστο χρόνο P0 που απαιτείται για να είναι δυνατή η εμφάνιση μερικών

αποτελεσμάτων στον χρήστη (απόδοση μερικών αποτελεσμάτων).

Έστω ότι si ο χρόνος αναζήτησης και ri ο χρόνος ανάκτησης των

αποτελεσμάτων από την πηγή i. Ο χρόνος επεξεργασίας της εγγραφής r είναι cr και t

το σύνολο των εγγραφών. Ο συνολικός χρόνος επεξεργασίας όλων των εγγραφών

προσδιορίζεται από τη σχέση:

C '=∑j=1

t

c j (3)

Page 45: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 26

Για τη σειριακή επεξεργασία, ο συνολικός χρόνος αναζήτησης Ss και ο

συνολικός χρόνος ανάκτησης Rs όλων των αποτελεσμάτων από τις n πηγές,

προσδιορίζεται από τις ακόλουθες σχέσεις αντίστοιχα:

S s=∑i=1

n

si

R s=∑i=1

n

ri

(4)

Η συνολική απόδοση (P) του συστήματος ισούται με την απόδοση μερικών

αποτελεσμάτων (P0) και προσδιορίζεται από τη σχέση:

P=P0=S sRsC ' (5)

Παρότι η διαδικασία της σειριακής επεξεργασίας είναι απλή στην υλοποίησή της και

δεν απαιτεί ιδιαίτερη πολυπλοκότητα, είναι προφανές ότι το μοντέλο δεν απευθύνεται

σε συστήματα άμεσης επικοινωνίας (online), ιδιαιτέρως μάλιστα όταν συμμετέχουν

αρκετές πηγές με μεγάλο αριθμό δεδομένων. Η διαδικασία αυτή εφαρμόζεται

συνήθως σε συστήματα συγκομιδής, καθώς και σε συστήματα που λειτουργούν

αυτόνομα σε σταθμούς εργασίας και όπου καλύπτονται ειδικές ανάγκες χρηστών

χωρίς την ύπαρξη περιορισμών στο χρόνο ολοκλήρωσης της διαδικασίας.

Επιπροσθέτως, για να είναι δυνατή η εφαρμογή της σειριακής επεξεργασίας

σε συστήματα άμεσης επικοινωνίας με μικρό αριθμό πηγών, αλλά με σχετικά

αποτελεσματική υπηρεσία αναζήτησης, εναλλακτικές παραλλαγές του μοντέλου για

να βελτιώσουν την απόδοσή του, είτε απλοποιούν τη διαδικασία σύνθεσης των

αποτελεσμάτων δημιουργώντας μια απλή συνάθροισή τους (ψεύδο-συστήματα μετα-

αναζήτησης) είτε εκτελούν τις διαδικασίες αναζήτησης και ανάκτησης σε δύο

διακριτά βήματα. Στην περίπτωση της διακριτής εκτέλεσης των διαδικασιών

αναζήτησης και ανάκτησης, η διαδικασία της αναζήτησης παρουσιάζει μια

προσέγγιση του συνολικού αριθμού των αποτελεσμάτων, μιας και δεν είναι γνωστός

Page 46: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 27

ο αριθμός των ομοίων εγγραφών, ενώ, συνήθως, η ανάκτηση των αποτελεσμάτων

γίνεται κατόπιν εντολής του χρήστη.

Σε περίπτωση ψεύδο-συστήματος, όπου γίνεται μια απλή συνάθροιση των

αποτελεσμάτων αναζήτησης, τότε ο ελάχιστος χρόνος για να είναι δυνατή η εμφάνιση

αποτελεσμάτων στο χρήστη (απόδοση μερικών αποτελεσμάτων) είναι:

(i) αν γίνει ανάκτηση όλων των αποτελεσμάτων και μετά παρουσίαση,

P 0=S sRs (6)

(ii) αν παρουσιαστούν μέρος των αποτελεσμάτων από την ταχύτερη πηγή και

αν r'1 είναι ο χρόνος που απαιτείται για την ανάκτησή τους, τότε

P 0=S sr 1'

r 1' R s

. (7)

Και στις δύο προαναφερθείσες βελτιστοποιήσεις της σειριακής επεξεργασίας η

συνολική απόδοση παραμένει ίδια με την προαναφερθείσα P της ισότητας (5).

Στο μοντέλο της παράλληλης επεξεργασίας οι εκφράσεις που προσδιορίζουν

τη συνολική απόδοση είναι:

(i) αν αρχίσει η ανάκτηση μόλις ολοκληρωθεί η αναζήτηση και η επεξεργασία

αρχίσει μετά την ανάκτηση όλων των αποτελεσμάτων, δηλαδή γίνονται

παράλληλα μόνο οι επιμέρους λειτουργίες κάθε διαδικασίας, τότε:

P=S pRpC ' , όπου

S p=max s1, ... , sn ,R p=max r 1, ... , r n ,

(8)

(ii) αν η διαδικασία ανάκτησης για κάθε πηγή ενεργοποιηθεί άμεσα με τη

λήξη της αντίστοιχης αναζήτησης και όχι μετά την ολοκλήρωση των

αναζητήσεων από όλες τις πηγές, τότε:

Page 47: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 28

P=P srC ' , όπουP sr=max s1r1, ... , snrn.

(9)

Όπως δείχνουν οι παραπάνω σχέσεις (8) και (9), η πιο αργή πηγή και το πιο αργό

δίκτυο είναι καθοριστικοί παράγοντες στους οποίους, αφενός μεν το σύστημα μετα-

αναζήτησης δεν έχει δυνατότητα παρέμβασης, αφετέρου δε καθορίζουν το περιθώριο

για την επεξεργασία και σύνθεση των αποτελεσμάτων. Όπως έχει ήδη αναφερθεί, όσο

περισσότερο χρόνο έχει στη διάθεσή του το σύστημα μετα-αναζήτησης για

επεξεργασία των αποτελεσμάτων τόσο πολυπλοκότερη διαδικασία μπορεί να

εφαρμόσει για να τα επεξεργαστεί.

Σχετικά με την απόδοση των πηγών, ιδιαίτερη μνεία πρέπει να γίνει σε

περιπτώσεις που εμφανίζεται ένα σφάλμα είτε στη διαδικασία αναζήτησης είτε στη

διαδικασία ανάκτησης μίας πηγής, όπου η λειτουργικότητα του συστήματος μετα-

αναζήτησης είναι δυνατόν να καταρριφθεί. Αυτό οφείλεται στο γεγονός ότι στην

περίπτωση σφάλματος μια πηγή αδυνατεί κατά κανόνα να απαντήσει, οπότε το

σύστημα μετα-αναζήτησης μη γνωρίζοντας αν πρόκειται για καθυστέρηση ή σφάλμα

της πηγής θα διακόψει τη διαδικασία μετά την πάροδο ενός προκαθορισμένου

χρονικού διαστήματος με συνέπεια τη συνολική επιβράδυνση της διαδικασίας.

Βελτιστοποιήσεις του παράλληλου μοντέλου περιλαμβάνουν επιπροσθέτως

την παράλληλη ανάκτηση και επεξεργασία των αποτελεσμάτων. Σε ακόμα πιο

πολύπλοκες υλοποιήσεις είναι δυνατή η άμεση εκκίνηση των διαδικασιών ανάκτησης

και επεξεργασίας με τη λήψη της πρώτης απάντησης από την ταχύτερη πηγή, χωρίς

να αναμένεται η ολοκλήρωση των διαδικασιών αναζήτησης από όλες τις πηγές. Οι

βελτιστοποιήσεις αυτές προσεγγίζουν τη συνολική απόδοση P στο:

P=max P srC ' , (10)

ενώ την απόδοση μερικών αποτελεσμάτων P0, με c'k το χρόνο επεξεργασίας ενός

υποσυνόλου k εγγραφών, στο:

Page 48: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 29

P0=max P sr' ck

' ,

P sr' =min s1r1, ... , snr n .

(11)

Στο μοντέλο της παράλληλης λειτουργίας, αν γίνει η παραδοχή ότι όλες οι

πηγές έχουν αποδοτικές υπηρεσίες αναζήτησης και ανάκτησης, καθώς επίσης ότι

αλληλεπιδρούν σε ένα σύγχρονο περιβάλλον δικτύου, τότε η δυνατότητα που έχει το

σύστημα μετα-αναζήτησης για αποτελεσματική επεξεργασία των αποτελεσμάτων

είναι η βέλτιστη. Στην περίπτωση αυτή, ένα ιδιαίτερο σημείο που θα πρέπει να ληφθεί

υπόψη αφορά τις γενικές επερωτήσεις με πάρα πολύ μεγάλα σύνολα αποτελεσμάτων,

σε συνδυασμό με μεγάλο αριθμό πηγών. Είναι δεδομένο ότι η ανάκτηση όλων των

αποτελεσμάτων από πολύ μεγάλα σύνολα απαντήσεων δεν είναι ρεαλιστική

προσέγγιση ενώ η σύνταξη εστιασμένων επερωτήσεων από το χρήστη προσφέρεται

ως μία ουσιαστική βοήθεια στο πρόβλημα αυτό.

Σε μια παραλλαγή του σειριακού μοντέλου, που το κάνει να προσεγγίζει

αρκετά το παράλληλο, η διαδικασία σύνθεσης και επεξεργασίας των αποτελεσμάτων

γίνεται σε συνδυασμό με τη διαδικασία της ανάκτησης. Θεωρώντας ότι ο χρόνος

ανάκτησης είναι αρκετά μεγαλύτερος από το χρόνο αναζήτησης ο στόχος της

υλοποίησης είναι να προσεγγίσει τη σχέση:

P=S smax RsC ' . (12)

Τέλος, αξίζει να υπογραμμισθεί ότι, ανεξάρτητα από το μοντέλο σύμφωνα με το

οποίο υλοποιούνται οι διαδικασίες στα συστήματα μετα-αναζήτησης, η

αποδοτικότητα των υποκείμενων πηγών και του περιβάλλοντος επικοινωνίας

καθορίζει σημαντικά την αποδοτικότητά τους.

Ολοκληρώνοντας την παρουσίαση των μοντέλων ενιαίας πρόσβασης αξίζει να

σημειωθεί ότι αρκετά από τα υφιστάμενα προβλήματα στα συστήματα μετα-

αναζήτησης και στα συστήματα συγκομιδής κρυμμένων πόρων πίσω από συστήματα

διάθεσης είναι κοινά. Εκείνο όμως που καθιστά δυσκολότερη τη λύση των

υπαρχόντων προβλημάτων στα συστήματα μετα-αναζήτησης είναι ο περιορισμένος

χρόνος που επιβάλλει το περιβάλλον της άμεσης επικοινωνίας (online) του

Page 49: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 30

συστήματος στο οποίο απαιτείται να δοθεί η απάντηση στον ελάχιστο δυνατό χρόνο.

2.2 Το Πρωτόκολλο Z39.50

Το πρωτόκολλο επικοινωνίας Z39.50 (ANSI/NISO, 1995) ορίζει τον τρόπο με τον

οποίο επικοινωνούν δύο διαφορετικά υπολογιστικά συστήματα, με βάση την

αρχιτεκτονική Πελάτη/Διακομιστή (Client/Server), με απώτερο σκοπό την ανάκτηση

πληροφοριών. Στο πλαίσιο μιας τέτοιας επικοινωνίας, διαφορετικές πληροφοριακές

πηγές (targets), που διατίθενται από αντίστοιχους Z-διακομιστές, μπορούν να

αναζητηθούν ταυτόχρονα από έναν Z-πελάτη (origin). Ουσιαστικά, το πρωτόκολλο

θέτει τις βάσεις για τη λύση στο πρόβλημα διαλειτουργικότητας που υπάρχει ανάμεσα

στις διαφορετικές πηγές λόγω ασυμβατότητας ή/και ανομοιογένειας των συστημάτων

διάθεσης και των δεδομένων τους, δίνοντας όμως περισσότερη έμφαση στο

συντακτικό και λειτουργικό επίπεδο και λιγότερη στο σημασιολογικό.

Με βάση το πρωτόκολλο Z39.50, ο πελάτης (client) στέλνει την επερώτηση

και οι διακομιστές (servers) αναλαμβάνουν την αποκωδικοποίηση και την εκτέλεσή

της. Η πρόσβαση που παρέχεται στον πελάτη είναι μέσω ενός προκαθορισμένου

σχήματος και διαδικασιών επερώτησης χωρίς να παρέχεται καμία περαιτέρω

δυνατότητα άμεσης πρόσβασης στη δομή και στα δεδομένα διάθεσης. Όπως

περιγράφεται στη συνέχεια, κάθε επερώτηση μπορεί να συνοδεύεται από σειρά

γνωρισμάτων, τα οποία την προσδιορίζουν και την επεξηγούν.

2.2.1 Μηχανισμός Αναζήτησης

Ο μηχανισμός αναζήτησης του πρωτοκόλλου βασίζεται στη χρήση Συνόλων

Γνωρισμάτων (Attribute Sets), τα οποία είναι συνδυασμός από προκαθορισμένα

Σημεία Πρόσβασης (Abstract Access Points) με ειδικά γνωρίσματα που προσδιορίζουν

τη δομή και τους κανόνες ταύτισής του. Για το σχηματισμό μιας επερώτησης, τα

σημεία πρόσβασης συνδυάζονται και συντάσσονται σύμφωνα με έναν από τους

εναλλακτικούς τύπους σύνταξης επερωτήσεων που διαθέτει το πρωτόκολλο.

Σύμφωνα με τις απαιτήσεις συμβατότητας του Z39.50, το Σύνολο

Γνωρισμάτων Bib-1 και ο τύπος επερωτήσεων Type-1 πρέπει να αναγνωρίζονται

χωρίς όμως να είναι απαραίτητη η πλήρης υλοποίησή τους. Οι εναλλακτικές

Page 50: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 31

προτάσεις του πρωτοκόλλου σε περίπτωση που ένας διακομιστής δεν υποστηρίζει

κάποιο από τα χαρακτηριστικά μιας επερώτησης είναι δύο. Είτε να απορρίψει την

επερώτηση και να στείλει το κατάλληλο διαγνωστικό μήνυμα λάθους (αποτυχημένη

επερώτηση) είτε να αντικαταστήσει αυθαίρετα το μη υποστηριζόμενο χαρακτηριστικό

με κάποιο άλλο που υποστηρίζει (ασυνεπής απάντηση).

Εκτός από το Σημείο Πρόσβασης, που είναι ουσιαστικά και το σημαντικότερο

γνώρισμα του όρου αναζήτησης, τα υπόλοιπα γνωρίσματα που ορίζει το Bib-1 είναι

τα εξής: Σχέση (relation), Αποκοπή (truncation), Δομή (structure), Θέση (position) και

Πληρότητα (completeness). Για κάθε ένα γνώρισμα υπάρχει ένα προκαθορισμένο

σύνολο τιμών. Η πληθώρα των τιμών που μπορούν να συνδυαστούν στα γνωρίσματα

αυξάνει τη δυνατότητα αλλά και την πολυπλοκότητα της επικοινωνίας και οξύνει τα

προβλήματα διαλειτουργικότητας μεταξύ των συστημάτων (Πεπονάκης κ.ά., 2004).

Τα γνωρίσματα (ή ιδιότητες) ενός Συνόλου Γνωρισμάτων εκφράζονται με τη

μορφή ζευγαριών όπου το πρώτο μέλος δηλώνει το γνώρισμα και το δεύτερο την τιμή

του. Έτσι, το ζευγάρι10 [Σημείο Πρόσβασης, Title] στο Σύνολο Γνωρισμάτων Bib-1

δηλώνει ότι η ταύτιση του όρου αναζήτησης θα γίνει στην ενότητα των τίτλων.

Αντίστοιχα, το ζευγάρι [Αποκοπή, δεξιά] δηλώνει την πρόθεση για δεξιά αποκοπή,

ενώ αντίθετα το ζευγάρι [Αποκοπή, όχι αποκοπή] δηλώνει την πρόθεση για ταίριασμα

του όρου αναζήτησης έτσι όπως είναι. Αξίζει να σημειωθεί ότι κανένα από τα

γνωρίσματα δεν είναι υποχρεωτικό σε μία επερώτηση. Σε περίπτωση απουσίας ενός

γνωρίσματος ο διακομιστής θα αποφασίσει αν θα εκτελέσει την επερώτηση ή αν θα

κάνει ερήμην αντικατάσταση. Επιπροσθέτως, ο διακομιστής έχει τη δικαιοδοσία να

απορρίπτει τόσο συγκεκριμένους συνδυασμούς γνωρισμάτων όσο και σύνθετες

λογικές εκφράσεις επερωτήσεων.

Τα παρακάτω είναι ενδεικτικά παραδείγματα επερωτήσεων σύμφωνα με το

Bib-1 Σύνολο Γνωρισμάτων.

Παράδειγμα 2.1: Εναλλακτικές εκφράσεις αναζήτησης εγγραφών με συγγραφέα τον

‘Ullman, J’.

1. [Σημείο Πρόσβασης, Author-name_1003] ‘Ullman, J’

10 Για λόγους αναγνωσιμότητας χρησιμοποιούνται συμβολικά ονόματα ενδεικτικά του γνωρίσματος και δε χρησιμοποιούνται οι κωδικοί που ορίζει το πρωτόκολλο. Έτσι, το ζευγάρι [Σημείο Πρόσβασης, Title] εκφράζει το κωδικοποιημένο γνώρισμα [1, 4]. Ομοίως και για τα παραδείγματα που ακολουθούν. Επίσης, ένας άλλος συμβολικός τρόπος έκφρασης των γνωρισμάτων που χρησιμοποιείται από το λογισμικό ανοικτού κώδικα YAZ της Index Data (www.indexdata.com) είναι ο εξής: @attr 1=4.

Page 51: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 32

2. [Σημείο Πρόσβασης, Author-name_1003] [Αποκοπή, δεξιά]

‘Ullman, J’

Τα κοινά χαρακτηριστικά αυτών των δύο εκφράσεων είναι ο όρος αναζήτησης, το

Σημείο Πρόσβασης, καθώς επίσης και η ελλιπής συμπλήρωση λόγω της απουσίας

γνωρισμάτων. Οι δύο εκφράσεις διαφέρουν μεταξύ τους στο ότι η δεύτερη

περιλαμβάνει ένα επιπλέον γνώρισμα, αυτό της Αποκοπής, με συνέπεια ο όρος

αναζήτησης να ταιριάζει με τα ονόματα των συγγραφέων ‘Ullman, J’, ‘Ullman,

Jeffrey’, κλπ. Όπως έχει ήδη αναφερθεί, η μη συμπλήρωση γνωρισμάτων θα έχει ως

συνέπεια ο εκάστοτε διακομιστής να αποφασίσει αν θα εκτελέσει την επερώτηση και

αν ναι, τις τιμές που θα θέσει στα αόριστα γνωρίσματα. Ειδικότερα, στην περίπτωση

που ο διακομιστής δεν κάνει εξ' ορισμού δεξιά αποκοπή στον όρο αναζήτησης, για

την πρώτη έκφραση θα ταιριάξει τον όρο αναζήτησης αποκλειστικά και μόνο με το

όνομα ‘Ullman, J’. Εμφανώς, στην περίπτωση αυτή η απάντηση θα περιλαμβάνει

λιγότερα αποτελέσματα από αυτά της δεύτερης έκφρασης και με κίνδυνο μηδενικών

αποτελεσμάτων σε περίπτωση που οι καταχωρημένες μορφές του ονόματος δεν

περιλαμβάνουν τον όρο αναζήτησης όπως ακριβώς τίθεται. Αντίθετα, στην περίπτωση

που ο διακομιστής κάνει εξ' ορισμού δεξιά αποκοπή στον όρο αναζήτησης, οι δύο

εκφράσεις θα είναι απόλυτα ισοδύναμες. Αξίζει να σημειωθεί ότι σε μία ταυτόχρονη

αναζήτηση πολλών πηγών η συμπεριφορά κάθε διακομιστή μπορεί να είναι εντελώς

διαφορετική με συνέπεια να μεταβάλλεται η σημασιολογία και επομένως τα

αποτελέσματα της επερώτησης.

Επιπλέον, δεν πρέπει να θεωρείται δεδομένο ότι ένας διακομιστής υποστηρίζει

όλα τα χαρακτηριστικά από ένα Σύνολο Γνωρισμάτων. Αυτό συνεπάγεται ότι για να

αποφευχθεί μία αποτυχημένη επερώτηση, σε κάποιες περιπτώσεις ενδείκνυται η

έκφραση 1, η οποία δεν καθορίζει το γνώρισμα της αποκοπής. Η προσέγγιση αυτή

δίνει μεν τη δυνατότητα στο διακομιστή να αποφασίσει ερήμην του χρήστη ή του

συστήματος μετα-αναζήτησης πώς θα απαντήσει την ερώτηση, αν θα κάνει αποκοπή

ή όχι, παρέχοντας όμως μια ασυνεπή απάντηση. Σε μια ασυνεπή απάντηση, όπου δεν

είναι γνωστές οι αλλαγές που έγιναν στην αρχική επερώτηση, είναι αδύνατη τόσο η

περαιτέρω επεξεργασία των αποτελεσμάτων και η προσέγγισή τους στην αρχική

σημασιολογία της επερώτησης όσο και ο προσδιορισμός της μεταβολής της

ανάκλησης και ακρίβειας της αρχικής επερώτησης. Επαυξάνοντας, σε ένα περιβάλλον

Page 52: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 33

όπου θα συμμετείχαν συστήματα με διαφορετικά γνωρίσματα αναζήτησης, το

ενδιάμεσο σύστημα θα είχε ελάχιστες δυνατότητες επεξεργασίας κατά τη σύνθεση

της τελικής απάντησης από τις επιμέρους απαντήσεις των πηγών. Η γνώση από το

ενδιάμεσο σύστημα των χαρακτηριστικών αναζήτησης που υποστηρίζει κάθε πηγή θα

του έδινε τη δυνατότητα αφενός να ελέγξει τι υποστηρίζει κάθε πηγή αφετέρου να

γνωρίζει τις επιπτώσεις που θα έχει η επιλεγόμενη μετεγγραφή στα αποτελέσματα της

επερώτησης. Μία από τις συνεισφορές της παρούσας διατριβής, που παρουσιάζεται

στο κεφάλαιο 4, είναι η συντακτική περιγραφή των χαρακτηριστικών επερώτησης

που υποστηρίζει κάθε πηγή. Τα υποστηριζόμενα χαρακτηριστικά αναζήτησης

απεικονίζονται από τα Σχεδιότυπα Επερωτήσεων (query templates) που αναπαριστούν

το σύνολο των αποδεκτών επερωτήσεων από την πηγή. Τα Σχεδιότυπα Επερωτήσεων

είναι εκφρασμένα στην ενιαία γλώσσα επερωτήσεων του ενδιάμεσου με τη γλώσσα

Relational Query Description Language (RQDL) (Papakonstantinou et al., 1996), που

βασίζεται στην Datalog (Ullman, 1988; Ullman, 1989).

Παράδειγμα 2.2: Εναλλακτικές εκφράσεις αναζήτησης εγγραφών για τα πρακτικά

των συνεδρίων που εκδίδει η IEEE.

1. [Σημείο Πρόσβασης, Author-name-conference_1006] ‘IEEE’

2. [Σημείο Πρόσβασης, Name-conference _3] ‘IEEE’

3. [Σημείο Πρόσβασης, Author-name_1003] ‘IEEE’

Όπως και στο παράδειγμα 2.1, σε καμία έκφραση δεν έχουν συμπληρωθεί όλα τα

γνωρίσματα. Επιπροσθέτως, σε κάθε έκφραση χρησιμοποιείται διαφορετικό Σημείο

Πρόσβασης διαφοροποιώντας σημασιολογικά τον όρο αναζήτησης και κατά συνέπεια

τα αποτελέσματα αναζήτησης. Η περιγραφή για τη σημασιολογία και τις συσχετίσεις

των Σημείων Πρόσβασης καθώς επίσης και τις επιδράσεις τους στα αποτελέσματα

αναζήτησης γίνεται στην ενότητα 5 που ακολουθεί. Σύμφωνα με το πρωτόκολλο, το

καταλληλότερο Σημείο Πρόσβασης για την ανάκτηση των πρακτικών και μόνον

αυτών της ‘IEEE’ είναι αυτό που χρησιμοποιείται στην έκφραση 1. Τα αποτελέσματα

αναζήτησης των εκφράσεων 2 και 3 θα είναι ευρύτερα και θα περιλαμβάνουν και

άλλες εκδόσεις της ΙΕΕΕ, όπως τεχνικές αναφορές, τεχνικά πρότυπα, κλπ. Αξίζει να

σημειωθεί ότι το Σημείο Πρόσβασης της έκφρασης 1 Author-name-conference_1006

σπανίως υποστηρίζεται από τις Z39.50 πηγές. Αυτός άλλωστε είναι και ο λόγος που

ένας χρήστης (ή ένα σύστημα μετα-αναζήτησης) για να αποφύγει μια αποτυχημένη

Page 53: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 34

επερώτηση θα αναγκαστεί να επιλέξει εναλλακτικά τα σημασιολογικά πλησιέστερα

Σημεία Πρόσβασης που χρησιμοποιούνται στις εκφράσεις 2 και 3. Η υποστήριξη

διαφορετικών Σημείων Πρόσβασης από τις Z39.50 πηγές σε ένα σύστημα μετα-

αναζήτησης είναι ένα σημαντικό πρόβλημα το οποίο επηρεάζει τη σημασιολογική

τους διαλειτουργικότητα.

2.2.1.1 Σημεία Πρόσβασης

Σε έναν κατάλογο ή σε μία βάση δεδομένων σημείο πρόσβασης μπορεί να θεωρηθεί

οποιοδήποτε μέρος της εγγραφής με το οποίο μπορούμε να αναζητήσουμε, είτε ακόμα

και να ταυτίσουμε, τις οντότητες που περιγράφονται (Joint Steering Committee for

Revision of AACR, 2004). Ένα όνομα, μία θεματική επικεφαλίδα, ένας ταξινομικός

αριθμός είναι μερικά παραδείγματα σημείων πρόσβασης. Σε ένα πληροφοριακό

σύστημα, όμως, αυτά τα σημεία πρόσβασης ομαδοποιούνται με βάση κάποια

κριτήρια δημιουργώντας έτσι τα πεδία (ή ευρετήρια) τα οποία μπορούμε να

χρησιμοποιήσουμε στις επερωτήσεις μας κατά τις διαδικασίες αναζήτησης. Είναι

αρκετά συνηθισμένο στα περιβάλλοντα των πληροφοριακών συστημάτων τα πεδία

αναζήτησης να αναφέρονται σαν Αφηρημένα Σημεία Πρόσβασης ή απλά Σημεία

Πρόσβασης. Στο πλαίσιο της παρούσας διατριβής, εκτός και αν δηλώνεται

διαφορετικά, θα χρησιμοποιείται ο όρος Σημείο Πρόσβασης, ή σε ελάχιστες

περιπτώσεις η συντόμευση ΣΠ, όπως ορίζεται στο περιβάλλον των πληροφοριακών

συστημάτων.

Η σημασιολογία ενός Αφηρημένου Σημείου Πρόσβασης ορίζεται από το

σύνολο των σημείων πρόσβασης που το απαρτίζουν. Κάθε πληροφοριακό σύστημα

μπορεί να χρησιμοποιεί διαφορετικά κριτήρια επιλογής και ομαδοποίησης των

σημείων πρόσβασης ορίζοντας έτσι διαφορετικά τη σημασιολογία του πεδίου

αναζήτησης (Αφηρημένου Σημείου Πρόσβασης). Κατά συνέπεια, ένα πληροφοριακό

σύστημα μπορεί να χρησιμοποιεί τα σημεία πρόσβασης που δημιουργήθηκαν από τον

κύριο τίτλο και το μεταφρασμένο ή παράλληλο τίτλο κάθε εγγραφής και να

δημιουργεί το Αφηρημένο Σημείο Πρόσβασης (πεδίο αναζήτησης) του τίτλου. Κάποιο

άλλο, για το πεδίο αναζήτησης του τίτλου, μπορεί να χρησιμοποιεί μόνο το σημείο

πρόσβασης του κύριου τίτλου από κάθε εγγραφή. Επιπροσθέτως, σε αρκετές

περιπτώσεις, Σημεία Πρόσβασης με την ίδια σημασιολογία από διαφορετικά

Page 54: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 35

πληροφοριακά συστήματα ονομάζονται διαφορετικά. Συνοπτικά, η ομοιογένεια ή η

ετερογένεια των Σημείων Πρόσβασης καθορίζεται τόσο από την σημασιολογία τους

όσο και από την ονομασία τους.

Για να λυθούν τα ζητήματα που σχετίζονται με την ομοιογένεια των Σημείων

Πρόσβασης στο περιβάλλον του Z39.50 και για το σύνολο γνωρισμάτων Bib-1, τα

μέλη της ομάδας Z39.50 Implementors Group (ZIG) όρισαν τα επιτρεπτά Σημεία

Πρόσβασης καθώς επίσης και τη σημασιολογία τους στο τεκμήριο (ZIG, 1995) και το

οποίο ουσιαστικά εκφράζει την αμοιβαία συναίνεση μεταξύ των μελών της ομάδας.

Ειδικότερα, για τον προσδιορισμό της σημασιολογίας των Σημείων Πρόσβασης,

δηλαδή του συνόλου της πληροφορίας από κάθε τεκμήριο που θα γίνει το ταίριασμα

του όρου αναζήτησης, έχουν χρησιμοποιηθεί οι ετικέτες των πεδίων του MARC

Bibliographic προτύπου (Library of Congress, 1999).

Εικόνα 2.4. Παραδείγματα ορισμού σημασιολογίας Bib-1 Σημείων Πρόσβασης.

Για παράδειγμα, ο ορισμός της σημασιολογίας του Σημείου Πρόσβασης

Author-name-Personal11 (εικόνα 2.4) καθορίζει ότι το Σημείο Πρόσβασης θα

δημιουργηθεί από το σύνολο των δεδομένων με τις MARC ετικέτες πεδίων {100,

11 Όπως και στα παραδείγματα 2.1 και 2.2 για λόγους αναγνωσιμότητας χρησιμοποιούνται τα συμβολικά ονόματα που αναφέρονται στο τεκμήριο (ZIG, 1995) για τα Σημεία Πρόσβασης και όχι η αριθμητική κωδικοποίηση που ορίζει το Z39.50. Για τα παραδείγματα της εικόνας 2.2, η Z39.50 κωδικοποίηση είναι αντίστοιχα τα ζευγάρια γνωρισμάτων [1, 1004] και [1, 1003].

Page 55: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 36

400, 700, 800}. Ομοίως, το Author-name από τα πεδία {100, 110, 111, 400, 410, 411,

700, 710, 711, 800, 810, 811}. Όπως φαίνεται από το παράδειγμα, το Σημείο

Πρόσβασης Author-name έχει ευρύτερη σημασιολογία από το Σημείο Πρόσβασης

Author-name-Personal. Δηλαδή, σε κάθε αναζήτηση που θα χρησιμοποιείται το

Author-name αντί του Author-name-Personal το ταίριασμα του όρου αναζήτησης θα

γίνεται με ένα ευρύτερο σύνολο πληροφορίας άρα θα συνεπάγεται, κατά πάσα

πιθανότητα, και ένα ευρύτερο σύνολο αποτελεσμάτων από το αντίστοιχο του Author-

name-Personal. Αντίθετα, το Author-name-Personal έχει στενότερη σημασιολογία

από το Author-name και συνεπώς ένα μικρότερο σύνολο αποτελεσμάτων.

Στην παρούσα διατριβή, η σημασιολογική συσχέτιση των Σημείων

Πρόσβασης είναι η βάση για τη δημιουργία του Σημασιολογικού Δικτύου Σημείων

Πρόσβασης και κατά επέκταση των μεθόδων για τη σημασιολογική αντικατάσταση

των μη υποστηριζόμενων Σημείων Πρόσβασης από τις Z39.50 πηγές. Η αναλυτική

περιγραφή της ανάπτυξης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και των

μεθόδων σημασιολογικής αντικατάστασης γίνεται στο κεφάλαιο 5.

Κάνοντας μια γενική αναφορά των διαδικασιών αντικατάστασης σε

περίπτωση που ο ενδιάμεσος θα πρέπει να στείλει μια επερώτηση με το Σημείο

Πρόσβασης Author-name-Personal σε μία πηγή που δεν το υποστηρίζει αλλά

υποστηρίζει το Author-name, ο ενδιάμεσος ανιχνεύοντας το Σημασιολογικό Δίκτυο

Σημείων Πρόσβασης θα αντικαταστήσει το Author-name-Personal με το Author-

name διευρύνοντας με αυτό τον τρόπο τη σημασιολογία της επερώτησης. Με την

αντικατάσταση θα βρεθούν τα τεκμήρια που ταιριάζουν με το αρχικό Σημείο

Πρόσβασης, όμως μέσα σε ένα ευρύτερο σύνολο αποτελεσμάτων. Αυτό οφείλεται στο

γεγονός ότι το ταίριασμα του όρου αναζήτησης θα γίνει με όλα τα πεδία του αρχικού

Σημείου Πρόσβασης Author-name-Personal καθώς επίσης και με τα επιπλέον πεδία

που ανήκουν στο Author-name (βλέπε εικόνα 2.4). Επομένως, η ανάκληση της

επερώτησης θα παραμείνει η ίδια, μιας και θα ανακληθούν όλα τα αποτελέσματα που

ταιριάζουν με το Σημείο Πρόσβασης Author-name-Personal, ενώ η αύξηση του

συνόλου των αποτελεσμάτων, που θα προκαλέσει η χρήση του Σημείου Πρόσβασης

Author-name, θα μειώσει την ακρίβεια της επερώτησης και όπως θα αναλυθεί στο

κεφάλαιο 5, η ακρίβεια θα μειωθεί στο 0,33.

Αντίθετα, στην περίπτωση που κατά την μετεγγραφή το Author-name-

Page 56: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 37

Personal θα αντικαταστήσει το Author-name η ακρίβεια θα παραμείνει η ίδια ενώ η

ανάκληση της προκύπτουσας επερώτησης θα μειωθεί στο 0,33. Βέβαια, σε αρκετές

περιπτώσεις είναι δυνατόν να υπάρξουν αντικαταστάσεις τόσο με διεύρυνση όσο και

με περιορισμό της σημασιολογίας, καθώς επίσης η αντικατάσταση να βελτιώνεται με

τη λογική σύζευξη ή διάζευξη περισσότερων του ενός Σημείων Πρόσβασης. Σε αυτές

τις περιπτώσεις που υπάρχουν περισσότερες από μία αντικαταστάσεις χωρίς καμία να

μετεγγράφει την αρχική επερώτηση σε μία ισοδύναμη, δηλαδή η ανάκληση και η

ακρίβεια να παραμένει η ίδια, η μέθοδος επιλέγει την αντικατάσταση λαμβάνοντας

υπόψη παραμέτρους που ορίζει ο χρήστης για τη στάθμιση της ανάκλησης και της

ακρίβειας.

Σε ένα περιβάλλον μετα-αναζήτησης όπου οι μηχανισμοί αναζήτησης των

συστημάτων που συμμετέχουν χρησιμοποιούν Σημεία Πρόσβασης, ένα σημαντικό

ερώτημα που τίθεται αφορά στο βαθμό ύπαρξης μη υποστηριζόμενων Σημείων

Πρόσβασης. Από στοιχεία που δημοσιεύονται στο δικτυακό τόπο “The Z39.50 Target

Directory”12 της Index Data13, τα οποία περιγράφουν τα χαρακτηριστικά αναζήτησης

περίπου χιλίων οκτακοσίων Z39.50 διακομιστών, φαίνεται ότι υπάρχουν πολλές

διαφορετικές υλοποιήσεις του πρωτοκόλλου Z39.50, καθώς και ότι όσο αυξάνεται ο

αριθμός των Z39.50 πηγών τόσο μειώνεται ο αριθμός των κοινών χαρακτηριστικών

αναζήτησης. Το κυριότερο σημείο είναι ότι δεν υπάρχει Σημείο Πρόσβασης που να

υποστηρίζεται από όλους τους Z39.50 διακομιστές.

Ειδικότερα, σε διάφορα στιγμιότυπα των δεδομένων του καταλόγου Z39.50

πηγών της Index Data σε διάστημα διετίας, το Σημείο Πρόσβασης που υποστηρίζεται

από τις περισσότερες πηγές είναι το Title_4, με μέσο ποσοστό υποστήριξης 91,1%, το

αμέσως επόμενο είναι το Subject_21, με μέσο ποσοστό υποστήριξης 89,2% και

ακολουθεί το Author-name_1003, με μέσο ποσοστό υποστήριξης 88,8%. Όπως

δείχνει η εικόνα 2.5, παρά την πάροδο του χρόνου και την εξέλιξη των συστημάτων

δεν υπάρχει τάση για την ύπαρξη ενός καθολικού Σημείου Πρόσβασης αλλά το

ποσοστό υποστήριξης των κοινών Σημείο Πρόσβασης είναι αντιστρόφως ανάλογο του

αριθμού των διακομιστών όπως προκύπτει από τις εικόνες 2.5 και 2.6.

12 http://irspy.indexdata.com/ 13 http://www.indexdata.com /

Page 57: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 38

Εικόνα 2.5. Τα τρία Bib-1 Σημεία Πρόσβασης που υποστηρίζονται από τις περισσότερες Z39.50 πηγές.

Εικόνα 2.6. Αριθμός Z39.50 πηγών που υποστηρίζουν υπηρεσία αναζήτησης.

Όπως δείχνουν τα προηγούμενα δεδομένα, σε μία ταυτόχρονη αναζήτηση

πηγών όσο αυξάνεται ο αριθμός των πηγών τόσο αυξάνεται και η πιθανότητα για

αποτυχημένη επερώτηση ή ασυνεπή απάντηση. Το πρόβλημα γίνεται εντονότερο σε

περιπτώσεις όπου είναι αναγκαίο να γίνουν πιο συγκεκριμένες επερωτήσεις με χρήση

πιο ειδικών Σημείων Πρόσβασης, όπως αυτό που χρησιμοποιεί το παράδειγμα 2.2.

Διεθνώς, και αναλόγως με τον προμηθευτή του συστήματος, οι περισσότεροι

Page 58: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 39

Z39.50 διακομιστές υλοποιούν την πολιτική της αποτυχημένης επερώτησης. Όπως

έχει ήδη αναφερθεί στην εισαγωγή, αντιπροσωπευτικά συστήματα που εφαρμόζουν

την αποτυχημένη απάντηση είναι τα συστήματα διάθεσης των συλλογικών

καταλόγων MELVYL και COPAC, καθώς και το σύστημα καταλόγου Library and

Archives Canada (LAC). Το σύστημα διάθεσης της Library of Congress (LC) είναι

ένα από τα συστήματα που έχουν υλοποιήσει την προσέγγιση της ασυνεπούς

απάντησης. Συνεπώς, σε περίπτωση που κάνουμε στον κατάλογο της LC την

επερώτηση με το Σημείο Πρόσβασης π.χ. Author-Title-Subject = ‘Shakespeare’, δε θα

μας ενημερώσει ότι δεν το υποστηρίζει14 αλλά θα μας απαντήσει ότι βρήκε

περισσότερες από 10.000 περιπτώσεις. Τα στοιχεία δείχνουν ότι πιθανότατα το

σύστημα αντικαθιστά το Σημείο Πρόσβασης που ορίστηκε κατά την επερώτηση με το

Σημείο Πρόσβασης Any. Αυτό προκύπτει από την παρατήρηση ότι η αναζήτηση με το

Σημείο Πρόσβασης Any, το οποίο υποστηρίζει, δίνει περισσότερες από 10.000

περιπτώσεις, καθώς και από τα αποτελέσματα που παρουσιάζονται στο κεφάλαιο 7

και αφορούν μετεγγραφές επερωτήσεων προς τον κατάλογο της LC.

2.2.2 Διάχυση χαρακτηριστικών αναζήτησης

2.2.2.1 Δυνατότητα επεξήγησης χαρακτηριστικών διακομιστή

Σύμφωνα με τις απαιτήσεις συμβατότητας που ορίζει το Z39.50 πρωτόκολλο, για να

είναι ένα σύστημα συμβατό με το Z39.50 θα πρέπει να αναγνωρίζει, όχι απαραίτητα

να υλοποιεί, τουλάχιστον τα Σημεία Πρόσβασης που ορίζει το Σύνολο Γνωρισμάτων

Bib-1 σε σύνταξη που ορίζει ο τύπος σύνταξης Type-1. Η συνέπεια αυτής της γενικής

απαίτησης, όπως φάνηκε και από τα στοιχεία των δεδομένων του καταλόγου Z39.50

πηγών της Index Data, αφορά την υποστήριξη διαφορετικών Σημείων Πρόσβασης από

τους διακομιστές καθώς και την υποστήριξη διαφορετικών χαρακτηριστικών της

Type-1 σύνταξης επερωτήσεων.

Για να είναι δυνατή η ανάκτηση των υπηρεσιών και των χαρακτηριστικών που

έχει υλοποιήσει ένας Z39.50 διακομιστής, το πρωτόκολλο προβλέπει τη δυνατότητα

επεξήγησης (explain facility) που είναι ουσιαστικά μια σειρά διαδικασιών ανάκτησης

14 Όπως αναφέρεται στο τεκμήριο: http://www.loc.gov/z3950/lcserver.html, όπου περιγράφονται τα χαρακτηριστικά αναζήτησης που υποστηρίζει ο Z39.50 διακομιστής της LC.

Page 59: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 40

μιας επεξηγηματικής εγγραφής. Ειδικότερα, ένας Z39.50 διακομιστής αποθηκεύει την

σχετική πληροφορία με τα χαρακτηριστικά που υλοποιεί σε μία χωριστή

επεξηγηματική βάση δεδομένων (explain database) με την ονομασία IR-Explain-1. Στη

συνέχεια, από την υπηρεσία αναζήτησης και χρησιμοποιώντας τα ειδικά ορισμένα

Σύνολα Γνωρισμάτων, γνωστοποιεί τα χαρακτηριστικά που υλοποιεί, επιστρέφοντας

μία επεξηγηματική εγγραφή σαν το αποτέλεσμα της υπηρεσίας αναζήτησης.

Η πολυπλοκότητα που ορίζει η διαδικασία επεξήγησης και η έλλειψη της

κατάλληλης τεκμηρίωσης και επεξήγησής της από το πρωτόκολλο είχαν σαν

αποτέλεσμα την πολύ δύσκολη υλοποίηση και χρήση της διαδικασίας τόσο από τον

διακομιστή όσο και από τον πελάτη. Τελικά, αντί να επιτευχθεί ο στόχος για τη

δυνατότητα παροχής χαρακτηριστικών υλοποίησης από το διακομιστή, η

προαναφερθείσα δυσκολία είχε σαν αποτέλεσμα να υλοποιηθούν ελάχιστα

χαρακτηριστικά της δυνατότητας επεξήγησης από ένα πολύ μικρό αριθμό

διακομιστών, που ουσιαστικά υποδήλωνε την απόρριψη υλοποίησης της υπηρεσίας.

Μετά την αποτυχία της ενσωματωμένης δυνατότητας επεξήγησης από το

πρωτόκολλο ακολούθησαν δύο άλλες προσεγγίσεις. Η πρώτη στόχευε στον ορισμό

μιας απλούστερης επεξηγηματικής εγγραφής και διαδικασίας εστιάζοντας κυρίως στις

ανάγκες του έργου ONE-2 (ONE-2, 1999) χωρίς όμως να πετύχει τα αναμενόμενα

αποτελέσματα. Η δεύτερη προσπάθεια, η οποία έχει και την μεγαλύτερη αποδοχή,

χρησιμοποιώντας τις προηγούμενες εμπειρίες συνέθεσε μια απλή εγγραφή σε γλώσσα

XML και την ονόμασε ZeeRex (ZIG, 2004).

2.2.2.2 Προφίλ υλοποίησης

Ανεξάρτητα από το βαθμό χρήσης των διαδικασιών επεξήγησης των

χαρακτηριστικών αναζήτησης του πρωτοκόλλου, όπως έχει ήδη αναφερθεί, η

πληθώρα των χαρακτηριστικών αναζήτησης και ιδιαίτερα των Σημείων Πρόσβασης

αναπόφευκτα οδήγησαν σε ετερογενείς υλοποιήσεις των Z39.50 διακομιστών. Μια

προσέγγιση για την υλοποίηση κοινών χαρακτηριστικών αναζήτησης από τις

επιμέρους κοινότητες χρηστών του πρωτοκόλλου είναι ο ορισμός και η χρήση των

προφίλ υλοποίησης (implementation profile) από τους Z39.50 διακομιστές. Μεταξύ

των κυριοτέρων στοιχείων που ορίζει ένα προφίλ υλοποίησης είναι τα ιδιαίτερα

γνωρίσματα από τα Σύνολα Γνωρισμάτων, οι τύποι επερώτησης καθώς επίσης και οι

Page 60: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 41

κωδικοποιήσεις των μεταδεδομένων. Ανάλογα με την πολυπλοκότητα και την

κοινότητα χρηστών που απευθύνεται το προφίλ υλοποίησης είναι δυνατόν να ορίζει

διάφορα επίπεδα συμβατότητας απαιτώντας την υλοποίηση περισσότερων ή

λιγότερων χαρακτηριστικών του πρωτοκόλλου.

Ένα προφίλ υλοποίησης, ορίζοντας ουσιαστικά σύνολα από τα ελάχιστα κοινά

χαρακτηριστικά αναζήτησης, στοχεύει στην επίτευξη πληρέστερης

διαλειτουργικότητας, είτε μεταξύ των χρηστών της ίδιας κοινότητας είτε μεταξύ των

χρηστών διαφορετικών κοινοτήτων. Ένα αρκετά γνωστό προφίλ υλοποίησης στην

κοινότητα των βιβλιοθηκών είναι το Bath (ISO TC 46 SC 4, 2004), το οποίο είναι ένα

διεθνώς καταχωρημένο προφίλ για εφαρμογές βιβλιοθηκών και ανίχνευση πόρων. Το

προφίλ Bath αποτελείται από διάφορα επίπεδα συμβατότητας και καλύπτει ένα

αρκετά ευρύ φάσμα εφαρμογών αναζήτησης – ανάκτησης, όπως των βιβλιογραφικών

δεδομένων και του διαθέσιμου υλικού (holdings) μιας συλλογής, με κύρια έμφαση σε

καταλόγους βιβλιοθηκών, των εγγραφών καθιερωμένων τύπων από online

καταλόγους βιβλιοθηκών, καθώς και των πόρων μεταξύ διαφορετικών κοινοτήτων

συμπεριλαμβανομένων των βιβλιοθηκών, μουσείων, αρχείων κλπ. Άλλα ενδεικτικά

παραδείγματα προφίλ υλοποίησης είναι το CIMI (The CIMI Profile Development

Working Group, 1996), για την αναζήτηση πληροφοριών πολιτιστικής κληρονομιάς

από μουσεία, καθώς και το Zthes (Taylor, 2000), για την αναζήτηση και πλοήγηση

όρων θησαυρού και γενικότερα σημασιολογικών ιεραρχιών όρων.

Ολοκληρώνοντας την παρουσίαση των διαδικασιών διάχυσης των

χαρακτηριστικών αναζήτησης πρέπει να τονισθεί ότι τόσο οι διάφορες εκδοχές της

επεξηγηματικής εγγραφής όσο και τα προφίλ υλοποίησης αποτελούν μία απλή

παράθεση των χαρακτηριστικών ενός Z39.50 διακομιστή και καμία από αυτές τις

προσεγγίσεις δεν προτείνει ένα μοντέλο οργάνωσης και διαχείρισης της πληροφορίας

που παραθέτουν. Επιπροσθέτως, τα προφίλ υλοποίησης παρότι συμβάλλουν σε

σχετικά μικρό βαθμό, όπως δείχνουν τα στοιχεία της εικόνας 2.5, στην υλοποίηση

κοινών χαρακτηριστικών αναζήτησης, δεν λύνουν το πρόβλημα των αποτυχημένων ή

ασυνεπών επερωτήσεων. Οι εναλλακτικές προσεγγίσεις για την περιγραφή των

χαρακτηριστικών αναζήτησης καθώς και η σημασιολογική συσχέτιση και

αντικατάσταση των Σημείων Πρόσβασης που προτείνεται στη διατριβή συνεισφέρουν

ουσιαστικά στη λύση αυτών των προβλημάτων.

Page 61: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 42

2.2.3 SRU/SRW: Search & Retrieve via URL/Web Service

Η εξέλιξη και η καθολική χρήση των τεχνολογιών του παγκόσμιου ιστού οδήγησαν

στην ανάπτυξη του νέου πρωτοκόλλου SRU για την αναζήτηση και ανάκτηση

πληροφοριών στο διαδίκτυο. Το SRU θεωρείται ο διάδοχος του Z39.50, στηρίζεται

στη γλώσσα XML και χρησιμοποιεί το πρωτόκολλο HTTP για την ανταλλαγή

μηνυμάτων μεταξύ των συστημάτων (Morgan, 2004).

Η ανάπτυξη του πρωτοκόλλου SRU βασίστηκε στη σημασιολογία του Z39.50

διατηρώντας το Σημείο Πρόσβασης σαν ένα κύριο χαρακτηριστικό του μηχανισμού

αναζήτησης και, παρά τις φαινομενικές διαφορές που υπάρχουν στην ορολογία των

δύο πρωτοκόλλων, οι ομοιότητες στα κύρια χαρακτηριστικά τους είναι αρκετές

(McCallum, 2006). Ενδεικτικά, η αντίστοιχη ορολογία που χρησιμοποιεί το SRU για

τα Σύνολα Γνωρισμάτων και τους Τύπους Γνωρισμάτων είναι τα Σύνολα

Συμφραζομένων (Context Sets) και τα Ευρετήρια (Indexes). Επίσης, η Contextual

Query Language (CQL15) που χρησιμοποιεί το SRU αποτελεί μια προσπάθεια για μια

εύληπτη και εκφραστική απλοποίηση των πολλαπλών χαρακτηριστικών της γλώσσας

επερωτήσεων Z39.50 Type-1.

Η συμβατότητα των πρωτοκόλλων SRU και Z39.50 δίνει τη δυνατότητα για

την εύκολη ανάπτυξη εφαρμογών που θα διαθέτουν τις λειτουργίες του Z39.50 στο

περιβάλλον του παγκόσμιου ιστού. Παράλληλα όμως, μεταφέρει στο διάδοχο

πρωτόκολλο SRU τα προβλήματα που περιγράφονται στις προηγούμενες ενότητες

σχετικά με τη μετα-αναζήτηση των Z39.50 πηγών.

Με δεδομένη τη σημασιολογική συμβατότητα των δύο πρωτοκόλλων, οι

προτάσεις της διατριβής είναι άμεσα προσαρμόσιμες και μπορούν να

χρησιμοποιηθούν ως βάση για την πλήρη κάλυψη των ευρετηρίων του πρωτοκόλλου

SRU. Επιπροσθέτως, επεκτείνοντας το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης θα

καταστεί δυνατή η δημιουργία ενός μετα-σχήματος που θα εκφράζει τις υποκείμενες

σημασιολογικές συσχετίσεις μεταξύ των ευρετηρίων όλων των Συνόλων

Συμφραζομένων.

2.2.4 Αποδοτικότητα μετα-αναζήτησης στο περιβάλλον Z39.5015 Μέχρι την εκδοχή 1.1 η ονομασία της γλώσσας ήταν Common Query Language.

Page 62: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 43

Όπως έχει αναφερθεί στην παράγραφο 2.1.3, η αποδοτικότητα των συστημάτων μετα-

αναζήτησης καθορίζεται σε μεγάλο βαθμό από την αποδοτικότητα των υποκείμενων

πηγών και του περιβάλλοντος επικοινωνίας. Πρόσφατες μελέτες καταδεικνύουν τη

βιωσιμότητα των συστημάτων μετα-αναζήτησης και, ειδικότερα, όταν υλοποιούν το

μοντέλο του ενδιάμεσου (Cousins and Sanders, 2006). Ειδικότερα, στο περιβάλλον

του Z39.50, όπως δείχνει ο Macgregor (2005), η πλειοψηφία των Z39.50 διακομιστών

έχουν γρήγορους χρόνους απόκρισης στις υπηρεσίες που επηρεάζουν ένα σύστημα

μετα-αναζήτησης ενώ, ταυτόχρονα, δε βρέθηκε να επιδρούν σημαντικά στον

ενδιάμεσο τα τυχόν προβλήματα που προκύπτουν από το δικτυακό περιβάλλον και

την τοπική χρήση των συστημάτων.

Σύμφωνα με τον Dorman (2008), η καλύτερη υποδομή για την ανάπτυξη των

συστημάτων μετα-αναζήτησης είναι η εκτεταμένη χρήση τόσο των πρωτοκόλλων

Z39.50/SRU όσο και η συνεπής κωδικοποίηση των μεταδεδομένων με πλούσιες και

εκφραστικές διατάξεις. Αξίζει να αναφερθεί ότι οι μελέτες των Macgregor και

Dorman προσδιορίζουν σαφώς τη σημασιολογική διαλειτουργικότητα ως κλειδί στην

ανάπτυξη των συστημάτων μετα-αναζήτησης.

Η συνεισφορά της εν λόγω διατριβής σε θέματα αποδοτικότητας ενός

συστήματος μετα-αναζήτησης, είναι η αρχιτεκτονική που προτείνει για την

δημιουργία ενός εικονικού συλλογικού καταλόγου συστημάτων βιβλιοθηκών, καθώς

και η σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης. Η

προτεινόμενη αρχιτεκτονική, η οποία βασίζεται στο παράλληλο μοντέλο

επεξεργασίας και αναπτύσσεται στο κεφάλαιο 3, επιδιώκει την άμεση επεξεργασία

και εμφάνιση μέρους των αποτελεσμάτων μόλις ληφθεί το πρώτο αποτέλεσμα

αναζήτησης από την ταχύτερη πηγή. Επιπλέον, σε συνδυασμό με την εκμετάλλευση

των πόρων του συστήματος και την εκτέλεση των διαδικασιών στο παρασκήνιο κατά

τη διάρκεια που ο χρήστης παρατηρεί τα αποτελέσματα που έχει λάβει,

ελαχιστοποιεί στο μέγιστο την αίσθηση του χρήστη σχετικά με την απόκριση του

συστήματος προσεγγίζοντας παράλληλα τη βέλτιστη απόδοσή του.

Όπως έχει ήδη αναφερθεί στην παράγραφο 2.1.3, για λόγους αποδοτικότητας

σε ένα σύστημα μετα-αναζήτησης, η ανάκτηση όλων των αποτελεσμάτων από πολύ

μεγάλα σύνολα απαντήσεων δεν είναι ρεαλιστική προσέγγιση. Μία ουσιαστική

βοήθεια στο πρόβλημα αυτό είναι η σύνταξη εστιασμένων επερωτήσεων από το

Page 63: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 44

χρήστη. Η ενέργεια αυτή προϋποθέτει από το σύστημα μετα-αναζήτησης να παρέχει

ένα πλούσιο σύνολο Σημείων Πρόσβασης το οποίο, όμως, κατά κανόνα δημιουργεί

αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις όταν υπάρχει μη υποστηριζόμενο

Σημείο Πρόσβασης από μια πηγή. Με τη δυνατότητα της σημασιολογικής

μετεγγραφής των μη υποστηριζόμενων Σημείων Πρόσβασης, η οποία αναπτύσσεται

στο κεφάλαιο 5, ένα σύστημα μετα-αναζήτησης δεν περιορίζεται σε ένα μικρό

σύνολο γενικών Σημείων Πρόσβασης. Αντίθετα, έχοντας τη δυνατότητα να δώσει στο

χρήστη ένα πλήρες σύνολο τόσο με γενικά όσο και με ειδικά Σημεία Πρόσβασης,

είναι δυνατό να αποτρέπει τη σύνταξη γενικών επερωτήσεων που ανακτούν μεγάλα

σύνολα αποτελεσμάτων.

2.3 Μεταδεδομένα

Τα μεταδεδομένα είναι δομημένα δεδομένα τα οποία περιγράφουν τα χαρακτηριστικά

μιας οντότητας. Εδώ και αρκετές δεκαετίες αποτελούν ένα από τα κύρια αντικείμενα

μελέτης διαφόρων επιστημονικών κοινοτήτων ενώ στο περιβάλλον των βιβλιοθηκών,

ψηφιακών ή παραδοσιακών, υποστηρίζουν σημαντικά ένα ευρύ φάσμα διαδικασιών,

υπηρεσιών και περιγραφής περιεχομένου (content). Στο περιβάλλον των βιβλιοθηκών,

ενδεικτικά παραδείγματα εφαρμογής των μεταδεδομένων αποτελούν η περιγραφή

διαδικασιών και δεδομένων διατήρησης ψηφιακού υλικού, η περιγραφή

αυτοματοποιημένων και μη υπηρεσιών, με ενδεικτικό παράδειγμα την

προαναφερθείσα επεξηγηματική εγγραφή του πρωτοκόλλου Z39.50, καθώς και η

κωδικοποίηση εγγραφών ενός καταλόγου βιβλιοθήκης ή ενός ιδρυματικού

αποθετηρίου.

Η αποτελεσματική χρήση των μεταδεδομένων καθορίζεται από τη δυνατότητά

τους να επαναχρησιμοποιηθούν, να διαμοιρασθούν και να συσχετιστούν μεταξύ τους,

τόσο από το δημιουργό τους όσο και από οποιοδήποτε αποδέκτη τους. Αυτή η

δυνατότητα των μεταδεδομένων αναφέρεται και ως διαλειτουργικότητα. Για να

επιτευχθεί, σύμφωνα με τη Shreeves κ.ά. (2006), επιβάλλεται οι δημιουργοί που

κωδικοποιούν τις εγγραφές των μεταδεδομένων να δίνουν ιδιαίτερη έμφαση στις

παρακάτω, συνοπτικά αναφερόμενες, παραμέτρους:

• Περιεχόμενο (Content), η εγγραφή μεταδεδομένων, ως αυτόνομη οντότητα, θα

Page 64: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 45

πρέπει να περιγράφει το αντικείμενο με την απαραίτητη λεπτομέρεια που

απαιτεί τόσο η υλική του υπόσταση όσο και η χρήση του.

• Συνέπεια (Consistency), όλες οι εγγραφές από την ίδια συλλογή θα πρέπει να

είναι συνεπείς συντακτικά και σημασιολογικά.

• Συνεκτικότητα (Coherence), η εγγραφή πρέπει να είναι αυτεξήγητη και τα

γνωρίσματα του αντικειμένου, ιδιαιτέρως τα ομοειδή, θα πρέπει να είναι

πλήρως αναγνωρίσιμα και διαχωρίσιμα.

• Περιβάλλον (Context), η εγγραφή θα πρέπει να διασφαλίζει όλη την αναγκαία

πληροφορία για το περιβάλλον που υφίσταται το αντικείμενο που περιγράφει.

• Επικοινωνία, μεταξύ του δημιουργού και του χρήστη για τον τρόπο

δημιουργίας και διάθεσης της εγγραφής.

• Συμβατότητα με πρότυπα, ο δημιουργός θα πρέπει να διασφαλίζει την

συμβατότητα της εγγραφής με αναγνωρισμένα πρότυπα.

Η κοινότητα των βιβλιοθηκών θεωρείται αντιπροσωπευτική περίπτωση

ευρείας εφαρμογής προτύπων κωδικοποίησης μεταδεδομένων. Ενδεικτικά

παραδείγματα αποτελούν οι παραδοσιακές MARC κωδικοποιήσεις (Library of

Congress, 1999; IFLA UNIMARC Core Activity, 2008), για αρκετά σύνθετες και

λεπτομερείς περιγραφές, καθώς επίσης και οι σύγχρονες εκδοχές τους MARCXML

και MODS εκφρασμένες σε γλώσσα XML (Library of Congress, 2004c; Library of

Congress, 2009). Για αρκετά απλουστευμένες περιγραφές ή ως η ενδιάμεση ελάχιστη

κοινή περιγραφή για ανταλλαγή μεταδεδομένων μεταξύ αλληλεπιδρώντων

συστημάτων χρησιμοποιείται το Dublin Core (DC) (DCMI, 2008).

Για να απαντηθεί μια επερώτηση σε ένα σύστημα μετα-αναζήτησης, οι

λειτουργίες που αλληλεπιδρούν με τα μεταδεδομένα είναι η αναζήτηση, η ανάκτηση

και η σύνθεση των αποτελεσμάτων σε ενιαίο σύνολο. Η αναζήτηση γίνεται στα

μεταδεδομένα, άρα θα πρέπει να είναι εφικτή η όσο το δυνατό πληρέστερη

κατανόηση της σημασιολογίας τους έξω από το άμεσο περιβάλλον παραγωγής τους.

Στο περιβάλλον του Z39.50 ο προσδιορισμός της σημασιολογίας των μεταδεδομένων

αναζήτησης γίνεται από τον ορισμό των Σημείων Πρόσβασης του Συνόλου

Γνωρισμάτων Bib-1 σε συνδυασμό με το τεκμήριο ορισμού της σημασιολογίας τους

(ZIG, 1995). Η ανάκτηση και σύνθεση των αποτελεσμάτων προϋποθέτει την

κατανόηση των μεταδεδομένων που ανακτώνται ενώ το επίπεδο διαλειτουργικότητας

Page 65: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 46

των μεταδεδομένων καθορίζει το βαθμό δυσκολίας που απαιτεί η υλοποίηση της

διαδικασίας σύνθεσης των αποτελεσμάτων. Επιπροσθέτως, η χρήση κοινών

προτύπων είναι αρκετά συνηθισμένη σε περιπτώσεις όπου οι πηγές ανήκουν σε

όμοιες πληροφοριακές κοινότητες διευκολύνοντας παράλληλα την εξισορρόπηση των

παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης στην ανάπτυξη των

συστημάτων (LeVan, 2006).

2.3.1 Σύνθεση αποτελεσμάτων αναζήτησης

Κατά τη διαδικασία σύνθεσης των αποτελεσμάτων, ένα σημαντικό ζήτημα που

ανακύπτει είναι η ανίχνευση των ομοίων εγγραφών μεταδεδομένων που περιγράφουν

το ίδιο αντικείμενο. Σημειωτέον ότι οι μέχρι τώρα προσεγγίσεις στόχευαν στη

δημιουργία συστάδων από εγγραφές που περιγράφουν την ίδια έκφραση και υλική

υπόσταση του αντικειμένου. Μια ενδεικτική παρουσίαση αυτής της προσέγγισης

αποτελεί το παράδειγμα που ακολουθεί.

Παράδειγμα 2.3: Ας υποθέσουμε ότι στα αποτελέσματα που ανακτήθηκαν

περιλαμβάνονται οι παρακάτω εγγραφές16:

1. (Ε1), (Σ1)

Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου

Καζαντζάκη

Έκδοση: 7η εκδ.

Εκδότης: Αθήναι, Eλ. Καζαντζάκη : 1973

Φυσική Περιγραφή: 365 σ. ; 21 εκ

2. (Ε2), (Σ1)

Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου

Καζαντζάκη

Έκδοση: 7η εκδ.

Εκδότης: Αθήναι, Eλ. Καζαντζάκη : 1973

Φυσική Περιγραφή: 365 σ. ; 21 εκ

3. (Ε3), (Σ2)

Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου

Καζαντζάκη

Εκδότης: Αθήναι, Αρχαίος Εκδοτικός Οίκος Δημητρίου

16 Για λόγους αναγνωσιμότητας οι εγγραφές έχουν παρατεθεί σε συστάδες ομοίων εγγραφών έτσι ώστε να είναι εμφανείς οι μεταξύ τους διαφορές και ομοιότητες.

Page 66: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 47

Δημητράκου : 1954

Φυσική Περιγραφή: 395 σ. ; 21 εκ.

4. (Ε4), (Σ2)

Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου

Καζαντζάκη

Εκδότης: Αθήναι, Αρχαίος Εκδοτικός Οίκος Δημητρίου

Δημητράκου : 1954

Φυσική Περιγραφή: 395 σ. ; 21 εκ.

5. (Ε5), (Σ3)

Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου

Καζαντζάκη

Εκδότης: Αθήναι, Δημητράκος : 1946

Φυσική Περιγραφή 353 σ. ; 21 εκ.

Όλες οι εγγραφές περιγράφουν την έντυπη υλική υπόσταση του έργου Βίος και

πολιτεία του Αλέξη Ζορμπά του Νίκου Καζαντζάκη εκφρασμένου στην Ελληνική

γλώσσα. Επιπροσθέτως, οι εγγραφές Ε1 και Ε2 περιγράφουν την εκδοχή του έργου

που εκδόθηκε το 1973 από τον εκδότη Ελ. Καζαντζάκη στην Αθήνα, οι εγγραφές Ε3

και Ε4 περιγράφουν την εκδοχή που εκδόθηκε το 1954 από τον εκδότη Αρχαίος

εκδοτικός οίκος Δημητρίου Δημητράκου στην Αθήνα και τέλος η εγγραφή Ε5

περιγράφει την εκδοχή που εκδόθηκε το 1946 από τον εκδότη Δημητράκο στην

Αθήνα. Σύμφωνα με την προσέγγιση της ανίχνευσης των ομοίων εγγραφών που

περιγράφουν το ίδιο αντικείμενο στην ίδια έκφραση και υλική υπόσταση, οι συστάδες

που θα δημιουργηθούν είναι η Σ1 από τις εγγραφές Ε1 και Ε2, η Σ2 από τις εγγραφές

Ε3 και Ε4 και η Σ3 από την εγγραφή Ε5. Το τελικό σύνολο αποτελεσμάτων θα

περιλαμβάνει τις συστάδες Σ1, Σ2 και Σ3 αντί των πέντε εγγραφών του

παραδείγματος.

Για λόγους αποδοτικότητας οι αλγόριθμοι ανίχνευσης των ομοίων εγγραφών

είναι κατά κανόνα αλγόριθμοι δύο βημάτων. Συνοπτικά, οι αλγόριθμοι στο πρώτο

βήμα δημιουργούν συστάδες από πιθανά όμοιες εγγραφές εφαρμόζοντας σχετικά

απλές διαδικασίες σε χαρακτηριστικά πεδία των εγγραφών (π.χ. σε τίτλο και σε

συγγραφέα). Στη συνέχεια, στο δεύτερο βήμα, συγκρίνουν μεταξύ τους όλες τις

εγγραφές της συστάδας εφαρμόζοντας πολύπλοκους αλγορίθμους ταύτισης σε όλα

Page 67: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 48

σχεδόν τα πεδία της εγγραφής με στόχο να παραμείνουν στη συστάδα μόνο οι

πραγματικά όμοιες εγγραφές. Λόγω της πολυπλοκότητας των διαδικασιών του

δευτέρου βήματος, η συνολική επιβάρυνση στην απόδοση της διαδικασίας

προέρχεται κυρίως από το δεύτερο βήμα.

Παρότι έχουν αναπτυχθεί αρκετά αποτελεσματικές διαδικασίες ανίχνευσης

ομοίων εγγραφών, μια συγκεντρωτική αναφορά γίνεται από τους Sitas και Kapidakis

(2008), η εφαρμογή τους δεν είναι δεδομένη στα συστήματα μετα-αναζήτησης λόγω

της αποδοτικότητας που απαιτεί η αλληλεπιδρούσα φύση (online) του περιβάλλοντος.

Η ανίχνευση των ομοίων εγγραφών έχει αναγνωρισθεί ως μία σημαντική παράμετρος

στην ανάπτυξη των συστημάτων μετα-αναζήτησης, αλλά οι λεπτομερείς και σύνθετοι

έλεγχοι που απαιτεί η σωστή ανίχνευσή τους καθιστούν προβληματική την εφαρμογή

της διαδικασίας (Payette and Rieger, 1997).

Σε συστήματα μετα-αναζήτησης που υλοποιούν την αρχιτεκτονική του

ενδιάμεσου, μία πρώτη προσέγγιση για τη βελτίωση της αποδοτικότητας της

διαδικασίας ανίχνευσης των ομοίων εγγραφών είναι η δυνατότητα μετάθεσης του

δεύτερου βήματος του αλγορίθμου εκτός του ενδιάμεσου. Δηλαδή, οι λεπτομερείς

συγκρίσεις μεταξύ των περισσοτέρων πεδίων των εγγραφών μεταδεδομένων να

γίνουν από το σύστημα που θα παραλάβει τις συστάδες του πρώτου βήματος (π.χ. ο

σταθμός εργασίας του χρήστη). Βέβαια, η βελτίωση αυτή προϋποθέτει ότι οι αρχικές

συστάδες που θα δημιουργηθούν από το πρώτο βήμα θα περιλαμβάνουν όσο το

δυνατό όμοιες εγγραφές.

Ένα επιπλέον πρόβλημα που αντιμετωπίζει η προσέγγιση των ομοίων

εγγραφών που περιγράφουν την ίδια έκφραση και υλική υπόσταση του αντικειμένου

προέρχεται από την ταξινόμηση των αποτελεσμάτων αναζήτησης. Το πρόβλημα που

δημιουργεί η σειρά εμφάνισης των αποτελεσμάτων αναζήτησης είναι ιδιαίτερα

σοβαρό στην περίπτωση που ο παραλήπτης των αποτελεσμάτων είναι ο τελικός

χρήστης. Αν υποθέσουμε ότι τα αποτελέσματα του παραδείγματος 2.3 θα

εμφανιστούν στο χρήστη ταξινομημένα ως προς το χρόνο έκδοσης, τότε η συστάδα

Σ1 θα εμφανιστεί μαζί με τις εγγραφές που έχουν χρόνο έκδοσης το 1973, η συστάδα

Σ2 μαζί με αυτές που εκδόθηκαν το 1954 και τέλος η συστάδα Σ3 με αυτές που

εκδόθηκαν το 1946. Είναι προφανές, ότι ο χρήστης για να εντοπίσει περιγραφές που

αφορούν το ίδιο έργο, θα πρέπει να περιδιαβεί ένα μεγάλο αριθμό αποτελεσμάτων,

Page 68: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 49

κάτι που δεν είναι βέβαιο.

Η αδυναμία των συστημάτων να εντοπίζουν και να συνθέτουν όλες τις

εκδοχές και υλικές υποστάσεις από το σύνολο των εκφράσεων ενός διακεκριμένου

πνευματικού έργου αποτελεί το αντικείμενο ευρείας κριτικής των συστημάτων μετα-

αναζήτησης. Όπως επισημαίνει η Yee (2005), η κριτική είναι εντονότερη μετά την

ανάπτυξη του εννοιολογικού μοντέλου για το βιβλιογραφικό σύμπαν που ανέπτυξε η

ομάδα εργασίας της IFLA17 για τις Λειτουργικές Απαιτήσεις για Βιβλιογραφικές

Εγγραφές (FRBR18), του οποίου τα κύρια χαρακτηριστικά παρουσιάζονται συνοπτικά

στην επόμενη ενότητα.

Η συνεισφορά της παρούσας διατριβής σε σχέση με την αποτελεσματικότερη

και αποδοτικότερη διαδικασία σύνθεσης των αποτελεσμάτων αναζήτησης εντοπίζεται

στην προτεινόμενη αρχιτεκτονική για τη δημιουργία του εικονικού συλλογικού

καταλόγου, που αναλύεται στο κεφάλαιο 3. Η εν λόγω αρχιτεκτονική παρέχει τη

δυνατότητα διαχωρισμού των βημάτων για τη δημιουργία των συστάδων, καθώς

επίσης τη δόμηση των συστάδων σε ιεραρχικές Έργο-κεντρικές οντότητες σύμφωνα

με το εννοιολογικό μοντέλο FRBR και η οποία αναλύεται στο κεφάλαιο 6.

2.3.2 Functional Requirements for Bibliographic Records (FRBR)

Από το 1992 ως το 1995 η Ομάδα Μελέτης για τις Λειτουργικές Απαιτήσεις για

Βιβλιογραφικές Εγγραφές (Study Group Functional Requirements for Bibliographic

Records) της IFLA εργάστηκε για την ανάπτυξη ενός μοντέλου που θα αναπαριστά το

βιβλιογραφικό σύμπαν. Αποτέλεσμα αυτής της εργασίας ήταν η δημιουργία ενός

μοντέλου Οντοτήτων-Συσχετίσεων που αναπαριστά αφαιρετικά το βιβλιογραφικό

σύμπαν, ανεξάρτητα από επιμέρους υλοποιήσεις ή κανόνες κωδικοποίησης

μεταδεδομένων (Tillet, 2005). Η τελική αναφορά κατατέθηκε το 1997 και εγκρίθηκε

από τη Standing Committee of the IFLA Section on Cataloguing, ενώ το κείμενο

εκδόθηκε το 1998 (IFLA, 1998).

Όπως αναφέρει η ομάδα εργασίας, το μοντέλο σχεδιάστηκε λαμβάνοντας

υπόψη τις ανάγκες των χρηστών έτσι ώστε η εφαρμογή του να εξυπηρετεί τους

τέσσερις παρακάτω σκοπούς:

17 International Federation of Library Associations and Institutions.18 Functional Requirements for Bibliographic Records.

Page 69: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 50

• τον εντοπισμό του υλικού που αντιστοιχεί στα κριτήρια που θέτει ο χρήστης,

• την ταυτοποίηση μιας οντότητας από τα μεταδεδομένα περιγραφής,

• την επιλογή της κατάλληλης οντότητας για τον χρήστη,

• την απόκτηση του ίδιου του αντικειμένου ή της πρόσβασης σε αυτό.

Το μοντέλο αντιμετωπίζει μια βιβλιογραφική εγγραφή ως ένα σύνολο από διακριτές

οντότητες με γνωρίσματα, οι οποίες συσχετίζονται μεταξύ τους.

Οι οντότητες που ορίζει το μοντέλο είναι μοιρασμένες σε τρεις ομάδες. Η

πρώτη ομάδα περιλαμβάνει οντότητες που αναπαριστούν το αποτέλεσμα

πνευματικών ή καλλιτεχνικών προσπαθειών και αποτελείται από τις οντότητες19:

Έργο (Work), Έκφραση (Expression), Εκδήλωση (Manifestation) και Αντίτυπο (Item).

Η δεύτερη ομάδα περιλαμβάνει εκείνες τις οντότητες στις οποίες καταλογίζεται το

πνευματικό ή καλλιτεχνικό περιεχόμενο, η φυσική παραγωγή και η διάθεσή του,

καθώς και η επιμέλεια των σχετικών διαδικασιών. Η δεύτερη ομάδα αποτελείται από

τις οντότητες: Φυσικό Πρόσωπο (Person) και Συλλογικό Όργανο (Corporate Body).

Τέλος, η τρίτη ομάδα περιλαμβάνει ένα πρόσθετο σύνολο οντοτήτων που

απεικονίζουν τα αντικείμενα ενδιαφέροντος της πνευματικής ή καλλιτεχνικής

προσπάθειας και αποτελείται από τις οντότητες: Έννοια (Concept), Αντικείμενο

(Object), Συμβάν (Event) και Τόπο (Place). Επιπροσθέτως, το μοντέλο ορίζει

συσχετίσεις τόσο μεταξύ των οντοτήτων της ίδιας ομάδας, όσο και μεταξύ των

οντοτήτων διαφορετικών ομάδων. Στη συνέχεια της ενότητας θα γίνει συνοπτική

παρουσίαση μόνο των οντοτήτων που περιλαμβάνει η πρώτη ομάδα, καθώς επίσης

και των μεταξύ τους συσχετίσεων, καθώς μόνο οι συγκεκριμένες οντότητες της

πρώτης ομάδας σχετίζονται με το αντικείμενο της παρούσας διατριβής και αποτελούν

το αντικείμενο μελέτης της πλειοψηφίας των τρεχουσών υλοποιήσεων του μοντέλου.

Στη συνέχεια, η αναφορά στο μοντέλο θα γίνεται με τη διεθνώς επικρατούσα

ονομασία FRBR. Επίσης, το τεκμήριο της IFLA που ορίζει και περιγράφει τη χρήση

του μοντέλου FRBR (IFLA, 1998) θα αναφέρεται ως τεκμήριο FRBR.

Σύμφωνα με το μοντέλο FRBR, οι οντότητες της πρώτης ομάδας

αναπαριστούν τις διαστάσεις μιας πνευματικής ή καλλιτεχνικής δημιουργίας που

ενδιαφέρουν άμεσα τον χρήστη. Ειδικότερα, όπως απεικονίζεται στην εικόνα 2.7, η

19 Λόγω του ότι δεν υπάρχει καθιερωμένη μετάφραση της ορολογίας του μοντέλου στην Ελληνική γλώσσα, σε κάθε μετάφραση του όρου παρατίθεται και ο αντίστοιχος όρος από το τεκμήριο της Αγγλικής γλώσσας.

Page 70: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 51

αφετηρία μιας πνευματικής ή καλλιτεχνικής δημιουργίας αναπαρίσταται από την

οντότητα Έργο (Work). Το Έργο (Work) πραγματώνεται μέσω της οντότητας

Έκφρασης (Expression), η οποία μορφοποιείται στην Εκδήλωση (Manifestation).

Τέλος η Εκδήλωση (Manifestation) αποτελεί το πρωτότυπο για την αναπαραγωγή του

Αντιτύπου (Item).

Εικόνα 2.7. Οι οντότητες της πρώτης ομάδας και οι συσχετίσεις τους.

Για τις εγγραφές που αναφέρονται στο παράδειγμα 2.3, το Έργο είναι Βίος και

πολιτεία του Αλέξη Ζορμπά του Νίκου Καζαντζάκη, που πραγματώνεται μέσω της

Έκφρασης στην Ελληνική γλώσσα και η οποία μορφοποιείται στις Εκδηλώσεις των

εκδόσεων του 1973, 1954 και 1946.

Η πλήρης περιγραφή των οντοτήτων και των συσχετίσεών τους γίνεται στο

τεκμήριο που δημοσιεύθηκε από τη Standing Committee of the IFLA Section on

Cataloguing (IFLA, 1998) ενώ μία αρκετά συνοπτική και κατατοπιστική παρουσίαση

του μοντέλου αποτελεί η εργασία της Tillett (2004). Για την επαρκή κατανόηση της

χρήσης του μοντέλου από τις διαδικασίες της παρούσας διατριβής ακολουθεί

συνοπτική περιγραφή των οντοτήτων της πρώτης ομάδας του μοντέλου FRBR.

Ειδικότερα, η οντότητα:

Page 71: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 52

• Το Έργο προορίζεται για την αναπαράσταση της αφηρημένης μορφής μιας

διακριτής πνευματικής ή καλλιτεχνικής προσπάθειας. Στην παρούσα φάση,

όπου στην ουσία πρόκειται για την αφηρημένη ιδέα του έργου η οποία δε

σχετίζεται με κανενός είδους φυσικό αντικείμενο, σύμφωνα με το μοντέλο, η

οντότητα δεν μπορεί να παρατηρηθεί αυτόνομα αλλά μόνο μέσω των

επιμέρους Εκφράσεών της. Ένα βασικό πρόβλημα που τίθεται αφορά το πότε

δημιουργείται ένα νέο Έργο. Σύμφωνα με τους κανόνες του μοντέλου και

χωρίς να είναι απόλυτα διακριτά τα όρια, για να δημιουργηθεί ένα νέο έργο

απαιτείται ένας σημαντικός βαθμός καλλιτεχνικής ή πνευματικής προσπάθειας

ο οποίος να μετασχηματίζει το αρχικό έργο. Ενδεικτικά παραδείγματα έργων

από το τεκμήριο των FRBR αποτελούν το The Art of the Fugue του J. S. Bach,

το Romeo and Juliet του William Shakespeare καθώς επίσης και η ταινία

Romeo and Juliet του Franco Zeffirelli. Παρά το ότι το τελευταίο Έργο είναι

μία ταινία βασισμένη στο αντίστοιχο θεατρικό έργο, θεωρούνται δύο

διαφορετικά Συσχετιζόμενα Έργα.

• Η Έκφραση προορίζεται για την αναπαράσταση της πραγμάτωσης

(realization) του Έργου, δηλαδή την έκφραση της αφηρημένης έννοιας, σε μια

μορφή κειμένου, ήχου, εικόνας κλπ., ή οποιουδήποτε συνδυασμού των

παραπάνω. Η Έκφραση δεν περιλαμβάνει γνωρίσματα που έχουν σχέση με

φυσικά χαρακτηριστικά. Ενώ για παράδειγμα ένα κείμενο (σειρά από

αλφαριθμητικούς χαρακτήρες που ομαδοποιούνται σε παραγράφους κλπ.)

μπορεί να αποτελεί την Έκφραση ενός Έργου, γνωρίσματα όπως αυτά που

προσδιορίζουν τη γραμματοσειρά εκτύπωσης, τη δομή και διάταξη των

σελίδων, κλπ. και δεν αποτελούν ζωτικά στοιχεία μιας πνευματικής ή

καλλιτεχνικής προσπάθειας, εντάσσονται στα γνωρίσματα της επόμενης

οντότητας που αναπαριστά το μέσο που προσδίδει την υλική υπόσταση της

Έκφρασης και ονομάζεται Εκδήλωση. Ενδεικτικό παράδειγμα διαφορετικών

Εκφράσεων του ίδιου Έργου αποτελεί το κείμενο του έργου στην πρωτότυπη

γλώσσα και η μετάφρασή του σε μία άλλη γλώσσα.

• Η Εκδήλωση αναπαριστά την οντότητα που μορφοποιεί μία Έκφραση ενός

Έργου προσδίδοντάς του υλική υπόσταση. Ειδικότερα, αναπαριστά όλα εκείνα

τα φυσικά αντικείμενα που έχουν τα ίδια γνωρίσματα τόσο από άποψη

Page 72: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 53

περιεχομένου όσο και φυσικών χαρακτηριστικών και περιλαμβάνει ένα

μεγάλο φάσμα υλικών (βιβλία, χάρτες, χειρόγραφα, ταινίες κλπ.). Ταυτόχρονα,

αποτελεί το πρωτότυπο για την αναπαραγωγή των αντιτύπων. Είναι η

οντότητα που μέχρι σήμερα ήταν στο επίκεντρο, εφόσον την περιέγραφαν οι

βιβλιοθήκες στους παραδοσιακούς τους καταλόγους. Οι διαφορετικές

εκδόσεις του παραδείγματος 2.3 αποτελούν παραδείγματα διαφορετικών

Εκδηλώσεων της ίδιας Έκφρασης του ίδιου Έργου.

• Το Αντίτυπο αναπαριστά το κάθε αντίγραφο που δημιουργήθηκε έχοντας σαν

πρωτότυπο μία Εκδήλωση. Στην ουσία αναπαριστά την κάθε μονάδα της

τελικής πραγμάτωσης μιας μορφής του έργου.

Στην εικόνα 2.8 παρουσιάζεται ένα παράδειγμα με έννοιες και αντικείμενα από το

βιβλιογραφικό σύμπαν και οι συσχετίσεις τους με τις αντίστοιχες οντότητες που

ορίζει η πρώτη ομάδα του μοντέλου FRBR (Πεπονάκης, 2010: σ. 28).

Εικόνα 2.8. Συσχετίσεις με έννοιες και αντικείμενα από το βιβλιογραφικό σύμπαν με τις αντίστοιχες

FRBR οντότητες.

Οι τρέχουσες εφαρμογές του μοντέλου FRBR εστιάζουν σε διαδικασίες που

Page 73: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 54

συνθέτουν τις οντότητες του μοντέλου από τις εγγραφές που περιλαμβάνουν οι ήδη

υπάρχοντες κατάλογοι και οι οποίες περιγράφουν διακριτά φυσικά αντικείμενα, όπως

βιβλία, άρθρα κλπ. Από τα λίγα εργαλεία λογισμικού που συνθέτουν FRBR

οντότητες, ένα αρκετά αντιπροσωπευτικό είναι το λογισμικό ανοικτού κώδικα που

διατίθεται από την υπηρεσία Network Development and MARC Standard Office της

Library of Congress (Library of Congress, 2004a). Η ανάπτυξη του λογισμικού

βασίστηκε στη μελέτη που είχε σαν αντικείμενο τη βελτίωση της εμφάνισης των

αποτελεσμάτων αναζήτησης με τη χρήση συστάδων FRBR και υλοποιήθηκε σε

γλώσσα XSLT. Άλλα εργαλεία, τα οποία προσανατολίζονται κυρίως στη μετατροπή

βιβλιογραφικών καταλόγων, είναι ο αλγόριθμος work-set που αναπτύχθηκε από το

OCLC20 (OCLC, 2005), καθώς και το εργαλείο που προέκυψε από τις διαδικασίες

μετατροπής του καταλόγου BIBSYS στη Νορβηγία (Aalberg et al., 2006). Η βασική

ιδέα αυτών των εργαλείων είναι η δημιουργία κλειδιών ταύτισης των οντοτήτων ενώ

η πολυπλοκότητα κάθε αλγορίθμου εξαρτάται από το στόχο που έχει να υλοποιήσει

το αντίστοιχο εργαλείο.

Όπως προκύπτει από την περιγραφή του μοντέλου, η οντότητα Έργο αποτελεί

ένα πολύ γενικότερο αντικείμενο από αυτό που ανιχνεύουν οι διαδικασίες ομοίων

εγγραφών που περιγράφουν την ίδια έκφραση και υλική υπόσταση του ίδιου

αντικειμένου, όπως αναφέρεται στην ενότητα 2.3.1. Αυτό συνεπάγεται ότι στο πρώτο

βήμα των αλγορίθμων ταύτισης για τη δημιουργία των ιεραρχικών Έργο-κεντρικών

συστάδων, δηλαδή συστάδων που θα αντιπροσωπεύουν ένα Έργο και θα

περιλαμβάνουν όλες τις Εκφράσεις και Εκδηλώσεις του ίδιου έργου, απαιτούνται

λιγότεροι και χαλαρότεροι κανόνες ταύτισης από αυτούς που απαιτεί η δημιουργία

των συστάδων της ίδιας έκφρασης και υλικής υπόστασης του αντικειμένου.

Επιπροσθέτως, οι πολύπλοκοι έλεγχοι του δεύτερου βήματος των αλγορίθμων

ταύτισης αφενός θα είναι δυνατό να πραγματοποιηθούν στο περιβάλλον του τελικού

χρήστη, οπότε δεν επιβαρύνεται το περιβάλλον μετα-αναζήτησης, αφετέρου θα

περιορίζονται διαδοχικά σε ακόμα μικρότερο αριθμό εγγραφών, καθότι αρχικά θα

δημιουργούν ομάδες από Εκφράσεις και στη συνέχεια σε κάθε Έκφραση ομάδες

Εκδηλώσεων.

Έχοντας ως δεδομένο ότι ένα σύστημα μετα-αναζήτησης δεν έχει καμία

20 Online Computer Library Center, Inc.

Page 74: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 55

δυνατότητα παρέμβασης στη δομή και την οργάνωση των δεδομένων μιας πηγής η

εστίαση της χρήσης του FRBR μοντέλου γίνεται σε διαδικασίες σύνθεσης των

αποτελεσμάτων αναζήτησης σε Έργο-κεντρικές συστάδες. Στο πλαίσιο της παρούσας

διατριβής, επεκτείνοντας το λογισμικό της Library of Congress, αναπτύχθηκαν

υποσυστήματα που συνθέτουν Έργο-κεντρικές συστάδες από τις σημασιολογικά

συναφείς διατάξεις κωδικοποίησης μεταδεδομένων UNIMARC (IFLA UNIMARC

Core Activity, 2008) και MODS (Library of Congress, 2009). Τα υποσυστήματα αυτά

επιτρέπουν στο σύστημα μετα-Συνθέτης να παρουσιάζει τα αποτελέσματα

αναζήτησης σε Έργο-κεντρικές συστάδες και να μπορεί να εφαρμόζει τις διαδικασίες

σύνθεσης σε πηγές που χρησιμοποιούν διαφορετικές κωδικοποιήσεις μεταδεδομένων.

Η εικόνα 2.9 δείχνει την αντίστοιχη συνοπτική μορφή του παραδείγματος 2.3

σε ιεραρχική Έργο-κεντρική συστάδα, όπως εμφανίζεται από το σύστημα μετα-

Συνθέτης. Η αναλυτική περιγραφή των διαδικασιών σύνθεσης των Έργο-κεντρικών

συστάδων γίνεται στο κεφάλαιο 6, όπου περιγράφεται συνολικά και το σύστημα.

Εικόνα 2.9. Αποτελέσματα αναζήτησης σε ιεραρχική Έργο-κεντρική συστάδα από το σύστημα

μετα-Συνθέτης.

Με τη σύνθεση των Έργο-κεντρικών συστάδων, το σύστημα δίνει στο χρήστη

μία πολύ πιο συμπαγή εικόνα για τον αριθμό και τα αποτελέσματα αναζήτησης,

εφόσον κάθε αποτέλεσμα θα αντιστοιχεί σε ένα Έργο. Με αυτή την προσέγγιση, ο

χρήστης θα έχει τη δυνατότητα να περιδιαβεί τις διαφορετικές εκφράσεις και υλικές

υποστάσεις του ίδιου έργου χωρίς να επηρεάζεται από την ταξινόμηση των

αποτελεσμάτων.

Page 75: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 56

2.4 Σύνοψη

Η πολυπλοκότητα στην πρόσβαση που δημιουργεί στο χρήστη η ύπαρξη των πολλών

και ετερογενών πηγών πληροφόρησης, τόσο στο περιβάλλον των βιβλιοθηκών όσο

και στο ευρύτερο περιβάλλον του διαδικτύου, επέβαλε την αναγκαιότητα των

συστημάτων ενιαίας πρόσβασης. Παρά την αποδοτικότητα των συστημάτων ενιαίας

πρόσβασης που υλοποιούν το μοντέλο της συγκομιδής, ο τεράστιος όγκος των

δεδομένων που θα συγκεντρωθεί από τη συγκομιδή των δεδομένων των πηγών, ο

τύπος των δεδομένων, καθώς και οι πολιτικές διάθεσης που εφαρμόζει η κάθε πηγή

αποτελούν τους κυριότερους λόγους που συχνά απαγορεύουν την εφαρμογή του

μοντέλου της συγκομιδής και επιβάλλουν τα συστήματα μετα-αναζήτησης.

Καθοριστικό ζήτημα στην αποτελεσματικότητα ενός συστήματος μετα-

αναζήτησης είναι η δυνατότητά του να γνωρίζει τα χαρακτηριστικά αναζήτησης που

υποστηρίζει κάθε πηγή και να μετεγγράφει τις επερωτήσεις από τη γλώσσα

αναζήτησης που παρέχει στη γλώσσα που υποστηρίζει κάθε πηγή. Σε περιπτώσεις

όπου δεν είναι δυνατή η μετεγγραφή σημασιολογικά ισοδύναμων επερωτήσεων με τα

χαρακτηριστικά που υποστηρίζει η πηγή, η μετεγγραφή σε επερωτήσεις με συναφή

σημασιολογία αποτρέπουν τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις.

Σε ένα πραγματικό σύστημα μετα-αναζήτησης η σύνθεση των επιμέρους

αποτελεσμάτων των πηγών σε ένα ενιαίο σύνολο καθορίζει σε σημαντικό βαθμό την

αποδοχή του συστήματος από τους χρήστες. Η βελτίωση της αποδοτικότητας των

συστημάτων μετα-αναζήτησης, σε σχέση με τις υπηρεσίες αναζήτησης και σύνθεσης

των αποτελεσμάτων σε ένα ενιαίο σύνολο, αντιμετωπίζει ιδιαιτερότητες λόγω του

περιορισμένου χρόνου που επιβάλει το περιβάλλον της άμεσης επικοινωνίας (online)

του συστήματος όπου απαιτείται επιπλέον να δοθεί η απάντηση στον ελάχιστο δυνατό

χρόνο. Η χρήση κοινών προτύπων διευκολύνει στην εξισορρόπηση των παραμέτρων

λειτουργικότητας και ευκολίας υλοποίησης κατά την ανάπτυξη ενός συστήματος

μετα-αναζήτησης ενώ η παρουσίαση των αποτελεσμάτων αναζήτησης στο χρήστη

σύμφωνα με το μοντέλο FRBR καλύπτει επαρκώς τις τρέχουσες απαιτήσεις του.

Η παρούσα διατριβή πραγματεύεται προβλήματα της εφαρμογής του

μοντέλου μετα-αναζήτησης, με ιδιαίτερη έμφαση στο περιβάλλον των βιβλιοθηκών

Page 76: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 2 57

που εφαρμόζουν συστήματα διάθεσης συμβατά με το πρωτόκολλο Z39.50. Παρά την

εξειδίκευση του περιβάλλοντος εργασίας, οι προτεινόμενες λύσεις είναι γενικές και

ευρύτερα εφαρμόσιμες. Πιο συγκεκριμένα, η προτεινόμενη αρχιτεκτονική για τη

δημιουργία του εικονικού συλλογικού καταλόγου που αναπτύσσεται στο αμέσως

επόμενο κεφάλαιο, βελτιώνοντας την αποδοτικότητα των διαδικασιών προώθησης της

επερώτησης στις πηγές και σε συνδυασμό με την ασύγχρονη τμηματική συλλογή και

επεξεργασία των αποτελεσμάτων, επιτρέπει στο σύστημα να παρέχει καλύτερες

υπηρεσίες σύνθεσης των αποτελεσμάτων με Εργο-κεντρικές συστάδες σύμφωνα με το

μοντέλο FRBR. Επιπλέον, η προσέγγιση της συντακτικής περιγραφής των

χαρακτηριστικών που βασίζεται σε γραμματικούς κανόνες αντιστοίχισης (grammar

based mappings), κεφάλαιο 4, όσο και η σημασιολογική αντικατάσταση των μη

υποστηριζόμενων Σημείων Πρόσβασης με τη χρήση του Σημασιολογικού Δικτύου

Σημείων Πρόσβασης (κεφάλαιο 5), αποτελούν συνεισφορές της παρούσας διατριβής

στη λύση του προβλήματος των αποτυχημένων επερωτήσεων ή των ασυνεπών

απαντήσεων. Τέλος, η υλοποίηση των προτεινόμενων μεθόδων στο σύστημα μετα-

Συνθέτης και η χρήση του σε πηγές παγκοσμίου ενδιαφέροντος δείχνουν τα οφέλη

από τη σημασιολογική βελτίωση της διαλειτουργικότητας στο περιβάλλον των

βιβλιοθηκών.

Page 77: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3

Αρχιτεκτονική επαναληπτικής ανάκτησης

και σύνθεσης αποτελεσμάτων με

παράλληλες διαδικασίες σε εικονικό

συλλογικό κατάλογο

Μια από τις εναλλακτικές ονομασίες των συστημάτων μετα-αναζήτησης είναι ο

εικονικός συλλογικός κατάλογος ή εικονικός κατάλογος. Ουσιαστικά, η ονομασία αυτή

υποδηλώνει τις αντίστοιχες προσπάθειες της κοινότητας των βιβλιοθηκών για την

ανάπτυξη συστημάτων ενιαίας πρόσβασης σε περιβάλλον πραγματικού χρόνου. Όπως

έχει ήδη αναφερθεί, προς τα τέλη της δεκαετίας του 198021 τα συστήματα άμεσης

πρόσβασης στους καταλόγους των βιβλιοθηκών (OPACs) αποτελούσαν αυτονόητη

υπηρεσία για το σύνολο των βιβλιοθηκών. Τα συστήματα αυτά δημιούργησαν τις

προϋποθέσεις για την ανάπτυξη των επόμενων συστημάτων άμεσης πρόσβασης σε

πραγματικό χρόνο τα οποία θα παρέχουν ταυτόχρονη συνεκτική πρόσβαση στο

περιεχόμενο ομάδων βιβλιοθηκών από ένα κεντρικό σημείο.

21 Τα πρώτα πειραματικά συστήματα άμεσης πρόσβασης στους καταλόγους των βιβλιοθηκών εμφανίστηκαν στις αρχές της δεκαετίας του 1960. Στη συνέχεια, το πρώτο σύστημα ευρείας κλίμακας αναπτύχθηκε στο Ohio State University το 1975, ενώ το αμέσως επόμενο από την Dallas Public Library το 1978. Τα συστήματα αυτά αντανακλούσαν πολύ έντονα τη λογική των δελτιοκαταλόγων, μιας και ο πρωταρχικός τους στόχος ήταν η αντικατάσταση των υπαρχόντων δελτιοκαταλόγων.

58

Page 78: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 59

Αξίζει να σημειωθεί ότι η ιδέα για την ανάπτυξη των συλλογικών καταλόγων

στις βιβλιοθήκες δεν είναι νέα και δεν εμφανίστηκε με την ανάπτυξη των

υπολογιστικών συστημάτων. Ειδικότερα, ο μεγαλύτερος έντυπος συλλογικός

κατάλογος μέχρι σήμερα είναι ο National Union Catalog Pre-1956 Imprints των

Ηνωμένων Πολιτειών της Αμερικής (American Library Association, 1968-1981),

αποκαλούμενος και Mansell από το όνομα του εκδότη του. Η πρώτη εκδοχή του σε

δελτία άρχισε να αναπτύσσεται το 1901, ενώ από το 1960 μέχρι το 1981 που έκλεισε

η έντυπη εκδοχή του αποτελείτο από 754 τόμους των 600 σελίδων ο κάθε ένας, ενώ

χρειαζόταν περίπου 40 μέτρα ράφια για να τοποθετηθεί (Beall and kafadar, 2005).

Οι κύριες λειτουργικές απαιτήσεις που θέτει η κοινότητα των βιβλιοθηκών τις

οποίες πρέπει να πληρούν τα συστήματα διαχείρισης των συλλογικών καταλόγων

είναι (Lynch, 1997):

• η συνεπής (consistent) ευρετηρίαση και αναζήτηση του περιεχομένου κάθε

βιβλιοθήκης μέσω των μεταδεδομένων που το περιγράφουν,

• η ανίχνευση των ομοίων εγγραφών που περιγράφουν το ίδιο φυσικό

αντικείμενο και η σύνθεσή τους σε μία εγγραφή,

• η δυνατότητα για αξιόπιστη και αποδοτική διαθεσιμότητα του συστήματος, σε

συνδυασμό με την ελεγχόμενη και όσο το δυνατόν ευκολότερη διαχείρισή του.

Η συνεπής ευρετηρίαση προσδιορίζεται από τον ορισμό (ποια θα είναι), τη

σημασιολογία (ποια πληροφορία θα περιλαμβάνουν) και τους κανόνες

κανονικοποίησης των Σημείων Πρόσβασης. Η άμεση απόκριση του συστήματος στις

επερωτήσεις των χρηστών, ανεξάρτητα από τον αριθμό και το μέγεθος των εγγραφών

που διαχειρίζεται, είναι ο πρωταρχικός παράγοντας στην αποδοτική λειτουργία ενός

συστήματος διαχείρισης συλλογικού καταλόγου. Παράλληλα, η εύκολη διαχείριση

των πόρων του συστήματος σε συνδυασμό με την επεκτασιμότητα και την περαιτέρω

εξέλιξή του συμβάλουν καθοριστικά στην αξιοπιστία και τη διαθεσιμότητά του.

Αρχικά, οι διαθέσιμες τεχνολογίες των υπολογιστικών συστημάτων και των

δικτύων, σε συνδυασμό με την ετερογένεια και την εναλλακτική εφαρμογή των

προτύπων που υλοποιούσαν οι βιβλιοθήκες, επέτρεπαν την επίτευξη των

προαναφερομένων λειτουργικών απαιτήσεων μόνο από υλοποιήσεις του μοντέλου

της συγκομιδής δημιουργώντας τους κεντρικοποιημένους (centralized) συλλογικούς

Page 79: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 60

καταλόγους. Τα συστήματα MELVYL22, WorldCat23, COPAC24 είναι ενδεικτικά αλλά

και αρκετά αξιόπιστα παραδείγματα κεντρικοποιημένων συλλογικών καταλόγων που

λειτουργούν σήμερα και διαθέτουν αρκετά εκατομμύρια εγγραφών σε αρκετές

χιλιάδες χρήστες καθημερινά.

Στη συνέχεια, η ολοένα αναπτυσσόμενη τεχνολογία των δικτύων, η αποδοχή

και εφαρμογή διεθνών προτύπων κωδικοποίησης μεταδεδομένων, καθώς επίσης η

ανάπτυξη του πρωτοκόλλου αναζήτησης πληροφοριών Z39.50 και η ευρεία εφαρμογή

του, ιδιαιτέρως μετά το 1995, δημιούργησαν τις προϋποθέσεις για την ανάπτυξη των

πρώτων εικονικών συλλογικών καταλόγων στις βιβλιοθήκες.

3.1 Εικονικοί συλλογικοί κατάλογοι

Τα πλεονεκτήματα των συλλογικών καταλόγων που υλοποιούν το κατανεμημένο

μοντέλο συνοψίζονται στα παρακάτω (Lynch, 1997; Payette and Rieger, 1997):

• στην αυτονομία και τον έλεγχο κάθε τοπικού συστήματος από την αντίστοιχη

βιβλιοθήκη,

• στη διατήρηση των τοπικών χαρακτηριστικών κάθε συλλογής,

• στη δυνατότητα κάθε χρήστη να επιλέξει και να ορίσει ο ίδιος τη συλλογή των

πηγών που συνθέτουν τον εξατομικευμένο του εικονικό κατάλογο,

• στην αποφυγή προβλημάτων αποδοτικότητας από τους πολύ μεγάλους όγκους

δεδομένων,

• στην αποφυγή των μεγάλων και σύνθετων υπολογιστικών συστημάτων που

απαιτούν μεγάλο κόστος ανάπτυξης, καθώς επίσης και πολύπλοκες

διαδικασίες συντήρησης,

• στις λιγότερο αυστηρές διαδικασίες ταύτισης των ομοίων εγγραφών, εφόσον

οι συστάδες είναι προσωρινές και δεν προορίζονται για τη δημιουργία

φυσικού καταλόγου,

• στην άμεση ενημερότητα του καταλόγου,

• στη δυνατότητα άμεσης υποστήριξης υπηρεσιών διαδανεισμού.

Θεωρώντας δεδομένη τη μεγάλη αύξηση του μεγέθους και του αριθμού των

22 http://melvyl.cdlib.org 23 http://www.oclc.org/worldcat/ 24 http://copac.ac.uk

Page 80: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 61

διαθέσιμων καταλόγων η αποδοτικότητα του συστήματος στις διαδικασίες

αναζήτησης και ενημέρωσης του συλλογικού καταλόγου είναι καθοριστικός

παράγοντας στην αποδοχή και χρήση του. Επιπροσθέτως, η διαδικασία του

διαδανεισμού απαιτεί ο συλλογικός κατάλογος να είναι ενημερωμένος για το

περιεχόμενο κάθε βιβλιοθήκης σε επίπεδο εγγραφής και αντιτύπων. Ειδικότερα, σε

περιπτώσεις μη ψηφιακού υλικού, το οποίο στην παρούσα χρονική περίοδο αποτελεί

την πλειοψηφία του διαθέσιμου υλικού των βιβλιοθηκών, ο συλλογικός κατάλογος

πρέπει να είναι ενήμερος για κάθε διαθέσιμο αντίτυπο του καταλόγου, για το εάν

αυτό δανείζεται και σε ποιους χρήστες, καθώς επίσης για την τρέχουσα κατάστασή

του, δηλαδή αν είναι διαθέσιμο ή όχι, δανεισμένο, κλπ. Αντίστοιχα, σε περιπτώσεις

ψηφιακού υλικού, παρά το ότι το πρόβλημα θεωρείται απλούστερο, ο συλλογικός

κατάλογος πρέπει να είναι ενημερωμένος για τον τρόπο και τα δικαιώματα

πρόσβασης σε κάθε ψηφιακό αντικείμενο. Για αυτούς τους λόγους, η διαδικασία του

διαδανεισμού δεν μπορεί να υποστηριχθεί άμεσα από τους κεντρικοποιημένους

συλλογικούς καταλόγους και απαιτεί την ανάπτυξη επιπρόσθετων διαδικασιών.

Οι πρώτες υλοποιήσεις εικονικών συλλογικών καταλόγων έδειξαν ότι η

εφαρμογή του πρωτοκόλλου Z39.50 και η εστίαση στην εφαρμογή και χρήση

συγκεκριμένων προτύπων κωδικοποίησης μεταδεδομένων από τις βιβλιοθήκες δεν

επαρκούσαν για να καλυφθούν οι λειτουργικές απαιτήσεις που είχε θέσει η κοινότητα

των βιβλιοθηκών. Παρότι για κάποιες από τις υπηρεσίες (π.χ. διαδανεισμός) υπήρχε η

δυνατότητα να υλοποιηθούν άμεσα και αποδοτικά, ουσιαστικά τα περισσότερα από

τα προβλήματα της αποτελεσματικότητας και της αποδοτικότητας των συστημάτων

μετα-αναζήτησης, όπως παρουσιάστηκαν στο κεφάλαιο 2, παρέμεναν άλυτα

εμποδίζοντας την παραπέρα ανάπτυξη και εφαρμογή των εικονικών συλλογικών

καταλόγων.

Τα προβλήματα στους χρόνους απόκρισης και στη διαθεσιμότητα αρκετών

τοπικών συστημάτων επέτρεπαν μόνο την υλοποίηση ψευδο-συστημάτων μετα-

αναζήτησης με μικρό αριθμό βιβλιοθηκών. Οι υλοποιήσεις συστημάτων ευρύτερης

κλίμακας, με στοιχειώδεις διαδικασίες σύνθεσης και ενοποίησης των αποτελεσμάτων,

δεν ικανοποιούσαν τις απαιτήσεις των χρηστών, ιδιαίτερα σε σχέση με την απόκριση

των συστημάτων (Lunau and Turner, 1997; Payette and Rieger, 1997; Stubley et al.,

2001; Coyle, 2003; Macgregor, 2005). Είναι αξιοσημείωτο ότι αρκετές από τις

Page 81: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 62

προσδοκίες των σύγχρονων χρηστών, σε σχέση με την απόκριση των εικονικών

συλλογικών καταλόγων, έχουν επηρεαστεί από την απόδοση των κεντρικοποιημένων

συλλογικών καταλόγων, που λειτουργούν ήδη επιτυχώς, καθώς και από τις

υπάρχουσες μηχανές αναζήτησης του παγκόσμιου ιστού. Οι προσδοκίες αυτές είναι

τόσο αυξημένες, ώστε η μη άμεση ανταπόκριση ενός συστήματος μετα-αναζήτησης

να συνεπάγεται την απόρριψή του (Booth and Hartley, 2004).

Σε έναν εικονικό συλλογικό κατάλογο σύμφωνα με τον Lynch (1997) και τους

Payette και Rieger (1997), είναι πάρα πολύ δύσκολη, αν όχι αδύνατη, η αξιόπιστη

ανίχνευση των ομοίων εγγραφών που περιγράφουν την ίδια έκφραση και υπόσταση

ενός αντικειμένου, υπηρεσία που είναι καθοριστική για την αποδοχή του συστήματος

από τους χρήστες. Σκέψεις για εξειδικευμένες λύσεις στο πρόβλημα της ανίχνευσης

των ομοίων εγγραφών, όπως η χρήση των κωδικών ταυτότητας των εγγραφών της

Library of Congress25, ή του ISBN26 απέδωσαν ελάχιστα, χωρίς να λύσουν το

πρόβλημα.

Ειδικότερα με το πρωτόκολλο Z39.50, η περιορισμένη υιοθέτηση διεθνών

προφίλ υλοποίησης, όπως του Bath Profile (ISO TC 46 SC 4, 2004), είχε σαν

αποτέλεσμα να υπάρχουν μεγάλες διαφοροποιήσεις στην υλοποίηση των διαδικασιών

αναζήτησης των Z39.50 διακομιστών (Cousins and Sanders, 2006). Οι πρώτοι

εικονικοί συλλογικοί κατάλογοι, προκειμένου να αποφύγουν τις αποτυχημένες

επερωτήσεις ή τις ασυνεπείς απαντήσεις που προκαλούσαν οι διαφορετικές

υλοποιήσεις των Z39.50 διακομιστών, περιόριζαν τα διαθέσιμα Σημεία Πρόσβασης

στο ελάχιστο κοινό υποσύνολο από τα Σημεία Πρόσβασης που υποστήριζαν όλα τα

τοπικά συστήματα. Σε πιο πρόσφατες υλοποιήσεις, όπως είναι το σύστημα InforM25

server (Cousins and Sanders, 2006), για να εξομαλύνουν τις ασυμφωνίες μεταξύ των

τοπικών συστημάτων και να βελτιώσουν τη συνεκτικότητα της αναζήτησης, όρισαν

για κάθε Σημείο Πρόσβασης που θα διέθετε ο εικονικός κατάλογος την κατάλληλη

μετεγγραφή του για κάθε τοπικό διακομιστή. Επειδή η διαδικασία ορισμού και

ενημέρωσης των μετεγγραφών είναι μη αυτοματοποιημένη και γίνεται από το

διαχειριστή του συστήματος, η συντήρησή του σε περίπτωση μεταβολής των

χαρακτηριστικών αναζήτησης ενός διακομιστή ή της ένταξης ενός νέου είναι αρκετά

σύνθετη και χρονοβόρα ενώ η συνεκτικότητα των μετεγγραφών απαιτεί μεγάλη

25 Library of Congress Control Number26 International Standard Book Number

Page 82: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 63

προσοχή.

Η προτεινόμενη αρχιτεκτονική εικονικού συλλογικού καταλόγου που

παρουσιάζεται σε αυτό το κεφάλαιο έχει ως στόχο να προτείνει λύσεις που να

ικανοποιούν τις προσδοκίες των χρηστών, που όπως προαναφέρθηκαν συνοψίζονται:

• στην άμεση απόκριση του συστήματος,

• στη σύνθεση των αποτελεσμάτων σε ένα ενιαίο σύνολο,

• στην αποφυγή αποτυχημένων επερωτήσεων ή ασυνεπών απαντήσεων.

Οι κύριες ιδέες για την εξισορρόπηση της βέλτιστης αποτελεσματικότητας και

αποδοτικότητας του συστήματος είναι:

• η παράλληλη υλοποίηση των διαδικασιών αναζήτησης, ανάκτησης και

σύνθεσης των αποτελεσμάτων,

• η άμεση δημιουργία ενός μικρού αριθμού FRBR Εργο-κεντρικών συστάδων

αρχικά, και στη συνέχεια η σταδιακή σύνθεση των υπολοίπων συστάδων στο

παρασκήνιο, με παράλληλες διαδικασίες, στο χρόνο που ο χρήστης

επεξεργάζεται τα προηγούμενα αποτελέσματα,

• η περιγραφή των χαρακτηριστικών αναζήτησης των πηγών με τη γλώσσα

RQDL, η οποία βασίζεται στη Datalog,

• η σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης.

Ειδικότερα, για να έχει ο χρήστης την αίσθηση της άμεσης απόκρισης από το

σύστημα, γίνεται η παρουσίαση των πρώτων FRBR Εργο-κεντρικών συστάδων που

θα δημιουργηθούν από ένα μικρό υποσύνολο αποτελεσμάτων από τη γρηγορότερη

πηγή. Όπως έχει αναφερθεί στις ενότητες 2.3.1 και 2.3.2, επειδή η διαδικασία

σύνθεσης των Έργο-κεντρικών συστάδων απαιτεί γενικότερους ελέγχους για την

ανίχνευση των οντοτήτων των Έργων είναι αποδοτικότερη από την ανίχνευση των

ομοίων εγγραφών του ίδιου φυσικού αντικειμένου. Επιπροσθέτως, επειδή μπορεί να

υλοποιηθεί σε δύο βήματα, οι πολυπλοκότερες διαδικασίες για τη δημιουργία της

ιεραρχίας των υπολοίπων οντοτήτων του έργου, εκφράσεων κλπ., υλοποιούνται κατά

τη διάρκεια της εμφάνισης των αποτελεσμάτων στο σταθμό εργασίας του χρήστη

απαλλάσσοντας τον ενδιάμεσο. Αξίζει να αναφερθεί ότι έχει γίνει αρκετή κριτική για

τον τρόπο εμφάνισης των αποτελεσμάτων από τα υπάρχοντα συστήματα άμεσης

πρόσβασης των βιβλιοθηκών, ενώ προτείνεται ως νέα απαίτηση των χρηστών η

δημιουργία των ιεραρχικών συστάδων που συνθέτουν όλες τις εναλλακτικές

Page 83: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 64

εκφράσεις και υποστάσεις του ίδιου έργου σε μία οντότητα (Yee, 2005; Mimo et al.,

2005).

Για την αποφυγή αποτυχημένων επερωτήσεων ή ασυνεπών απαντήσεων, σε

αντίθεση με το σύστημα InforM25 server όπου γίνεται μη αυτοματοποιημένη

αντιστοίχιση ενός μικρού συνόλου Σημείων πρόσβασης, η σημασιολογική

μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης, η οποία θα αναπτυχθεί

στο κεφάλαιο 5, είναι πλήρως αυτοματοποιημένη, καλύπτει όλο το Σύνολο

Γνωρισμάτων Z39.50 BIB-1 και βασίζεται στη σημασιολογία που προκύπτει έμμεσα

από τον ορισμό των μεταδεδομένων που συνθέτουν το Σημείο Πρόσβασης. Τα

σχετικά θέματα με την περιγραφή των χαρακτηριστικών αναζήτησης με τη χρήση της

γλώσσας RQDL παρουσιάζονται στο κεφάλαιο 4.

Στην ενότητα που ακολουθεί γίνεται η παρουσίαση των υποσυστημάτων της

προτεινόμενης αρχιτεκτονικής, καθώς επίσης και η αλληλεπίδρασή τους κατά την

εκτέλεση μιας επερώτησης. Ακολουθεί η λεπτομερής ανάλυση των βημάτων που

διενεργούνται για να γίνει η προώθηση της επερώτησης στους τοπικούς Z39.50

διακομιστές, καθώς επίσης η ανάκτηση των αποτελεσμάτων και η σύνθεση των

συστάδων. Επιπροσθέτως, γίνεται η σχετική αναφορά σε όλα τα ειδικά

χαρακτηριστικά του πρωτοκόλλου Z39.50 η χρήση των οποίων μπορεί να

συνεισφέρει στη συνολική απόδοση του συστήματος. Στη συνέχεια, ολοκληρώνεται η

παρουσίαση της αρχιτεκτονικής με τον προσδιορισμό της αποδοτικότητάς της, η

οποία συγκρίνεται με την αποδοτικότητα των υπόλοιπων ομάδων συστημάτων μετα-

αναζήτησης που παρουσιάστηκαν στο κεφάλαιο 2. Αξίζει να σημειωθεί ότι η

προτεινόμενη αρχιτεκτονική είναι γενική και εύκολα προσαρμόσιμη σε ευρύτερα

περιβάλλοντα μετα-αναζήτησης, όπου μπορούν να συμμετέχουν και πηγές που δεν

είναι συμβατές με το πρωτόκολλο Z39.50.

3.2 Επαναληπτική ανάκτηση και σύνθεση αποτελεσμάτων με

παράλληλη υλοποίηση διαδικασιών

Η ιδεατή διαδικασία που ακολουθεί ένα σύστημα εικονικού καταλόγου για να

εκτελέσει μια επερώτηση, ακολουθεί τα επόμενα βήματα:

1. Αποδοχή της επερώτησης.

Page 84: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 65

2. Μετεγγραφή και προώθηση της επερώτησης στους τοπικούς διακομιστές.

2.1. Μετεγγραφή της επερώτησης σύμφωνα με τα χαρακτηριστικά που υποστηρίζει

κάθε τοπικός διακομιστής.

2.2. Προώθηση των μετεγγραμμένων επερωτήσεων στους αντίστοιχους τοπικούς

διακομιστές. Στο σημείο αυτό, ο εικονικός κατάλογος δίνει τον έλεγχο σε κάθε

τοπικό διακομιστή ζητώντας του να εκτελέσει την επερώτηση ενώ αναμένει την

απάντηση. Ειδικότερα, στο περιβάλλον του Z39.50 ενεργοποιείται η υπηρεσία

αναζήτησης (search service) του τοπικού διακομιστή.

3. Ανάκτηση των αποτελεσμάτων για κάθε θετική απάντηση από τον αντίστοιχο

διακομιστή. Στο περιβάλλον του Z39.50 ενεργοποιείται η υπηρεσία ανάκτησης

(present service) του τοπικού διακομιστή.

4. Επεξεργασία των αποτελεσμάτων και σύνθεση συστάδων.

5. Επιστροφή αποτελεσμάτων.

Όπως έχει προαναφερθεί στο κεφάλαιο 2, το μοντέλο υλοποίησης που ακολουθεί ένα

σύστημα μετα-αναζήτησης (σειριακό ή παράλληλο) προσδιορίζει τη σειρά που θα

υλοποιηθούν οι παραπάνω διαδικασίες καθορίζοντας παράλληλα την απόδοση και την

πολυπλοκότητα υλοποίησής του. Επίσης, η υπηρεσία ανάκτησης είναι διακριτή από

την υπηρεσία αναζήτησης, ανεξάρτητα από το αν σε κάποιες περιπτώσεις υπάρχει η

δυνατότητα να ανακτηθούν εγγραφές ταυτόχρονα και από την υπηρεσία αναζήτησης.

Σε μία τυπική υπηρεσία ανάκτησης, όπως είναι αυτή του Z39.50, ο εικονικός

κατάλογος ζητά πακέτα με μέγιστο αριθμό μεταδεδομένων. Ο μέγιστος αριθμός

εγγραφών που θα περιέχει το πακέτο είναι είτε προκαθορισμένος από τον τοπικό

διακομιστή είτε καθορίζεται μετά από διαπραγματεύσεις του εικονικού καταλόγου με

το διακομιστή. Ο εικονικός κατάλογος ανακτά τον επιθυμητό αριθμό εγγραφών

επικαλούμενος επαναληπτικά την τοπική υπηρεσία ανάκτησης. Αντίστοιχη είναι και η

υπηρεσία ανάκτησης που υλοποιεί ο εικονικός κατάλογος προς το χρήστη ή την

εφαρμογή στο παραπάνω επίπεδο επιστρέφοντας τμηματικά μικρά Σύνολα

Αποτελεσμάτων. Κάθε εγγραφή που ανακτάται από τους τοπικούς διακομιστές

μετατρέπεται στην εσωτερική διάταξη μεταδεδομένων που υποστηρίζει ο εικονικός

κατάλογος και δημιουργούνται τα κλειδιά που θα χρησιμοποιηθούν για την ταύτιση

των οντοτήτων στη διαδικασία σύνθεσης των συστάδων. Είναι προφανές ότι για κάθε

τοπική διάταξη (όπως MARC21, MODS, κλπ.) πρέπει να υπάρχει και ο αντίστοιχος

Page 85: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 66

μετατροπέας προς την εσωτερική διάταξη του εικονικού καταλόγου.

Σκιαγραφώντας τη ροή των διαδικασιών της προτεινόμενης αρχιτεκτονικής,

αρχικά η μετεγγραφή και προώθηση της επερώτησης στους Z39.50 διακομιστές

γίνεται παράλληλα. Με τη λήψη της πρώτης θετικής απάντησης ενεργοποιείται

ταυτόχρονα η επαναληπτική ανάκτηση και επεξεργασία των αποτελεσμάτων. Μόλις

δημιουργηθεί ένα Σύνολο Αποτελεσμάτων με ένα σχετικά μικρό αριθμό FRBR

οντοτήτων Έργων, τα αποτελέσματα αποστέλλονται στο χρήστη. Στη συνέχεια, κατά

την διάρκεια που ο χρήστης επεξεργάζεται τα αποτελέσματα, το σύστημα συνεχίζει

επαναληπτικά την παράλληλη ανάκτηση μικρών πακέτων αποτελεσμάτων από τους

τοπικούς διακομιστές και συνθέτει τα επόμενα Σύνολα Αποτελεσμάτων στο

παρασκήνιο (background).

Με τη συντομότερη δυνατή παρουσίαση μερικών αποτελεσμάτων ο χρήστης

έχει την αίσθηση της άμεσης απόκρισης του συστήματος ενώ παράλληλα ο εικονικός

κατάλογος χρησιμοποιεί το χρόνο που ο χρήστης επεξεργάζεται τα αποτελέσματα που

έλαβε προκειμένου να προετοιμάσει τα επόμενα Σύνολα Αποτελεσμάτων. Ακόμη, οι

πιθανές καθυστερήσεις από τα αργά δίκτυα και τα τοπικά συστήματα, καθώς και τα

πιθανά σφάλματα που θα προκύψουν από τους τοπικούς διακομιστές, θα επηρεάσουν

στο ελάχιστο τη συνολική απόδοση του συστήματος, μιας και δε θα διακόπτουν τις

διαδικασίες αναζήτησης, ανάκτησης και σύνθεσης των αποτελεσμάτων.

Παράλληλα με την επαναληπτική ανάκτηση και επεξεργασία των

αποτελεσμάτων, το σύστημα έχει τη δυνατότητα να εκμεταλλευθεί ειδικά

χαρακτηριστικά, τόσο του Z39.50 όσο και της δομής των μεταδεδομένων που

υποστηρίζει κάθε πηγή. Ειδικότερα, για να ανακτηθούν περισσότερο επεξεργασμένα

δεδομένα από τους τοπικούς διακομιστές και να είναι αποδοτικότερη η διαδικασία

σύνθεσης των συστάδων ενεργοποιούνται οι υπηρεσίες ανίχνευσης ομοίων εγγραφών

και ταξινόμησης του Z39.50, σε περίπτωση βεβαίως που αυτές υποστηρίζονται.

Επιπροσθέτως, μεταξύ των παραμέτρων που επεξεργάζεται η διαδικασία που επιλέγει

την πηγή από όπου θα ανακτηθεί το επόμενο πακέτο αποτελεσμάτων είναι η διάταξη,

η πληρότητα και γενικότερα η ποιότητα των μεταδεδομένων που ακολουθεί κάθε

πηγή. Οι πληροφορίες αυτές δίνουν μία σημαντική ένδειξη για την

αποτελεσματικότητα και αποδοτικότητα τόσο της γενικής επεξεργασίας των

μεταδεδομένων όσο και της εξειδικευμένης διαδικασίας σύνθεσης των FRBR

Page 86: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 67

συστάδων. Οι πληροφορίες που απαιτούνται για να ενεργοποιηθούν τα παραπάνω

ιδιαίτερα χαρακτηριστικά αντλούνται από τις καταγεγραμμένες πληροφορίες στο

προφίλ των Z39.50 διακομιστών που διατηρεί ο εικονικός κατάλογος.

Εικόνα 3.1. Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους.

Όπως φαίνεται στην εικόνα 3.1, ο εικονικός συλλογικός κατάλογος

αποτελείται από τις μονάδες λογισμικού: α) της αίτησης, β) της επεξεργασίας των

αποτελεσμάτων και γ) της επικοινωνίας με τις πηγές. Περαιτέρω, η μονάδα

επεξεργασίας αναλύεται σε επιμέρους υποσυστήματα για να επεξεργασθεί και να

συνθέσει τις συστάδες από τα μεταδεδομένα που θα παραλάβει από τη μονάδα

επικοινωνίας. Στην εικόνα 3.1, όπου αναπαρίστανται συνοπτικά οι μονάδες, τα

υποσυστήματα και οι μεταξύ τους αλληλεπιδράσεις, τα τετράγωνα αναπαριστούν τις

μονάδες λογισμικού, οι ελλείψεις αναπαριστούν τα υποσυστήματα των μονάδων, οι

συνεχόμενες γραμμές αναπαριστούν μεταφορά δεδομένων ενώ οι διακεκομμένες

γραμμές αναπαριστούν ανταλλαγές μηνυμάτων ελέγχου μεταξύ των μονάδων και των

υποσυστημάτων του εικονικού καταλόγου. Τα σχήματα με τις διπλές γραμμές

Page 87: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 68

υποδηλώνουν ότι για την αντίστοιχη μονάδα ή υποσύστημα είναι δυνατή η

δημιουργία αυτόνομων στιγμιότυπων που θα εκτελούνται σε διαφορετικούς

επεξεργαστές και θα επικοινωνούν μέσω κοινόχρηστης μνήμης. Παρότι η παράλληλη

χρήση διαφορετικών επεξεργαστών δυσκολεύει την ανάπτυξη του συστήματος,

παρέχει μια επιπρόσθετη δυνατότητα σε περίπτωση που απαιτείται μεγαλύτερη

απόδοση από το σύστημα.

3.2.1 Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους

Ειδικότερα, σε ό,τι αφορά τις τρεις μονάδες λογισμικού (εικόνα 3.1):

• Η μονάδα της αίτησης λαμβάνει τα αιτήματα από το χρήστη ή από μία άλλη

εφαρμογή, τα προωθεί στην κατάλληλη μονάδα και αναμένει την απάντησή

της. Εάν πρόκειται για επερώτηση, την προωθεί άμεσα στη μονάδα

επικοινωνίας ενώ, εάν πρόκειται για αίτημα ανάκτησης, δηλαδή αίτημα

παρουσίασης επόμενου Συνόλου Αποτελεσμάτων από επερώτηση που έχει ήδη

εκτελεσθεί, την προωθεί στη μονάδα επεξεργασίας. Και στις δυο περιπτώσεις

η μονάδα περιμένει ένα Σύνολο Αποτελεσμάτων αποτελούμενο το πολύ από p

Έργο-κεντρικές συστάδες. Μόλις λάβει το Σύνολο Αποτελεσμάτων με τις

μοναδικές p συστάδες από τη μονάδα επεξεργασίας αποτελεσμάτων, τις

επιστρέφει στο χρήστη και περιμένει το επόμενο αίτημα.

• Η μονάδα της επικοινωνίας υλοποιεί την πρόσβαση μέσω του κατάλληλου

πρωτοκόλλου επικοινωνίας που υποστηρίζει κάθε πηγή. Προωθεί, παράλληλα,

στις πηγές τα αιτήματα που θα λάβει είτε απευθείας από τη μονάδα αίτησης,

τα οποία είναι επερωτήσεις είτε από τη μονάδα επεξεργασίας αποτελεσμάτων,

τα οποία είναι αιτήματα περαιτέρω ανάκτησης αποτελεσμάτων.

Επιπροσθέτως, η μονάδα λαμβάνει υπόψη και τα ειδικά χαρακτηριστικά που

υποστηρίζει κάθε διακομιστής και την απόδοσή του από το προφίλ υλοποίησης

που διατηρεί για τους διακομιστές. Σε περίπτωση που ένας διακομιστής

υποστηρίζει τις υπηρεσίες ανίχνευσης ομοίων εγγραφών ή ταξινόμησης, η

μονάδα συμπληρώνει την επερώτηση με τις κατάλληλες παραμέτρους. Όπως

έχει ήδη αναφερθεί, η μονάδα δεν ανακτά όλα τα αποτελέσματα με μία μόνο

αίτηση ανάκτησης από κάθε διακομιστή, αλλά επαναλαμβάνει το αίτημα

ανάκτησης ζητώντας κάθε φορά το πολύ p εγγραφές. Στην πράξη, ανάλογα με

Page 88: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 69

την απόδοση του δικτύου και της πηγής, είναι δυνατό ο αριθμός των

εγγραφών p να είναι διαφορετικός για κάθε πηγή, αλλά για λόγους

ευκολότερης κατανόησης της αρχιτεκτονικής θεωρούμε ότι είναι ίδιο για όλες

τις αιτήσεις ανάκτησης σε όλους τους διακομιστές. Με την αποφυγή

μεταφοράς μεγάλου όγκου δεδομένων από ένα αίτημα ανάκτησης

ελαχιστοποιείται η συνολική επιβάρυνση του συστήματος από τις αργές

δικτυακές συνδέσεις ή τους αργούς διακομιστές. Μόλις η μονάδα παραλάβει

ένα Σύνολο Αποτελεσμάτων το προωθεί για επεξεργασία στη μονάδα

επεξεργασίας αποτελεσμάτων. Η μονάδα Επικοινωνίας αρχίζει τη λειτουργία

της με τη λήψη ενός αιτήματος αναζήτησης από τη μονάδα Αίτησης, ενώ

επικοινωνεί με αυτή μόνο με επιστροφή μηνυμάτων ελέγχου σε περίπτωση

που υπάρχει έλεγχος πρόσβασης από το διακομιστή ή δεν είναι διαθέσιμη μία

υπηρεσία. Από τις σημαντικότερες λειτουργίες που διενεργεί η μονάδα

Επικοινωνίας είναι ο έλεγχος συμβατότητας των επερωτήσεων με τα

χαρακτηριστικά αναζήτησης που υποστηρίζει κάθε πηγή και στη συνέχεια η

κατάλληλη μετεγγραφή της επερώτησης για κάθε μία πηγή. Η μεθοδολογία

περιγραφής και ελέγχου των χαρακτηριστικών, η οποία γίνεται με τη γλώσσα

RQDL, αναλύεται στο κεφάλαιο 4, ενώ η περιγραφή της υλοποίησης των

υποσυστημάτων στο κεφάλαιο 6. Επιπροσθέτως η μέθοδος για τη

σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης

αναλύεται στο κεφάλαιο 5, ενώ η περιγραφή της υλοποίησης των

υποσυστημάτων που την υλοποιούν στο κεφάλαιο 6.

• Η μονάδα της επεξεργασίας αποτελεσμάτων, λαμβάνει τα αποτελέσματα από

τη μονάδα Επικοινωνίας, επεξεργάζεται και συνθέτει τα Σύνολα

Αποτελεσμάτων με τις Έργο-κεντρικές συστάδες, τις οποίες στη συνέχεια

διαθέτει στη μονάδα Αίτησης. Μόλις συνθέσει το πρώτο Σύνολο

Αποτελεσμάτων από ένα μικρό αριθμό συστάδων τα προωθεί στη μονάδα

Αίτησης. Στη συνέχεια, προετοιμάζει τα επόμενα Σύνολα Αποτελεσμάτων, ενώ

αναμένει τα επόμενα αιτήματα ανάκτησης από τη μονάδα Αίτησης.

Όλες οι μονάδες και τα υποσυστήματα διενεργούν τις διαδικασίες παράλληλα, εκτός

και αν περιμένουν είσοδο δεδομένων ή μήνυμα ελέγχου από μία άλλη μονάδα ή ένα

άλλο υποσύστημα.

Page 89: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 70

Η μονάδα επεξεργασίας για να ετοιμάζει τα Σύνολα Αποτελεσμάτων συντονίζει

τα υποσυστήματα της Προμήθειας Δεδομένων, της Διαχείρισης Τοπικού Συνόλου

Αποτελεσμάτων, της Έργο-σύνθεσης και της Διάθεσης Δεδομένων. Ειδικότερα:

• Το υποσύστημα της Προμήθειας Δεδομένων παραλαμβάνει τα δεδομένα από

τη μονάδα Επικοινωνίας τα οποία στη συνέχεια προωθεί ένα προς ένα στο

Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων. Το υποσύστημα Προμήθειας

Δεδομένων χρησιμοποιεί εσωτερικά δύο δομές ουρών με τις οποίες

διασφαλίζει ανά πάσα στιγμή τη δυνατότητα να παραλάβει δεδομένα από τη

μονάδα Επικοινωνίας ακόμη και αν δεν έχει υποβάλει αίτημα ανάκτησης,

καθώς επίσης τη διαθεσιμότητα επαρκών μεταδεδομένων για επεξεργασία. Σε

αρκετές περιπτώσεις state-full πρωτοκόλλων, όπως είναι το Z39.50, υπάρχει

όριο χρόνου μεταξύ δύο διαδοχικών αιτημάτων, με αποτέλεσμα η επικοινωνία

να διακόπτεται σε περίπτωση υπέρβασης του ορίου. Στην περίπτωση αυτή, θα

πρέπει να επαναληφθεί η διαδικασία σύνδεσης και επερώτησης με

αποτέλεσμα αφενός την καθυστέρηση του συστήματος αφετέρου την

πιθανότητα ασυνέπειας μεταξύ των δύο απαντήσεων της επερώτησης. Για να

αποφευχθεί αυτό, η μονάδα Επικοινωνίας, η οποία γνωρίζει τα

χαρακτηριστικά κάθε διακομιστή, ανανεώνει το όριο χρόνου ζητώντας

δεδομένα από το διακομιστή. Η δυνατότητα του υποσυστήματος Προμήθειας

Δεδομένων να παραλάβει δεδομένα ανά πάση στιγμή δίνει τη δυνατότητα στη

μονάδα Επικοινωνίας για απρόσκοπτη λειτουργία. Επιπροσθέτως, για να

διασφαλίζεται η διαθεσιμότητα επαρκών μεταδεδομένων για επεξεργασία,

μόλις ο αριθμός των διαθέσιμων μεταδεδομένων του υποσυστήματος

Προμήθειας Δεδομένων γίνει μικρότερος από ένα συγκεκριμένο όριο, το

υποσύστημα στέλνει ένα μήνυμα ‘ανάκτησης’ στο υποσύστημα Επικοινωνίας.

• Το υποσύστημα της Διαχείρισης Τοπικού Συνόλου Αποτελεσμάτων αποθηκεύει

και διευθετεί (π.χ. ταξινομεί) τις Έργο-κεντρικές συστάδες στη δομή

δεδομένων του Τοπικού Συνόλου Αποτελεσμάτων. Η πρώτη αποστολή του

Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων είναι η ενεργοποίηση του Έργο-

συνθέτη για όλες τις εισερχόμενες εγγραφές, καθώς και η ετοιμασία του

Συνόλου Αποτελεσμάτων. Η ετοιμασία του Συνόλου Αποτελεσμάτων γίνεται με

την αντιγραφή p συστάδων (p είναι ο αριθμός των συστάδων που αιτήθηκαν

Page 90: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 71

για παρουσίαση) από το Τοπικό Σύνολο Αποτελεσμάτων στη δομή του

Συνόλου Αποτελεσμάτων. Όταν ολοκληρωθεί η ανάκτηση όλων των εγγραφών

από όλους τους διακομιστές, μία ένδειξη ‘τέλος δεδομένων’ προστίθεται στη

δομή του Συνόλου Αποτελεσμάτων.

• Το υποσύστημα της Έργο-σύνθεσης παραλαμβάνει μία προς μία τις εγγραφές

από το υποσύστημα του Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων και

συνθέτει τις FRBR Έργο-κεντρικές συστάδες. Το υποσύστημα συγκρίνει κάθε

εισερχόμενη εγγραφή με τις υπάρχουσες συστάδες στη δομή του Τοπικού

Συνόλου Αποτελεσμάτων, οπότε είτε τη συσχετίζει με μία υπάρχουσα είτε δίνει

εντολή στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων να δημιουργήσει μια

νέα συστάδα και να την εντάξει στη δομή του Τοπικού Συνόλου

Αποτελεσμάτων.

• Το υποσύστημα της Διάθεσης Δεδομένων διεκπεραιώνει την αλληλεπίδραση

με τη μονάδα Αίτησης. Πιο συγκεκριμένα, προωθεί τα αιτήματα ανάκτησης

που λαμβάνει από τη μονάδα Αίτησης στο Διαχειριστή Τοπικού Συνόλου

Αποτελεσμάτων και επιστρέφει το Σύνολο Αποτελεσμάτων με τις Έργο-

κεντρικές συστάδες στη μονάδα Αίτησης. Μόλις το υποσύστημα Διάθεσης

Δεδομένων προωθήσει το αίτημα για ανάκτηση p συστάδων στο Διαχειριστή

Τοπικού Συνόλου Αποτελεσμάτων περιμένει μέχρι να “γεμίσει” η δομή του

Συνόλου Αποτελεσμάτων με τις συστάδες για να τις διαβάσει και να τις

προωθήσει στη μονάδα Αίτησης. Ακόμη, το υποσύστημα παρακολουθεί το

χρόνο που είναι ανενεργό το σύστημα, δηλαδή δεν έχει λάβει αίτημα για

ανάκτηση από τη μονάδα Αίτησης, οπότε μόλις υπερβεί ένα προκαθορισμένο

χρονικό όριο τερματίζει τη δραστηριότητα του συστήματος.

Ολοκληρώνοντας την παρουσίαση της αρχιτεκτονικής του εικονικού

συλλογικού καταλόγου, τα σημαντικότερα πλεονεκτήματά της συνοψίζονται ως

ακολούθως:

• Ικανοποιούνται οι προσδοκίες του χρήστη για άμεση απόκριση του

συστήματος.

• Δίνεται η δυνατότητα στον εικονικό συλλογικό κατάλογο να προετοιμάσει τις

επόμενες ομάδες αποτελεσμάτων στο παρασκήνιο.

• Επηρεάζεται στο ελάχιστο δυνατόν η συνολική απόδοση του συστήματος από

Page 91: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 72

τις πιθανές καθυστερήσεις των δικτύων, των τοπικών συστημάτων και των

σφαλμάτων λειτουργίας και διαθεσιμότητας των τοπικών διακομιστών.

• Αποφεύγονται οι αποτυχημένες επερωτήσεις ή οι ασυνεπείς απαντήσεις.

• Απελευθερώνονται σημαντικοί πόροι από το σύστημα εικονικού καταλόγου.

Η επίτευξη των προαναφερθέντων προσεγγίζεται με:

• Την -κατά το συντομότερο δυνατό- έναρξη της διαδικασίας παρουσίασης

αποτελεσμάτων στο χρήστη.

• Την παράλληλη εκτέλεση των λειτουργιών, στις περισσότερες διαδικασίες,

καθώς επίσης με την επαναληπτική ανάκτηση και επεξεργασία μικρών

πακέτων αποτελεσμάτων από τους τοπικούς διακομιστές.

• Τη σημασιολογική μετεγγραφή των επερωτήσεων κατά προσέγγιση, με βάση

τα χαρακτηριστικά αναζήτησης που υποστηρίζει κάθε πηγή (κεφάλαιο 5).

• Τη σύνθεση των Έργο-κεντρικών συστάδων και τη μερική μετατόπιση της

επεξεργασίας στο σταθμό εργασίας του χρήστη.

3.2.2 Βήματα εκτέλεσης μιας επερώτησης

Ο εικονικός συλλογικός κατάλογος ενεργοποιείται μόλις η μονάδα Αίτησης λάβει ένα

αίτημα αναζήτησης από ένα χρήστη ή από μια εφαρμογή. Στα βήματα που

ακολουθούν παρουσιάζονται λεπτομερώς οι λειτουργίες, η ροή των δεδομένων και οι

ανταλλαγές μηνυμάτων ελέγχου που εκτελούνται από το σύστημα για να εκτελεσθεί

το αίτημα αναζήτησης. Ειδικότερα, με τη λήψη του αιτήματος αναζήτησης από τη

μονάδα Αίτησης:

1. Η μονάδα Αίτησης προωθεί μήνυμα για έναρξη νέας συνδιάλεξης (session) στη

μονάδα Επεξεργασίας. Με την πληροφορία αυτή η μονάδα Επεξεργασίας

αποθηκεύει τις πληροφορίες που απαιτούνται ώστε να είναι δυνατή η επαναφορά

και η συνέχιση της τρέχουσας διαδικασίας, εάν αυτό είναι επιθυμητό, και στη

συνέχεια εκτελεί τις απαιτούμενες αρχικοποιήσεις στα υποσυστήματά της.

2. Η μονάδα Αίτησης προωθεί στη συνέχεια την επερώτηση στη μονάδα

Επικοινωνίας. Το αίτημα περιλαμβάνει και το μέγιστο αριθμό p των συστάδων του

Συνόλου Αποτελεσμάτων έτσι ώστε η μονάδα Επικοινωνίας να παραμετροποιήσει

κατάλληλα τα αιτήματα προς τους τοπικούς διακομιστές. Μόλις ολοκληρωθεί η

Page 92: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 73

προώθηση του μηνύματος, η μονάδα είναι σε αναμονή για νέα αιτήματα.

3. Η μονάδα Αίτησης προωθεί επίσης μία αίτηση για παρουσίαση p συστάδων στη

μονάδα Επεξεργασίας και περιμένει να παραλάβει το Σύνολο Αποτελεσμάτων.

4. Η μονάδα Επικοινωνίας με την άφιξη της επερώτησης εκτελεί παράλληλα για κάθε

πηγή τα παρακάτω βήματα:

4.1. Μετεγγράφει την επερώτηση στη γλώσσα επερώτησης του διακομιστή που

αναζητά την πηγή. Η διαδικασία της μετεγγραφής περιλαμβάνει τη μετεγγραφή

των μη υποστηριζόμενων χαρακτηριστικών αναζήτησης (π.χ. Σημεία

Πρόσβασης) από την πηγή, καθώς και τη μετάφραση στη γλώσσα επερώτησης

που απαιτεί το πρωτόκολλο επικοινωνίας (π.χ. στη γλώσσα type-1 του Συνόλου

Γνωρισμάτων Bib-1 του Z39.50 ή στη γλώσσα CQL του SRU/SRW, κλπ.). Η

επερώτηση ή το σύνολο επερωτήσεων που θα προκύψουν από τη μετεγγραφή,

είναι σε μορφή κατανοητή από την πηγή και περιλαμβάνουν μόνο

χαρακτηριστικά αναζήτησης που αυτή υποστηρίζει. Η εν λόγω διαδικασία

εξασφαλίζει ότι είναι δυνατή η εκτέλεση των επερωτήσεων από την πηγή και

ότι θα αποφευχθούν αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις. Το πιο

σημαντικό όμως είναι ότι ο εικονικός κατάλογος γνωρίζει αν και κατά πόσο οι

ερωτήσεις που θα εκτελεσθούν έχουν διαφορετική σημασιολογία από την

αρχική.

4.2. Προωθεί την επερώτηση στον τοπικό διακομιστή και αναμένει την απάντηση.

4.3. Με την άφιξη της απάντησης του αιτήματος της αναζήτησης ολοκληρώνεται η

διαδικασία αναζήτησης από το διακομιστή. Η απάντηση περιλαμβάνει τον

αριθμό των εγγραφών που ικανοποιούν την επερώτηση ή το σχετικό μήνυμα

λάθους σε περίπτωση που προκύψει σφάλμα (όπως ανάγνωση βάσης

δεδομένων, κλπ.) κατά την εκτέλεση της επερώτησης στο διακομιστή. Με τη

λήψη της απάντησης προστίθεται ο αριθμός των εγγραφών που ικανοποιούν

την επερώτηση στους αριθμούς που έχουν προκύψει από τους υπόλοιπους

διακομιστές. Μόλις απαντήσουν όλοι οι διακομιστές προωθείται στη μονάδα

Αίτησης ένα μήνυμα με το συνολικό αριθμό των εγγραφών.

4.4. Προώθηση των αντίστοιχων αιτημάτων στο διακομιστή αν υποστηρίζονται

χαρακτηριστικά όπως αναγνώριση ομοίων εγγραφών, ταξινόμησης, κλπ.

4.5. Αίτηση για ανάκτηση εγγραφών, π.χ. p εγγραφές, σε περίπτωση που η

Page 93: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 74

απάντηση είναι θετική αρχίζοντας με το βήμα αυτό τη διαδικασία ανάκτησης.

4.6. Προώθηση των εγγραφών στη μονάδα Επεξεργασίας.

4.7. Η μονάδα Επικοινωνίας αναμένει περαιτέρω εντολές, ενώ παράλληλα ελέγχει

το όριο απραξίας (time out) με το διακομιστή και προτού το υπερβεί μεταπίπτει

στο βήμα 4.5.

5. Η μονάδα Επεξεργασίας επεξεργάζεται ένα μικρό μέρος από τις εγγραφές που θα

παραλάβει από τη μονάδα Επικοινωνίας και ετοιμάζει το Σύνολο Αποτελεσμάτων

με τις πρώτες Έργο-κεντρικές συστάδες τις οποίες προωθεί στη μονάδα Αίτησης.

Είναι αξιοσημείωτο ότι η μονάδα δε συμπληρώνει απαραίτητα το Σύνολο

Αποτελεσμάτων με p συστάδες που έχει ζητήσει ο χρήστης. Υπάρχει ένα όριο

χρόνου για τη σύνθεση του Συνόλου Αποτελεσμάτων και σε περίπτωση που υπάρχει

υπέρβαση, λόγω πιθανών καθυστερήσεων από τους διακομιστές, η μονάδα προωθεί

το Σύνολο Αποτελεσμάτων στη μονάδα Αίτησης. Επιπλέον, σε οποιαδήποτε στιγμή ο

αριθμός των εγγραφών που βρίσκονται προς επεξεργασία στη μονάδα είναι

μικρότερος από ένα όριο (π.χ. 10), η μονάδα στέλνει ένα αίτημα ανάκτησης στη

μονάδα Επικοινωνίας η οποία στη συνέχεια επαναλαμβάνει τα βήματα 4.5 και 4.6.

Σύμφωνα με την παραπάνω διαδικασία, η μονάδα Αίτησης προωθώντας την

επερώτηση στη μονάδα Επικοινωνίας την ενημερώνει ταυτόχρονα και για τον

προτεινόμενο αριθμό p των συστάδων που θα περιλαμβάνει το Σύνολο

Αποτελεσμάτων. Ο αριθμός αυτός είναι καθαρά πληροφοριακός για τη μονάδα

Επικοινωνίας, καθώς δίνει μια ένδειξη για το πόσο μεγάλα αναμένει ο χρήστης να

είναι τα ανακτηθέντα Σύνολα Αποτελεσμάτων. Η μονάδα Επικοινωνίας χρησιμοποιεί

αυτή την ένδειξη σε συνδυασμό με τον αριθμό των εγγραφών που ικανοποιούν την

επερώτηση και με άλλες πληροφορίες από το Προφίλ των διακομιστών προκειμένου

να υπολογίσει τον αριθμό των εγγραφών που θα ζητά σε κάθε βήμα ανάκτησης από

τους τοπικούς διακομιστές (βήμα 4.5). Σε περίπτωση που ένας διακομιστής έχει μικρή

απόδοση και καθυστερεί να απαντήσει, ο αριθμός p μπορεί να προσαρμοστεί

κατάλληλα για να αποφευχθούν μεγάλα διαστήματα αναμονής. Αν ο διακομιστής έχει

μικρό όριο απραξίας (time out), η μονάδα Επικοινωνίας χρησιμοποιώντας ένα μικρό

αριθμό p και εκτελώντας περισσότερα αιτήματα ανάκτησης, θα αποφύγει τη διακοπή

της επικοινωνίας με το διακομιστή και την ανάγκη για να την ενεργοποίησει ξανά,

καθώς και την επανάληψη της επερώτησης. Αντίθετα, ένας μεγαλύτερος αριθμός p θα

Page 94: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 75

ήταν προτιμότερος σε περίπτωση που ο αριθμός των αποτελεσμάτων είναι μεγάλος

και ο διακομιστής έχει γρήγορες αποκρίσεις.

Στο βήμα 4.3, η μονάδα Επικοινωνίας αθροίζει τους αριθμούς των

αποτελεσμάτων από κάθε πηγή και προωθεί το αποτέλεσμα στη μονάδα Αίτησης.

Αυτός ο αριθμός αποτελεσμάτων δεν είναι στην πραγματικότητα σωστός, αφενός

γιατί περιγράφει εγγραφές και όχι οντότητες FRBR Έργων, αφετέρου διότι δεν έχει

γίνει η επεξεργασία των εγγραφών. Ακόμα και στην υποθετική περίπτωση όπου τα

δεδομένα από τις πηγές αντιστοιχούν σε οντότητες Έργων υπάρχει το ενδεχόμενο

ταύτισης αρκετών από αυτά. Για να υπολογισθεί ο ακριβής αριθμός των συστάδων θα

πρέπει να γίνει η ανάκτηση και η επεξεργασία όλων των εγγραφών από όλους τους

διακομιστές, διαδικασία που δεν είναι πάντοτε εφικτή ή έχει μεγάλο κόστος.

Δεδομένου ότι η πληροφορία αυτή είναι αρκετά σημαντική για να αποφασίσει ο

χρήστης μια εναλλακτική εξειδίκευση της επερώτησης, ένα πρόβλημα που επιδέχεται

περαιτέρω μελέτης είναι η ανεύρεση μιας προσεγγιστικής μεθόδου για τον

προσδιορισμό ενός όσο το δυνατόν πλησιέστερου αριθμού προς τον ακριβή αριθμό

των μοναδικών συστάδων.

Στο βήμα 5, όπου η μονάδα Επεξεργασίας ετοιμάζει τα Σύνολα

Αποτελεσμάτων, ζητά εγγραφές από τη μονάδα Επικοινωνίας όταν οι διαθέσιμες

συστάδες που δεν έχουν παρουσιαστεί στο χρήστη είναι λιγότερες από ένα όριο. Με

αυτή τη διαδικασία, το σύστημα εκμεταλλεύεται το χρόνο που ο χρήστης

επεξεργάζεται τα δεδομένα προετοιμάζοντας τα επόμενα Σύνολα Αποτελεσμάτων.

3.2.2.1 Επεξεργαστής αποτελεσμάτων

Όπως προαναφέρθηκε κατά την περιγραφή της διαδικασίας εκτέλεσης μιας

επερώτησης από τον εικονικό κατάλογο, η μονάδα Επεξεργασίας ενεργοποιείται μόλις

παραλάβει το μήνυμα για έναρξη νέας συνδιάλεξης (session) από τη μονάδα Αίτησης

(ενότητα 3.2.2, βήμα 1). Με το μήνυμα αυτό, η μονάδα κάνει τις απαραίτητες

αρχικοποιήσεις και στη συνέχεια περιμένει αποτελέσματα από τη μονάδα

Επικοινωνίας για να αρχίσει την επεξεργασία και σύνθεση των συστάδων.

Επιπροσθέτως, η μονάδα Αίτησης, μετά το αίτημα για p συστάδες (ενότητα 3.2.2,

βήμα 3), είναι σε κατάσταση αναμονής μέχρι η μονάδα Επεξεργασίας να συνθέσει τις

συστάδες. Ουσιαστικά, η μονάδα Επεξεργασίας ξεκινά τις κύριες λειτουργίες της

Page 95: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 76

μόλις παραλάβει την πρώτη εγγραφή από τη μονάδα Επικοινωνίας (ενότητα 3.2.2,

βήμα 4.6), ενώ έχει τη δυνατότητα να εκτελεί τις διεργασίες της παράλληλα με τις

λειτουργίες των άλλων μονάδων.

Μόλις η μονάδα Επικοινωνίας διαθέσει την πρώτη εγγραφή στο υποσύστημα

του Προμηθευτή Δεδομένων, οι διεργασίες και οι αλληλεπιδράσεις που

πραγματοποιούνται μεταξύ των υποσυστημάτων της μονάδας Επεξεργασίας είναι οι

ακόλουθες:

1. Ο Προμηθευτής Δεδομένων αρχίζει να μεταφέρει τις εγγραφές από την ουρά

εισόδου στην ουρά εξόδου. Σε περίπτωση που ο διαθέσιμος αριθμός εγγραφών

προς επεξεργασία είναι μικρότερος από ένα όριο και η μονάδα Επεξεργασίας είναι

σε κατάσταση αναμονής, το υποσύστημα στέλνει ένα αίτημα ανάκτησης στη

μονάδα Επεξεργασίας. Με τη διαδικασία αυτή η πιθανότητα να μην υπάρχουν

διαθέσιμα δεδομένα προς επεξεργασία στη μονάδα είναι ελάχιστη. Αυτό είναι

δυνατό να συμβεί μόνο σε περιπτώσεις όπου οι διακομιστές ή οι συνδέσεις δικτύου

είναι πάρα πολύ αργές.

2. Όσο ο αριθμός των νέων συστάδων στο υποσύστημα Διαχείρισης Τοπικού Συνόλου

Αποτελεσμάτων είναι μικρότερος από ένα όριο, το υποσύστημα διαβάζει εγγραφές

από το υποσύστημα του Διαθέτη Δεδομένων και τις προωθεί στο υποσύστημα του

Έργο-συνθέτη.

2.1. Ο Έργο-συνθέτης συγκρίνει την εγγραφή με τις υπάρχουσες συστάδες στη δομή

του Τοπικού Συνόλου Αποτελεσμάτων και στη συνέχεια επιστρέφει τα

αποτελέσματα πίσω στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων.

2.2. Ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων διευθετεί την εγγραφή στο

Τοπικό Σύνολο Αποτελεσμάτων. Σε περίπτωση που η εγγραφή ανήκει σε μια

ήδη υπάρχουσα συστάδα την εντάσσει σε αυτή. Διαφορετικά δημιουργεί μια

νέα συστάδα και την εισάγει κατάλληλα στο Τοπικό Σύνολο Αποτελεσμάτων.

2.3. Αν ο αριθμός των νέων συστάδων στη δομή του Τοπικού Συνόλου

Αποτελεσμάτων είναι p, o Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων

αντιγράφει τις νέες p συστάδες στη δομή του Συνόλου Αποτελεσμάτων οπότε

ενεργοποιείται το υποσύστημα του Διαθέτη Δεδομένων.

3. Μόλις η δομή του Συνόλου Αποτελεσμάτων συμπληρωθεί με συστάδες, ο Διαθέτης

Δεδομένων προωθεί τις συστάδες στη μονάδα Αίτησης και αναμένει το επόμενο

Page 96: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 77

αίτημα. Σε περίπτωση που ο Διαθέτης Δεδομένων δε λάβει νέο αίτημα από τη

μονάδα Αίτησης εντός ενός προκαθορισμένου χρονικού ορίου, τερματίζει τη

λειτουργία του συστήματος.

Όπως έχει ήδη αναφερθεί, κάθε υποσύστημα λειτουργεί παράλληλα με τα υπόλοιπα,

εκτός και αν περιμένει δεδομένα προς επεξεργασία ή έχει διαθέσιμα δεδομένα πάνω

από ένα προκαθορισμένο όριο.

Όταν οι συστάδες που διαθέτει ο Επεξεργαστής Αποτελεσμάτων δεν επαρκούν

για να συμπληρώσουν το Συνόλων Αποτελεσμάτων, είναι δυνατόν να ζητήσει

αυτόματα εγγραφές από τη μονάδα Επικοινωνίας. Αντίθετα, σε περίπτωση όπου

υπάρχουν αρκετές συστάδες που δεν έχουν παρουσιαστεί στο χρήστη, είναι δυνατόν

κάποια από τα υποσυστήματα της μονάδας Επεξεργασίας να τίθενται σε κατάσταση

αναμονής, ελευθερώνοντας πόρους από το σύστημα, αποφεύγοντας ταυτόχρονα να

ανακτήσουν εγγραφές που πιθανά να μην χρησιμοποιηθούν. Η λειτουργικότητα αυτή

καθορίζεται από δύο παραμέτρους. Η πρώτη καθορίζεται από τον αριθμό των

εγγραφών στον Προμηθευτή Δεδομένων, ενώ η δεύτερη καθορίζεται από τον αριθμό

των συστάδων στο Τοπικό Σύνολο Αποτελεσμάτων. Μόλις ο αριθμός των συστάδων

στο Τοπικό Σύνολο Αποτελεσμάτων υπερβεί ένα προκαθορισμένο όριο, ο Διαχειριστής

Τοπικού Συνόλου Αποτελεσμάτων διακόπτει την ανάγνωση εγγραφών από τον

Προμηθευτή Δεδομένων, οπότε ο Έργο-συνθέτης τίθεται σε κατάσταση αναμονής.

Ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων διατηρεί δυο διατάξεις για τις

συστάδες που αποθηκεύει η δομή του Τοπικού Συνόλου Αποτελεσμάτων (βήμα 2.2). Η

πρώτη διάταξη ταξινομεί τις συστάδες έτσι ώστε ο Έργο-συνθέτης να μπορεί να

εφαρμόσει αποτελεσματικότερους αλγορίθμους κατά τις διαδικασίες ταύτισης. Η

δεύτερη διάταξη διευκολύνει την τοποθέτηση και διαχείριση των συστάδων που δεν

έχουν παρουσιασθεί στο χρήστη (νέων συστάδων). Η κατάλληλη διευθέτηση των

νέων συστάδων είναι ιδιαίτερα χρήσιμη ειδικά σε περίπτωση όπου νέες συστάδες

ταξινομούνται μεταξύ συστάδων που έχουν ήδη παρουσιασθεί στο χρήστη.

Η διαδικασία ανάκτησης των αποτελεσμάτων έπεται της διαδικασίας

επερώτησης και, σύμφωνα με την προτεινόμενη αρχιτεκτονική, η έναρξή της δεν

απαιτεί την ανάκτηση όλων των αποτελεσμάτων από όλες τις πηγές. Το σύστημα

αρχίζει να εκτελεί τις διεργασίες του μόλις ο χρήστης υποβάλει μια επερώτηση. Στη

συνέχεια, αρχίζει η διαδικασία παρουσίασης των αποτελεσμάτων με διαδοχικές

Page 97: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 78

αιτήσεις ανάκτησης που υποβάλλει η μονάδα Αίτησης στο υποσύστημα Διάθεσης

Δεδομένων. Ειδικότερα, το υποσύστημα Διάθεσης Δεδομένων ζητά συστάδες από το

Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων. Σε περίπτωση που δεν υπάρχουν

διαθέσιμες συστάδες, περιμένει μέχρι να συντεθούν οι συστάδες σύμφωνα με τα

βήματα 1 και 2. Μόλις οι συστάδες είναι διαθέσιμες στο Τοπικό Σύνολο

Αποτελεσμάτων, ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων τις μεταφέρει στο

Σύνολο Αποτελεσμάτων όπου ολοκληρώνεται η διαδικασία σύμφωνα με το βήμα 3.

3.2.3 Απόδοση

Σύμφωνα με την προτεινόμενη αρχιτεκτονική, ο εικονικός κατάλογος προωθεί

παράλληλα το αίτημα αναζήτησης sι στους διακομιστές ενώ, μόλις λάβει την πρώτη

απάντηση με αποτελέσματα (θετική απάντηση), ενεργοποιεί τη διαδικασία ανάκτησης

των αποτελεσμάτων rι και σύνθεσης των συστάδων (εικόνα 3.2). Η διαδικασία

ανάκτησης των εγγραφών από κάθε πηγή περιλαμβάνει την προώθηση του αιτήματος

ανάκτησης στην πηγή και την επιστροφή των εγγραφών ενώ η απόδοσή της

καθορίζεται αφενός από την απόδοση ανάκτησης του τοπικού συστήματος, αφετέρου

από την απόδοση του δικτύου. Όπως έχει αναφερθεί στο κεφάλαιο 2, ο εικονικός

κατάλογος δεν έχει δυνατότητα παρέμβασης σε κανέναν από τους δύο αυτούς

παράγοντες. Είναι αξιοσημείωτο ότι η έναρξη της διαδικασίας ανάκτησης δεν

προϋποθέτει την ολοκλήρωση των διαδικασιών αναζήτησης από όλες τις πηγές.

Ειδικότερα, όπως φαίνεται από την αναπαράσταση της ροής των διαδικασιών

στην εικόνα 3.2, η διαδικασία ανάκτησης των αποτελεσμάτων από κάθε πηγή αρχίζει

μόλις ολοκληρωθεί η διαδικασία αναζήτησης από την αντίστοιχη πηγή ενώ για να

ανακτηθεί το σύνολο των αποτελεσμάτων από την πηγή επαναλαμβάνονται μία σειρά

από αιτήματα ανάκτησης k εγγραφών προς τον τοπικό διακομιστή. Κάθε επιμέρους

ομάδα των k εγγραφών που ανακτάται σε κάθε βήμα προωθείται προς επεξεργασία

στη μονάδα Επεξεργασίας. Επειδή οι διαδικασίες ανάκτησης από τους επιμέρους

διακομιστές γίνονται παράλληλα, κατά κανόνα, οι εγγραφές που επεξεργάζεται η

μονάδα Επεξεργασίας προέρχονται από διαφορετικές πηγές.

Page 98: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 79

Εικόνα 3.2. Αναπαράσταση ροής διαδικασιών εικονικού συλλογικού καταλόγου.

Στην εικόνα 3.3, απεικονίζονται τα q βήματα της διαδικασίας για τη σταδιακή

ανάκτηση των εγγραφών από μία πηγή και την αποστολή τους στη μονάδα

Επεξεργασίας. Τα παραλληλόγραμμα με τις διακεκομμένες γραμμές δηλώνουν ότι οι

λειτουργίες που περιβάλλουν εκτελούνται παράλληλα. Σε κάθε βήμα ανακτώνται k

εγγραφές οι οποίες αποστέλλονται για επεξεργασία. Η επεξεργασία των k εγγραφών

από κάθε βήμα γίνεται παράλληλα με την ανάκτηση των εγγραφών από το επόμενο

βήμα. Η διαδικασία επεξεργασίας των εγγραφών είναι πιθανόν να ολοκληρωθεί και

να περιμένει τις επόμενες εγγραφές προς επεξεργασία αν είναι γρηγορότερη από τη

διαδικασία ανάκτησης των εγγραφών από την πηγή. Η περίπτωση αναμονής της

μονάδας επεξεργασίας έχει μεγαλύτερη πιθανότητα να συμβεί αν υπάρχει μία μόνο

θετική απάντηση και η ανάκτηση των εγγραφών από την πηγή γίνεται σε μεγαλύτερο

χρόνο από αυτόν που απαιτεί η επεξεργασία τους.

Page 99: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 80

Εικόνα 3.3. Αλληλουχία σταδιακής ανάκτησης και παράλληλης επεξεργασίας αποτελεσμάτων.

Αν cr ο χρόνος επεξεργασίας της εγγραφής r, ο συνολικός χρόνος

επεξεργασίας c'k των k εγγραφών, προσδιορίζεται από τη σχέση:

c k' =∑

r=1

k

cr (13)

Με c'k,j συμβολίζεται ο χρόνος επεξεργασίας των k εγγραφών που ανακτήθηκαν από

το βήμα j της διαδικασίας ανάκτησης μιας πηγής.

Αν σε κάθε βήμα j της διαδικασίας ανάκτησης rκ,j είναι ο χρόνος ανάκτησης

των k εγγραφών από την πηγή i, c'k,j ο χρόνος επεξεργασίας τους, καθώς επίσης q ο

αριθμός των βημάτων για τη σταδιακή ανάκτηση των εγγραφών l από την πηγή i,

τότε η σχέση:

mk , j=max ck , j' , r k , j1

1 jq(14)

Page 100: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 81

εκφράζει το μέγιστο χρόνο μεταξύ του χρόνου επεξεργασίας των k εγγραφών του

βήματος j και του χρόνου ανάκτησης των k εγγραφών του επόμενου βήματος j+1

(εικόνα 3.3). Όπως φαίνεται από την εικόνα 3.3, ο συνολικός χρόνος για την

ανάκτηση και την επεξεργασία των εγγραφών μια πηγής είναι το άθροισμα του

χρόνου ανάκτησης των πρώτων k εγγραφών, του αθροίσματος των mk,j καθώς επίσης

και του χρόνου επεξεργασίας των εγγραφών που ανακτήθηκαν από το τελευταίο

βήμα.

Η σχέση που προσδιορίζει το συνολικό χρόνο ανάκτησης και επεξεργασίας

των l εγγραφών της πηγής i, από τα επιμέρους q βήματα ανάκτησης, είναι η

ακόλουθη:

plqi =r k ,1∑

j=1

q−1

mk , jck ,q'

1 jqlk∗q

(15)

Το σύστημα επωφελείται από την παράλληλη εκτέλεση των διαδικασιών των

ανακτήσεων με την επεξεργασία των εγγραφών. Όπως δείχνει η παραπάνω σχέση, η

απόδοση του συστήματος καθορίζεται μόνο από το χρόνο της πιο αργής διαδικασίας

και όχι από το άθροισμα των χρόνων των δύο διαδικασιών. Επιπροσθέτως, σε

περίπτωση φόρτου του συστήματος λόγω ύπαρξης πολλών θετικών απαντήσεων, με

την παράλληλη εκτέλεση των διαδικασιών ανάκτησης από τις πηγές, αν καθυστερεί η

ανάκτηση των εγγραφών από τη μία πηγή, θα έρχονται εγγραφές προς επεξεργασία

από μία άλλη, με συνέπεια η διακοπή της επεξεργασίας λόγω έλλειψης εγγραφών να

έχει ελάχιστες πιθανότητες να συμβεί.

Όπως έχει αναφερθεί, για να πάρει ο χρήστης αποτελέσματα το συντομότερο

δυνατόν και να έχει την αίσθηση της άμεσης απόκρισης από το σύστημα, υπάρχει ένα

προκαθορισμένο όριο χρόνου για τη δημιουργία του Συνόλου Αποτελεσμάτων. Σε

περίπτωση υπέρβασης του χρονικού ορίου, θα σταλεί στο χρήστη ένα Σύνολο

Αποτελεσμάτων με τις υπάρχουσες συστάδες, ανεξάρτητα από το ότι η απάντηση θα

περιέχει λιγότερες από τις p συστάδες που έχει ζητήσει ο χρήστης.

Page 101: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 82

Εάν sι είναι ο χρόνος αναζήτησης από την πηγή i, pilq είναι ο χρόνος των q

βημάτων που γίνονται για την ανάκτηση και την επεξεργασία των l εγγραφών που

απαιτούνται για τη σύνθεση των w συστάδων που θα παρουσιασθούν στο χρήστη,

όπως ορίζεται από τη σχέση (15), η απόδοση του συστήματος για να προωθήσει την

επερώτηση στους τοπικούς διακομιστές και να παρουσιάσει στο χρήστη τις πρώτες l

συστάδες (απόδοση μερικών αποτελεσμάτων) προσδιορίζεται από τη σχέση:

P 0=siPlqi ,

si=min s1, ... , sn ,wl

(16)

Το σύστημα εκμεταλλεύεται την ταχύτερη αναζήτηση και, σε συνδυασμό με την

παράλληλη εκτέλεση των διαδικασιών ανάκτησης και σύνθεσης των συστάδων,

παρουσιάζει τμηματικά τα αποτελέσματα στο χρήστη στον ελάχιστο δυνατό χρόνο. Η

βελτίωση της αίσθησης του χρήστη για την απόκριση του συστήματος είναι αρκετά

σημαντικός παράγοντας για την περαιτέρω αποδοχή του εικονικού καταλόγου από

αυτόν.

Αντίστοιχα, η συνολική απόδοση του συστήματος για να προωθήσει την

επερώτηση στους τοπικούς διακομιστές, να ανακτήσει και να επεξεργαστεί από

αυτούς το σύνολο των l εγγραφών προσδιορίζεται από τη σχέση:

P=P srct' ,

P sr=max s1r1, ... , snr n(17)

όπου t είναι οι εγγραφές που απομένουν για επεξεργασία μετά την ολοκλήρωση της

διαδικασίας αναζήτησης και ανάκτησης της οποίας η απόδοσή είναι Psr. Λόγω της

παράλληλης εκτέλεσης των διαδικασιών ανάκτησης και επεξεργασίας, στην

παραπάνω σχέση δεν προστίθεται ο χρόνος επεξεργασίας για το συνολικό αριθμό των

αποτελεσμάτων από όλες τις πηγές (ενότητα 3.2.2, βήμα 4.3) αλλά ο χρόνος που

απαιτείται για την επεξεργασία των εγγραφών t που απομένουν στη μονάδα

Επεξεργασίας μετά την ολοκλήρωση της διαδικασίας ανάκτησης από την πιο αργή

πηγή. Η μονάδα Επεξεργασίας δε διακόπτει τη λειτουργία της αναμένοντας τις

Page 102: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 83

εγγραφές από την πιο αργή πηγή αλλά στο διάστημα αυτό επεξεργάζεται τις εγγραφές

που παραλαμβάνει από άλλες γρηγορότερες πηγές. Με τον τρόπο αυτό η απόδοση

του εικονικού καταλόγου επιβαρύνεται στο ελάχιστο από την καθυστέρηση που

προκαλεί η πιο αργή πηγή.

Όπως φαίνεται από την παραπάνω σχέση, σημαντικός παράγοντας στη

συνολική απόδοση του συστήματος είναι ο χρόνος για την επεξεργασία των

εγγραφών. Τα κύρια σημεία της διαδικασίας στα οποία παρεμβαίνει η προτεινόμενη

αρχιτεκτονική για να βελτιωθεί η απόδοση του συστήματος είναι η παράλληλη

ανάκτηση και επεξεργασία των εγγραφών και η μεταφορά μέρους από το χρόνο που

απαιτεί η επεξεργασία των FRBR συστάδων στο σταθμό εργασίας του χρήστη.

Παρότι στη χειρότερη περίπτωση ο αριθμός των t εγγραφών που απομένουν προς

επεξεργασία μετά την ολοκλήρωση της αναζήτησης και ανάκτησης θα είναι ίσος με l,

στην πράξη αναμένεται να είναι πολύ μικρότερος από το συνολικό αριθμό των l

εγγραφών.

Αξίζει να αναφερθεί ότι η συνολική απόδοση του συστήματος ναι μεν

προσδιορίζεται από το μεγαλύτερο χρόνο που απαιτεί η αναζήτηση και η ανάκτηση

των εγγραφών από την πιο αργή πηγή, όχι όμως από το άθροισμα των διαδικασιών

αναζήτησης και ανάκτησης από όλες τις πηγές. Αυτό συνεπάγεται ότι οι τυχόν

καθυστερήσεις ή τα πιθανά σφάλματα από τους τοπικούς διακομιστές δεν επιδρούν

αθροιστικά στο σύστημα απαξιώνοντας έτσι την απόδοσή του. Επίσης, ο χρόνος που

απαιτείται για το σύνολο των διαδικασιών αναζήτησης, ανάκτησης και επεξεργασίας

είναι μικρότερος από το άθροισμα των χρόνων που απαιτεί κάθε διαδικασία

μεμονωμένα.

Σε σχέση με τις αντίστοιχες αποδόσεις των μοντέλων που περιγράφησαν στις

ενότητες 2.1.3 και 2.2.4 του δεύτερου κεφαλαίου, η προτεινόμενη αρχιτεκτονική

υπερκαλύπτει τις βέλτιστες αποδόσεις τόσο σε σχέση με την εμφάνιση των πρώτων

αποτελεσμάτων στο χρήστη όσο και σε σχέση με τη συνολική απόδοση του

συστήματος. Ταυτόχρονα περιορίζει στο ελάχιστο τις επιπτώσεις που θα προκληθούν

από τις πιθανές καθυστερήσεις και τα σφάλματα των τοπικών διακομιστών.

3.3 Σύνοψη

Page 103: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 3 84

Ένας συλλογικός κατάλογος θα πρέπει να παρέχει συνεπή ευρετηρίαση και

αναζήτηση του περιεχομένου κάθε βιβλιοθήκης, να ανιχνεύει τις όμοιες εγγραφές που

περιγράφουν το ίδιο φυσικό αντικείμενο και να τις συνθέτει σε μία εγγραφή. Εξίσου

σημαντική είναι η διάθεσή του μέσω ενός αξιόπιστου και αποδοτικού συστήματος με

ελεγχόμενη και εύκολη διαχείριση.

Οι πρώτες υλοποιήσεις των εικονικών συλλογικών καταλόγων δεν κάλυπταν

τις προαναφερόμενες λειτουργικές απαιτήσεις λόγω της χαμηλής απόδοσης των

δικτύων και του χαμηλού επιπέδου διαλειτουργικότητας μεταξύ των συστημάτων

πρόσβασης των βιβλιοθηκών. Οι αυξημένες απαιτήσεις σε χρόνο για την εκτέλεση

των διαδικασιών επεξεργασίας και σύνθεσης των αποτελεσμάτων, καθώς επίσης οι

μεγάλοι χρόνοι απόκρισης και τα προβλήματα διαθεσιμότητας αρκετών τοπικών

συστημάτων, επέτρεπαν μόνο την υλοποίηση ψευδο-συστημάτων εικονικών

συλλογικών καταλόγων με τη συμμετοχή μικρού αριθμού βιβλιοθηκών.

Η αρχιτεκτονική του εικονικού συλλογικού καταλόγου που παρουσιάστηκε

στο κεφάλαιο αυτό έχει στόχο να ικανοποιήσει τις προσδοκίες των χρηστών σε σχέση

με την άμεση απόκριση του συστήματος, τη σύνθεση των αποτελεσμάτων σε ένα

σύνολο και να αποτρέψει τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις.

Ειδικότερα, με την παράλληλη λειτουργία των διαδικασιών αναζήτησης, ανάκτησης

και επεξεργασίας των αποτελεσμάτων η μερική απόδοση του συστήματος για την

εμφάνιση των πρώτων αποτελεσμάτων καθορίζεται από την ταχύτερη πηγή. Επίσης,

η συνολική απόδοση του συστήματος είναι αφενός συνάρτηση της βραδύτερης πηγής

και όχι του αθροίσματος των χρόνων απόκρισης των πηγών, αφετέρου είναι

μικρότερη από το άθροισμα του χρόνου των διαδικασιών αναζήτησης, ανάκτησης και

επεξεργασίας των εγγραφών. Επιπροσθέτως, η απόδοση του εικονικού συλλογικού

καταλόγου επηρεάζεται στο ελάχιστο από τις αργές πηγές και τα πιθανά λάθη των

διαδικασιών αναζήτησης και ανάκτησης των τοπικών συστημάτων, ενώ με τη

σταδιακή ανάκτηση μικρών πακέτων αποτελεσμάτων αποφεύγεται η αναμονή του

συστήματος για να παραλάβει τα δεδομένα που θα επεξεργαστεί.

Page 104: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4

Περιγραφή χαρακτηριστικών αναζήτησης

με τη γλώσσα RQDL

Σημαντικοί παράγοντες για την αποτελεσματικότητα ενός συστήματος μετα-

αναζήτησης είναι τόσο η γνώση του σχετικά με τα χαρακτηριστικά αναζήτησης των

πηγών που συμμετέχουν σε αυτό όσο και η ικανότητά του να μετεγγράφει κατάλληλα

τις επερωτήσεις, σύμφωνα με τα χαρακτηριστικά κάθε πηγής, ώστε να αποφεύγονται

από τις πηγές οι αποτυχημένες επερωτήσεις ή οι ασυνεπείς απαντήσεις.

Όπως έχει αναφερθεί στο κεφάλαιο 2, το πρωτόκολλο Z39.50 ομογενοποιεί

τον τρόπο πρόσβασης στις πηγές μέσα από τον ορισμό μιας αφηρημένης εγγραφής,

ενώ χρησιμοποιεί αφηρημένα Σημεία Πρόσβασης στο μηχανισμό αναζήτησης. Παρά

την ύπαρξη του ενιαίου τρόπου πρόσβασης, αναζητώντας παράλληλα πολλές Z39.50

πηγές, είναι αδύνατον να αποφευχθούν οι αποτυχημένες επερωτήσεις ή ασυνεπείς

απαντήσεις, λόγω των διαφορετικών ή των ελλιπών υλοποιήσεων του πρωτοκόλλου.

Σε μια Z39.50 επερώτηση ο όρος αναζήτησης συνδυάζεται με ένα σύνολο

γνωρισμάτων τα οποία καθορίζουν την ποιότητά του (δηλαδή αν είναι τίτλος,

συγγραφέας, κλπ.) και τον τρόπο με τον οποίο θα γίνει ο έλεγχος ταύτισης του όρου

αναζήτησης με τα δεδομένα της πηγής (π.χ. ακριβής ταύτιση, αποκοπή, κλπ.). Το

σύνολο γνωρισμάτων καθορίζει τα επιτρεπτά Σημεία Πρόσβασης και τους

εναλλακτικούς τρόπους ταύτισης, ενώ ο τύπος επερώτησης καθορίζει τη σύνταξη για

85

Page 105: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 86

πολυπλοκότερες επερωτήσεις με λογικούς συνδυασμούς Σημείων Πρόσβασης.

Σύμφωνα με τις απαιτήσεις συμβατότητας του Z39.50, το Σύνολο

Γνωρισμάτων Bib-1 και ο τύπος επερωτήσεων Type-1 πρέπει να αναγνωρίζονται,

χωρίς όμως να είναι απαραίτητη η πλήρης υλοποίησή τους. Τα γνωρίσματα που ορίζει

το Σύνολο Γνωρισμάτων Bib-1 είναι τα εξής: Σημείο Πρόσβασης (use), Σχέση

(relation), Αποκοπή (truncation), Δομή (structure), Θέση (position) και Πληρότητα

(completeness). Για κάθε γνώρισμα υπάρχει ένα προκαθορισμένο σύνολο τιμών.

Η πληθώρα αυτή των τιμών με τις οποίες μπορούν να συνδυαστούν τα

γνωρίσματα αυξάνει τη δυνατότητα αλλά και την πολυπλοκότητα της επικοινωνίας

και οξύνει τα προβλήματα διαλειτουργικότητας μεταξύ των συστημάτων. Τα

παραδείγματα που ακολουθούν δίνουν μία αντιπροσωπευτική εικόνα των

περιπτώσεων που είναι δυνατόν να προκύψουν αναζητώντας παράλληλα Z39.50

πηγές καθώς παρουσιάζουν και πιθανές προτάσεις, σε περίπτωση που το σύστημα

μετα-αναζήτησης γνωρίζει ποια χαρακτηριστικά αναζήτησης υποστηρίζει κάθε πηγή.

Παράδειγμα 4.1: Διαφορετικά γνωρίσματα για το ίδιο Σημείο Πρόσβασης. Ας

θεωρήσουμε δύο πηγές, οι οποίες υποστηρίζουν επερωτήσεις με το Σημείο

Πρόσβασης Title_4 και συνδυάζουν το Σημείο Πρόσβασης με τις τιμές φράση ή λέξη

για το γνώρισμα Δομή, ενώ η δεύτερη πηγή υποστηρίζει επιπροσθέτως και την τιμή

λίστα από λέξεις. Για το γνώρισμα Αποκοπή οι τιμές που υποστηρίζουν είναι δεξιά ή

όχι αποκοπή. Συνοπτικά, οι επιτρεπτοί συνδυασμοί γνωρισμάτων για το Σημείο

Πρόσβασης είναι οι:

[Σημείο Πρόσβασης, Title_4]

Πηγή 1 (S1)

[Δομή, {φράση, λέξη}]

[Αποκοπή, {δεξιά, όχι αποκοπή}]

Πηγή 2 (S2)

[Δομή, {φράση, λέξη, λίστα από λέξεις}]

Page 106: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 87

[Αποκοπή, {δεξιά, όχι αποκοπή}].

Η ακόλουθη επερώτηση Q1, που αναζητά τις εγγραφές με τίτλο ‘Data Structures’,

είναι μία επερώτηση που υποστηρίζουν και οι δύο πηγές.

Q1: [Σημείο Πρόσβασης, Title_4]

[Δομή, φράση]

[Αποκοπή, όχι αποκοπή]

’Data Structures’.

Η επερώτηση Q2 δεν υποστηρίζεται από τη πηγή S1, διότι δεν υποστηρίζει την τιμή

λίστα από λέξεις στο γνώρισμα Δομή.

Q2: [Σημείο Πρόσβασης, Title_4]

[Δομή, λίστα από λέξεις]

[Αποκοπή, όχι αποκοπή]

’Data Structures’.

Ένα αποτελεσματικό σύστημα μετα-αναζήτησης, γνωρίζοντας τα χαρακτηριστικά

αναζήτησης που υποστηρίζει η πηγή S1, θα μπορούσε να μετεγγράψει την επερώτηση

για την πηγή S1 σε μία ισοδύναμη, όπως είναι η παρακάτω επερώτηση Q3:

Q3: [Σημείο Πρόσβασης, Title_4]

[Δομή, λέξη]

[Αποκοπή, όχι αποκοπή]

’Data’.

AND

[Σημείο Πρόσβασης, Title_4]

[Δομή, λέξη]

[Αποκοπή, όχι αποκοπή]

Page 107: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 88

’Structures’.

Για την ευκολότερη ανάγνωση του παραδείγματος, υποθέτουμε ότι οι πηγές

υποστηρίζουν τις ίδιες τιμές για τα υπόλοιπα γνωρίσματα, οι οποίες και δεν

αναφέρονται.

Παράδειγμα 4.2: Μη υποστηριζόμενα Σημεία Πρόσβασης. Και οι δύο πηγές

υποστηρίζουν το Σημείο Πρόσβασης Author-name_1003, επιπροσθέτως η δεύτερη

υποστηρίζει το Author-name-personal_1004:

Πηγή 1 (S1)

[Σημείο Πρόσβασης, Author-name_1003]

Πηγή 2 (S2)

[Σημείο Πρόσβασης, Author-name_1003]

[Σημείο Πρόσβασης, Author-name-personal_1004]

Η επερώτηση Q4 δεν υποστηρίζεται από την S1, λόγω του ότι η πηγή δεν υποστηρίζει

το Σημείο Πρόσβασης Author-name-personal_1004.

Q4: [Σημείο Πρόσβασης, Author-name-personal_1004]

‘Ullman’.

Ένα αποτελεσματικό σύστημα μετα-αναζήτησης, γνωρίζοντας τα χαρακτηριστικά

αναζήτησης που υποστηρίζει η πηγή S1 και λαμβάνοντας υπόψη τη σημασιολογία

των Σημείων Πρόσβασης, δηλαδή ότι τα αποτελέσματα αναζήτησης με το Σημείο

Πρόσβασης Author-name_1003 θα είναι περισσότερα από ότι με το Σημείο

Πρόσβασης Author-name-personal_1004, θα μπορούσε να μετεγγράψει την

επερώτηση με μικρότερη ακρίβεια για την πηγή S2, όπως είναι η παρακάτω

επερώτηση Q5:

Q5: [Σημείο Πρόσβασης, Author-name_1003]

‘Ullman’.

Ομοίως, όπως και στο προηγούμενο παράδειγμα, υποθέτουμε ότι οι πηγές

Page 108: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 89

υποστηρίζουν τις ίδιες τιμές για τα υπόλοιπα γνωρίσματα, οι οποίες και δεν

αναφέρονται.

Η περιγραφή των χαρακτηριστικών αναζήτησης μιας πηγής, καθώς και ο

έλεγχος για τη δυνατότητά της να εκτελέσει μια επερώτηση έχει μελετηθεί εκτενώς

από την κοινότητα των βάσεων δεδομένων σε διαδικασίες ολοκλήρωσης

πληροφοριών (Ullman, 1997). Αρχικά, η πλειοψηφία των μεθόδων βασιζόταν στην

παραδοχή ότι υπάρχει απεριόριστη πρόσβαση στη δομή και στα δεδομένα των πηγών

που συμμετέχουν στο σύστημα. Η εν λόγω παραδοχή δεν θεωρείται πολλές φορές

ρεαλιστική περιλαμβανομένης της κοινότητας των βιβλιοθηκών και του πρωτοκόλλου

Z39.50.

Μετέπειτα προτάσεις, αρχικά των Papakonstantinou κ.ά. (1995) και των Levy

κ.ά. (1996) στη συνέχεια, περιέγραψαν τα χαρακτηριστικά πρόσβασης των πηγών με

μη πεπερασμένα σύνολα επερωτήσεων χρησιμοποιώντας παραμετρικές επερωτήσεις.

Αυτές οι προσεγγίσεις θεωρούν τις πηγές ως ‘πηγές με διαφορετικές και

περιορισμένες δυνατότητες’, ή ως ‘εξωτερικούς επεξεργαστές επερωτήσεων’ οι

οποίοι έχουν τη δυνατότητα να απαντήσουν μερικές, αλλά όχι όλες, από τις πιθανές

επερωτήσεις που αφορούν τα δεδομένα τους.

Λόγω του μοντέλου πρόσβασης του πρωτοκόλλου Z39.50, η περιγραφή και ο

έλεγχος των χαρακτηριστικών αναζήτησης κάθε πηγής γίνεται με παραμετρικές

επερωτήσεις, σύμφωνα με τη γλώσσα RQDL (Relational Query Description

Language) (Papakonstantinou et al., 1996). Ένας Z39.50 διακομιστής θεωρείται ως

μία εφαρμογή περιβλήματος (wrapper) στις πηγές που παρέχει πρόσβαση, ο οποίος

έχει τη δυνατότητα να απαντήσει σε ένα υποσύνολο από τις πιθανές επερωτήσεις που

επιτρέπουν τα χαρακτηριστικά αναζήτησης του πρωτοκόλλου.

Στην παρούσα ενότητα γίνεται η παρουσίαση της μεθόδου για την περιγραφή

των χαρακτηριστικών αναζήτησης και για τον έλεγχο του κατά πόσο μία πηγή μπορεί

να απαντήσει επακριβώς μία επερώτηση, δηλαδή μια επερώτηση με τα αρχικά της

χαρακτηριστικά. Σε περίπτωση που η πηγή δεν υποστηρίζει επακριβώς την

επερώτηση, λόγω ύπαρξης μη υποστηριζόμενων Σημείων Πρόσβασης,

πραγματοποιούνται οι διαδικασίες προσεγγιστικής μετεγγραφής με βάση τις

σημασιολογικές συσχετίσεις των Σημείων Πρόσβασης, συνδυάζοντας παραμέτρους

ανάκλησης και ακρίβειας, οι οποίες παρουσιάζονται στο κεφάλαιο 5.

Page 109: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 90

4.1 Στοιχειώδης παρουσίαση χαρακτηριστικών της γλώσσας RQDL

Για την περιγραφή των χαρακτηριστικών αναζήτησης μίας πηγής χρησιμοποιείται η

Relational Query Description Language (RQDL). Η γλώσσα RQDL βασίζεται στη

Datalog (Ullman, 1988; 1989). Προτάθηκε αρχικά από τους Papakonstantinou κ.ά.

(1996) ως μια γλώσσα περιγραφής των επερωτήσεων η οποία υποστηρίζει μία

εφαρμογή περιβλήματος (wrapper).

Τα κύρια πλεονεκτήματα της εν λόγω γλώσσας είναι η δυνατότητά της να

περιγράψει μεγάλα σύνολα με άπειρες επερωτήσεις ενώ περιγράφει και επερωτήσεις

οι οποίες είναι ανεξάρτητες από το σχήμα των δεδομένων που υποστηρίζει μία πηγή.

Εστιάζει σε συζευκτικές επερωτήσεις (conjunctive queries) και είναι αρκετά

εκφραστική για να περιγράψει τα χαρακτηριστικά επερώτησης αρκετών πηγών.

Επιπροσθέτως, για την επεκτεταμένη της εκδοχή, η οποία περιγράφεται στο τεκμήριο

(Vassalos and Papakonstantinou, 2000), αποδεικνύεται ότι είναι δυνατό να περιγράψει

το σύνολο όλων των συζευκτικών επερωτήσεων.

Σε αυτή την ενότητα γίνεται στοιχειώδης παρουσίαση των γνωρισμάτων της

γλώσσας RQDL απαραίτητη για την κατανόηση της διατριβής. Η πλήρης περιγραφή

της γλώσσας και της επεκτεταμένης εκδοχής της γίνεται από τους Papakonstantinou

κ.ά. (1996) και Vassalos και Papakonstantinou (2000) αντίστοιχα.

Μία περιγραφή RQDL είναι ένα πεπερασμένο σύνολο από κανόνες RQDL,

όπου κάθε κανόνας είναι μία παραμετροποιημένη επερώτηση (Σχεδιότυπο

επερώτησης). Ένα Σχεδιότυπο Επερώτησης χρησιμοποιεί έναν προσδιοριστή σταθεράς

(constant placeholder) αντί για την πραγματική σταθερή τιμή της επερώτησης. Η

χρήση ενός προσδιοριστή σταθεράς αντί της πραγματικής σταθερής τιμής, την οποία

δυνητικά θα μπορούσε να έχει οπουδήποτε μια πραγματική επερώτηση, επιτρέπει την

αναπαράσταση πολλαπλών επερωτήσεων που έχουν την ίδια μορφή. Για τον

περιορισμό των επιτρεπτών τιμών των προσδιοριστών σταθεράς η γλώσσα παρέχει τα

μετα-κατηγορήματα (meta-predicates).

Μία επερώτηση περιγράφεται από ένα Σχεδιότυπο (template) εάν κάθε

κατηγόρημα στην επερώτηση ταιριάζει με ένα κατηγόρημα στο Σχεδιότυπο και

αντίστροφα. Κάθε μετα-κατηγόρημα στο Σχεδιότυπο αποτιμάται σε αληθές όταν ο

Page 110: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 91

προσδιοριστής σταθεράς αντικατασταθεί από μία σταθερή τιμή. Η διάταξη των

κατηγορημάτων δεν επηρεάζει τη διαδικασία ταιριάσματος.

Για τη σύνταξη των ονομάτων που θα χρησιμοποιηθούν και αναπαριστούν τις

κύριες έννοιες της γλώσσας γίνονται οι παρακάτω συμβάσεις: τα ονόματα των

κατηγορημάτων και των σταθερών αρχίζουν με πεζό γράμμα, τα ονόματα

μεταβλητών αρχίζουν με κεφαλαίο γράμμα, οι σταθερές που αναπαριστούν τις τιμές

σε πραγματικές επερωτήσεις είναι μέσα σε εισαγωγικά, οι προσδιοριστές σταθεράς

που αναπαριστούν παραμέτρους στις περιγραφές αρχίζουν με το σύμβολο ‘$’ και τα

μη-τερματικά σύμβολα αρχίζουν με μία κάτω παύλα και με πεζό γράμμα.

4.2 Σχεδιότυπα Σημείου Πρόσβασης

Όπως έχει προαναφερθεί, κάθε Z39.50 διακομιστής θεωρείται ως μια εφαρμογή

περιβλήματος (wrapper) κάθε πηγής που διαθέτει. Για κάθε πηγή, η οποία διατίθεται

μέσω ενός Z39.50 διακομιστή, γίνεται η υπόθεση ότι εξάγει το κατηγόρημα

metarec(Id), το οποίο αναπαριστά το σύνολο των μοναδικών κωδικών ταυτοποίησης

των εγγραφών μεταδεδομένων της πηγής. Πλέον, η πηγή εξάγει το κατηγόρημα με τη

γενική μορφή:

property(Id, Pname, Pattribute1, …, Pattributen, Pval).

Η σχέση που εκφράζει το νόημα του κατηγορήματος property περιλαμβάνει όλους

τους μοναδικούς κωδικούς ταυτοποίησης των εγγραφών της πηγής, οι οποίες έχουν

την ιδιότητα Pname με τιμή που ταιριάζει με το όρισμα Pval, σύμφωνα με τα

κριτήρια που ορίζονται από τα πρόσθετα ορίσματα Pattributej, j=1,…,n. Συνεπώς, ένα

έγκυρο στοιχείο το οποίο επαληθεύει το κατηγόρημα property είναι το:

property(X, use_Title, rel_Equal, pos_FirstInField,

str_Phrase, tru_DoNotTruncate,

com_CompleteField, ‘Data Structures’),

το οποίο υποδηλώνει ότι η εγγραφή X έχει την ιδιότητα use_Title (δηλαδή ένα Τίτλο)

με τιμή η οποία ταιριάζει με το τελευταίο όρισμα ‘Data Structures’, σύμφωνα με τα

κριτήρια ταύτισης που ορίζονται από το τρίτο (rel_Equal) μέχρι και το έβδομο

(com_CompleteField) όρισμα.

Page 111: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 92

Στο κατηγόρημα property χρησιμοποιείται το όρισμα Pname για να

περιγράψει το Σημείο Πρόσβασης που υποστηρίζει η πηγή. Για την περιγραφή των

υπόλοιπων γνωρισμάτων του Z39.50 Bib-1 Συνόλου Γνωρισμάτων Relation, Position,

Structure, Truncation και Completeness χρησιμοποιούνται τα υπόλοιπα πέντε

ορίσματα Pattributej. Οι τιμές για τα ορίσματα Pname και Pattributej του

κατηγορήματος property είναι οι τιμές που ορίζονται για κάθε αντίστοιχο γνώρισμα

στο Z39.50 Bib-1 Συνόλο Γνωρισμάτων. Για λόγους αναγνωσιμότητας, στα ορίσματα

των κατηγορημάτων χρησιμοποιούνται συμβολικά ονόματα αντί των πραγματικών

αριθμητικών τιμών που ορίζει το πρωτόκολλο. Για παράδειγμα, το συμβολικό όνομα

use_Title αντικαθιστά το ζευγάρι [1, 4] το οποίο αναπαριστά το γνώρισμα Use

(δηλαδή το Σημείο Πρόσβασης) με τιμή 4 (τον Τίτλο).

Όπως προβλέπει η γλώσσα RQDL, η αναπαράσταση του συνόλου των

επερωτήσεων με την ίδια μορφή γίνεται με τον ορισμό ενός σχεδιότυπου επερώτησης

χρησιμοποιώντας προσδιοριστές σταθεράς. Ένα σύνολο με επερωτήσεις της ίδιας

μορφής είναι ουσιαστικά όλες οι επερωτήσεις που χρησιμοποιούν ένα Σημείο

Πρόσβασης με τα ίδια γνωρίσματα. Είναι δυνατόν να εκφραστούν με ένα σχεδιότυπο

επερώτησης του οποίου ο προσδιοριστής σταθεράς θα αντικαθίσταται από την τιμή

του όρου αναζήτησης, που θα έχει το Σημείο Πρόσβασης, στην πραγματική

επερώτηση. Ειδικότερα, για την περιγραφή του συνόλου των επερωτήσεων που

χρησιμοποιούν ένα Σημείο Πρόσβασης με τα ίδια γνωρίσματα ορίζεται το Σχεδιότυπο

Σημείου Πρόσβασης ως εξής:

property(Id, Pname, Pattribute1, …, Pattributen, $Pval).

Όπως έχει προαναφερθεί, για τη σύνταξη ενός προσδιοριστή σταθεράς η

γλώσσα RQDL χρησιμοποιεί το σύμβολο ‘$’ (π.χ. $Pval). Ένα παράδειγμα

Σχεδιότυπου Σημείου Πρόσβασης, το οποίο ορίζει ότι η πηγή υποστηρίζει το Σημείο

Πρόσβασης Title συνδυασμένο με τις τιμές Equal, First in Field, Phrase, Do not

Truncate και Complete Field, των γνωρισμάτων Relation, Position, Structure,

Truncation και Completeness αντίστοιχα (δηλαδή η πηγή υποστηρίζει αναζήτηση με

ακριβή ταύτιση του τίτλου) είναι το παρακάτω:

property(Id, use_Title, rel_Equal, pos_FirstInField,

str_Phrase, tru_DoNotTruncate,

Page 112: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 93

com_CompleteField, $Pval).

Η διαδικασία ταιριάσματος ενός Σημείου Πρόσβασης που χρησιμοποιείται σε μία

επερώτηση και ενός Σχεδιότυπου Σημείου Πρόσβασης γίνεται με την αντικατάσταση

του προσδιοριστή σταθεράς (π.χ. $Pval) από την αντίστοιχη σταθερή τιμή και

εφαρμόζοντας στη συνέχεια τις τυπικές διαδικασίες συσχέτισης (unification

procedure), όπως ορίζει η Datalog και περιγράφονται στα τεκμήρια (Ullman, 1988;

1989).

Ο αριθμός των Σχεδιοτύπων Σημείου Πρόσβασης που πρέπει να ορισθούν για

να γίνει η περιγραφή όλων των πιθανών συνδυασμών του Σημείου Πρόσβασης και

των γνωρισμάτων ισούται με το γινόμενο (|Paj|+1) για j= 1, …, 5, όπου Paj είναι το

σύνολο των επιτρεπτών τιμών που ορίζονται για το jth γνώρισμα, περιλαμβανομένης

και της μηδενικής τιμής (null value). Ειδικότερα, σύμφωνα με τις τιμές που ορίζει το

Z39.50 Bib-1 Σύνολο Γνωρισμάτων (ANSI/NISO, 1995), υπάρχουν θεωρητικά 23.936

εναλλακτικά Σχεδιότυπα για κάθε Σημείο Πρόσβασης του Bib-1 Συνόλου

Γνωρισμάτων. Σύμφωνα όμως με το τεκμήριο που ορίζει τη σημασιολογία του Bib-1

Συνόλου Γνωρισμάτων (ZIG, 1995), υπάρχει ένας αριθμός από αντιφατικούς ή χωρίς

νόημα συνδυασμούς τιμών, οι οποίοι μειώνουν τον προαναφερθέντα αριθμό

Σχεδιοτύπων. Ένα παράδειγμα συνδυασμού τιμών χωρίς νόημα, που αναφέρει το

τεκμήριο σημασιολογίας του Bib-1, είναι ο συνδυασμός του γνωρίσματος Position με

τιμή ‘First in subfield’ σε περιπτώσεις όπου δεν υφίστανται υποπεδία. Αντίθετα, όπως

επίσης αναφέρει το τεκμήριο σημασιολογίας του Bib-1, η τιμή ‘any position in field’

του γνωρίσματος Position είναι συμβατή μόνο με την τιμή ‘incomplete subfield’ του

γνωρίσματος Completeness.

Στην πράξη, ο αριθμός των απαιτούμενων Σχεδιοτύπων Σημείου Πρόσβασης

αναμένεται να είναι σχετικά μικρός δεδομένης και της ύπαρξης διεθνών προφίλ

υλοποίησης, όπως αυτό του Bath (ISO TC 46 SC 4, 2004). Το Bath προφίλ, στο

απλούστερο επίπεδο συμβατότητας, ορίζει μόνο πέντε συνδυασμούς τιμών

γνωρισμάτων για κάθε ένα από τα Σημεία Πρόσβασης Author, Title και Subject27.

Επομένως, όταν η πηγή είναι συμβατή με αυτό το επίπεδο του προφίλ, απαιτούνται

μόνο πέντε Σχεδιότυπα Σημείου Πρόσβασης για κάθε ένα από τα προαναφερθέντα

Σημεία Πρόσβασης.

27 Bath profile, Functional Area A. Level 1.

Page 113: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 94

Σε ένα περιβάλλον μετα-αναζήτησης, ένα πρόβλημα που τίθεται είναι η

διαδικασία δημιουργίας και ενημέρωσης των χαρακτηριστικών αναζήτησης που

υποστηρίζει κάθε πηγή. Κατά κανόνα, η δημιουργία και ενημέρωση των Σχεδιότυπων

γίνεται από το διαχειριστή του συστήματος και είναι μια αρκετά χρονοβόρα και

σύνθετη διαδικασία. Όπως έχει προαναφερθεί στο κεφάλαιο 2, στο περιβάλλον του

Z39.50 υπάρχει ενσωματωμένη η υπηρεσία διάχυσης των χαρακτηριστικών

αναζήτησης που υποστηρίζει ένας διακομιστής.

Σε περίπτωση που ένας διακομιστής περιγράφει τα χαρακτηριστικά

υλοποίησής του με τη μορφή ZeeRex, που όπως αναφέρθηκε στην ενότητα 2.2.2.1

είναι η πιο διαδεδομένη και αποδεκτή μορφή περιγραφής των χαρακτηριστικών από

την υπηρεσία διάχυσης των χαρακτηριστικών υλοποίησης ενός Z39.50 διακομιστή, το

παρακάτω παράδειγμα είναι ενδεικτικό για τη δυνατότητα αξιοποίησης μιας

περιγραφής ZeeRex κατά τη δημιουργία των Σχεδιοτύπων Σημείου Πρόσβασης.

Ειδικότερα, το παράδειγμα δημιουργεί ένα Σχεδιότυπο Σημείου Πρόσβασης

από το στοιχείο <indexInfo> μίας εγγραφής.

Παράδειγμα 4.3: Η πηγή υποστηρίζει αναζήτηση με ακριβή ταύτιση του συγγραφέα.

Το αντίστοιχο τμήμα της ZeeRex εγγραφής που περιγράφει το χαρακτηριστικό

αναζήτησης που υποστηρίζει η πηγή είναι το παρακάτω:

<indexInfo>

<index search=”true” scan=”true” sort=”true”>

<title primary=”true” lang=”en”>

Author – name personal (Exact)

</title>

<map primary=”true”>

<attr type=”1”>1004</attr>

<attr type=”2”>3</attr>

<attr type=”3”>1</attr>

<attr type=”4”>1</attr>

<attr type=”5”>100</attr>

<attr type=”6”>3</attr>

</map>

</index>

</indexInfo>

Το ισοδύναμο Σχεδιότυπο Σημείου Πρόσβασης του στοιχείου index της εγγραφής

Page 114: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 95

ZeeRex είναι:

property(Id, 1004, 3, 1, 1, 100, 3, $Pval),

ή σε αναγνώσιμη μορφή:

property(Id, use_AuthorPersonalName,

rel_Equal, pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField,

$Pval).

Η XML κωδικοποίηση της περιγραφής ZeeRex δίνει τη δυνατότητα για την αυτόματη

δημιουργία και ενημέρωση των Σχεδιότυπων Σημείου Πρόσβασης με ένα μετατροπέα

σε γλώσσα XSLT.

Σε μια Z39.50 επερώτηση κανένα από τα γνωρίσματα που συνδυάζονται με

τον όρο αναζήτησης δεν είναι υποχρεωτικό. Η απουσία γνωρισμάτων σε μία

επερώτηση έχει ως αποτέλεσμα να δημιουργούνται απροσδιόριστα ορίσματα στο

αντίστοιχο κατηγόρημα property που εκφράζει την επερώτηση. Σε αυτή την

περίπτωση, στη θέση του απροσδιόριστου ορίσματος χρησιμοποιείται το σύμβολο της

κάτω παύλας ‘_’. Κατά τη διαδικασία συσχέτισης του κατηγορήματος της

πραγματικής επερώτησης με το κατηγόρημα του Σχεδιότυπου, η κάτω παύλα θα

ταιριάζει με οποιαδήποτε τιμή έχει το όρισμα της αντίστοιχης θέσης στο Σχεδιότυπο.

Η χρήση των απροσδιόριστων ορισμάτων αυξάνει την πιθανότητα

ταιριάσματος του κατηγορήματος της επερώτησης με περισσότερα από ένα

Σχεδιότυπα, οπότε τίθεται θέμα επιλογής ενός Σχεδιότυπου. Εάν πρόκειται για

διαδικασία ταύτισης του κατηγορήματος της επερώτησης με τα Σχεδιότυπα από

περιγραφές πολλών πηγών, επιλέγεται το κοινό Σχεδιότυπο για να υπάρχει

συμβατότητα στη μετεγγραφή των επερωτήσεων. Εναλλακτικά, σε περίπτωση μη

ύπαρξης κοινού Σχεδιότυπου ή αν υπάρχουν περιγραφές για μία μόνο πηγή, η επιλογή

γίνεται αυθαίρετα, ενέργεια που αντανακλά την πρόθεση του χρήστη και δεν

αντιβαίνει στη λογική του Z39.50. Μια περισσότερο ενδιαφέρουσα προσέγγιση, η

οποία απαιτεί περαιτέρω μελέτη, είναι η επιλογή του Σχεδιότυπου λαμβάνοντας

υπόψη προεπιλογές του χρήστη για το βαθμό μεταβολής της ανάκλησης και της

ακρίβειας της αρχικής επερώτησης.

Με τη χρήση των Σχεδιότυπων Σημείου Πρόσβασης είναι εφικτή η καταγραφή

Page 115: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 96

των Σημείων Πρόσβασης και των γνωρισμάτων που υποστηρίζει μία πηγή που

διατίθεται από ένα Z39.50 διακομιστή. Όπως φαίνεται στο παράδειγμα 4.3, η ύπαρξη

της εγγραφής ZeeRex, με τα χαρακτηριστικά υλοποίησης ενός Z39.50 διακομιστή,

αυτοματοποιεί τη διαδικασία δημιουργίας των αντίστοιχων κατηγορημάτων για τα

Σημεία Πρόσβασης που υποστηρίζει η πηγή.

Εκτός από τις επερωτήσεις με έναν όρο αναζήτησης, μια Z39.50 επερώτηση

είναι δυνατό να είναι σύνθετη και να περιλαμβάνει συνδυασμούς με λογικούς

τελεστές μεταξύ των όρων αναζήτησης. Στην επόμενη ενότητα θα γίνει παρουσίαση

της περιγραφής κλάσεων από υποστηριζόμενες σύνθετες επερωτήσεις ορίζοντας

αντίστοιχα τα Σχεδιότυπα Επερώτησης.

4.3 Σχεδιότυπα Επερώτησης

Η τρέχουσα ενότητα επεκτείνει την περιγραφή των χαρακτηριστικών αναζήτησης

μιας Z39.50 πηγής ορίζοντας τα Σχεδιότυπα Επερώτησης τα οποία περιγράφουν

κλάσεις από επερωτήσεις που μπορεί να απαντήσει η πηγή. Συνδυάζοντας τα

κατηγορήματα metarec και property μια επερώτηση, η οποία αναζητά εγγραφές από

μία πηγή που υποστηρίζει αναζήτηση με ακριβή ταύτιση του συγγραφέα, είναι

δυνατόν να εκφραστεί με την παρακάτω σύνταξη:

(Q1): answer(X):- metarec(X),

property(X, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate,com_CompleteField,

‘Ullman’).

Χρησιμοποιώντας τη γλώσσα RQDL, το D1 είναι ένα Σχεδιότυπο Επερώτησης το

οποίο περιγράφει ότι η πηγή υποστηρίζει αναζήτηση με ακριβή ταύτιση του

συγγραφέα:

(D1): answer(Id):- metarec(Id),

property(Id, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField,

$Pval).

Page 116: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 97

Μια επερώτηση περιγράφεται από ένα Σχεδιότυπο Επερώτησης εάν κάθε

κατηγόρημα στην επερώτηση ταιριάζει με ένα κατηγόρημα στο Σχεδιότυπο και

αντιστρόφως, ενώ η διάταξη των κατηγορημάτων δεν επηρεάζει τη διαδικασία

ταιριάσματος. Η επερώτηση Q1 ταιριάζει με το Σχεδιότυπο Επερώτησης D1 διότι τα

κατηγορήματα που χρησιμοποιούνται στην επερώτηση ταιριάζουν με τα

κατηγορήματα που χρησιμοποιούνται στο Σχεδιότυπο και αντίστροφα, εφαρμόζοντας

τις ακόλουθες ισότητες συσχέτισης: X=Id, $Pval = ‘Ullman’. Επομένως, το

Σχεδιότυπο D1 περιγράφει την επερώτηση Q1.

Εάν η πηγή υποστήριζε και άλλα Σημεία Πρόσβασης, η περιγραφή D1 πρέπει

να συμπληρωθεί με τα αντίστοιχα Σχεδιότυπα για κάθε υποστηριζόμενο Σημείο

Πρόσβασης. Ειδικότερα, αν η πηγή υποστήριζε και αναζήτηση με λέξεις από τον

τίτλο, η περιγραφή D1 θα μετατρεπόταν στην παρακάτω:

(D1.1): answer(Id):- metarec(Id),

property(Id, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pval)

answer(Id):- metarec(Id),

property(Id, use_Title, rel_Equal,

pos_AnyPositioninField, str_WorldList,

tru_Right, com_CompleteField, $Pval).

Για να περιγραφούν μεγάλα ή μη πεπερασμένα σύνολα από υποστηριζόμενα

χαρακτηριστικά αναζήτησης υπάρχει η δυνατότητα χρήσης αναδρομικών κανόνων. Η

γλώσσα RQDL χρησιμοποιεί την έννοια του μη-τερματικού κανόνα, όπως είναι στο

περιβάλλον των γραμματικών χωρίς συμφραζόμενα (context-free grammars), ενώ η

σύνταξη ενός μη-τερματικού συμβόλου αρχίζει με την κάτω παύλα ‘_’ και

ακολουθείται από κεφαλαίο γράμμα.

Ένα Σχεδιότυπο που περιέχει μη-τερματικά σύμβολα διαμορφώνει ένα μη-

τερματικό Σχεδιότυπο. Μια ανάπτυξη ενός μη-τερματικού Σχεδιότυπου qt παράγεται

από την αντικατάσταση κάθε μη-τερματικού συμβόλου του qt από ένα Σχεδιότυπο που

το ορίζει, έως ότου να μην υπάρχει κανένα μη-τερματικού σύμβολο στο qt.

Page 117: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 98

Επιπροσθέτως, ένα μη-τερματικό Σχεδιότυπο Επερώτησης qt περιγράφει μία

επερώτηση q εάν υπάρχει ανάπτυξη του qt η οποία περιγράφει το q.

Ως ένα παράδειγμα περιγραφής με χρήση αναδρομικών κανόνων ας

θεωρήσουμε ότι μία πηγή υποστηρίζει αναζητήσεις με ακριβή ταύτιση των όρων

αναζήτησης στα Σημεία Πρόσβασης του Author, Title και Subject, καθώς επίσης και

σε οποιοδήποτε λογικό συνδυασμό μεταξύ τους. Μια αντιπροσωπευτική επερώτηση

που υποστηρίζει η πηγή είναι η αναζήτηση έργων με τίτλο ‘Database Systems’, με

συγγραφείς τους ‘Ullman’ και ‘Garcia-Molina’ και με θέμα ‘Datalog’. Η αντίστοιχη

datalog μορφή που εκφράζει αυτή την επερώτηση είναι η εξής:

(Q2): answer(X):- metarec(X),

property(X, use_Title, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField,

‘Database Systems’),

property(X, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField,

‘Ullman’),

property(X, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField,

‘Garcia-Molina’),

property(X, use_Subject, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField,

‘Datalog’)

Χρησιμοποιώντας τα μη-τερματικά Σχεδιότυπα _Cond και _Cond1, μία πιθανή

περιγραφή για το σύνολο των επερωτήσεων που υποστηρίζει η πηγή είναι η

ακόλουθη:

(D2): answer(Id):- metarec(Id), _Cond(Id)

(NT2.1) _Cond(Id):- _Cond(Id), _Cond1(Id)

(NT2.2) _Cond(Id):- _Cond1(Id)

Page 118: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 99

(NT2.3) _Cond1(Id):- property(Id, use_Title,

rel_Equal, pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pvalue)

(NT2.4) _Cond1(Id):- property(Id, use_Subject,

rel_Equal, pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pvalue)

(NT2.5) _Cond1(Id):- property(Id, use_Author,

rel_Equal, pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pvalue).

Επιπροσθέτως, η ανάπτυξη E1 του μη-τερματικού Σχεδιότυπου Επερώτησης

D2 προκύπτει από την αντικατάσταση των μη-τερματικών Σχεδιότυπων _Cond και

_Cond1 σύμφωνα με τα παρακάτω βήματα: (1) στο Σχεδιότυπο Επερώτησης το

_Cond(Id) με το μη-τερματικό Σχεδιότυπο NT2.1, (2) το _Cond1(Id) με το NT2.3, (3)

ξανά το _Cond(Id) με το NT2.1, (4) το _Cond1(Id) με το NT2.4, (5) ξανά το

_Cond(Id) με το NT2.1, (6) το _Cond1(Id) με το NT2.5, (7) και τώρα το _Cond(Id) με

το NT2.2, (8) τελικά το _Cond1(Id) με το NT2.5.

(E1): answer(Id):- metarec(Id),

property(Id, use_Title, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate,com_CompleteField, $Pv1),

property(Id, use_Subject, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pv2),

property(Id, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pv3),

property(Id, use_Author, rel_Equal,

pos_FirstInField, str_Phrase,

tru_DoNotTruncate, com_CompleteField, $Pv4).

Αξίζει να αναφερθεί ότι η διάταξη των κατηγορημάτων δεν επηρεάζει τη

διαδικασία ταιριάσματος μεταξύ της επερώτησης και του Σχεδιότυπου Επερώτησης.

Ακόμη, πριν αρχίσει η διαδικασία ανάπτυξης όλες οι μεταβλητές και οι προσδιοριστές

Page 119: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 100

σταθεράς του Σχεδιότυπου μετονομάζονται, ώστε να είναι μοναδικές. Η ανάπτυξη E1

περιγράφει την επερώτηση Q2 διότι τα κατηγορήματα που χρησιμοποιούνται στην

επερώτηση ταιριάζουν με τα κατηγορήματα που χρησιμοποιούνται στο Σχεδιότυπο

(και αντιστρόφως) με τις ακόλουθες ισότητες συσχέτισης: X=Id, $Pv1 = ‘Database

Systems’, $Pv2 = ‘Datalog’, $Pv3 = ‘Garcia-Molina’, $Pv4 = ‘Ullman’.

4.4 Σύνοψη

Σε ένα σύστημα μετα-αναζήτησης η υποστήριξη διαφορετικών χαρακτηριστικών

αναζήτησης από τα τοπικά συστήματα έχει ως αποτέλεσμα να προκύπτουν

αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις. Το πρόβλημα αυτό είναι υπαρκτό

και στην κοινότητα των βιβλιοθηκών, ένεκα των διαφορετικών και ελλιπών

υλοποιήσεων των χαρακτηριστικών αναζήτησης του πρωτοκόλλου Z39.50.

Οποιαδήποτε προσέγγιση στην αποφυγή των αποτυχημένων επερωτήσεων ή

ασυνεπών απαντήσεων προϋποθέτει την καταγραφή των χαρακτηριστικών

αναζήτησης, καθώς επίσης και τον έλεγχο των επερωτήσεων τις οποίες έχει τη

δυνατότητα να απαντήσει κάθε πηγή. Ένας Z39.50 διακομιστής θεωρείται ως μία

εφαρμογή περιβλήματος (wrapper) σε κάθε πηγή που παρέχει πρόσβαση έχοντας

δυνατότητα να απαντήσει μερικές, αλλά όχι όλες, από τις πιθανές επερωτήσεις που

επιτρέπουν τα χαρακτηριστικά αναζήτησης του πρωτοκόλλου.

Η περιγραφή και ο έλεγχος, τόσο για τα υποστηριζόμενα Σημεία Πρόσβασης

όσο και για τις κλάσεις επερωτήσεων από λογικές εκφράσεις μεταξύ των Σημείων

Πρόσβασης που έχει δυνατότητα να απαντήσει μία πηγή, γίνεται με τη γλώσσα RQDL

(Relational Query Description Language) που βασίζεται στη Datalog.

Ειδικότερα, τα Σημεία Πρόσβασης, με τους επιτρεπτούς συνδυασμούς

γνωρισμάτων που υποστηρίζει κάθε πηγή, περιγράφηκαν με τα Σχεδιότυπα Σημείων

Πρόσβασης. Τα Σχεδιότυπα Σημείων Πρόσβασης είναι παραμετροποιημένα

κατηγορήματα με προσδιοριστές σταθεράς, αντί των όρων αναζήτησης που περιέχουν

οι πραγματικές επερωτήσεις. Αντίστοιχα, η αναπαράσταση των συνόλων των ομοίων

επερωτήσεων γίνεται με τον ορισμό των Σχεδιοτύπων Επερώτησης. Η δυνατότητα

χρήσης αναδρομικών κανόνων επιτρέπει την αναπαράσταση μη πεπερασμένων

συνόλων από κλάσεις επερωτήσεων που μπορεί να απαντήσει η πηγή.

Page 120: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 4 101

Σε περίπτωση που ο διακομιστής διαθέτει την υπηρεσία διάχυσης των

χαρακτηριστικών υλοποίησης, ειδικότερα δε όταν αυτά είναι διαθέσιμα με την

εγγραφή ZeeRex, η περιγραφή και η συντήρηση των χαρακτηριστικών αναζήτησης

διευκολύνεται από τη δυνατότητα αυτόματης δημιουργίας των Σχεδιότυπων Σημείου

Πρόσβασης.

Page 121: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5

Κατά προσέγγιση σημασιολογική

μετεγγραφή επερώτησης

Σε ένα σύστημα μετα-αναζήτησης είναι αρκετά συνηθισμένο η αρχική επερώτηση, η

οποία τίθεται στη γλώσσα και στα χαρακτηριστικά του συστήματος, να μην είναι

άμεσα εκτελέσιμη από κάθε πηγή. Σε αυτή την περίπτωση, για να μην απορριφθεί η

επερώτηση (αποτυχημένη επερώτηση) ή να μετεγγραφεί αυθαίρετα (ασυνεπής

απάντηση) από τα τοπικά συστήματα, το σύστημα μετα-αναζήτησης ανιχνεύει σε κάθε

πηγή αν υπάρχουν ισοδύναμες μετεγγραφές της επερώτησης με την αρχική ή, αν δεν

υπάρχουν, να βρει μια μετεγγραφή που να προσεγγίζει τα αποτελέσματα της αρχικής

επερώτησης όσο το δυνατόν περισσότερο. Η κατά προσέγγιση μετεγγραφή της

επερώτησης είναι η πιο πιθανή περίπτωση, ιδιαίτερα όταν υπάρχει μεγάλη

ετερογένεια μεταξύ των χαρακτηριστικών των πηγών ή όταν ο αριθμός των πηγών

που συμμετέχουν στο σύστημα είναι μεγάλος.

Όπως αναλύθηκε στην ενότητα 2.2.1, στα συστήματα Z39.50, τα οποία

αποτελούν την πλειοψηφία των συστημάτων πρόσβασης στο περιβάλλον των

βιβλιοθηκών, οι αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις προέρχονται

κυρίως από Σημεία Πρόσβασης που δεν υποστηρίζουν οι πηγές. Επιπροσθέτως, από

τα στοιχεία για τα χαρακτηριστικά αναζήτησης των κυριοτέρων παγκοσμίως Z39.50

πηγών της ενότητας 2.2.1.1, αξίζει να αναφερθεί ότι η πιθανότητα είναι πολύ μεγάλη

102

Page 122: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 103

να μην υπάρχει ένα Σημείο Πρόσβασης που να υποστηρίζεται από όλες τις πηγές, ενώ

ο αριθμός των κοινών Σημείων Πρόσβασης μειώνεται όσο αυξάνεται ο αριθμός των

πηγών που συμμετέχουν στο σύστημα μετα-αναζήτησης.

Για τη μετεγγραφή των επερωτήσεων που περιλαμβάνουν μη υποστηριζόμενα

Σημεία Πρόσβασης, η εναλλακτική πρόταση της παρούσας διατριβής είναι η

μετεγγραφή, συχνά κατά προσέγγιση, η οποία βασίζεται στη σημασιολογική

συσχέτιση των Σημείων Πρόσβασης. Ειδικότερα, η μετεγγραφή χρησιμοποιεί τη θέση

κάθε Σημείου Πρόσβασης στο σημασιολογικό γράφο συσχετίσεων των Σημείων

Πρόσβασης, ο οποίος προκύπτει από τα μεταδεδομένα που ορίζουν τη σημασιολογία

του Σημείου Πρόσβασης, έμμεσα με αυτόματη διαδικασία.

Στη συνέχεια του κεφαλαίου γίνεται η αναλυτική περιγραφή του

σημασιολογικού γράφου, καθώς επίσης και των διαδικασιών της μετεγγραφής κατά

προσέγγιση που αναπτύχθηκαν και υλοποιήθηκαν στο πλαίσιο της παρούσας

διατριβής. Πιο συγκεκριμένα, παρουσιάζονται:

• Ο ορισμός και η διαδικασία ανάπτυξης του Σημασιολογικού Δικτύου Σημείων

Πρόσβασης εκφρασμένου σε γλώσσα RDFS. Το Σημασιολογικό Δίκτυο

Σημείων Πρόσβασης είναι η αναπαράσταση του γράφου συσχέτισης των

Σημείων Πρόσβασης σύμφωνα με τον ορισμό του Z39.50 Bib-1 Συνόλου

Γνωρισμάτων.

• Οι αλγόριθμοι αντικατάστασης μη υποστηριζόμενων σημείων πρόσβασης με

επέκταση ή σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου

Πρόσβασης. Επιπλέον, περιγράφεται και η αντίστοιχη βελτιστοποίηση κάθε

περίπτωσης, ώστε να προκύπτει το μικρότερο σύνολο Σημείων Πρόσβασης

που να έχει την πλησιέστερη σημασιολογία με το αρχικό μη υποστηριζόμενο

Σημείο Πρόσβασης.

• Τα κριτήρια μέτρησης της σημασιολογικής ομοιότητας μεταξύ Σημείων

Πρόσβασης.

• Η μετρική για την επιλογή της βέλτιστης αντικατάστασης του Σημείου

Πρόσβασης σύμφωνα με προεπιλογές που αφορούν την ανάκληση (recall) και

ακρίβεια (precision) του Σημείου Πρόσβασης.

Page 123: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 104

5.1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης σε περιβάλλον

Z39.50

Η σημασιολογική συσχέτιση των Σημείων Πρόσβασης είναι η βάση για τη δημιουργία

του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και κατ' επέκταση των μεθόδων για

τη σημασιολογική αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης από

τις Z39.50 πηγές. Όπως έχει περιγραφεί στην ενότητα 2.2.1.1, η σημασιολογία ενός

Σημείου Πρόσβασης καθορίζεται από την πληροφορία που το απαρτίζει. Κάθε

πληροφοριακό σύστημα μπορεί να χρησιμοποιεί διαφορετικά κριτήρια επιλογής και

ομαδοποίησης των δεδομένων που ορίζουν το Σημείο Πρόσβασης ορίζοντας έτσι

διαφορετικά τη σημασιολογία του.

Για το σύνολο γνωρισμάτων Bib-1, τα επιτρεπτά Σημεία Πρόσβασης με την

αντίστοιχη σημασιολογία τους είναι ορισμένα από τα μέλη της ομάδας Z39.50

Implementors Group (ZIG) στο τεκμήριο (ZIG, 1995), το οποίο εκφράζει την

αμοιβαία συναίνεση μεταξύ των μελών της ομάδας. Ειδικότερα, για τον

προσδιορισμό της σημασιολογίας των Σημείων Πρόσβασης, δηλαδή του συνόλου της

πληροφορίας από κάθε τεκμήριο με το οποίο θα γίνει το ταίριασμα του όρου

αναζήτησης, έχουν χρησιμοποιηθεί οι ετικέτες των πεδίων του MARC Bibliographic

προτύπου (Library of Congress, 1999). Για παράδειγμα, ο ορισμός της σημασιολογίας

του Σημείου Πρόσβασης Author-name-conference καθορίζει ότι το Σημείο Πρόσβασης

θα δημιουργηθεί από το σύνολο των δεδομένων με τις MARC ετικέτες πεδίων {111,

411, 711, 811}.

Στο γράφο συσχετίσεων, τα Σημεία Πρόσβασης συσχετίζονται μεταξύ τους

σημασιολογικά με τη σχέση του υποσυνόλου.

Ορισμός 5.1: Ένα Σημείο Πρόσβασης θεωρείται ως υποσύνολο ενός άλλου, εάν το

σύνολο των πεδίων που ορίζουν τη σημασιολογία του πρώτου είναι υποσύνολο του

συνόλου των πεδίων που ορίζουν τη σημασιολογία του δευτέρου.

Το ακόλουθο παράδειγμα, το οποίο αναπαρίσταται στην εικόνα 5.1, είναι

ενδεικτικό για τη σημασιολογική συσχέτιση των Σημείων Πρόσβασης με τη σχέση

του υποσυνόλου.

Παράδειγμα 5.1: Έστω το Σημείο Πρόσβασης Author-name το οποίο, σύμφωνα με το

τεκμήριο της σημασιολογίας (ZIG, 1995), θα δημιουργηθεί από τα δεδομένα των

Page 124: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 105

πεδίων με ετικέτες {100, 110, 111, 400, 410, 411, 700, 710, 711, 800, 810, 811}, καθώς

επίσης και το Σημείο Πρόσβασης Author-name-conference από το σύνολο των πεδίων

{111, 411, 711, 811}. Το Σημείο Πρόσβασης Author-name-conference θεωρείται ως

υποσύνολο του Σημείου Πρόσβασης Author-name γιατί ισχύει η σχέση του

υποσυνόλου στα αντίστοιχα σύνολα που ορίζουν τη σημασιολογία τους.

Εικόνα 5.1. Συσχέτιση Σημείου Πρόσβασης με τη σχέση υποσυνόλου.

Συγκρίνοντας τη σημασιολογία των Σημείων Πρόσβασης με τα αντίστοιχα

αποτελέσματα των επερωτήσεων που τα χρησιμοποιούν, για τα Σημεία Πρόσβασης

του παραδείγματος 5.1, οι αναζητήσεις με το Author-name θα ταιριάζουν τον όρο

αναζήτησης με ένα ευρύτερο σύνολο πληροφορίας από ότι το Author-name-

conference. Άρα, κατά πάσα πιθανότητα θα παράγουν ένα ευρύτερο σύνολο

αποτελεσμάτων από ότι το αντίστοιχο του Author-name-conference. Αντίθετα, το

υποσύνολο Author-name-conference έχει στενότερη σημασιολογία από το Author-

name και κατά συνέπεια θα παράγει ένα μικρότερο σύνολο αποτελεσμάτων.

Είναι άξιο αναφοράς ότι τα μέρη από τις εγγραφές των μεταδεδομένων (πεδία,

υποπεδία, κλπ.) που ανήκουν στο σύνολο που συνθέτει το Σημείο Πρόσβασης είναι

δυνατό και αυτά να θεωρηθούν ως Σημεία Πρόσβασης. Επομένως, κάθε συστατικό

Page 125: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 106

Σημείο Πρόσβασης ενός Σημείου Πρόσβασης είναι υποσύνολό του. Κατά συνέπεια, το

πεδίο με MARC ετικέτα 100 είναι δυνατόν να θεωρηθεί και αυτό ως ένα υποσύνολο

του Author-name.

Ορισμός 5.2: Οι συσχετίσεις μεταξύ των Σημείων Πρόσβασης αναπαρίστανται από

ένα προσανατολισμένο γράφο G του οποίου οι κόμβοι αναπαριστούν Σημεία

Πρόσβασης και τα τόξα αναπαριστούν συσχετίσεις υποσυνόλου. Στο γράφο G ανήκει

το τόξο <i, j> αν και μόνο αν το Σημείο Πρόσβασης i είναι υποσύνολο του Σημείου

Πρόσβασης j.

Στο σημασιολογικό γράφο συσχέτισης των Σημείων Πρόσβασης, το Σημείο

Πρόσβασης Author-name και το Author-name-conference, από το παράδειγμα 5.1, θα

αναπαρίστανται από δύο κόμβους του γράφου, ενώ η μεταξύ τους σχέση υποσυνόλου

από το τόξο <Author-name- conference, Author-name>.

Εικόνα 5.2. Αντιπροσωπευτικό δείγμα του γράφου συσχέτισης των Bib-1 Σημείων Πρόσβασης.

Η εικόνα 5.2 παρουσιάζει ένα αντιπροσωπευτικό δείγμα του σημασιολογικού γράφου

Page 126: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 107

συσχετίσεων, ενώ η διαδικασία δημιουργίας του αναπτύσσεται στην ενότητα που

ακολουθεί.

5.1.1 Μεθοδολογία δημιουργίας σημασιολογικού γράφου

Η διαδικασία δημιουργίας του σημασιολογικού γράφου συσχετίσεων Σημείων

Πρόσβασης αποτελείται από τρία βήματα. Οι ενέργειες που εκτελούνται και τα

αποτελέσματα που παράγονται σε κάθε βήμα είναι τα παρακάτω:

• Στο πρώτο βήμα ελέγχεται αν ισχύει η σχέση του υποσυνόλου σε όλα τα

δυνατά ζευγάρια των Σημείων Πρόσβασης και παράγεται ο αρχικός γράφος

συσχετίσεων. Σε κάθε κόμβο του γράφου εκχωρείται η τιμή του έσω-βαθμού

του, η οποία εκφράζει τον αριθμό των υποσυνόλων του Σημείου Πρόσβασης

(εικόνα 5.3).

• Στο δεύτερο βήμα ο γράφος ταξινομείται σύμφωνα με την τιμή του έσω-

βαθμού κάθε κόμβου (εικόνα 5.4).

• Στο τρίτο βήμα απαλείφονται από το γράφο όλα τα παραγόμενα με

μεταβατικότητα τόξα (όλες οι πλεονάζουσες συσχετίσεις) μεταξύ κάθε

ζεύγους συνδεδεμένων κόμβων (εικόνα 5.5). Μια ρητή εκφρασμένη σχέση του

γράφου θεωρείται πλεονάζουσα εάν είναι δυνατόν η ύπαρξή της να συναχθεί

από άλλες σχέσεις του γράφου.

Εικόνα 5.3. Βήμα 1: Δημιουργία του γράφου G. Ο αριθμός δίπλα σε κάθε κόμβο εκφράζει τον

έσω-βαθμό του.

Page 127: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 108

Η διαδικασία δημιουργίας του σημασιολογικού γράφου συσχετίσεων

αποσαφηνίζεται με το παράδειγμα 5.2 που ακολουθεί.

Παράδειγμα 5.2: Έστω ότι το σύνολο γνωρισμάτων Bib-1 αποτελείται μόνο από τα

επόμενα τέσσερα Σημεία Πρόσβασης: το Any, το Abstract, το Data-acquisition και το

Note. Σύμφωνα με το τεκμήριο που ορίζει τη σημασιολογία του Bib-1, το Σημείο

Πρόσβασης Any είναι δυνατό να θεωρηθεί ως η ένωση όλων των Σημείων Πρόσβασης

(το υπερσύνολο όλων των άλλων). Το Σημείο Πρόσβασης Abstract περιλαμβάνει τα

δεδομένα από το πεδίο του συνόλου {520}, το Data-acquisition περιλαμβάνει τα

δεδομένα από το πεδίο του συνόλου {541-subfield-d}, ενώ το Σημείο Πρόσβασης

Note περιλαμβάνει τα δεδομένα από τα πεδία του συνόλου {500, 501, …, 520, …,

535, 536, …, 541, …, 586}. Όπως προκύπτει από τους ορισμούς των Σημείων

Πρόσβασης, όλα τα Σημεία Πρόσβασης είναι υποσύνολα του Any, καθώς επίσης τα

Σημεία Πρόσβασης Abstract και Data-acquisition είναι υποσύνολα του Σημείου

Πρόσβασης Note. Από αυτές τις συσχετίσεις παράγεται ο γράφος G, που

παρουσιάζεται στην εικόνα 5.3, ολοκληρώνοντας με αυτό τον τρόπο το πρώτο βήμα

της διαδικασίας.

Μετά την τοπολογική ταξινόμηση του γράφου G, βήμα 2, ο γράφος

αναδιατάσσεται όπως εμφανίζεται στην εικόνα 5.4. Προφανώς, η αναδιάταξη είναι

εφικτή επειδή η σχέση του γνήσιου υποσυνόλου είναι μη αυτοπαθής (irreflexive) και

μεταβατική.

Εικόνα 5.4. Βήμα 2: Ο γράφος G μετά την τοπολογική ταξινόμηση.

Page 128: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 109

Στο τελευταίο τρίτο βήμα, απαλείφονται οι πλεονάζουσες συσχετίσεις

υποσυνόλων. Ο γράφος αριθμείται από αριστερά προς τα δεξιά, και σε κάθε κόμβο

από τα εξερχόμενα τόξα παραμένει μόνο το τόξο που συνδέει τον κόμβο με τη

μεγαλύτερη αρίθμηση. Ο παραγόμενος γράφος G0 είναι το ελάχιστο υποσύνολο του

αρχικού γράφου G, έτσι ώστε το transitive closure του G0 παράγει το γράφο G. Η

τελική διευθέτηση του γράφου παρουσιάζεται στην εικόνα 5.5.

Εικόνα 5.5. Βήμα 3: Ο γράφος G0, το ελάχιστο υποσύνολο του G.

Για την έκφραση της σημασιολογικής συσχέτισης των Bib-1 Σημείων

Πρόσβασης σε RDF Schema, οι κόμβοι του γράφου αντιστοιχίστηκαν σε rdfs:Class

κλάσεις και τα τόξα σε rdfs:subClassOf ιδιότητες. Η εικόνα 5.6 παρουσιάζει ένα

αντιπροσωπευτικό δείγμα του παραγόμενου RDFS γράφου. Η πλήρης εκδοχή του

γράφου είναι διαθέσιμη από την ηλεκτρονική διεύθυνση

http://dlib.ionio.gr/standards/z3950/bib1/sem_graph.htm l .

Η σημασιολογική ομοιότητα ενός Σημείου Πρόσβασης με άλλα εκφράζεται

από τη θέση του στο γράφο. Τα Σημεία Πρόσβασης που αντιστοιχούν στις άμεσες

υποκλάσεις ή υπέρ-κλάσεις μιας κλάσης έχουν την πλησιέστερη σημασιολογία με το

Σημείο Πρόσβασης που τους αντιστοιχεί. Επιπροσθέτως, η σημασιολογία ενός

Σημείου Πρόσβασης που προκύπτει από την ένωση ή την τομή ενός συνόλου από

Σημεία Πρόσβασης εκχωρείται από την ένωση ή την τομή των αντίστοιχων συνόλων

που συνθέτουν τα Σημεία Πρόσβασης (δηλαδή των συστατικών Σημείων Πρόσβασης,

όπως προαναφέρθηκε).

Page 129: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 110

Εικόνα 5.6. Αντιπροσωπευτικό δείγμα του RDF Schema που αναπαριστά τη σημασιολογική συσχέτιση

των Bib-1 Σημείων Πρόσβασης.

Ως παράδειγμα, ας θεωρήσουμε το Σημείο Πρόσβασης Author-name-

conference και το σύνολο από τα Σημεία Πρόσβασης {Author-name, Name-

conference}. Από την εικόνα 5.6 φαίνεται ότι η τομή των συνόλων από τα συστατικά

Σημεία Πρόσβασης που αντιστοιχούν στα Author-name και Name-conference είναι το

σύνολο {f-111, f-411, f-711, f-811}, το οποίο ορίζει τη σημασιολογία του Σημείου

Πρόσβασης Author-name-conference. Επιπροσθέτως, ένα Σημείο Πρόσβασης έχει

ισοδύναμη σημασιολογία με ένα άλλο εάν τα αντίστοιχα σύνολα των συστατικών

Σημείων Πρόσβασης είναι ίσα.

Η ομοιότητα μεταξύ των αποτελεσμάτων διαφόρων επερωτήσεων

συσχετίζεται με τη σημασιολογική ομοιότητα των Σημείων Πρόσβασης που

συνθέτουν τις αντίστοιχες επερωτήσεις. Κατά συνέπεια, όταν μία επερώτηση

χρησιμοποιεί ένα Σημείο Πρόσβασης κοντά στην κορυφή της ιεραρχίας, η απάντησή

της θα περιλαμβάνει περισσότερα αποτελέσματα από την απάντηση μιας επερώτησης

που χρησιμοποιεί ένα Σημείο Πρόσβασης κοντά στα φύλλα της ιεραρχίας. Επομένως,

Page 130: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 111

ένα Σημείο Πρόσβασης πρόγονος ενός άλλου διευρύνει τη σημασιολογία του

δευτέρου και παράγει περισσότερα αποτελέσματα μικραίνοντας την ακρίβεια.

Αντίθετα, ένας απόγονος ενός Σημείου Πρόσβασης συμπτύσσει τη σημασιολογία του

Σημείου Πρόσβασης και, μικραίνοντας την ανάκληση, παράγει λιγότερα

αποτελέσματα για την επερώτηση.

Εκτός από τη χρήση του Σημασιολογικού Δικτύου Σημείων Πρόσβασης στις

διαδικασίες μετεγγραφής των επερωτήσεων της παρούσας διατριβής, μια επιπλέον

συνεισφορά είναι η βοήθεια για την ορθότερη και πληρέστερη κατανόηση της

σημασιολογίας των Bib-1 Σημείων Πρόσβασης.

5.2 Σημασιολογική αντικατάσταση μη υποστηριζόμενων Σημείων

Πρόσβασης

Ανιχνεύοντας την ομοιότητα των Σημείων Πρόσβασης από το Bib-1 RDF Schema, η

αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης είναι δυνατό να γίνει

με δύο εναλλακτικές τακτικές. Η πρώτη τακτική διευρύνει τη σημασιολογία του μη

υποστηριζόμενου Σημείου Πρόσβασης και το αντικαθιστά με τη λογική σύζευξη

(AND συνδυασμός) όλων των κοντινότερων προγόνων του Σημείου Πρόσβασης που

υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας προγόνων, το οποίο αρχίζει από το

μη υποστηριζόμενο Σημείο Πρόσβασης. Μετά από μια διαδικασία βελτιστοποίησης

παράγεται το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων

η λογική σύζευξη έχει την πλησιέστερη (μικρότερη) διευρυμένη σημασιολογία από το

αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης.

Σε αντίθεση, η δεύτερη τακτική αντικατάστασης συμπτύσσει τη σημασιολογία

του μη υποστηριζόμενου Σημείου Πρόσβασης και το αντικαθιστά με τη λογική

διάζευξη (OR συνδυασμός) όλων των κοντινότερων απογόνων του Σημείου

Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας απογόνων, το

οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης. Αντίστοιχα, μετά από

μια διαδικασία βελτιστοποίησης, παράγεται το μικρότερο σύνολο από

υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη παρέχει την

πλησιέστερη (μεγαλύτερη) συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο

Σημείο Πρόσβασης.

Page 131: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 112

Όπως θα παρουσιαστεί στην ενότητα 5.2.2, η αντικατάσταση με διεύρυνση

μειώνει την ακρίβεια της απάντησης χωρίς να επηρεάζει την ανάκληση. Αντίθετα, η

αντικατάσταση με σύμπτυξη μειώνει την ανάκληση της απάντησης χωρίς να

επηρεάζει την ακρίβεια. Κατά συνέπεια, όπως θα αναλυθεί στην ενότητα 5.2.3, σε

περίπτωση όπου και οι δύο αντικαταστάσεις είναι δυνατές, επιλέγεται η

αντικατάσταση που ταιριάζει περισσότερο με προκαθορισμένες προτιμήσεις του

χρήστη, σχετικά με την ακρίβεια και την ανάκληση.

5.2.1 Τακτικές αντικατάστασης μη υποστηριζόμενου Σημείου Πρόσβασης

Οι ορισμοί που ακολουθούν είναι συμπληρωματικοί της περιγραφής των αλγορίθμων

αντικατάστασης. Οι ορισμοί 5.3 και 5.4 έχουν δοθεί στο Kaoudi κ.ά. (2005).

Ορισμός 5.3: Ένα RDF Schema (RDFS) είναι μία πεντάδα (C, L, P, SC, SP) η οποία

αναπαριστά ένα γράφο, όπου:

1. Το C είναι ένα σύνολο από χαρακτηρισμένους (labeled) κόμβους. Κάθε κόμβος

στο C αναπαριστά μία κλάση (RDF class).

2. Το L είναι ένα σύνολο από κόμβους χαρακτηρισμένους με τύπους δεδομένων

που ορίζονται στο XML schema (W3C, 2004). Κάθε κόμβος στο L αναπαριστά

μία λεκτική σταθερά (literal).

3. Το P είναι ένα σύνολο από χαρακτηρισμένα τόξα (c1, c2, p) από τον κόμβο c1

στον κόμβο c2 με ετικέτα p, όπου c1 ∈ C και c2 ∈ C ∪ L. Κάθε τόξο στο P

αναπαριστά μία RDF ιδιότητα (property) p με πεδίο ορισμού (domain) c1 και

πεδίο τιμών (range) c2.

4. Το SC είναι ένα σύνολο από τόξα (c1, c2) από τον κόμβο c1 στον κόμβο c2, όπου

c1, c2 ∈ C. Κάθε τόξο στο SC αναπαριστά μία isA ιδιότητα μεταξύ των κλάσεων

c1 και c2 (το c1 είναι υποκλάση του c2).

5. Το SP είναι ένα σύνολο από τόξα ((c1, c2, p1), (c3, c4, p2)) από το τόξο (c1, c2, p1)

στο τόξο (c3, c4, p2), όπου το τόξο (c1, c2, p1), (c3, c4, p2) ∈ P. Κάθε τόξο στο SP

αναπαριστά μία isA ιδιότητα μεταξύ των ιδιοτήτων (c1, c2, p1) και (c3, c4, p2).

Έστω ≤ C είναι μία σχέση στο C: c1 ≤ C c2 ισχύει αν c1 είναι υποκλάση του c2. Το

σύμβολο ≤ C+ υποδηλώνει το transitive closure της σχέσης ≤ C. Μία κλάση c1

Page 132: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 113

θεωρείται ως πρόγονος της c2 (ή η c2 είναι απόγονος της c1) αν ισχύει c2 ≤ C+ c1.

Ειδικότερα, για την περιγραφή των διαδικασιών περιήγησης στον RDFS

γράφο απαιτούνται οι ακόλουθοι ορισμοί.

Ορισμός 5.4: Ο άμεσος πρόγονος (ή άμεση υπερκλάση) μίας κλάσης x, όπου x ∈ C,

είναι η κλάση z ∈ C έτσι ώστε x ≤ C z και δεν υπάρχει κλάση y ∈ C τέτοια ώστε να

ικανοποιεί τη σχέση x ≤ C y ≤ C z. Η κλάση x αναφέρεται επίσης και σαν ο άμεσος

απόγονος (ή η άμεση υποκλάση) της z.

Ορισμός 5.5: Ένα μονοπάτι ιεραρχίας προγόνων S στο C από την κλάση s, με S ⊆ C,

s ∈ C και το οποίο συμβολίζεται με aph(s), είναι το σύνολο {s1, s2, …, sn} για το οποίο

s ≤ s1, si ∈ C και si ≤ C si+1 με 1 < i < n-1. Σε ένα μονοπάτι ιεραρχίας προγόνων S από

οποιεσδήποτε δύο κλάσεις sk και sl o πλησιέστερος πρόγονος της κλάσης sh με

h < k < l είναι η κλάση sk.

Ορισμός 5.6: Ένα μονοπάτι ιεραρχίας απογόνων S στο C από την κλάση s, με S ⊆ C,

s ∈ C και το οποίο συμβολίζεται με dph(s), είναι το σύνολο {s1, s2, …, sn} για το οποίο

s1 ≤ s, sι ∈ C και si+1 ≤ C si με 1 < i < n-1. Σε ένα μονοπάτι ιεραρχίας απογόνων S,

από οποιεσδήποτε δύο κλάσεις sk και sl o πλησιέστερος απόγονος της κλάσης sh με

h < k < l είναι η κλάση sk.

Τόσο το μονοπάτι ιεραρχίας προγόνων όσο και το μονοπάτι ιεραρχίας

απογόνων εκλαμβάνονται σαν ένα isA μονοπάτι ιεραρχίας.

5.2.1.1 Αντικατάσταση με διεύρυνση σημασιολογίας

Στην ενότητα αυτή παρουσιάζεται ο αλγόριθμος αντικατάστασης, ο οποίος διευρύνει

τη σημασιολογία του Σημείου Πρόσβασης. Όπως έχει ήδη προαναφερθεί, η διεύρυνση

της σημασιολογίας ενός Σημείου Πρόσβασης έχει ως συνέπεια ο όρος αναζήτησης να

ταυτίζεται με τα μεταδεδομένα από περισσότερα πεδία. Κατά συνέπεια, το σύνολο

αποτελεσμάτων της επερώτησης διευρύνεται. Η βασική ιδέα της αντικατάστασης με

διεύρυνση είναι η επιλογή και η τομή όλων των Σημείων Πρόσβασης, τα οποία έχουν

Page 133: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 114

την πιο κοντινή διευρυμένη σημασιολογία με το αρχικό Σημείο Πρόσβασης,

εκμεταλλευόμενοι το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης που αναπαριστά το

Bib-1 RDFS. Ενορατικά, ο αλγόριθμος αντικατάστασης με διεύρυνση παράγει αρχικά

το σύνολο των υποστηριζόμενων πλησιέστερων πρόγονων της αντίστοιχης κλάσης

του μη υποστηριζόμενου Σημείου Πρόσβασης, η οποία προκύπτει από κάθε μονοπάτι

ιεραρχίας προγόνων που αρχίζει από την κλάση του μη υποστηριζόμενου Σημείου

Πρόσβασης. Στη συνέχεια υπολογίζει την τομή των υποστηριζόμενων πλησιέστερων

πρόγονων. Λόγω του ότι οι πρόγονοι είναι υπερσύνολα της κλάσης του αρχικού

Σημείου Πρόσβασης, η τομή τους υπολογίζει ένα όσο το δυνατόν μικρότερο

σημασιολογικά υπερσύνολο του αρχικού Σημείου Πρόσβασης.

Αλγόριθμος αντικατάστασης Σημείου Πρόσβασης με διεύρυνση

Δεδομένα:

Το BIB-1 RDFS: B = {BC, BL, BP, BS, ∅}Το σύνολο D των Σημείων Πρόσβασης που υποστηρίζει η πηγή, με D ⊆ BC

Είσοδος: Το Σημείο Πρόσβασης ap, με ap ∈ BC, για έλεγχο και πιθανή αντικατάσταση

Αποτελέσματα: Το S σύνολο των Σημείων Πρόσβασης, όπου S είναι: (i) {ap}. Περιέχει το ap, αν ap ∈ D (δηλαδή η πηγή το υποστηρίζει),(ii) {api ∈ D | ap ≤ S

+ api, api ∈ Si = aph(ap) και ¬∃ z ∈ Si ∩ D: ap ≤ S+ z ≤ S

+ api}. Από κάθε μονοπάτι ιεραρχίας προγόνων που αρχίζει από το ap, επιλέγει τον πλησιέστερο υποστηριζόμενο πρόγονο (υπερκλάση) του ap, (iii) ∅, αν το ap δεν υποστηρίζεται και δεν υπάρχει κανένα άλλο ap1 ∈ D έτσι ώστε να ισχύει ap ≤ BC

+ ap1 (ανέφικτη αντικατάσταση με επέκταση).

1. S = ∅2. If ap ∉ D3. for each aph(ap) find the nearest ancestor sk of ap such that sk ∈D //μονοπάτι ιεραρχίας //προγόνων από το ap 4. if sk exist 5. S = S ∪ { sk }6. end if7. end for8. else 9. S = {ap}10. end if 11. return S

Τα παραδείγματα που ακολουθούν αποσαφηνίζουν τις διαδικασίες του

Page 134: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 115

αλγορίθμου.

Παράδειγμα 5.3: Ας θεωρήσουμε την πηγή S1 η οποία υποστηρίζει το σύνολο με τα

Σημεία Πρόσβασης {Any, Subject, Name}. Υποθέτουμε επίσης ότι το ζητούμενο είναι

η ανάκτηση εγγραφών μεταδεδομένων για οποιοδήποτε αντικείμενο αναφέρεται στα

έργα του Shakespeare από την πηγή αυτή. Για την αναζήτηση αυτή, το

καταλληλότερο Σημείο Πρόσβασης που διαθέτει το Bib-1 είναι το Subject-name-

personal, το οποίο όμως δεν υποστηρίζει η πηγή S1. Εφαρμόζοντας τον αλγόριθμο

στο γράφο (βλέπε εικόνα 5.2), το πρώτο μονοπάτι ιεραρχίας προγόνων που αρχίζει

από το Subject-name-personal είναι το P1 = {Subject, Author-Title-Subject, Any}. Από

το P1 ο πλησιέστερος πρόγονος του Subject-name-personal που υποστηρίζει η πηγή

S1 είναι το Subject (γραμμή 3 του αλγορίθμου). Κατά συνέπεια, ο αλγόριθμος

προσθέτει το Subject στο σύνολο S (γραμμή 5 του αλγορίθμου). Ομοίως, από το

επόμενο μονοπάτι ιεραρχίας προγόνων P2 = {Name-personal, Name, Author-Title-

Subject, Any} ο πλησιέστερος πρόγονος του Subject-name-personal που υποστηρίζει

η πηγή S1 είναι το Name, το οποίο ο αλγόριθμος προσθέτει στο σύνολο S.

Με την ολοκλήρωση του αλγορίθμου, για την πηγή S1 τα Σημεία Πρόσβασης

που έχουν επιλεγεί να αντικαταστήσουν το μη υποστηριζόμενο Σημείο Πρόσβασης

Subject-name-personal είναι το Subject και το Name. Όπως φαίνεται στην εικόνα 5.2,

το Subject-name-personal έχει μια isA σχέση και με τα δύο Σημεία Πρόσβασης που

έχουν επιλεγεί για να το αντικαταστήσουν. Ως εκ τούτου, και τα τρία Σημεία

Πρόσβασης χρησιμοποιούν μερικά κοινά πεδία για να ταιριάξουν τον όρο

αναζήτησης. Αν τα Σημεία Πρόσβασης συνδυαστούν με το λογικό τελεστή AND, τα

κοινά πεδία που χρησιμοποιούνται για ταίριασμα με τον όρο αναζήτησης θα είναι τα

πεδία που χρησιμοποιεί το Σημείο Πρόσβασης Subject-name-personal, συν μερικά

άλλα που δεν περιλαμβάνονται στη σημασιολογία του Subject-name-personal. Ο

αριθμός των επιπρόσθετων πεδίων που θα χρησιμοποιηθούν θα είναι μικρότερος από

το συνολικό αριθμό των πεδίων που χρησιμοποιούνται είτε από το Subject είτε από το

Name.

Το παράδειγμα που ακολουθεί αποσαφηνίζει περαιτέρω τη λειτουργία του

αλγορίθμου.

Παράδειγμα 5.4: Εφαρμόζουμε την ίδια επερώτηση στην πηγή S2, η οποία

υποστηρίζει το σύνολο με τα Σημεία Πρόσβασης {Any, Subject, Author-name}. Η

Page 135: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 116

πηγή S2 υποστηρίζει το Σημείο Πρόσβασης Author-name αντί του Name. Σε αυτή την

περίπτωση, ο αλγόριθμος θα επιλέξει ξανά το Σημείο Πρόσβασης Subject από το P1,

αλλά από το P2 θα επιλέξει το Any αντί του Name. Και τα δύο Σημεία Πρόσβασης

είναι αποδεκτά σαν αποτελέσματα από τον αλγόριθμο, αλλά όπως φαίνεται από το

γράφο, το Any είναι πρόγονος (υπερκλάση) του Subject. Το Σημείο Πρόσβασης Any

είναι ένα πλεονάζον, το οποίο διευρύνει ανεπιθύμητα τη σημασιολογία του μη

υποστηριζόμενου Σημείου Πρόσβασης.

Εικόνα 5.7. Μονοπάτια ιεραρχίας προγόνων από τα οποία επιλέγεται μη επιθυμητό Σημείο Πρόσβασης.

Όπως φαίνεται και στην εικόνα 5.7, η επιλογή ανεπιθύμητων Σημείων

Πρόσβασης συμβαίνει όταν υπάρχουν περισσότερα από ένα μονοπάτια ιεραρχίας

προγόνων τα οποία περιλαμβάνουν υποστηριζόμενα Σημεία Πρόσβασης και το

Σημείο Πρόσβασης που επιλέγεται από τη μία ιεραρχία ανήκει και σε μία δεύτερη,

στην οποία είναι σε υψηλότερη ιεραρχική θέση από το Σημείο Πρόσβασης που έχει

επιλεγεί από τη δεύτερη ιεραρχία. Σε μια τέτοια περίπτωση, το σύνολο που

επιστρέφει ο αλγόριθμος αντικατάστασης περιλαμβάνει Σημεία Πρόσβασης από την

ίδια isA ιεραρχία.

Η απαλοιφή των ανεπιθύμητων Σημείων Πρόσβασης, δηλαδή αυτών που είναι

υπερκλάσεις άλλων στοιχείων του συνόλου των Σημείων Πρόσβασης που έχουν

επιλεγεί για αντικατάσταση, γίνεται με τον επόμενο αλγόριθμο ο οποίος βελτιστοποιεί

Page 136: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 117

τα αποτελέσματα που παράγει ο αρχικός αλγόριθμος αντικατάστασης. Ο αλγόριθμος

βελτιστοποίησης παράγει το μικρότερο σύνολο από υποστηριζόμενα Σημεία

Πρόσβασης, των οποίων η λογική σύζευξη έχει τη μικρότερη διευρυμένη

σημασιολογία από το μη υποστηριζόμενο Σημείο Πρόσβασης.

Αλγόριθμος δημιουργίας του μικρότερου συνόλου με τη μικρότερη διευρυμένη σημασιολογία

Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BPBS ∅ }

Είσοδος: Ένα σύνολο από Σημεία Πρόσβασης C ⊆ BC

Αποτελέσματα: Το σύνολο Σημείων Πρόσβασης C': C' = {x | ¬∃ y ∈ C′ : x ≤ BC

+ y και ¬∃ z ∈ C: z ≤ BC+ x}.

1. If |C| <= 12. return C' = C3. end if4. C' = ∅5. for each api in C do6. if api is not an ancestor of any element in C-{ api }7. C' = C' ∪ { api }8. end if9. end for10. return C'

Η αποσαφήνιση του αλγορίθμου βελτιστοποίησης γίνεται με το παράδειγμα

που ακολουθεί.

Παράδειγμα 5.5: Σε συνέχεια του παραδείγματος 5.4, το σύνολο που έχει επιστραφεί

από τον αλγόριθμο αντικατάστασης με διεύρυνση της σημασιολογίας είναι το {Any,

Subject}. Ανιχνεύοντας το γράφο, το Any είναι πρόγονος του Subject (γραμμή 6 του

αλγορίθμου), κατά συνέπεια ο αλγόριθμος δεν το περιλαμβάνει στο τελικό σύνολο

(γραμμή 7 του αλγορίθμου), εφόσον η τομή των δύο κλάσεων είναι ακριβώς η

χαμηλότερη ιεραρχικά κλάση.

5.2.1.2 Αντικατάσταση με σύμπτυξη σημασιολογίας

Σε αντίθεση με τον αλγόριθμο διεύρυνσης, ο αλγόριθμος σύμπτυξης συμπτύσσει τη

σημασιολογία ενός Σημείου Πρόσβασης, με αποτέλεσμα ο όρος αναζήτησης να

Page 137: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 118

ταυτίζεται με τα μεταδεδομένα από λιγότερα πεδία της εγγραφής. Κατά συνέπεια, το

σύνολο αποτελεσμάτων της επερώτησης συμπτύσσεται. Η βασική ιδέα της

αντικατάστασης με σύμπτυξη είναι η επιλογή και η ένωση όλων των Σημείων

Πρόσβασης τα οποία έχουν την πιο κοντινή συμπτυγμένη σημασιολογία με το Σημείο

Πρόσβασης. Ενορατικά, ο αλγόριθμος αντικατάστασης με σύμπτυξη παράγει το

σύνολο από τους υποστηριζόμενους πλησιέστερους απογόνους της αντίστοιχης

κλάσης του μη υποστηριζόμενου Σημείου Πρόσβασης από κάθε μονοπάτι ιεραρχίας

απογόνων που αρχίζει από την κλάση του μη υποστηριζόμενου Σημείου Πρόσβασης.

Αλγόριθμος αντικατάστασης Σημείου Πρόσβασης με σύμπτυξη

Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, ∅}Το σύνολο D των Σημείων Πρόσβασης που υποστηρίζει η πηγή, με D ⊆ BC

Είσοδος: Το Σημείο Πρόσβασης ap, με ap ∈ BC, για έλεγχο και πιθανή αντικατάσταση

Αποτελέσματα: Το S σύνολο των Σημείων Πρόσβασης, όπου S είναι: (i) {ap}. Περιέχει το ap, αν ap ∈ D (δηλαδή η πηγή το υποστηρίζει),(ii) {api ∈ D | api ≤ S

+ ap, api∈ Si = dph(ap) και ¬∃ z ∈ Si ∩ D: api ≤ S+ z ≤ S

+ ap}. Από κάθε μονοπάτι ιεραρχίας απογόνων που αρχίζει από το ap, επιλέγει τον πλησιέστερο υποστηριζόμενο απόγονο (υποκλάση) του ap, (iii) ∅, αν το ap δεν υποστηρίζεται και δεν υπάρχει κανένα άλλο ap1 ∈ D έτσι ώστε να ισχύει ap1 ≤ BC

+ ap (ανέφικτη αντικατάσταση με σύμπτυξη).

1. S = ∅2. If ap ∉ D3. for each dph(ap) find the nearest descendant sk of ap such that sk ∈D

//μονοπάτι ιεραρχίας απογόνων από το ap 4. if sk exist 5. S = S ∪ { sk }6. end if7. end for8. else 9. S = {ap}10. end if11. return S

Το παράδειγμα που ακολουθεί διευκρινίζει τη λειτουργία του αλγορίθμου

αντικατάστασης με σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου

Πρόσβασης.

Παράδειγμα 5.6: Ας θεωρήσουμε την πηγή S3 η οποία υποστηρίζει το σύνολο με τα

Page 138: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 119

Σημεία Πρόσβασης {Subject, Author-name, Author-name-personal}. Υποθέτουμε

επίσης, ότι το ζητούμενο είναι να αναζητηθούν οι εγγραφές μεταδεδομένων για

οποιοδήποτε αντικείμενο σχετικό με Shakespeare. Για αυτή την αναζήτηση, το

καταλληλότερο Σημείο Πρόσβασης που διαθέτει το Bib-1 είναι το Author-Title-

Subject, το οποίο όμως δεν υποστηρίζει η πηγή S3. Εφαρμόζοντας τον αλγόριθμο στο

γράφο (βλέπε εικόνα 5.2), το πρώτο μονοπάτι ιεραρχίας απογόνων που αρχίζει από το

Author-Title-Subject είναι το P1 = {Subject, Subject-name-personal}. Από το P1 ο

πλησιέστερος απόγονος του Author-Title-Subject που υποστηρίζει η πηγή S3 είναι το

Subject (γραμμή 3 του αλγορίθμου). Κατά συνέπεια, ο αλγόριθμος προσθέτει το

Subject στο σύνολο S (γραμμή 5 του αλγορίθμου). Ομοίως, από το P2 = {Name,

Author-name, Author-name-personal, Name-Editor} ο αλγόριθμος προσθέτει το

Author-name. Συνεχίζοντας, από το P3 = {Name, Name-personal, Author-name-

personal, Name-Editor} προστίθεται το Author-name-personal. Από όλες τις άλλες

ιεραρχίες απογόνων που αρχίζουν από το Author-Title-Subject δεν υπάρχουν Σημεία

Πρόσβασης που να υποστηρίζει η πηγή S3. Ο λογικός OR συνδυασμός των

επιλεγμένων Σημείων Πρόσβασης {Subject, Author-name, Author-name-personal} θα

δημιουργήσει την αντικατάσταση με σύμπτυξη για το μη υποστηριζόμενο Σημείο

Πρόσβασης Author-Title-Subject.

Ο αλγόριθμος θα δημιουργήσει ένα σύνολο με Σημεία Πρόσβασης τα οποία

είναι πιθανόν να ανήκουν στην ίδια isA ιεραρχία, όπως έκανε και ο αλγόριθμος

διεύρυνσης. Ο αλγόριθμος που ακολουθεί απαλείφει τα ανεπιθύμητα Σημεία

Πρόσβασης, παράγοντας το σύνολο με τα λιγότερα υποστηριζόμενα Σημεία

Πρόσβασης, των οποίων η λογική διάζευξη έχει την όσο το δυνατό μεγαλύτερη

συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο.

Αλγόριθμος δημιουργίας του μικρότερου συνόλου με τη μεγαλύτερη συμπτυγμένη σημασιολογία

Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, ∅}

Είσοδος: Ένα σύνολο από Σημεία Πρόσβασης C ⊆ BC

Αποτελέσματα: Το σύνολο Σημείων Πρόσβασης C': C' = {x | ¬∃ y ∈ C′ : y ≤ BC

+ x και ¬∃ z ∈ C: x ≤ BC+ z}.

Page 139: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 120

1. If |C| <= 12. return C' = C3. end if4. C' = ∅5. for each api in C do6. if api is not a descendant of any element in C-{ api } 7. C' = C' ∪ { api }8. end if9. end for10. return C'

5.2.2 Αποτίμηση ανάκλησης και ακρίβειας

Η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να

επηρεάζει την ανάκληση. Αυτό προκύπτει από το ότι τα Σημεία Πρόσβασης

υπερκλάσεις που αντικαθιστούν το μη υποστηριζόμενο Σημείο Πρόσβασης ταιριάζουν

τον όρο αναζήτησης τόσο με τα πεδία του μη υποστηριζόμενου Σημείου Πρόσβασης

όσο και με τα επιπλέον πεδία των Σημείων Πρόσβασης υπερκλάσεις. Συγκεκριμένα,

οι εγγραφές που αντιστοιχούσαν στο αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης

θα ανακτηθούν, άρα η ανάκληση παραμένει η ίδια, ενώ θα μεγαλώσει το συνολικό

σύνολο εγγραφών που τις περιλαμβάνει, οπότε θα μειωθεί η ακρίβεια.

Κατά συνέπεια, για να αποτιμηθεί η μεταβολή της ακρίβειας προσαρμόστηκε

κατάλληλα το μέγεθος της ταξινομικής ακρίβειας (tp) από την κοινότητα ontology

learning (Dellschaft and Staab, 2006; Maedche and Staab 2002), χρησιμοποιώντας το

αντιπροσωπευτικό γνώρισμα leaf subclasses. Η ταξινομική ακρίβεια στη γενική της

εφαρμογή συγκρίνει δύο έννοιες από δύο διαφορετικές οντολογίες, την κοινά

συμφωνημένη ή αποδεκτή οντολογία (gold, reference ontology) και την

αναπτυσσόμενη οντολογία (retrieved, learned ontology). Εν τούτοις, στην παρούσα

εφαρμογή συγκρίνει δύο έννοιες από την ίδια οντολογία, η οποία αναπαρίσταται από

το Bib-1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης το οποίο είναι εκφρασμένο σε

RDFS.

Έστω ότι η οντολογία O αναπαριστά τον RDFS γράφο του Bib-1

Σημασιολογικού Δικτύου Σημείων Πρόσβασης και C το σύνολο των εννοιών της O οι

οποίες αναπαριστούν Σημεία Πρόσβασης.

Page 140: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 121

Ορισμός 5.7: Το σύνολο των leaf subclasses ενός Σημείου Πρόσβασης ap στην

οντολογία O, το οποίο συμβολίζεται lsc(ap, O), προσδιορίζεται από τη σχέση:

lsc ap ,O={api | ap i∈C∧api+ ap∧¬x∈C : xapi} . (18)

Είναι άξιο αναφοράς ότι τα leaf subclasses ενός Σημείου Πρόσβασης, τα οποία

και αυτά θεωρούνται Σημεία Πρόσβασης, αντιστοιχούν στο τμήμα της εγγραφής με το

οποίο εφαρμόζεται η διαδικασία ταιριάσματος του όρου αναζήτησης. Ως εκ τούτου το

σύνολο αυτό προσδιορίζει τη σημασιολογία του Σημείου Πρόσβασης.

Ορισμός 5.8: Η ταξινομική ακρίβεια (tp) δύο Σημείων Πρόσβασης apr, aps όπου, apr

και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη

υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση:

tpaps , apr ,O=∣lsc ap s∩lsc apr∣

∣lscaps∣. (19)

Η ταξινομική ακρίβεια αναπαριστά την αναλογία των πεδίων που

χρησιμοποιούνται στο αιτούμενο (σχετικά πεδία), μη υποστηριζόμενο, Σημείο

Πρόσβασης σε σχέση με τα πεδία που χρησιμοποιούνται στο επιλεγμένο για την

αντικατάσταση (πεδία αναζήτησης). Όπως φαίνεται από τον ορισμό, η ταξινομική

ακρίβεια δεν είναι συμμετρική. Επιπροσθέτως, λόγω του ότι κάθε Σημείο Πρόσβασης

που επιλέγεται από τη διαδικασία αντικατάστασης με διεύρυνση ανήκει σε ένα

μονοπάτι ιεραρχίας προγόνων που αρχίζει από το αιτούμενο Σημείο Πρόσβασης,

ισχύει η σχέση lsc(apr) ⊆ lsc(aps). Κατά συνέπεια, προκύπτει το παρακάτω λήμμα

που εκφράζει τη σχέση (19) της ταξινομικής ακρίβειας (ορισμός 5.8) σε απλούστερη

μορφή:

Λήμμα 5.1: Στην αντικατάσταση με διεύρυνση η ταξινομική ακρίβεια (tp) δύο

Σημείων Πρόσβασης apr, aps όπου, apr και aps αναπαριστούν το αιτούμενο και το

επιλεγμένο για να αντικαταστήσει το μη υποστηριζόμενο Σημείο Πρόσβασης

αντίστοιχα, προσδιορίζεται από τη σχέση:

Page 141: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 122

tpaps , apr ,O=∣lsc apr∣∣lsc aps∣

. (20)

Το τελευταίο βήμα της αντικατάστασης με διεύρυνση είναι η λογική σύζευξη

των επιλεγέντων Σημείων Πρόσβασης. Κατά συνέπεια, το προκύπτον σύνολο

Σημείων Πρόσβασης είναι δυνατό να θεωρηθεί σαν ένα νέο Σημείο Πρόσβασης που

δημιουργείται από τα κοινά πεδία των Σημείων Πρόσβασης που χρησιμοποιούνται

στο λογικό συνδυασμό AND.

Λήμμα 5.2: Η ταξινομική ακρίβεια της τομής ενός συνόλου Σημείων Πρόσβασης

{aps1, aps2, …, apsn} που προκύπτουν από την αντικατάσταση με διεύρυνση ορίζεται

από τον παρακάτω τύπο που είναι σε απλουστευμένη μορφή:

tp∩i=1

n

ap si , apr ,O=∣lsc apr ∣

∣∩i=1

n

apsi∣ . (21)

Σε αντίθεση με την αντικατάσταση με διεύρυνση, η αντικατάσταση με

σύμπτυξη μειώνει την ανάκληση της επερώτησης που προκύπτει χωρίς να επηρεάζει

την ακρίβεια. Αυτό οφείλεται στο ότι τα Σημεία Πρόσβασης υποκλάσεις που

αντικαθιστούν το μη υποστηριζόμενο Σημείο Πρόσβασης ταιριάζουν τον όρο

αναζήτησης μόνο με ένα μέρος από τα πεδία του μη υποστηριζόμενου Σημείου

Πρόσβασης. Δηλαδή, δε θα ανακτηθούν όλες οι εγγραφές που αντιστοιχούσαν στο

αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης, συνεπώς η ανάκληση μειώνεται.

Επιπροσθέτως, τα επιλεγέντα Σημεία Πρόσβασης από την αντικατάσταση με

σύμπτυξη είναι υποκλάσεις του μη υποστηριζόμενου Σημείου Πρόσβασης, κατά

συνέπεια ισχύουν οι σχέσεις lsc(aps) ⊆ lsc(apr) και lsc(aps) ∩ lsc(apr) = lsc(aps).

Οι αντίστοιχοι ορισμοί για την ταξινομική ανάκληση (tr) είναι οι παρακάτω:

Ορισμός 5.9: Η ταξινομική ανάκληση (tr) δύο Σημείων Πρόσβασης apr, aps, όπου apr

και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη

υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση:

Page 142: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 123

tr aps , apr , O=∣lsc aps∩lscapr∣

∣lsc apr∣. (22)

Λήμμα 5.3: Στην αντικατάσταση με σύμπτυξη η ταξινομική ανάκληση (tr)

προσδιορίζεται από τη σχέση (απλουστευμένη μορφή):

tr ap s , apr , O=∣lsc ap s∣∣lsc apr ∣

. (23)

Λήμμα 5.4: Η ταξινομική ανάκληση της ένωσης ενός συνόλου Σημείων Πρόσβασης

{aps1, aps2, …, apsn} που προκύπτουν από την αντικατάσταση με σύμπτυξη ορίζεται

από τον παρακάτω τύπο, που είναι σε απλουστευμένη μορφή:

tp∪i=1

n

ap si , apr ,O=∣∪

i=1

n

apsi∣∣lsc apr ∣

. (24)

Στον πίνακα 5.1 παρουσιάζονται αντιπροσωπευτικές τιμές της ταξινομικής

ακρίβειας και ανάκλησης για μια ομάδα από αρκετά ενδιαφέρουσες αντικαταστάσεις

διεύρυνσης και σύμπτυξης αντίστοιχα (βλέπε και εικόνα 5.6). Και για τις δύο τακτικές

αντικατάστασης, η πρώτη γραμμή αναπαριστά το αιτούμενο προς αντικατάσταση, μη

υποστηριζόμενο Σημείο Πρόσβασης, ενώ η πρώτη στήλη αναπαριστά το Σημείο

Πρόσβασης που θα αντικαταστήσει το αιτούμενο. Κατά συνέπεια, το μέρος του

πίνακα πάνω από τη διαγώνιο δίνει την ταξινομική ακρίβεια (tp) για τις δυνατές

αντικαταστάσεις με διεύρυνση. Παρατηρώντας τη δεύτερη γραμμή, όταν το

Name_1002 αντικαθιστά τον άμεσο απόγονο του Author-name_1003 η ταξινομική

ακρίβεια παραμένει υψηλή (0.8), ενώ η ταξινομική ακρίβεια (tp) μειώνεται όσο

κατευθυνόμαστε προς το τέλος της γραμμής, όταν το Name_1002 αντικαθιστά τον

απόγονο του Author-name-personal_1004 (tp=0.26). Κατά τον ίδιο τρόπο με την

αντικατάσταση της διεύρυνσης, το μέρος του πίνακα κάτω από τη διαγώνιο δίνει την

ταξινομική ανάκληση (tr) για μερικές υπαρκτές αντικαταστάσεις με σύμπτυξη.

Παρατηρώντας τη δεύτερη στήλη, όταν το Author-name_1003 αντικαθιστά τον άμεσο

Page 143: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 124

πρόγονο του Name_1002 η ταξινομική ανάκληση (tr) παραμένει υψηλή (0.8), ενώ η

ταξινομική ανάκληση (tr) μειώνεται όσο κατευθυνόμαστε προς το τέλος της στήλης,

όταν το Author-name-personal_1004 αντικαθιστά τον πρόγονο του Name_1002

(tr=0.26).

Πίνακας 5.1. Παραδείγματα τιμών ταξινομικής ακρίβειας και ανάκλησης για μερικές ενδιαφέρουσες αντικαταστάσεις διεύρυνσης και σύμπτυξης αντίστοιχα.

tp→tr↓

1002 1003 3 2 1 1006 1005 1004

Name_1002 1 12/15=0.8

5/15=0.33

5/15=0.33

5/15=0.33

4/15=0.26

4/15=0.26

4/15=0.26

Author-name_1003 12/15=0.8

1 4/12=0.33

4/12=0.33

4/12=0.33

Name-conference_3 5/15=0.33

1 4/5=0.8

Name-corporate_2 5/15=0.33

1 4/5=0.8

Name_personal_1 5/15=0.33

1 4/5=0.8

Author-name-conference_1006

4/15=0.26

4/12=0.33

4/5=0.8

1

Author-name-corporate_1005

4/15=0.26

4/12=0.33

4/5=0.8

1

Author-name-personal_1004

4/15=0.26

4/12=0.33

4/5=0.8

1

5.2.3 Μέτρηση αντικατάστασης

Με δεδομένη την ταξινομική ακρίβεια και ανάκληση μιας αντικατάστασης, ο τύπος

της μετρικής F-measure θεωρείται ότι αντανακλά μια καλή ισορροπία μεταξύ τους.

Το F-measure είναι η αρμονική ενδιάμεση τιμή μεταξύ της ταξινομικής ακρίβειας και

ανάκλησης, το οποίο χρησιμοποιείται αρκετά συχνά ως μια αποδεκτή ακριβής

μέτρηση από αρκετές επιστημονικές κοινότητες, όπως είναι της αναζήτησης

πληροφοριών, της ανάπτυξης οντολογιών, της επεξεργασίας φυσικής γλώσσας, κλπ.

Η γενική εκδοχή της μετρικής με χρήση συντελεστή αντιστάθμισης, για ένα

συντελεστή αντιστάθμισης b > 0, είναι η παρακάτω:

F - measure=1b2 tp∗tr

b2∗tptr (25)

Page 144: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 125

Μία αντικατάσταση θεωρείται η καλύτερη αν το αντίστοιχο μέγεθος F-

measure έχει τη μεγαλύτερη τιμή. Με συντελεστή αντιστάθμισης b=1 και τα δύο

μεγέθη ακρίβειας και ανάκλησης θεωρούνται το ίδιο σημαντικά, ενώ η μετρική είναι

γνωστή σαν F1-measure. Μερικά παραδείγματα με συνήθεις τιμές του συντελεστή

αντιστάθμισης είναι b=2, ο οποίος σταθμίζει την ανάκληση διπλάσια από την

ακρίβεια, ενώ αντίθετα η τιμή b=0,5 σταθμίζει την ακρίβεια διπλάσια από την

ανάκληση.

5.3 Υπηρεσία παγκόσμιου ιστού για ανοικτή πρόσβαση στο

Σημασιολογικό Δίκτυο Σημείων Πρόσβασης

Η λειτουργικότητα του Σημασιολογικού Δικτύου Σημείων Πρόσβασης είναι διαθέσιμη

σαν υπηρεσία ανοικτής πρόσβασης με τεχνολογίες του παγκόσμιου ιστού. Για την

επίδειξη των τακτικών αντικατάστασης με την αξιοποίηση του Bib-1 RDFS γράφου,

αναπτύχθηκε από την παρούσα διατριβή μία εφαρμογή παγκόσμιου ιστού, η

πρόσβαση της οποίας γίνεται στη διεύθυνση http://dlib.ionio.gr/sapndemo (εικόνα

5.8) και η οποία χρησιμοποιεί τη διαμόρφωση των παρακάτω Z39.50 πηγών: Library

of Congress (ΗΠΑ), Library and Archives Canada, MELVYL, COPAC Academic &

National Library Catalogue (Ηνωμένο Βασίλειο), Συλλογικός Κατάλογος Ελληνικών

Ακαδημαϊκών βιβλιοθηκών και Κατάλογος Βιβλιοθήκης Πανεπιστημίου Κρήτης. Στην

τρέχουσα ενότητα γίνεται μόνο η παρουσίαση της υπηρεσίας, ενώ η ευρύτερη

περιγραφή της υλοποίησης του συστήματος γίνεται στο κεφάλαιο 6 μαζί με την

παρουσίαση του συστήματος μετα-Συνθέτης.

Η εφαρμογή επίδειξης παρέχει στο χρήστη τη δυνατότητα να ελέγξει στις

προαναφερθείσες πηγές αν ένα Σημείο Πρόσβασης υποστηρίζεται (δεν απαιτείται

αντικατάσταση). Σε διαφορετική περίπτωση ο χρήστης μπορεί να δει τις δυνατές

τακτικές αντικατάστασης καθώς επίσης ποια είναι η καλύτερη αντικατάσταση με

βάση προεπιλογές ανάκλησης και ακρίβειας.

Page 145: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 126

Εικόνα 5.8. Υπηρεσία ανοικτής πρόσβασης στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης.

Εναλλακτικά η πρόσβαση στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης

είναι δυνατό να πραγματοποιηθεί με τη χρήση μια δεύτερης υπηρεσίας που

χρησιμοποιεί το αίτημα GET του http πρωτοκόλλου. Η απόκριση της υπηρεσίας είναι

μια εγγραφή σε γλώσσα XML (εικόνα 5.9), η οποία περιέχει όλη τη σχετική

πληροφορία από τη διαδικασία αντικατάστασης. Στην εικόνα 5.9 παρουσιάζεται η

απάντηση της υπηρεσίας για την κατάσταση του Σημείου Πρόσβασης Author-Title-

Subject στην πηγή της Library of Congress, η οποία αιτήθηκε με το GET:

“http://dlib.ionio.gr/sapnsrv?accesspoint[]=Author-Title-Subject _1036&host[]=

z3950.loc.gov:7090/voyager&substitution_method=All”.

Page 146: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 127

Εικόνα 5.9. Απόκριση σε μορφή XML της υπηρεσίας Σημασιολογικού Δικτύου Σημείων Πρόσβασης.

Είναι εύλογο ότι η χρήση της πρόσβασης με αιτήματα GET του http

πρωτοκόλλου στοχεύει στη δυνατότητα πρόσβασης και στην αξιοποίηση της

υπηρεσίας και από άλλα συστήματα μετα-αναζήτησης. Επιπροσθέτως, μελλοντικές

επεκτάσεις της υπηρεσίας είναι δυνατό να περιλαμβάνουν τον εμπλουτισμό της με

χαρακτηριστικά αναζήτησης Z39.50 πηγών και την αυτόματη διασύνδεσή της με

άλλα αποθετήρια χαρακτηριστικών αναζήτησης. Ένα ενδεικτικό αποθετήριο

χαρακτηριστικών αναζήτησης, είναι ο κατάλογος “The Z39.50 Target Directory”28

της Index Data29 που περιλαμβάνει περιγραφές με χαρακτηριστικά υλοποίησης για

ένα μεγάλο αριθμό Z39.50 πηγών από όλο τον κόσμο και ο οποίος διατίθεται από την

υπηρεσία ανοικτής πρόσβασης IRSpy με τη χρήση του πρωτοκόλλου SRU/W.

5.4 Σύνοψη

Η χρήση σημασιολογίας στις διαδικασίες μετεγγραφής επερωτήσεων είναι δυνατό να

28 http://irspy.indexdata.com/ 29 http://www.indexdata.com /

Page 147: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 128

βελτιώσει σημαντικά την αποδοτικότητα ενός συστήματος μετα-αναζήτησης,

ελαχιστοποιώντας τις επιπτώσεις από τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς

απαντήσεις που προκύπτουν από τα μη υποστηριζόμενα Σημεία Πρόσβασης. Η

αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης γίνεται με δύο

τακτικές, αξιοποιώντας τις σημασιολογικές συσχετίσεις τους που εκφράζει το

Σημασιολογικό Δίκτυο Σημείων Πρόσβασης.

Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης εκφράζει σε ένα RDFS γράφο

τις συσχετίσεις των Σημείων Πρόσβασης που ορίζει το Z39.50 Bib-1 Σύνολο

Γνωρισμάτων. Η συσχέτιση των Σημείων Πρόσβασης περιγράφεται με τη σχέση

υποσυνόλου που έχουν μεταξύ τους τα αντίστοιχα σύνολα μεταδεδομένων, τα οποία

ορίζουν τη σημασιολογία τους. Ανιχνεύοντας την ομοιότητα των Σημείων Πρόσβασης

από το Bib-1 RDF Schema, η αντικατάσταση των μη υποστηριζόμενων Σημείων

Πρόσβασης είναι δυνατό να γίνει με διεύρυνση ή εναλλακτικά με σύμπτυξη της

σημασιολογίας των μη υποστηριζόμενων Σημείων Πρόσβασης.

Ειδικότερα, η αντικατάσταση με διεύρυνση δημιουργεί το μικρότερο σύνολο

από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική σύζευξη έχει τη

μικρότερη διευρυμένη σημασιολογία από το αρχικό μη υποστηριζόμενο Σημείο

Πρόσβασης. Τα Σημεία Πρόσβασης που επιλέγονται είναι οι κοντινότεροι πρόγονοι

του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας

προγόνων το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης.

Αντίστοιχα, η αντικατάσταση με σύμπτυξη δημιουργεί το μικρότερο σύνολο

από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη έχει τη

μεγαλύτερη συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο

Πρόσβασης. Τα Σημεία Πρόσβασης που επιλέγονται είναι οι κοντινότεροι απόγονοι

του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας

απογόνων, το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης.

Η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να

επηρεάζει την ανάκληση, ενώ αντίθετα η αντικατάσταση με σύμπτυξη μειώνει την

ανάκληση χωρίς να επηρεάζει την ακρίβεια. Για κάθε τακτική αντικατάστασης

προσδιορίζονται τα κριτήρια μέτρησης και αποτίμησης της μεταβολής της ακρίβειας

και της ανάκλησης, ενώ χρησιμοποιείται η μετρική F-measure με χρήση σταθεράς

στάθμισης για να προσδιορίσει τη βέλτιστη αντικατάσταση, σύμφωνα με προεπιλογές

Page 148: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 5 129

ακρίβειας και ανάκλησης.

Επιπροσθέτως, η λειτουργικότητα του Σημασιολογικού Δικτύου Σημείων

Πρόσβασης και των τακτικών αντικατάστασης είναι διαθέσιμη σαν υπηρεσία

ανοικτής πρόσβασης με τεχνολογίες του παγκόσμιου ιστού με δύο εναλλακτικούς

τρόπους. Ο πρώτος τρόπος αφορά την επίδειξη των τακτικών αντικατάστασης με την

αξιοποίηση του Bib-1 RDFS γράφου και είναι μία εφαρμογή του παγκόσμιου ιστού,

ενώ εναλλακτικά ο δεύτερος τρόπος στοχεύει στο να είναι δυνατή η πρόσβαση και η

αξιοποίηση της υπηρεσίας και από άλλα συστήματα μετα-αναζήτησης,

χρησιμοποιώντας άμεσα το αίτημα GET του http πρωτοκόλλου.

Page 149: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6

μετα-Συνθέτης

Ο μετα-Συνθέτης είναι το σύστημα μετα-αναζήτησης, το οποίο υλοποιεί τα κυριότερα

από τα χαρακτηριστικά που προτάθηκαν και αναλύθηκαν στα προηγούμενα κεφάλαια

της παρούσας διατριβής. Ειδικότερα, η υλοποίηση περιλαμβάνει προτάσεις που

έγιναν από όλα τα επίπεδα διαδικασιών της μετα-αναζήτησης και σχετίζονται με:

• την αρχιτεκτονική του εικονικού συλλογικού καταλόγου που αναλύθηκε στο

κεφάλαιο 3,

• τις διαδικασίες αντικατάστασης μη υποστηριζόμενων Σημείων Πρόσβασης του

κεφαλαίου 5, καθώς επίσης και

• τη σύνθεση των αποτελεσμάτων σε Έργο-κεντρικές συστάδες σύμφωνα με το

μοντέλο FRBR που αναλύθηκε στο κεφάλαιο 2.

Η υλοποίηση του μετα-Συνθέτη αποσκοπεί αφενός στον έλεγχο και την επιβεβαίωση

των προτάσεων της παρούσας διατριβής, αφετέρου στο να αποτελέσει ένα

περιβάλλον ευρύτερου πειραματισμού σε ιδέες και προτάσεις που αφορούν την

ανάπτυξη των συστημάτων μετα-αναζήτησης.

Η παρούσα εκδοχή του μετα-Συνθέτη30, η οποία είναι διαθέσιμη στη διεύθυνση

http://dlib.ionio.gr/metacomposer, είναι διαμορφωμένη στο περιβάλλον του Z39.50

30 Μια προγενέστερη υλοποίηση μέρους των λειτουργιών του μετα-Συνθέτη γίνεται και από την εφαρμογή zSAPN (http://dlib.ionio.gr/zSAPN) η οποία επίσης αναπτύχθηκε κατά την εκπόνηση της παρούσας διατριβής.

130

Page 150: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 131

και αναζητά αντιπροσωπευτικές κατηγορίες πηγών με μεγάλο αριθμό εγγραφών που

παρουσιάζουν παγκόσμιο ενδιαφέρον. Ειδικότερα, οι πηγές που αναζητούνται είναι:

• ο κατάλογος της Library of Congress (ΗΠΑ),

• ο κατάλογος Library and Archives Canada (Καναδάς),

• ο συλλογικός κατάλογος MELVYL (ΗΠΑ),

• ο συλλογικός κατάλογος COPAC Academic & National Library Catalogue

(Ηνωμένο Βασίλειο),

• ο Συλλογικός Κατάλογος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και

• ο κατάλογος του Πανεπιστημίου Κρήτης.

Η εισαγωγή νέων πηγών στο σύστημα, καθώς επίσης η ενημέρωση των ήδη

υπαρχόντων, γίνεται από το διαχειριστή του συστήματος.

Στη συνέχεια του κεφαλαίου παρουσιάζεται η αρχιτεκτονική του μετα-

Συνθέτη, με έμφαση στην αλληλεπίδραση και ολοκλήρωση των επιμέρους

υποσυστημάτων που συνθέτουν το σύστημα. Επιπροσθέτως, παρουσιάζεται η

υλοποίηση του μετεγγραφέα Σημασιολογικού Δικτύου Σημείων Πρόσβασης, ο οποίος

διαχειρίζεται το σημασιολογικό γράφο συσχέτισης και υλοποιεί τους αλγορίθμους

αντικατάστασης. Το κεφάλαιο ολοκληρώνεται με την περιγραφή της σύνθεσης των

FRBR Έργο-κεντρικών συστάδων για την παρουσίαση των αποτελεσμάτων στο

χρήστη.

6.1 Αρχιτεκτονική συστήματος μετα-Συνθέτης

Το σύστημα μετα-Συνθέτης είναι η ολοκλήρωση τριών διαφορετικών ανοικτών

συστημάτων. Το πρώτο συστατικό σύστημα είναι το pazpar231, το οποίο είναι

λογισμικό ανοικτού κώδικα και αποτελεί τη βασική πλατφόρμα ανάπτυξης, τόσο για

το λογισμικό που λειτουργεί στο διακομιστή, όσο και για αυτό που λειτουργεί στους

σταθμούς εργασίας. Το δεύτερο σύστημα είναι ο μετεγγραφέας επερωτήσεων του

Σημασιολογικού Δικτύου Σημείων Πρόσβασης, το οποίο αντικαθιστά τα μη

υποστηριζόμενα Σημεία Πρόσβασης μιας πηγής με άλλα που υποστηρίζει. Το

τελευταίο σύστημα αποτελείται από ένα σύνολο εφαρμογών περιβλήματος (wrappers)

σε γλώσσα XSLT, οι οποίες επεκτείνουν και ενσωματώνουν στο σύστημα τις

31 http://www.indexdata.com/pazpar2/

Page 151: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 132

λειτουργίες του εργαλείου “FRBR display tool” που ανέπτυξε η Library of Congress.

6.1.1 pazpar2

Το pazpar2 είναι ένα σύγχρονο σύστημα μετα-αναζήτησης το οποίο αναπτύχθηκε και

διατίθεται από την Index Data32 ως λογισμικό ανοικτού κώδικα. Το συγκεκριμένο

λογισμικό επιλέχθηκε ως το βασικό σύστημα που επεκτάθηκε για να ενσωματώσει τις

προτάσεις και τα συστήματα που αναπτύχθηκαν από την παρούσα διατριβή, διότι τα

χαρακτηριστικά του προσιδιάζουν κατά ένα μέρος στον τρόπο λειτουργίας και τις

διαδικασίες του εικονικού συλλογικού καταλόγου που αναπτύχθηκαν στο κεφάλαιο 3.

Αναλυτικότερα, το pazpar2 μέσα από μία απλή και ευέλικτη διεπαφή ανάπτυξης

εφαρμογών (API) με τεχνολογίες υπηρεσιών του παγκόσμιου ιστού προσομοιώνει

ασύγχρονη λειτουργικότητα μετα-αναζήτησης, καθώς επίσης παρουσιάζει

αποτελέσματα άμεσα στο χρήστη.

Αποτελείται από μία εφαρμογή ενδιάμεσου (mediator), ο οποίος λειτουργεί ως

πελάτης στις πηγές, καθώς επίσης από ένα πρωτότυπο εφαρμογής πελάτη σε γλώσσα

javaScript. Στην παρούσα ενότητα γίνεται αναφορά των χαρακτηριστικών του

pazpar2, τα οποία απαιτούνται για την κατανόηση της ανάπτυξης του μετα-Συνθέτη.

Για την πλήρη περιγραφή του pazpar2 αναφέρονται τα τεκμήρια (Index Data, 2008;

Dorman, 2008).

Η εφαρμογή ενδιάμεσου του pazpar2 είναι ένα ευέλικτο και εύκολα

παραμετροποιήσιμο, μικρό, αυτόνομο πακέτο λογισμικού, πλήρως συμβατό με τα

πρωτόκολλα Z39.50 και SRU/SRW, ανεπτυγμένο με τη γλώσσα προγραμματισμού C.

Τα αρχεία διαμόρφωσής του, τα οποία είναι γραμμένα σε γλώσσα XML, δίνουν τη

δυνατότητα ορισμού του εσωτερικού μοντέλου αναπαράστασης των δεδομένων, των

κανόνων διαχείρισης και μετατροπής των εισερχόμενων εγγραφών, καθώς επίσης και

των λοιπών στοιχείων που απαιτεί η επικοινωνία με τις πηγές. Η πλειοψηφία των

μετασχηματισμών των δεδομένων που εκτελεί εσωτερικά το σύστημα διαμορφώνεται

και γίνεται με XSLT προγράμματα (stylesheets).

Κύριο χαρακτηριστικό της υπηρεσίας ανάκτησης του pazpar2 είναι η

δυνατότητα που έχει να παρουσιάζει στο χρήστη άμεσα αποτελέσματα, μόλις έχουν

παραληφτεί και επεξεργαστεί, χωρίς να περιμένει να απαντήσουν όλες οι πηγές. Κατά

32 http://www.indexData.com

Page 152: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 133

συνέπεια, ο χρόνος για την παρουσίαση των πρώτων αποτελεσμάτων είναι

συνάρτηση της γρηγορότερης πηγής. Όπως έχει αναφερθεί στο κεφάλαιο 2, η άμεση

και προοδευτική παρουσίαση των αποτελεσμάτων βελτιώνει την αίσθηση του χρήστη

για την απόκριση του συστήματος, μειώνει τις επιπτώσεις στην απόδοση του

συστήματος από τις αργές πηγές και από τα πιθανά σφάλματα των τοπικών

συστημάτων, καθώς επίσης αυξάνει το διαθέσιμο χρόνο για την επεξεργασία των

δεδομένων.

Για την υλοποίηση των προτάσεων που αναπτύχθηκαν από την παρούσα

διατριβή, οι κυριότερες επεκτάσεις που έγιναν στο pazpar2, οι οποίες αναλύονται

στις παρακάτω ενότητες, συνίστανται στην ενσωμάτωση:

• Του μετεγγραφέα Σημασιολογικού Δικτύου Σημείων Πρόσβασης ο οποίος

διαχειρίζεται το σημασιολογικό γράφο συσχέτισης και υλοποιεί τους

αλγορίθμους αντικατάστασης.

• Της σύνθεσης των FRBR Έργο-κεντρικών συστάδων.

Η υπηρεσία ανάκτησης, όπως δείχνει η εικόνα 6.2, ζητά σταδιακά για

επεξεργασία μικρά πακέτα εγγραφών από κάθε πηγή. Ο επεξεργαστής

αποτελεσμάτων εφαρμόζει μία σειρά από XSLT προγράμματα σε κάθε εγγραφή που

παραλαμβάνει ανάλογα με τη δομή των δεδομένων κάθε πηγής, έτσι ώστε: (i) να

δημιουργήσει τους κωδικούς ταυτοποίησης των οντοτήτων που περιέχει κάθε

εγγραφή, (ii) να μετατρέψει την εγγραφή από τη διάταξη της πηγής στην εσωτερική

διάταξη του συστήματος και (iii) να ταιριάζει την εγγραφή με τις υπάρχουσες

συστάδες, οπότε είτε το προσθέτει σε μία υπάρχουσα αν ταιριάζει, διαφορετικά

δημιουργεί μια νέα συστάδα για αυτήν.

6.1.2 Μετεγγραφέας επερωτήσεων Σημασιολογικού Δικτύου Σημείων

Πρόσβασης (ΣηΔιΣηΠ)

Η μονάδα λογισμικού που αναπτύχθηκε για να υλοποιήσει το Σημασιολογικό Δίκτυο

Σημείων Πρόσβασης, η δομή του οποίου απεικονίζεται στην εικόνα 6.1, χρησιμοποιεί

το λογισμικό ανοικτού κώδικα RDFSuite33, το οποίο αναπτύχθηκε από το Ινστιτούτο

Πληροφορικής του Ιδρύματος Τεχνολογίας και Έρευνας. Η εισαγωγή του RDFS

σημασιολογικού γράφου συσχετίσεων των Σημείων Πρόσβασης γίνεται από το

33 http://athena.ics.forth.gr:9090/RDF/

Page 153: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 134

υποσύστημα RSSDB της RDFSSuite, ενώ η αξιοποίηση του γράφου γίνεται με την

γλώσσα επερωτήσεων για RDF βάσεις δεδομένων RQL (Karvounarakis et al., 2002).

Η μονάδα αντικατάστασης Σημείων Πρόσβασης υλοποιεί τους αλγορίθμους

αντικατάστασης που περιγράφηκαν στην ενότητα 5.2.1. Η υλοποίηση της μονάδας

έχει γίνει σε γλώσσα C++ με ενσωματωμένες κλήσεις της γλώσσας επερωτήσεων

RQL. Επιπροσθέτως, για την υπηρεσία της ανοικτής πρόσβασης στο Σημασιολογικό

Δίκτυο Σημείων Πρόσβασης με τεχνολογίες του παγκόσμιου ιστού, που περιγράφτηκε

στην ενότητα 5.3, αναπτύχθηκε μία εφαρμογή κέλυφος (wrapper) της μονάδας

αντικατάστασης σε γλώσσα PHP.

Εικόνα 6.1. Αρχιτεκτονική μονάδας ελέγχου και αντικατάστασης Σημείων Πρόσβασης.

6.1.3 Ολοκλήρωση υποσυστημάτων

Το λογισμικό του μετα-Συνθέτη που λειτουργεί στους σταθμούς εργασίας είναι μία

ελαφριά εφαρμογή πελάτη γραμμένη σε γλώσσα javaScript, η οποία ουσιαστικά είναι

μια επέκταση της javaScript εφαρμογής πελάτη που χρησιμοποιεί το σύστημα

pazpar2 για την ανάπτυξη εφαρμογών διεπαφής. Η εφαρμογή για να λειτουργήσει

Page 154: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 135

απαιτεί στο σταθμό εργασίας να υπάρχει μόνο ένα σύγχρονο λογισμικό πλοήγησης

του παγκόσμιου ιστού. Κατά συνέπεια, το υποσύστημα του σταθμού εργασίας είναι

αρκετά ευέλικτο, καθώς επίσης είναι εύκολα προσαρμόσιμο και επεκτάσιμο σε τυχόν

μελλοντικές απαιτήσεις.

Η εικόνα 6.2 αναπαριστά μία συνοπτική περιγραφή του συστήματος η οποία

περιλαμβάνει μόνο τα απαραίτητα συστατικά που απαιτούνται για να αποσαφηνιστεί

η λειτουργία του μετα-Συνθέτη, εστιάζοντας στον τρόπο ολοκλήρωσης των επιμέρους

συστατικών για την ανάπτυξη του συστήματος.

Εικόνα 6.2. Αρχιτεκτονική μετα-Συνθέτη.

Όταν ο χρήστης υποβάλει μία επερώτηση από το λογισμικό που λειτουργεί

στο σταθμό εργασίας του (εφαρμογή πελάτη), η εφαρμογή πελάτη προωθεί το αίτημα

στον ενδιάμεσο και αναμένει την απάντηση. Στις παραμέτρους που συνοδεύουν την

επερώτηση περιλαμβάνεται και η προτίμηση του χρήστη για την πιθανή μεταβολή της

ανάκλησης και της ακρίβειας. Η τιμή αυτή κατευθύνει το υποσύστημα μετεγγραφής

επερωτήσεων του Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ) πώς να

Page 155: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 136

σταθμίσει την ταξινομική ανάκληση και ακρίβεια ώστε να επιλέξει την κατάλληλη

τακτική αντικατάστασης. Η εξορισμού τιμή της παραμέτρου σταθμίζει ισοδύναμα την

ανάκληση και την ακρίβεια, ενώ είναι δυνατό να μεταβληθεί είτε από τις λειτουργίες

ΣηΔιΣηΠ προεπιλογές ή Έλεγχος Επερώτησης.

Η υπηρεσία αναζήτησης του ενδιάμεσου αρχικά ελέγχει την ορθότητα της

επερώτησης και στη συνέχεια, πριν την προωθήσει στις πηγές, ζητά από το

μετεγγραφέα επερωτήσεων ΣηΔιΣηΠ να ελέγξει και να μετεγγράψει κατάλληλα την

επερώτηση. Ο μετεγγραφέας επερωτήσεων ΣηΔιΣηΠ αναλύει την επερώτηση και

προωθεί κάθε Σημείο Πρόσβασης που περιέχει, μαζί με τον κωδικό ταυτοποίησης της

πηγής, στην υπηρεσία ΣηΔιΣηΠ. Μόλις λάβει τα αποτελέσματα για τα Σημεία

Πρόσβασης, αντικαθιστά κάθε μη υποστηριζόμενο Σημείο Πρόσβασης συνδυάζοντας

τις εφικτές αντικαταστάσεις με την παράμετρο στάθμισης για την ανάκληση και την

ακρίβεια.

Όπως έχει αναλυθεί, ανάλογα με την τακτική αντικατάστασης ένα Σημείο

Πρόσβασης είναι δυνατόν να αντικατασταθεί με το λογικό συνδυασμό AND ή OR

άλλων υποστηριζόμενων Σημείων Πρόσβασης. Για κάθε πηγή είναι δυνατόν να

προκύψει διαφορετική μετεγγραφή, ανάλογα με τα Σημεία Πρόσβασης που

υποστηρίζει. Εάν η αναζήτηση είναι επιτυχής, ο ενδιάμεσος ενεργοποιεί τη

διαδικασία ανάκτησης, διαφορετικά ο ενδιάμεσος ενημερώνει το χρήστη στέλνοντας

ταυτόχρονα το σχετικό μήνυμα.

Είναι άξιο αναφοράς ότι το pazpar2 προωθεί την επερώτηση στις πηγές και

επιστρέφει μερικά αποτελέσματα στο χρήστη μόλις συντεθούν οι πρώτες συστάδες

από την επεξεργασία των αποτελεσμάτων, χωρίς να περιμένει να ολοκληρωθούν οι

αναζητήσεις από όλες τις πηγές. Επιπροσθέτως, λόγω του ότι τα XSLT προγράμματα

του μετα-Συνθέτη συνθέτουν κωδικούς (κλειδιά) ταυτοποίησης FRBR οντοτήτων

Έργων, οι συστάδες που δημιουργεί το pazpar2, χρησιμοποιώντας αυτούς τους

κωδικούς στις ενσωματωμένες διαδικασίες σύνθεσης συστάδων, ουσιαστικά

αντιστοιχούν σε Έργο-κεντρικές συστάδες. Η περαιτέρω διαδικασία ιεραρχικής

ομαδοποίησης κάθε συστάδας σε Εκφράσεις και Εκδηλώσεις γίνεται στο σταθμό

εργασίας του χρήστη κατά τη διαδικασία παρουσίασης των αποτελεσμάτων και

εφόσον ζητηθεί αναλυτική παρουσίαση της συστάδας.

Η υπηρεσία Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ)

Page 156: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 137

παραθέτει στο μετεγγραφέα ΣηΔιΣηΠ όλες τις εφικτές αντικαταστάσεις για κάθε

Σημείο Πρόσβασης. Επιπλέον, η ίδια υπηρεσία είναι άμεσα προσβάσιμη από την

εφαρμογή του πελάτη χρησιμοποιώντας τη λειτουργία Έλεγχος Επερώτησης. Η

λειτουργία του Ελέγχου Επερώτησης δίνει τη δυνατότητα στο χρήστη, πριν στείλει το

αίτημα αναζήτησης, να ελέγξει ποια από τα Σημεία Πρόσβασης της επερώτησης

υποστηρίζει κάθε πηγή, αποφεύγοντας ανεπιθύμητες αντικαταστάσεις ή, διαφορετικά,

να ενημερωθεί για τις εναλλακτικές αντικαταστάσεις που προκύπτουν σταθμίζοντας

διαφορετικά την ανάκληση και την ακρίβεια. Για έναν έμπειρο χρήστη, η λειτουργία

Ελέγχου Επερώτησης είναι δυνατό να είναι αρκετά χρήσιμη στην έκφραση

εξειδικευμένων επερωτήσεων, χωρίς να επιβαρύνει τη λειτουργία του ενδιάμεσου με

άσκοπες επερωτήσεις.

6.1.3.1 Χρησιμοποιώντας το μετα-Συνθέτη

Εικόνα 6.3. Διεπαφή αναζήτησης.

Στην εικόνα 6.3 παρουσιάζεται η αρχική σελίδα του μετα-Συνθέτη, η οποία είναι

ταυτόχρονα και η σελίδα αναζήτησης παρέχοντας δύο εναλλακτικές διεπαφές (απλή

και σύνθετη). Και στις δύο διεπαφές, ο χρήστης έχει τη δυνατότητα να συσχετίσει

τους όρους αναζήτησης με ένα από τα διαθέσιμα Σημεία Πρόσβασης του Bib-1

Συνόλου Γνωρισμάτων. Η διεπαφή σύνθετης αναζήτησης παρέχει τη δυνατότητα για

σύνταξη επερωτήσεων με λογικούς συνδυασμούς AND και OR ζευγαριών όρων

αναζήτησης και Σημείων Πρόσβασης. Κατά συνέπεια εξειδικευμένες επερωτήσεις

Page 157: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 138

είναι δυνατό να συνταχθούν είτε με εξειδικευμένα Σημεία Πρόσβασης, είτε με

λογικούς συνδυασμούς ζευγαριών [όρος αναζήτησης, Σημείο Πρόσβασης].

Από το μενού “παράμετροι αντικατάστασης” (substitution options), εικόνα 6.3,

ορίζεται η προεπιλογή για τη στάθμιση των μεγεθών ανάκτησης και ακρίβειας από

την υπηρεσία μετεγγραφής ΣηΔιΣηΠ. Ουσιαστικά, καθορίζεται η τιμή της σταθεράς

στάθμισης της μετρικής F-measure, η οποία χρησιμοποιείται κατά τη διαδικασία

αναζήτησης ή κατά τη διαδικασία ελέγχου μια επερώτησης από το χρήστη, πριν από

το αίτημα αναζήτησης.

Εικόνα 6.4. Διεπαφή χρήσης Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ), προεπιλογές

στάθμισης ανάκλησης και ακρίβειας, εφικτές τακτικές αντικατάστασης και προτεινόμενη

αντικατάσταση.

Ο σύνδεσμος “Test Query” ενεργοποιεί τη διαδικασία που ελέγχει ποια είναι

τα υποστηριζόμενα και ποια είναι τα μη υποστηριζόμενα Σημεία Πρόσβασης σε μια

επερώτηση. Επιπροσθέτως, για κάθε Σημείο Πρόσβασης παρουσιάζει τις εφικτές

αντικαταστάσεις του σε κάθε πηγή, καθώς επίσης προτείνει τη βέλτιστη

αντικατάσταση με βάση την προεπιλογή στάθμισης για την ανάκληση και την

ακρίβεια. Μια ένδειξη για τα αποτελέσματα της λειτουργίας παρουσιάζεται στην

Page 158: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 139

εικόνα 6.4.

Από το μενού “Sources’ Search Activity” παρέχονται πληροφορίες σχετικές με

την τρέχουσα κατάσταση (σε αναζήτηση, σε αναμονή, σε λάθος, κλπ.) των πηγών που

συμμετέχουν στο σύστημα, τα αποτελέσματα αναζήτησης κάθε πηγής, καθώς επίσης

και πόσα από αυτά έχουν ανακτηθεί. Τα αποτελέσματα αυτά είναι ορατά τόσο κατά

τη διαδικασία αναζήτησης και ανάκτησης, όσο και οποιαδήποτε άλλη στιγμή μετά

την ολοκλήρωσή τους. Επιπλέον, όπως συμβαίνει σε κάθε σύστημα μετα-αναζήτησης

υπάρχει ένας περιορισμός σχετικά με το μέγιστο αριθμό των εγγραφών που θα

ανακτηθούν από κάθε πηγή. Στο μετα-Συνθέτη ο μέγιστος αριθμός των αριθμών που

θα ανακτηθούν από κάθε πηγή είναι 200, ο οποίος συνδυάζεται με τον αντίστοιχο

περιορισμό κάθε πηγής.

Εικόνα 6.5. Διεπαφή ανάκτησης.

Μετά την προώθηση της επερώτησης, όπως έχει προαναφερθεί,

ενεργοποιείται η διαδικασία ανάκτησης και αρχίζουν να έρχονται αποτελέσματα

μόλις ολοκληρωθεί η διαδικασία αναζήτησης από τη γρηγορότερη πηγή. Από τα

αποτελέσματα αυτά αρχίζουν να δημιουργούνται οι πρώτες συστάδες, οι οποίες

Page 159: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 140

παρουσιάζονται στο χρήστη σε συνοπτική μορφή (εικόνα 6.5). Η διαδικασία

ανάκτησης αποτελείται από επιμέρους αιτήματα ανάκτησης 20 εγγραφών από κάθε

πηγή και η οποία εκτελείται παράλληλα με τη διαδικασία επεξεργασίας των

εγγραφών.

Κάθε εγγραφή στον κατάλογο αποτελεσμάτων αντιστοιχεί σε μία FRBR

Έργο-κεντρική συστάδα. Επιλέγοντας μία εγγραφή, παρουσιάζεται το περιεχόμενο της

συστάδας, διευθετημένο ιεραρχικά σε Εκφράσεις και Εκδηλώσεις. Στην εικόνα 6.6

παρουσιάζεται μία Έργο-κεντρική συστάδα που δημιουργήθηκε από τέσσερις

ανακτημένες εγγραφές, όπου η οντότητα FRBR Έργο πραγματώνεται σε δύο

γλωσσικές εκφράσεις. Για την πρώτη έκφραση στην Αγγλική γλώσσα υπάρχουν δύο

διαφορετικές εκδηλώσεις που έχουν εκδοθεί το 2002 και το 1901, ενώ για τη δεύτερη

έκφραση στην Ισπανική γλώσσα υπάρχει μία έκφραση που εκδόθηκε το 1947.

Εικόνα 6.6. Μία FRBR Έργο-κεντρική συστάδα διευθετημένη περαιτέρω σε Εκφράσεις και

Εκδηλώσεις.

6.2 FRBR συστάδες

Όπως έχει προαναφερθεί, σε ένα σύστημα μετα-αναζήτησης η αναγνώριση και η

ομαδοποίηση των ομοίων εγγραφών που αντιστοιχούν στο ίδιο φυσικό αντικείμενο

είναι ένα σημαντικό ζήτημα, ιδιαιτέρως για τη διαδικασία παρουσίασης των

αποτελεσμάτων στο χρήστη (Payette and Rieger, 1997). Μετά την ανάπτυξη του

μοντέλου FRBR από την IFLA, τα υπάρχοντα συστήματα άμεσης πρόσβασης των

καταλόγων των βιβλιοθηκών κατακρίνονται για την αδυναμία τους να εντοπίσουν και

να ομαδοποιήσουν όλες τις εκδοχές ενός διακεκριμένου έργου από τις πολλαπλές

Page 160: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 141

εγγραφές που τις αναπαριστούν (Yee, 2005). Ταυτόχρονα, η Mimno κ.ά. αφενός

διερευνούσαν τα πλεονεκτήματα σε διαδικασίες αναζήτησης και ανάκτησης από την

μετάπτωση σε ιεραρχικούς καταλόγους, αφετέρου έδειχναν τη βιωσιμότητα διεπαφών

καταλόγων από τις υπάρχουσες δομές και συστήματα διαχείρισης που θα

ξεπερνούσαν τα υπάρχοντα προβλήματα (Mimno et al., 2005).

Σε ένα περιβάλλον μετα-αναζήτησης ο ενδιάμεσος δεν έχει καμία δυνατότητα

να βελτιώσει ή να παρέμβει στις διαδικασίες με τις οποίες οργανώνει κάθε πηγή τα

δεδομένα της. Κατά συνέπεια, τα συστήματα μετα-αναζήτησης επικεντρώνονται σε

εργαλεία και μεθόδους για σύνθεση των FRBR οντοτήτων από τις εγγραφές που

ανακτούν. Όλα τα εργαλεία που συνθέτουν τις οντότητες δημιουργούν κλειδιά

ταυτοποίησης, ενώ ο τελικός στόχος κάθε εργαλείου καθορίζει την πολυπλοκότητα

του αλγορίθμου που δημιουργεί τα κλειδιά ταύτισης.

Το εργαλείο που επιλέχτηκε ως η βάση ανάπτυξης του υποσυστήματος για τη

σύνθεση των Έργο-κεντρικών συστάδων του μετα-Συνθέτη είναι το “FRBR display

tool” του οργανισμού Library of Congress Network Development and MARC

Standard office, σε γλώσσα XSLT. Εκτός από την ποιότητα του εργαλείου και την

αξιοπιστία του οργανισμού που το ανέπτυξε, η εξισορρόπηση μεταξύ της

αποτελεσματικότητας και της απόδοσής του στο περιβάλλον μετα-αναζήτησης ήταν

το καθοριστικό κριτήριο για την επιλογή του εργαλείου στο μετα-Συνθέτη.

Λόγω του περιορισμένου χρόνου που έχει στη διάθεσή του ο ενδιάμεσος για

να επεξεργαστεί τα αποτελέσματα, πιθανές βελτιώσεις της διαδικασίας σύνθεσης με

την ενσωμάτωση προτάσεων από άλλα εργαλεία, όπως είναι οι συνδυασμοί αρχείων

καθιερωμένων όρων και πολυπλοκότεροι αλγόριθμοι, θα πρέπει να εξεταστούν με

προσοχή και απαιτούν περαιτέρω έρευνα. Με δεδομένους τους περιορισμούς που έχει

ένα περιβάλλον μετα-αναζήτησης και την απουσία Έργο-κεντρικών πηγών, ένα

σοβαρό ζήτημα στη σύνθεση των συστάδων είναι η ανίχνευση συσχετίσεων μεταξύ

συναφών έργων.

Η παρουσίαση των αποτελεσμάτων σε ιεραρχικές Έργο-κεντρικές οντότητες

απαρτίζεται από δύο ανεξάρτητα βήματα, το πρώτο από τον ενδιάμεσο και το δεύτερο

από την εφαρμογή του πελάτη στο σταθμό εργασίας του χρήστη. Για κάθε εγγραφή

που παραλαμβάνει ο ενδιάμεσος δημιουργεί τα κλειδιά ταύτισης για τις οντότητες

Έργο, Έκφραση και Εκδήλωση και συνθέτει τις Έργο-κεντρικές συστάδες. Στη

Page 161: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 142

συνέχεια, όταν η εφαρμογή του πελάτη παραλάβει τα αποτελέσματα ταξινομεί και

διευθετεί ιεραρχικά το περιεχόμενο κάθε συστάδας τη στιγμή που την παρουσιάζει.

Ο μετα-Συνθέτης αναζητά πηγές οι οποίες διαθέτουν τα μεταδεδομένα τους σε

διαφορετικές διατάξεις. Μεταξύ όλων των διαθέσιμων διατάξεων μεταδεδομένων, οι

διατάξεις που επιλέχθηκαν ως οι καταλληλότερες για την αποτελεσματική

επεξεργασία των εγγραφών είναι η MARC21, η UNIMARC και η MODS. Αξίζει να

αναφερθεί ότι οι πηγές διαθέτουν τα μεταδεδομένα τους και σε άλλες διατάξεις,

κυρίως σε διάφορες μορφές ελεύθερου κειμένου. Για ευνόητους λόγους, η

συμβατότητα των διατάξεων που επιλέχθηκαν με περιεκτικά πρότυπα μεταδεδομένων

(rich metadata standards) διευκόλυνε σημαντικά την αποτελεσματική επεξεργασία

των μεταδεδομένων. Ως εκ τούτου, για τη σύνθεση των συστάδων απαιτούνται τρεις

διαφορετικές εφαρμογές περιβλήματος (wrappers) που θα παράγουν τα κλειδιά

ταύτισης.

Για τη διάταξη MARC21, η λειτουργικότητα του εργαλείου που παράγει τα

κλειδιά ταύτισης της Library of Congress μεταφέρθηκε σχεδόν αυτούσια, κατά

συνέπεια δεν υπάρχει κάποιο αξιοσημείωτο ζήτημα να αναφερθεί. Τροποποιήσεις

έγιναν μόνο στους κανόνες κανονικοποίησης των δεδομένων, οι οποίοι

περιορίστηκαν σε μερικές μόνο περιπτώσεις, λόγω της κανονικοποίησης που

εφαρμόζει το pazpar2 σε κάθε εισερχόμενη εγγραφή.

Χρησιμοποιώντας το προαναφερθέν εργαλείο για το MARC21, η εξαγωγή

των κλειδιών ταύτισης για τις οντότητες Έργο, Έκφραση και Εκδήλωση από τα

μεταδεδομένα σε διάταξη MODS είναι διαδικασία δύο βημάτων. Στο πρώτο βήμα, τα

μεταδεδομένα μετατρέπονται από τη διάταξη MODS σε διάταξη MARC21

χρησιμοποιώντας ένα πρόγραμμα XSLT που διατίθεται ελεύθερα από τη Library of

Congress (Library of Congress, 2004b). Στο δεύτερο βήμα εφαρμόζεται το

προαναφερθέν πρόγραμμα XSLT για τη δημιουργία των κλειδιών ταύτισης από τη

διάταξη MARC21. Με δεδομένη τη μεγάλη συμβατότητα μεταξύ των δύο διατάξεων,

δεν υπάρχει κάποιο αξιοσημείωτο ζήτημα να αναφερθεί.

Η ανάπτυξη του προγράμματος XSLT για τη διάταξη UNIMARC απαιτεί τον

ορισμό των κωδικών των πεδίων του UNIMARC που θα χρησιμοποιηθούν στη

διαδικασία δημιουργίας των κλειδιών ταύτισης. Δεδομένης της ύπαρξης και της

σημασιολογικής συμβατότητας των FRBR οντοτήτων στις διατάξεις του MARC21

Page 162: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 143

και του UNIMARC, η επιλογή των πεδίων του UNIMARC για τα κλειδιά ταύτισης

βασίστηκε στην αντιστοιχία των πεδίων του UNIMARC σε MARC21 που ανέπτυξε η

υπηρεσία Library of Congress Network Development and MARC Standard office

(Library of Congress, 2001b).

Για το κλειδί ταύτισης της οντότητας Έργο, όλοι οι αλγόριθμοι δημιουργίας

των FRBR οντοτήτων παράγουν ένα κλειδί που βασίζεται στις οντότητες των

Συγγραφέα και Τίτλου, επιλέγοντας, όμως, την πληροφορία από τα πεδία της κύριας

αναγραφής, με δεδομένο ότι το πεδίο της κύριας αναγραφής είναι υποχρεωτικό στη

διάταξη του MARC21. Στη διάταξη όμως του UNIMARC, η κύρια αναγραφή

σταθμίζεται διαφορετικά και είναι μια προαιρετική ένδειξη στα αντίστοιχα πεδία.

Κατά συνέπεια, η πληροφορία της κύριας αναγραφής θα έπρεπε να ανιχνευτεί με

εμπειρικό τρόπο. Παρά το ότι μια πρώτη εμπειρική διαδικασία για την ανίχνευση της

κύριας αναγραφής, που περιγράφεται στην επόμενη παράγραφο, λειτούργησε

ικανοποιητικά στην πλειοψηφία των περιπτώσεων για συγκεκριμένες κατηγορίες

τεκμηρίων, η γενίκευση της διαδικασίας χρήζει περαιτέρω μελέτης.

Σε περίπτωση απουσίας των προαιρετικών ενδείξεων για την κύρια αναγραφή

από μια εγγραφή UNIMARC, η εμπειρική επιλογή ενός πεδίου σαν κύρια αναγραφή

για μονογραφίες ακολουθεί την ανίχνευση των παρακάτω πεδίων, με τη σειρά που

αναφέρονται:

1. το πρώτο πεδίο του ονόματος φυσικού προσώπου συγγραφέα, πεδίο με ετικέτα

701 χωρίς το υποπεδίο $4 ή με υποπεδίο $4 που έχει τιμή “070” (κωδικός

συγγραφέα),

2. το πρώτο πεδίο του ονόματος συλλογικού οργάνου ή συνάντησης συγγραφέα,

πεδίο με ετικέτα 711 χωρίς το υποπεδίο $4 ή με υποπεδίο $4 που έχει τιμή

“070” (κωδικός συγγραφέα),

3. το πρώτο πεδίο του οικογενειακού ονόματος συγγραφέα, πεδίο με ετικέτα 721

χωρίς το υποπεδίο $4 ή με υποπεδίο $4 που έχει τιμή “070” (κωδικός

συγγραφέα).

Μια βελτίωση της διαδικασίας, η οποία όμως απαιτεί περισσότερο χρόνο, είναι ένας

επιπλέον κανόνας ο οποίος αρχικά ανιχνεύει τη δήλωση πνευματικής υπευθυνότητας

(υποπεδίο $f του πεδίου 245) και στη συνέχεια τη συνδυάζει με την καθιερωμένη

μορφή του ονόματος συγγραφέας από τα προαναφερθέντα πεδία με την ίδια σειρά.

Page 163: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 6 144

Μετά την επιλογή των πεδίων του UNIMARC για τη δημιουργία των

κλειδιών ταύτισης των FRBR οντοτήτων, ο προγραμματισμός της εφαρμογής

περιβλήματος αποτελούσε το ευκολότερο βήμα της διαδικασίας.

6.3 Σύνοψη

Ο μετα-Συνθέτης είναι ένας FRBR Έργο-κεντρικός συνθέτης, ικανός να μετα-

αναζητήσει πηγές χωρίς αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις,

εκμεταλλευόμενος τις σημασιολογικές συσχετίσεις των Σημείων Πρόσβασης στο

περιβάλλον του Z39.50. Η τρέχουσα εκδοχή, που υλοποιεί τα κυριότερα από τα

χαρακτηριστικά που προτάθηκαν στην παρούσα διατριβή, αναζητά

αντιπροσωπευτικές πηγές που παρουσιάζουν παγκόσμιο ενδιαφέρον και φιλοξενούν

μεγάλο αριθμό εγγραφών. Η πρόσβαση του μετα-Συνθέτη είναι εφικτή από τη

διεύθυνση: http://dlib.ionio.gr/metacomposer.

Η ανάπτυξη του συστήματος προήλθε από την επέκταση και ολοκλήρωση

τριών διαφορετικών συστημάτων λογισμικού ανοικτού κώδικα. Ειδικότερα, το

σύστημα pazpar2 αποτελεί το βασικό περιβάλλον ανάπτυξης, τόσο για τον ενδιάμεσο

όσο και για την εφαρμογή του πελάτη στο σταθμό εργασίας του χρήστη. Το σύστημα

μετεγγραφής του Σημασιολογικού Δικτύου Σημείων Πρόσβασης υλοποιεί τις

διαδικασίες μετεγγραφής επερωτήσεων κατά προσέγγιση ενώ η σύνθεση των FRBR

Έργο-κεντρικών συστάδων βασίστηκε στην επέκταση του “FRBR display tool” του

οργανισμού Library of Congress Network Development and MARC Standard Office.

Οι κυριότερες επεκτάσεις του βασικού εργαλείου σύνθεσης FRBR συστάδων

συνίστανται στην ανάπτυξη των εφαρμογών περιβλήματος (wrappers) για τη

δημιουργία Έργο-κεντρικών συστάδων από μεταδεδομένα σε διάταξη MODS και

UNIMARC, καθώς επίσης και η ανάπτυξη της διαδικασίας για εμπειρική ανίχνευση

της κύριας αναγραφής από μονογραφίες σε διάταξη UNIMARC.

Page 164: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7

Γενική συζήτηση

Στο κεφάλαιο αυτό παρουσιάζονται και σχολιάζονται τα αποτελέσματα επερωτήσεων

από τη χρήση του μετα-Συνθέτη σε αντιπροσωπευτικές Z39.50 πηγές, στις οποίες

παρέχει πρόσβαση η τρέχουσα εκδοχή του. Τα κυριότερα από τα χαρακτηριστικά των

πηγών που αναζητεί ο μετα-Συνθέτης είναι ο μεγάλος αριθμός εγγραφών που

διαθέτουν και το παγκόσμιο ενδιαφέρον που παρουσιάζουν. Ειδικότερα, οι πηγές που

συμμετέχουν στο μετα-Συνθέτη είναι ο κατάλογος της Library of Congress (ΗΠΑ), ο

κατάλογος της Library and Archives Canada (Καναδάς), ο συλλογικός κατάλογος

MELVYL (ΗΠΑ), ο συλλογικός κατάλογος COPAC Academic & National Library

Catalogue (Ηνωμένο Βασίλειο), ο Συλλογικός Κατάλογος Ελληνικών Ακαδημαϊκών

Βιβλιοθηκών και ο κατάλογος του Πανεπιστημίου Κρήτης.

Μετά από τις αναζητήσεις χωρίς αποτυχημένες επερωτήσεις ή ασυνεπείς

απαντήσεις, ακολουθεί η παρουσίαση εργασιών και συστημάτων που έχουν

αντιμετωπίσει συναφή προβλήματα με αυτά που έχει θέσει η παρούσα διατριβή.

Κύριο σημείο διαφοροποίησης της παρούσας διατριβής από τις εργασίες που

αντιμετωπίζουν αντίστοιχα θέματα είναι η έμφαση που δίνεται στην αυτόματη

ανάκτηση και αξιοποίηση της σημασιολογίας η οποία προκύπτει έμμεσα από τα

μεταδεδομένα που υποστηρίζονται από τα συστήματα διάθεσης. Το κεφάλαιο

ολοκληρώνεται με τη σύνοψη των αποτελεσμάτων της διατριβής, καθώς επίσης και

145

Page 165: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 146

με την παρουσίαση μίας σειράς από ενδιαφέροντα θέματα για μελλοντική έρευνα.

7.1 Αναζήτηση χωρίς αποτυχημένες επερωτήσεις ή ασυνεπείς

απαντήσεις

Μεγάλη πρόκληση των συστημάτων μετα-αναζήτησης, η οποία είναι εντονότερη όταν

συμμετέχουν πολλές πηγές, είναι η αποφυγή των αποτυχημένων επερωτήσεων ή των

ασυνεπών απαντήσεων, χωρίς όμως να περιορίσουν τα χαρακτηριστικά αναζήτησης

του συστήματος ή των τοπικών συστημάτων διάθεσης των πηγών. Ειδικότερα, όπως

έχει προαναφερθεί για το περιβάλλον του πρωτοκόλλου Z39.50, στην ενότητα 2.2.1,

εάν μία πηγή δεν υποστηρίζει ένα Σημείο Πρόσβασης είτε θα απορρίψει την

επερώτηση και θα επιστρέψει ένα σχετικό μήνυμα (αποτυχημένη επερώτηση) ή θα

αντικαταστήσει το μη υποστηριζόμενο Σημείο Πρόσβασης σύμφωνα με την τιμή του

γνωρίσματος ‘Semantic Action’ του αιτήματος αναζήτησης (ασυνεπής απάντηση).

Τα συστήματα διάθεσης των συλλογικών καταλόγων MELVYL και COPAC,

καθώς επίσης και το σύστημα καταλόγου της Library and Archives Canada είναι

πολύ γνωστές πληροφοριακές πηγές διεθνώς που ακολουθούν την πρώτη προσέγγιση.

Αντίθετα, το σύστημα καταλόγου της Library of Congress είναι ένα

αντιπροσωπευτικό σύστημα το οποίο ακολουθεί τη δεύτερη προσέγγιση, αγνοώντας

όμως το γνώρισμα ‘Semantic Action’. Επιπροσθέτως, και το σπουδαιότερο, η Z39.50

πηγή της Library of Congress δεν παρέχει καμία σχετική πληροφορία για την

αυθαίρετη αντικατάσταση του μη υποστηριζόμενου Σημείου Πρόσβασης.

Οι διαφορές των προαναφερθέντων συστημάτων στα Σημεία Πρόσβασης που

υποστηρίζουν είναι ένας παράγοντας που επηρεάζει καθοριστικά τη σημασιολογική

τους διαλειτουργικότητα. Οι Cousins και Sanders (2006) περιγράφουν λεπτομερώς τις

συνέπειες των αντίστοιχων προβλημάτων που αντιμετώπισαν κατά την ανάπτυξη και

αποτίμηση του InforM25 εικονικού συλλογικού καταλόγου.

Τα τρέχοντα συστήματα μετα-αναζήτησης, που ακολουθούν το μοντέλο του

ενδιάμεσου, αντιμετωπίζουν το πρόβλημα των μη υποστηριζόμενων Σημείων

Πρόσβασης με περιορισμό των διαθέσιμων Σημείων Πρόσβασης στο σύνολο με τα

ελάχιστα κοινά υποστηριζόμενα από όλες τις πηγές ή αγνοούν τις πηγές που δεν

υποστηρίζουν το Σημείο Πρόσβασης ή επιτρέπουν στην πηγή να το αντικαταστήσει

Page 166: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 147

αυθαίρετα με ένα Σημείο Πρόσβασης που υποστηρίζει.

Ο μετα-Συνθέτης λύνει το πρόβλημα των μη υποστηριζόμενων Σημείων

Πρόσβασης με αντικαταστάσεις που εξαρτώνται από τις σημασιολογικές συσχετίσεις

των Σημείων Πρόσβασης, από το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης και,

επιπλέον, ενημερώνει και το χρήστη για τη διαδικασία τροποποίησης και

αναπροσαρμογής του ερωτήματός του. Με την προσεγγιστική μετεγγραφή των

επερωτήσεων που περιέχουν μη υποστηριζόμενα Σημεία Πρόσβασης, η σημασιολογία

της τελικής επερώτησης που θα εκτελέσει η πηγή είναι η πλησιέστερη επιθυμητή

στην αρχική επερώτηση. Επιπροσθέτως, ο μετα-Συνθέτης αποτιμά πόσο επηρεάζει ο

συνδυασμός των εναλλακτικών Σημείων Πρόσβασης που θα χρησιμοποιηθούν την

ακρίβεια και την ανάκληση της αρχικής επερώτησης με το μη υποστηριζόμενο

Σημείο Πρόσβασης.

Τα παραδείγματα που ακολουθούν χρησιμοποιούν τις προαναφερθείσες πηγές

και αποσαφηνίζουν τον τρόπο με τον οποίο ο μετα-Συνθέτης μετεγγράφει τις

επερωτήσεις όταν κάποιες πηγές δεν υποστηρίζουν ένα Σημείο Πρόσβασης. Επιπλέον,

τα παραδείγματα παρουσιάζουν και σχολιάζουν τα διαφορετικά αποτελέσματα που θα

προκύψουν από την εκτέλεση της επερώτησης τόσο με αντικατάσταση των μη

υποστηριζόμενων Σημείων Πρόσβασης όσο και χωρίς αντικατάσταση στη συνέχεια.

Παράδειγμα 6.1: Υποθέτουμε ότι ο χρήστης θέλει να αναζητήσει τα πρακτικά των

συνεδρίων της IEEE και μόνο αυτά. Διευκρινίζεται ότι ο χρήστης δεν ενδιαφέρεται

για άλλες εκδόσεις της IEEE, όπως είναι τεχνικές εκθέσεις, πρότυπα, κλπ. Σύμφωνα

με το Z39.50 Bib-1 Σύνολο Γνωρισμάτων, το καταλληλότερο Σημείο Πρόσβασης είναι

το Author-name-conference, το οποίο σπάνια διατίθεται από τα υπάρχοντα συστήματα

μετα-αναζήτησης και από τα τοπικά συστήματα διάθεσης των πηγών.

Ο πίνακας 7.1 συνοψίζει αντιπροσωπευτικά αποτελέσματα αναζήτησης τα

οποία προέρχονται από την επερώτηση του παραδείγματος 6.1. Αξίζει να αναφερθεί

ότι η μόνη εφικτή αντικατάσταση είναι αυτή της διεύρυνσης, κατά συνέπεια η

ταξινομική ανάκληση ισούται πάντα με 1. Το σύστημα COPAC υποστηρίζει το Σημείο

Πρόσβασης, επομένως δεν απαιτείται αντικατάσταση. Το σύστημα της Library of

Congress δεν υποστηρίζει το Author-name-conference34, κατά συνέπεια ο μετα-

Συνθέτης αντικαθιστά το μη υποστηριζόμενο Σημείο Πρόσβασης με το λογικό AND

34 Σύμφωνα με το τεκμήριο “LC Z39.50/SRW/SRU Server Configuration Guidelines” στη διεύθυνση: http://www.loc.gov/z3950/lcserver.html.

Page 167: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 148

συνδυασμό των Author-name και Name-conference που υποστηρίζει η πηγή. Αξίζει

να αναφερθεί ότι ο λογικός AND συνδυασμός των Author-name και Name-

conference, του οποίου η ταξινομική ακρίβεια ισούται με 1, έχει ισοδύναμη

σημασιολογία με το Σημείο Πρόσβασης Author-name-conference. Για το σύστημα του

Πανεπιστημίου Κρήτης, το μη υποστηριζόμενο Σημείο Πρόσβασης αντικαθίσταται από

το Author-name που είναι ευρύτερο σημασιολογικά και η ταξινομική ακρίβεια είναι

tp=0,33. Οι διαφορετικές αντικαταστάσεις που προκύπτουν από τα συστήματα

Library of Congress και Πανεπιστημίου Κρήτης είναι απόρροια των διαφορετικών

Σημείων Πρόσβασης που υποστηρίζουν οι πηγές. Τα συστήματα των Library and

Archives Canada και Συλλογικός Κατάλογος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών

υποστηρίζουν το Σημείο Πρόσβασης, κατά συνέπεια συμπεριφέρονται όμοια με το

σύστημα COPAC. Επιπροσθέτως, το MELVYL δεν υποστηρίζει το Σημείο Πρόσβασης

ενώ η αντικατάσταση του είναι όμοια με την αντικατάσταση της Library of Congress.

Πίνακας 7.1. Αντιπροσωπευτικές συνόψεις απαντήσεων από τρεις πηγές για την επερώτηση: Author-name-conference (1006) = “IEEE”. Η ακρίβεια και η ανάκληση σταθμίζονται ισοδύναμα.

Πηγή Αποτελέσματα Εφικτές αντικαταστάσειςF1-measure

2*tp*tr/(tp+tr)

Library of Congress 1799

Taxonomic Precision: 1Taxonomic Recall: 1-- Minimal SetAuthor-name_1003, Name-conference_3

1

COPAC 2803 Source supports the Access Point. 1Πανεπιστήμιο Κρήτης 350

Taxonomic Precision: 0.33Taxonomic Recall: 1-- Minimal SetAuthor-name_1003

0.5

Από το γράφο του Σημασιολογικού Δικτύου Σημείων Πρόσβασης (κεφάλαιο 5,

εικόνα 5.6) προκύπτει ότι το Σημείο Πρόσβασης του παραδείγματος 6.1 Author-name-

conference είναι σημασιολογικά ισοδύναμο με την τομή των άμεσων προγόνων του

Author-name και Name-conference. Αναφέρεται ότι η τομή των συνόλων που ορίζουν

τη σημασιολογία του Author-name και του Name-conference είναι το σύνολο με τα

MARC πεδία {111, 411, 711 ,811}, το οποίο ορίζει τη σημασιολογία του Author-

name-conference. Επιπροσθέτως, το σύνολο που ορίζει τη σημασιολογία του Author-

name αποτελείται από περισσότερα πεδία από ότι το σύνολο του Author-name-

conference, αλλά από λιγότερα πεδία σε σχέση με το Name.

Page 168: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 149

Ολοκληρώνοντας τη σύγκριση της σημασιολογίας μεταξύ των Σημείων

Πρόσβασης από τις αντικαταστάσεις με διεύρυνση και του αρχικού Σημείου

Πρόσβασης, για τα συστήματα Library of Congress και MELVYL οι αντικαταστάσεις

είναι σημασιολογικά ισοδύναμες με το μη υποστηριζόμενο Σημείο Πρόσβασης, καθώς

επίσης οι απαντήσεις τους έχουν την ίδια ακρίβεια και ανάκληση με τις απαντήσεις

από τα συστήματα MELVYL, Library and Archives Canada και Συλλογικός

Κατάλογος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών, τα οποία υποστηρίζουν το Σημείο

Πρόσβασης. Για το Πανεπιστήμιο Κρήτης το σύστημα έλαβε μία απάντηση με

παραπλήσια σημασιολογία που περιλαμβάνει όλες τις σχετικές εγγραφές, έχει

μικρότερη ακρίβεια (tp=0.33) και περιλαμβάνει και άλλες εκδόσεις της IEEE (π.χ.

τεχνικά πρότυπα, κλπ.).

Στον πίνακα 7.2 παρουσιάζονται οι αριθμοί των αντίστοιχων αποτελεσμάτων

από την εκτέλεση της επερώτησης του παραδείγματος 6.1 χρησιμοποιώντας και

παρακάμπτοντας την υπηρεσία του Σημασιολογικού Δικτύου Σημείων Πρόσβασης. Για

το COPAC δεν υπάρχει διαφορά, εφόσον η πηγή υποστηρίζει το Σημείο Πρόσβασης.

Η Library of Congress δεν ενημερώνει ότι δεν υποστηρίζει το Σημείο Πρόσβασης,

καθώς επίσης δε δίνει καμία επιπλέον πληροφορία για την αυθαίρετη αντικατάσταση

που έκανε. Επιπροσθέτως, για τη Library of Congress είναι ορατή μια αξιόλογη

διαφορά μεταξύ των δύο αποτελεσμάτων, περίπου 4,5 φορές περισσότερα χωρίς τη

σημασιολογική αντικατάσταση. Αξίζει να αναφερθεί ότι η αντικατάσταση για τη

Library of Congress έχει ισοδύναμη σημασιολογία με το αρχικό αίτημα (tp=tr=1).

Για το Πανεπιστήμιο Κρήτης θα προκύψει μία απάντηση με ακρίβεια (tp=0.33) αντί

για μια αποτυχημένη επερώτηση.

Πίνακας 7.2. Οι αριθμοί των αποτελεσμάτων εκτελώντας την επερώτηση του παραδείγματος 6.1 χωρίς αντικατάσταση και με αντικατάσταση τού μη υποστηριζόμενου Σημείου Πρόσβασης.

Πηγή Χωρίς ΑντικατάστασηΕφικτή

ΑντικατάστασηF1-measure

COPAC 2803 2803 1Library of Congress 8309 1799 1

University of CreteError: Unsupported

attribute combination344

0.5

Στο παράδειγμα 6.1 υπάρχει μία μόνο εφικτή αντικατάσταση, ως εκ τούτου

αγνοούνται οι προεπιλογές για τη στάθμιση της ακρίβειας και της ανάκλησης. Στο

Page 169: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 150

παράδειγμα που ακολουθεί υπάρχουν δύο εφικτές αντικαταστάσεις ενώ

μεταβάλλοντας τις προεπιλογές ακρίβειας και ανάκλησης επιλέγεται διαφορετική

αντικατάσταση.

Παράδειγμα 6.2: Υποθέτουμε ότι ο χρήστης θέλει να αναζητήσει όλες τις εγγραφές

που περιέχουν τον όρο ‘Malinowski’ είτε στο συγγραφέα είτε στον τίτλο είτε στο

θέμα. Σύμφωνα με το Z39.50 Bib-1 σύνολο γνωρισμάτων, το καταλληλότερο Σημείο

Πρόσβασης είναι το Author-Title-Subject, το οποίο σπάνια διατίθεται προς χρήση.

Στον πίνακα 7.3 παρουσιάζονται τα κυριότερα αποτελέσματα του

παραδείγματος 6.2 από την Library and Archives Canada, η οποία δεν υποστηρίζει το

Σημείο Πρόσβασης. Η δεύτερη στήλη παρουσιάζει τα χαρακτηριστικά της

αντικατάστασης με σύμπτυξη ενώ η τρίτη στήλη τα αντίστοιχα αποτελέσματα από

την εκτέλεση της επερώτησης με την αντικατάσταση σύμπτυξης. Η τέταρτη και η

πέμπτη στήλη παρουσιάζουν αντίστοιχα τα χαρακτηριστικά και τα αποτελέσματα της

αντικατάστασης με διεύρυνση. Η αντικατάσταση με σύμπτυξη αντικαθιστά το

Author-Title-Subject με τη διάζευξη (λογικός OR συνδυασμός) των υποστηριζόμενων

Σημείων Πρόσβασης Title, Subject και Author-name, αποφεύγοντας αποτυχημένη

επερώτηση.

Πίνακας 7.3. Σύνοψη χαρακτηριστικών αντικαταστάσεων διεύρυνσης και σύμπτυξης για την επερώτηση: Author-Title-Subject (1036) = “Malinowski”.

Πηγή Αντικατάσταση Σύμπτυξης

Αποτε-λέσματα

ΑντικατάστασηΔιεύρυνσης

Αποτε-λέσματα

Library and Archives Canada

Taxonomic Precision: 1Taxonomic Recall: 0.97-- Minimal SetTitle_4,Subject_21,Author-name_1003

52

Taxonomic Precision: 0.58Taxonomic Recall: 1-- Minimal SetAny_1016

82

Για το παράδειγμα 6.2, ο πίνακας 7.4 παρουσιάζει τις διαφορετικές τιμές που

προκύπτουν από τη μετρική F-measure με τη χρήση εναλλακτικών συντελεστών

αντιστάθμισης για τα μεγέθη της ακρίβειας και της ανάκλησης. Όταν η ανάκληση και

η ακρίβεια θεωρούνται το ίδιο σημαντικές, η αντικατάσταση με σύμπτυξη δίνει την

καλύτερη τιμή, ενώ όταν η ανάκληση σταθμιστεί πενταπλάσια από την ακρίβεια η

αντικατάσταση με διεύρυνση δίνει την καλύτερη τιμή.

Page 170: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 151

Πίνακας 7.4. Αποτελέσματα μετρικής F-measure με διαφορετικές σταθερές στάθμισης.

Τακτική Αντικατάστασης Ισότιμη στάθμιση ανάκλησης και ακρίβειας

5-πλάσια στάθμιση ανάκλησης από ακρίβεια

Σύμπτυξη 0.98 0.93Διεύρυνση 0.73 0.94

Στο παράδειγμα 6.2 ο χρήστης θα λάβει μια κατά προσέγγιση απάντηση της

οποίας τα αποτελέσματα θα είναι αρκετά όμοια με τα αποτελέσματα της αρχικής

επερώτησης αποφεύγοντας ταυτόχρονα μια αποτυχημένη επερώτηση. Όπως έχει

προαναφερθεί, η πηγή Library and Archives Canada απορρίπτει την επερώτηση όταν

δεν υποστηρίζει ένα Σημείο Πρόσβασης, όπως είναι το Author-Title-Subject.

Δημιουργώντας η πηγή μια αποτυχημένη επερώτηση ο χρήστης δε λαμβάνει

αποτελέσματα και ταυτόχρονα ενημερώνεται ότι δεν υποστηρίζεται το Σημείο

Πρόσβασης.

Οι εναλλακτικές προσεγγίσεις που έχει στη διάθεση του ο χρήστης για να

υλοποιήσει την επερώτηση του παραδείγματος 6.2 στην πηγή Library and Archives

Canada είναι είτε να διευρύνει αρκετά τη σημασιολογία της επερώτησης,

χρησιμοποιώντας ένα πιο γενικό Σημείο Πρόσβασης, όπως είναι το Any, ή να

υποκαταστήσει τη λειτουργία του μετα-Συνθέτη και να αντικαταστήσει το Σημείο

Πρόσβασης με την ένωση άλλων που έχουν στενότερη σημασιολογία. Η πρώτη

προσέγγιση, η οποία είναι και η πιο κατανοητή, θα αυξήσει τα αποτελέσματα κατά

57% περίπου, εφόσον η απάντηση θα περιλαμβάνει έως τριάντα επιπλέον μη σχετικές

εγγραφές. Η δεύτερη προσέγγιση απαιτεί βαθιά γνώση των σημασιολογικών

συσχετίσεων των Σημείων Πρόσβασης, καθώς επίσης και των χαρακτηριστικών που

υποστηρίζει η πηγή. Σε αυτή την προσέγγιση, ο μετα-Συνθέτης εκτελεί τη διαδικασία

μετεγγραφής της επερώτησης αυτόματα, ζητώντας από το χρήστη να ορίσει τις

προτιμήσεις του με ένα καταλληλότερο και ευκολότερο τρόπο.

7.2 Σχετικές εργασίες

Εδώ και αρκετές δεκαετίες, η ενιαία, ομοιόμορφη και άμεση πρόσβαση αυτόνομων

πηγών πληροφόρησης είναι ένα από τα δημοφιλή αντικείμενα μελέτης στις

επιστημονικές κοινότητες των συστημάτων αναζήτησης πληροφοριών (information

retrieval) και των βάσεων δεδομένων. Μέχρι σήμερα, οι διαφορετικές προτάσεις και

Page 171: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 152

προσεγγίσεις που προέκυψαν από τη μελέτη του ζητήματος αντανακλούν την

ετερογένεια των συστημάτων, ακόμα και στο ίδιο περιβάλλον εφαρμογής.

Μια προσέγγιση για την ενιαία πρόσβαση των συστημάτων αποτελεί ο

ορισμός και η χρήση κοινών κανόνων και προτύπων, ιδιαιτέρως μεταξύ των μελών

της ίδιας κοινότητας. Τυπικό παράδειγμα πρότασης κοινής γλώσσας αναζήτησης

πληροφοριών αποτελεί η Common Command Language από την Euronet DIANE35

(Negus, 1979) στις αρχές τις δεκαετίας του 1980, η οποία στη συνέχεια αποτέλεσε

τον πυρήνα του προτύπου ISO 8777 (ISO, 1993) ή αντίστοιχα του προτύπου Z39.58

από τον οργανισμό American National Standards Institute (ANSI/NISO, 1993). Μια

πρόταση με ευρύτερο πεδίο εφαρμογής, η οποία συνδυάζει ένα σύνολο από άλλα

πρότυπα, συμπεριλαμβανομένου και του ISO 8777, αποτελεί η ανάπτυξη του

προτύπου αναζήτησης ανάκτησης πληροφοριών Z39.50 και η σύγχρονη εκδοχή του

SRW/SRU. Αξίζει επίσης να αναφερθεί ότι τα προφίλ υλοποίησης του Z39.50

αναπτύχθηκαν για να εξομαλυνθούν οι διαφορετικές υλοποιήσεις στην εφαρμογή του

πρωτοκόλλου.

Μια κοινή προσπάθεια μεταξύ προμηθευτών συστημάτων αναζήτησης και

ακαδημαϊκής κοινότητας αποτελεί η ανάπτυξη του πρωτοκόλλου STARTS (Gravano

et al., 1997), στο πλαίσιο του έργου “Stanford Digital Library Project” (The Stanford

Digital Libraries Group, 1995). Ο στόχος του πρωτοκόλλου ήταν να διευκολύνει τις

κύριες λειτουργίες ενός συστήματος μετα-αναζήτησης, δηλαδή την επιλογή των

καλύτερων πηγών για να αποσταλεί η επερώτηση, την αποτίμηση της επερώτησης και

την ενοποίηση των αποτελεσμάτων με απλούστερες διαδικασίες από τις αντίστοιχες

του Z39.50. Για να αποφευχθούν οι καθυστερήσεις από τις χρονοβόρες διαδικασίες

που εφαρμόζουν οι οργανισμοί προτυποποίησης, το STARTS δεν έγινε πρότυπο.

Σημειώνεται ότι εκφράζει την κοινή προσπάθεια 11 εταιριών και οργανισμών. Οι

προϋποθέσεις (requirements) για κατανεμημένη αναζήτηση που προήλθαν από την

ανάπτυξη του πρωτοκόλλου STARTS απετέλεσαν στη συνέχεια τον πυρήνα του

Z39.50 προφίλ υλοποίησης ZDSR (ZIG, 1997), χωρίς όμως ουσιαστικά να υπάρξει

καμία περαιτέρω εξέλιξη και εφαρμογή ούτε του πρωτοκόλλου STARTS, ούτε και

του ZDSR προφίλ υλοποίησης.

35 Euronet είναι η υπηρεσία του τηλεπικοινωνιακού δικτύου(packet switched network) της Ευρωπαϊκής Κοινότητας που λειτούργησε το 1979 και η αντίστοιχη υπηρεσία DIANE (Direct Information Access Network for Europe) για την προώθηση της ανάπτυξης των υπηρεσιών πληροφόρησης.

Page 172: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 153

Όπως αναπτύχθηκε στα προηγούμενα κεφάλαια της διατριβής, παρά το ότι οι

κοινοί κανόνες και τα πρότυπα εξισορροπούν την απόδοση με την πολυπλοκότητα

υλοποίησης ενός συστήματος, δεν επαρκούν για να λειτουργήσει αποτελεσματικά και

αποδοτικά ένα σύστημα μετα-αναζήτησης. Σε ένα περιβάλλον αυτόνομων πηγών

είναι πολύ δύσκολο, αν όχι αδύνατον, να υπάρξει η αποδοχή ενός μόνο προτύπου, το

οποίο θα υλοποιηθεί από όλους με τον ίδιο τρόπο. Επιπροσθέτως, οι μέχρι τώρα

προσπάθειες προτυποποίησης και χρήσης κοινών κανόνων στόχευαν περισσότερο να

ομογενοποιήσουν θέματα λειτουργικότητας και σύνταξης υπηρεσιών, παρά να

επιληφθούν ζητήματα τα οποία αφορούν στη σημασιολογική διαλειτουργικότητα

μεταξύ των συστημάτων. Η δεδομένη αυτονομία κάθε πηγής και η αδυναμία

παρέμβασης στις λειτουργίες της απαιτεί την ανάπτυξη διαδικασιών που θα εξάγουν,

άμεσα ή έμμεσα, σημασιολογικά χαρακτηριστικά κάθε πηγής και θα τα αξιοποιούν.

Η παρούσα διατριβή συμπληρώνει και επεκτείνει τους υπάρχοντες κοινούς

κανόνες και πρότυπα εκφράζοντας τη σημασιολογία του μηχανισμού πρόσβασης μιας

ομάδας πηγών, έμμεσα, από τα μεταδεδομένα που τον προσδιορίζουν. Ειδικότερα,

στην κοινότητα των βιβλιοθηκών και στο περιβάλλον του Z39.50 και των MARC

μεταδεδομένων αναπτύχθηκε το Bib-1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης, το

οποίο αναπαριστά τις σημασιολογικές συσχετίσεις των Σημείων Πρόσβασης. Το

Σημασιολογικό Δίκτυο Σημείων Πρόσβασης είναι το εργαλείο στο οποίο βασίζεται η

παρούσα διατριβή για να αναπτύξει στη συνέχεια τη σημασιολογική μετεγγραφή κατά

προσέγγιση των επερωτήσεων με μη υποστηριζόμενα Σημεία Πρόσβασης. Αποτελεί

επίσης ένα αυτοτελές εργαλείο για την κατανόηση και ορθή χρήση των Σημείων

Πρόσβασης στην κοινότητα των βιβλιοθηκών.

Ως σύστημα που παρουσιάζει τη μεγαλύτερη συνάφεια με τις προτάσεις της

παρούσας διατριβής, τόσο αναφορικά με το περιβάλλον λειτουργίας όσο και με το

στόχο του, είναι ο ενδιάμεσος InforM25 server (Cousins and Sanders, 2006). Ο

ενδιάμεσος InforM25 “μετα-αναζητούσε” τους Z39.50 διακομιστές οι οποίοι

παρείχαν πρόσβαση στους καταλόγους ακαδημαϊκών ιδρυμάτων της ευρύτερης

περιοχής του Λονδίνου, ενώ η ανάπτυξη του έγινε στο πλαίσιο μελέτης για τη

δυνατότητα ένταξης των εικονικών συλλογικών καταλόγων σε ένα ευρύτερο

περιβάλλον υπηρεσιών.

Ενώ κατά την ανάπτυξη του ενδιάμεσου InforM25 εντοπίστηκαν και

Page 173: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 154

παρουσιάστηκαν αναλυτικά τα προβλήματα που σχετίζονται με τα χαρακτηριστικά

αναζήτησης που υποστηρίζει κάθε πηγή και με την κατάλληλη μετεγγραφή των

επερωτήσεων, ωστόσο, σε αντίθεση με την παρούσα διατριβή, δεν προτάθηκαν

λύσεις που να επιλαμβάνονται ολοκληρωμένα των προβλημάτων. Ειδικότερα, για να

αποφύγουν αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις στις ρυθμίσεις του

συστήματος όρισαν για κάθε Σημείο Πρόσβασης, το οποίο θα διέθετε ο εικονικός

κατάλογος, μία αποδεκτή μετεγγραφή του για κάθε τοπικό διακομιστή. Λόγω του ότι

η διαδικασία ορισμού και ενημέρωσης των μετεγγραφών είναι μη αυτοματοποιημένη

και γίνεται από το διαχειριστή του συστήματος, η συντήρησή του σε περίπτωση

μεταβολής των χαρακτηριστικών αναζήτησης ενός διακομιστή, ή της ένταξης ενός

νέου, είναι αρκετά σύνθετη και χρονοβόρα, ενώ απαιτεί αρκετή προσοχή η

συνεκτικότητα των μετεγγραφών. Επιπροσθέτως, δε γίνεται καμία ιδιαίτερη πρόταση

για ζητήματα τα οποία σχετίζονται με τη βελτίωση της απόδοσης του συστήματος και

την ενοποίηση των αποτελεσμάτων αναζήτησης.

Ζητήματα που αφορούν στην περιγραφή των χαρακτηριστικών αναζήτησης

των πηγών, καθώς επίσης και τη μετεγγραφή επερωτήσεων έχουν μελετηθεί εκτενώς

σε συστήματα ολοκλήρωσης πληροφοριών από την κοινότητα των βάσεων

δεδομένων (Motro, 1987; Ullman, 1997). Στα συμβατά αυτά συστήματα με το

μοντέλο του ενδιάμεσου-περιβλήματος (mediator-wrapper) (Wiederhold, 1992), ο

ενδιάμεσος δέχεται επερωτήσεις από το χρήστη ή μία εφαρμογή εκφρασμένες σε μία

κεντρική γλώσσα και μοντέλο δεδομένων, τις οποίες μετεγγράφει σε νέες

επερωτήσεις στην ίδια γλώσσα, αλλά με βάση τα χαρακτηριστικά κάθε περιβλήματος

(wrapper) και στη συνέχεια τις προωθεί στα περιβλήματα. Με βάση αυτό το μοντέλο,

ο ενδιάμεσος θεωρείται σαν η κεντρική άποψη (view) του συστήματος ολοκλήρωσης,

ενώ κάθε περίβλημα σαν η τοπική άποψη της υποκείμενης πηγής.

Αντιπροσωπευτικά συστήματα ολοκλήρωσης πληροφοριών είναι τα

TSIMMIS (Chawathe et al., 1994), Garlic (Carey et al., 1995), DISCO (Tomasic et

al., 1996), τα οποία ορίζουν το σχήμα του ενδιάμεσου ως συνάρτηση των τοπικών

απόψεων (GaV: Global as View). Αντίθετα το σύστημα Information Manifold (Kirk et

al., 1995) θεωρεί τις τοπικές απόψεις σαν απόψεις της κεντρικής άποψης (LaV: Local

as View).

Ενώ η πλειοψηφία των συστημάτων ολοκλήρωσης πληροφοριών βασιζόταν

Page 174: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 155

στην παραδοχή ότι υπάρχει απεριόριστη πρόσβαση στη δομή και στα δεδομένα των

πηγών που συμμετέχουν στο σύστημα, υπόθεση που στην πλειοψηφία των

περιπτώσεων δεν είναι ρεαλιστική, μετέπειτα προτάσεις, αρχικά από τους

Papakonstantinou κ.ά. (1995), τους Levy κ.ά. (1996) στη συνέχεια, περιέγραψαν τα

χαρακτηριστικά πρόσβασης των πηγών με μη πεπερασμένα σύνολα επερωτήσεων

χρησιμοποιώντας παραμετρικές επερωτήσεις. Αυτές οι προσεγγίσεις θεωρούν τις

πηγές σαν ‘πηγές με διαφορετικές και περιορισμένες δυνατότητες’ ή σαν

‘εξωτερικούς επεξεργαστές επερωτήσεων’, οι οποίοι έχουν τη δυνατότητα να

απαντήσουν μερικές, αλλά όχι όλες, από τις πιθανές επερωτήσεις που αφορούν τα

δεδομένα τους.

Η παρούσα διατριβή, θεωρώντας τις Z39.50 πηγές σαν ‘επεξεργαστές

επερωτήσεων’ με περιορισμένες δυνατότητες, χρησιμοποίησε τη γλώσσα κανόνων

RQDL (Papakonstantinou et al., 1996) για να περιγράψει τα Σημεία Πρόσβασης με τα

γνωρίσματά τους, τα οποία υποστηρίζει μία Z39.50 πηγή, αξιοποιώντας ταυτόχρονα

τις υπάρχουσες διαδικασίες που ελέγχουν αν η επερώτηση είναι δυνατό να εκτελεσθεί

από την πηγή.

Αξίζει να αναφερθεί ότι η πλειοψηφία των προαναφερθέντων συστημάτων

ολοκλήρωσης πληροφοριών εστιάζει στη συντακτική περιγραφή και μετεγγραφή

(grammar based mappings) των επερωτήσεων. Ελάχιστα είναι τα συστήματα των

οποίων οι κανόνες μπορούν να συμπεριλάβουν σημασιολογικές απεικονίσεις, ώστε να

είναι δυνατή η μετεγγραφή της επερώτησης κατά προσέγγιση σε μία άλλη

σημασιολογικά κοντινή, όταν είναι αδύνατη η ακριβής αντιστοίχιση κάποιου

χαρακτηριστικού αναζήτησης.

Μετεγγραφές κατά προσέγγιση με χρήση σημασιολογίας αντιμετωπίζονται

στην εργασία των Chang και Garcia-Molina (Chang and Garcia-Molina, 1999). Σε

αντίθεση με την παρούσα διατριβή, η σημασιολογία δεν εκφράζεται ρητά και

αυτόνομα με ένα μοντέλο αναπαράστασης, αλλά είναι ενσωματωμένη στους κανόνες

απεικόνισης των σχημάτων, οι οποίοι ορίζονται από το διαχειριστή του συστήματος

και όχι με αυτόματες διαδικασίες. Οι διαδικασίες μετεγγραφής στην παρούσα

διατριβή διαφέρουν στο ότι βασίζονται άμεσα στον RDFS γράφο που εκφράζει τις

σημασιολογικές συσχετίσεις και όχι σε κανόνες απεικόνισης των σχημάτων.

Επιπλέον, τα αποτελέσματα των μετεγγραφών από τους αλγορίθμους μετεγγραφής

Page 175: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 156

της παρούσας διατριβής είναι δυνατό να παράγουν τους αντίστοιχους κανόνες

απεικόνισης σχημάτων και να λειτουργήσουν συμπληρωματικά στο περιβάλλον των

Chang και Garcia-Molina.

7.3 Συμπεράσματα

Τα συστήματα μετα-αναζήτησης επιτρέπουν στους χρήστες την ενιαία και

ομοιόμορφη πρόσβαση σε μια πληθώρα από κατανεμημένες και αυτόνομες πηγές

πληροφόρησης. Οι περισσότερες από αυτές τις πηγές είναι διαθέσιμες από

πληροφοριακά συστήματα τα οποία παρέχουν πρόσβαση μέσω προκαθορισμένων

γλωσσών επερωτήσεων, χωρίς καμία άλλη δυνατότητα άμεσης πρόσβασης στους

πόρους και τη δομή των πηγών. Είναι άξιο αναφοράς ότι ο αριθμός των κρυμμένων

πηγών πίσω από πληροφοριακά συστήματα αυξάνεται ραγδαία (Bergman, 2001).

Ειδικότερα, στην κοινότητα των βιβλιοθηκών, η πρόσβαση στις διαθέσιμες

πληροφοριακές πηγές γίνεται από συστήματα αναζήτησης τα οποία βασίζονται στην

έννοια του αφηρημένου Σημείου Πρόσβασης και είναι συμβατά με το πρωτόκολλο

ανάκτησης πληροφοριών Z39.50.

Σύγχρονες έρευνες δείχνουν ότι η υλοποίηση και η βιωσιμότητα των

εικονικών συλλογικών καταλόγων είναι εφικτή, ιδιαιτέρως όταν ακολουθούν το

μοντέλο του ενδιάμεσου (mediator) (Cousins and Sanders, 2006). Επιπροσθέτως,

σύμφωνα με τον Macgregor, οι περισσότεροι Z39.50 διακομιστές αποκρίνονται

τάχιστα, ενώ τα τυχόν δικτυακά προβλήματα και η τοπική χρήση των συστημάτων δε

βρέθηκε να επηρεάζουν την απόδοση των διακομιστών (Macgregor, 2005). Στην

κοινότητα των βιβλιοθηκών, η καλύτερη θεμελίωση για την ανάπτυξη των

συστημάτων μετα-αναζήτησης είναι η ευρεία χρήση των πρωτοκόλλων Z39.50/SRU

και η συνεπής κωδικοποίηση εκφραστικών διατάξεων μεταδεδομένων (Dorman,

2008). Από όλες τις προαναφερθείσες εργασίες τονίζεται η σημασιολογική

διαλειτουργικότητα ως το σημαντικότερο θέμα στην ανάπτυξη των συστημάτων

μετα-αναζήτησης.

Το εννοιολογικό μοντέλο FRBR36, αποτελεί κύριο υπόβαθρο στην ανάπτυξη

της επόμενης γενιάς καταλόγων που βρίσκεται σε εξέλιξη (Coyle, 2004). Για την

36 Functional Requirements for Bibliographic Records.

Page 176: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 157

παρουσίαση και ευρετηρίαση των καταλόγων σύμφωνα με το μοντέλο FRBR, τα έργα

που είναι σε εξέλιξη εστιάζουν είτε στην εφαρμογή του μοντέλου είτε στην ανάπτυξη

εργαλείων και διαδικασιών σύνθεσης των FRBR οντοτήτων από τις ήδη υπάρχουσες

εγγραφές.

Παρά το ότι οι κοινοί κανόνες και τα πρότυπα εξισορροπούν την απόδοση με

την πολυπλοκότητα υλοποίησης ενός συστήματος μετα-αναζήτησης, όπως

αναπτύχθηκε στην παρούσα διατριβή, δεν επαρκούν για να λειτουργήσει

αποτελεσματικά και αποδοτικά ένα σύστημα μετα-αναζήτησης. Διαδικασίες

σημασιολογικής μετεγγραφής κατά προσέγγιση των επερωτήσεων με μη

υποστηριζόμενα Σημεία Πρόσβασης είναι δυνατό να βελτιώσουν σημαντικά την

αποτελεσματικότητα στα συστήματα μετα-αναζήτησης και να απαλείψουν τις

αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις που προκαλούν τα μη

υποστηριζόμενα Σημεία Πρόσβασης.

Για την αποτελεσματική και αποδοτική λειτουργία ενός συστήματος μετα-

αναζήτησης η παρούσα διατριβή ανέπτυξε ένα ολοκληρωμένο περιβάλλον

ενδιάμεσου (mediator) σε συστήματα συμβατά με το πρωτόκολλο Z39.50. Οι λύσεις

που αναπτύχθηκαν βελτιώνουν τις κύριες λειτουργίες του ενδιάμεσου για την

προώθηση της επερώτησης στις πηγές (κεφάλαιο 3), την περιγραφή των

χαρακτηριστικών αναζήτησης κάθε πηγής και την μετεγγραφή των επερωτήσεων

(κεφάλαιο 4, 5), καθώς επίσης την επεξεργασία και την ενοποίηση των

αποτελεσμάτων αναζήτησης (κεφάλαιο 6). Επιπλέον, η επαλήθευση των λύσεων οι

οποίες προτάθηκαν στην παρούσα διατριβή έγινε με την υλοποίησή τους στο

σύστημα μετα-Συνθέτης (κεφάλαιο 6).

Οι συνεισφορές της παρούσας διατριβής αφορούν στις ακόλουθες ενότητες:

• Περιβάλλον του ενδιάμεσου: αναπτύχθηκε μία αρχιτεκτονική για την

υλοποίηση συστήματος μετα-αναζήτησης, η αρχιτεκτονική του εικονικού

συλλογικού καταλόγου (κεφαλαίο 2). Η προτεινόμενη αρχιτεκτονική

μετεγγράφει και προωθεί την επερώτηση ασύγχρονα στις πηγές και ανακτά

σταδιακά και επεξεργάζεται παράλληλα τα αποτελέσματα της αναζήτησης.

Με την παράλληλη εκτέλεση των διαδικασιών, η εμφάνιση των πρώτων

μερικών αποτελεσμάτων στο χρήστη είναι συνάρτηση της ταχύτερης πηγής,

ενώ η συνολική απόδοση του συστήματος είναι συνάρτηση της πιο αργής

Page 177: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 158

πηγής, αλλά όχι του αθροίσματος των διαδικασιών από όλες τις πηγές. Η

περιγραφή των χαρακτηριστικών αναζήτησης γίνεται με τα Σχεδιότυπα

Επερώτησης που ορίστηκαν στο κεφάλαιο 4, ενώ για να υποστηρίζει ο

εικονικός συλλογικός κατάλογος τη σημασιολογική μετεγγραφή επερωτήσεων

κατά προσέγγιση αναπτύχθηκαν αλγόριθμοι αντικατάστασης μη

υποστηριζόμενων χαρακτηριστικών (κεφάλαιο 5). Η επεξεργασία των

αποτελεσμάτων αναζήτησης συνθέτει FRBR Έργο-κεντρικές συστάδες

μεταθέτοντας μέρος της επεξεργασίας στο σταθμό εργασίας του χρήστη, όπως

παρουσιάστηκε στο κεφάλαιο 6.

• Κοινοί κανόνες, πρότυπα: στο περιβάλλον του Z39.50 και των MARC

μεταδεδομένων αποσαφηνίζονται και επεξηγούνται υπάρχοντες κανόνες και

πρότυπα με την ανάπτυξη του Bib-1 Σημασιολογικού Δικτύου Σημείων

Πρόσβασης (κεφάλαιο 5). Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης,

εκφράζοντας τη σημασιολογία του μηχανισμού αναζήτησης του Z39.50

πρωτοκόλλου σε γλώσσα RDFS είναι η βάση όπου αναπτύχθηκε η

σημασιολογική μετεγγραφή κατά προσέγγιση και αποτελεί ένα αυτοτελές

εργαλείο για την κατανόηση και ορθή χρήση των Σημείων Πρόσβασης στην

κοινότητα των βιβλιοθηκών.

• Αλγόριθμοι: αναπτύχθηκαν εναλλακτικές διαδικασίες για τη μετεγγραφή

επερωτήσεων βασισμένες στη σημασιολογική συσχέτιση των Σημείων

Πρόσβασης. Ειδικότερα, στο κεφάλαιο 5 αναπτύχθηκαν: (α) Οι αλγόριθμοι

αντικατάστασης μη υποστηριζόμενων Σημείων Πρόσβασης με διεύρυνση ή

σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου Πρόσβασης.

Επιπροσθέτως, αναπτύχθηκε και η αντίστοιχη βελτιστοποίηση κάθε

περίπτωσης, ώστε να προκύπτει το πλησιέστερο σημασιολογικά σύνολο

Σημείων Πρόσβασης με το αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης. (β)

Ορίσθηκαν τα κριτήρια μέτρησης της σημασιολογικής ομοιότητας μεταξύ

Σημείων Πρόσβασης και (γ) Ορίσθηκε ο τύπος για τη βέλτιστη αντικατάσταση

του Σημείου Πρόσβασης σύμφωνα με προεπιλογές που αφορούν την ανάκληση

(recall) και ακρίβειά (precision) του.

• Ανοικτές υπηρεσίες: υλοποιήθηκε το σύστημα μετα-Συνθέτης, το οποίο

εφαρμόζει τις μεθόδους που αναπτύχθηκαν στην παρούσα διατριβή και το

Page 178: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 159

οποίο παρέχει πρόσβαση σε αντιπροσωπευτικές Z39.50 πηγές, οι οποίες

παρουσιάζουν παγκόσμιο ενδιαφέρον, όπως Library of Congress, MELVYL,

COPAC, κλπ., (κεφάλαιο 6). Επιπροσθέτως, η λειτουργικότητα του

Σημασιολογικού Δικτύου Σημείων Πρόσβασης και των τακτικών

αντικατάστασης είναι διαθέσιμη σαν υπηρεσία ανοικτής πρόσβασης με

τεχνολογίες του παγκόσμιου ιστού (κεφάλαιο 5).

7.4 Μελλοντική έρευνα

Τα συστήματα μετα-αναζήτησης διαδραματίζουν καθοριστικό ρόλο στην ομοιόμορφη

και αποτελεσματική πρόσβαση της διαθέσιμης πληροφορίας τόσο στο περιβάλλον

των βιβλιοθηκών όσο και του διαδικτύου ευρύτερα. Ο σκοπός της παρούσας

διατριβής είναι να αναπτύξει τις απαραίτητες διαδικασίες οι οποίες θα δώσουν στο

χρήστη τη δυνατότητα να ανιχνεύσει και να αξιοποιήσει εύκολα και αποτελεσματικά

τις διαθέσιμες πληροφοριακές πηγές. Εκτός από τα θέματα που αναπτύχθηκαν στην

παρούσα διατριβή και τη συνεισφορά της στα αντικείμενα που πραγματεύθηκε,

ανιχνεύθηκαν και μία σειρά από ενδιαφέροντα θέματα τα οποία χρήζουν περαιτέρω

μελέτης και έρευνας. Τα θέματα αυτά, τα οποία παρατίθενται στη συνέχεια,

σχετίζονται με όλο το φάσμα των διαδικασιών μετα-αναζήτησης.

Στην παρούσα εκδοχή της μετρικής, η οποία προσδιορίζει τα χαρακτηριστικά

της ταξινομικής ανάκλησης και ακρίβειας συμμετέχουν ισότιμα όλα τα πεδία που

συνθέτουν το Σημείο Πρόσβασης. Γνωρίζοντας ότι στην πράξη όλα τα πεδία δε

σταθμίζονται το ίδιο, είτε λόγω της σπουδαιότητάς τους στον προσδιορισμό και στην

ταυτοποίηση του έργου (π.χ. τίτλος, συγγραφέας, χρόνος έκδοσης), είτε λόγο της

έκφρασης, εκδήλωσης κλπ. του έργου (π.χ. οπτικοακουστικό υλικό, χειρόγραφες

παρτιτούρες), είτε λόγω της συχνότητας που εμφανίζεται στις εγγραφές, κλπ., το

ζητούμενο είναι να ορισθούν τα κατάλληλα μεγέθη που θα σταθμίζουν τα πεδία

μεταδεδομένων και να επεκταθεί ο τρόπος προσδιορισμού της ταξινομικής ανάκλησης

και ακρίβειας και να σταθμίζει κατάλληλα κάθε πεδίο μεταδεδομένων που συνθέτει

το Σημείο Πρόσβασης.

Ένα επόμενο ενδιαφέρον θέμα είναι η αποτίμηση της ταξινομικής ανάκλησης

και ακρίβειας συνολικά για την επερώτηση συσχετίζοντας όλα τα μη υποστηριζόμενα

Page 179: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 160

Σημεία Πρόσβασης. Η τρέχουσα εκδοχή αποτιμά και αντικαθιστά μεμονωμένα κάθε

Σημείο Πρόσβασης. Μια ενδιαφέρουσα μελέτη προς διερεύνηση είναι η ανίχνευση

όλων των δυνατών συνδυασμών αντικαταστάσεων μεταξύ των λογικών εκφράσεων

των Σημείων Πρόσβασης και η αποτίμηση κάθε συνδυασμού.

Όπως αναφέρθηκε στην παρουσίαση του πρωτόκολλου Z39.50, στο κεφάλαιο

2, ο διάδοχος του Z39.50 με τεχνολογίες του παγκόσμιου ιστού είναι το πρωτόκολλο

SRU. Η ανάπτυξη του SRU βασίστηκε στη σημασιολογία του Z39.50 διατηρώντας

ουσιαστικά την έννοια του Σημείου Πρόσβασης σαν ένα κύριο χαρακτηριστικό του

μηχανισμού αναζήτησης. Η επέκταση του Σημασιολογικού Δικτύου Σημείων

Πρόσβασης ώστε να περιλαμβάνει τα Σύνολα Συμφραζομένων (Context Sets) και τα

Ευρετήρια (Indexes) του SRU, δηλαδή τα αντίστοιχα των Συνόλων Γνωρισμάτων και

Τύπων Γνωρισμάτων του Z39.50, σε ένα μετα-σχήμα RDFS το οποίο θα εκφράζει τις

υποκείμενες σημασιολογικές συσχετίσεις μεταξύ των ευρετηρίων όλων των Συνόλων

Συμφραζομένων, θα βοηθούσε σημαντικά στην περαιτέρω ανάπτυξη και εφαρμογή

του SRU και στην έκφραση της σημασιολογίας ενός γενικευμένου σχήματος

αναζήτησης στην κοινότητα των βιβλιοθηκών.

Ένα γενικά παραδεκτό πρόβλημα στα συστήματα μετα-αναζήτησης είναι η

αδυναμία τους να ανακτήσουν όλα τα αποτελέσματα από όλες τις πηγές, ιδιαιτέρως

όταν πρόκειται είτε για μεγάλο αριθμό πηγών, είτε για μεγάλο αριθμό αποτελεσμάτων

από γενικές επερωτήσεις. Όπως αναπτύχθηκε στην παρούσα διατριβή, η χρήση

εξειδικευμένων Σημείων Πρόσβασης ελαττώνει τον αριθμό των αποτελεσμάτων,

αναιρώντας ουσιαστικά σε αρκετές περιπτώσεις τόσο τους περιορισμούς ανάκτησης

των τοπικών συστημάτων, όσο και τον περιορισμό του συστήματος μετα-αναζήτησης.

Προκλήσεις για τη βελτίωση της διαδικασίας ανάκτησης και την επιλογή της

καταλληλότερης πηγής είναι οι ακόλουθες: μια καλύτερη προσέγγιση του

πραγματικού συνολικού αριθμού εγγραφών που ικανοποιούν το αίτημα του χρήστη,

με πιθανή χρήση ειδικών υπηρεσιών του πρωτοκόλλου αν υπάρχουν, ή πρόχειρα

στατιστικά από τα πρώτα αποτελέσματα που θα ανακτηθούν. Όπως αναπτύχθηκε

στην ενότητα 3.2.2, ο αριθμός των αποτελεσμάτων ο οποίος αναφέρεται σε κάθε

απόκριση ενός αιτήματος αναζήτησης δεν είναι στην πραγματικότητα σωστός. Αυτό

οφείλεται στο ότι ο αριθμός των αποτελεσμάτων κάθε πηγής, κατά κανόνα,

περιγράφει εγγραφές και όχι οντότητες FRBR Έργων, καθώς και στο ότι η πηγή δεν

Page 180: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Κεφάλαιο 7 161

ανιχνεύει πάντα τις όμοιες εγγραφές, με συνέπεια ο αριθμός από την πηγή να μην

αναφέρεται σε μοναδικές εγγραφές. Επιπροσθέτως, μεταξύ των αποτελεσμάτων από

διαφορετικές πηγές είναι δυνατόν να υπάρχουν κοινές εγγραφές. Η καλύτερη

προσέγγιση του αριθμού των μοναδικών έργων είναι μία σημαντική ένδειξη στο

χρήστη για να επαναδιατυπώσει μια πιο ειδική ερώτηση με συνέπεια να αποφύγει το

μεγάλο αριθμό αποτελεσμάτων.

Συνεχίζοντας τα προς διερεύνηση θέματα που σχετίζονται με τις διαδικασίες

ανάκτησης, ένα άλλο σημαντικό ζήτημα είναι η ανάπτυξη ενός μηχανισμού που θα

αποδίδει προτεραιότητα πρόσβασης στις πηγές. Η προτεραιότητα πρόσβασης θα

καθορίζει τη σειρά και το χρόνο πρόσβασης στις πηγές, ενώ θα πρέπει να σταθμίζει

μεγέθη που θα αποτιμούν τα χαρακτηριστικά που υποστηρίζει κάθε πηγή, τα

στατιστικά απόδοσης από προηγούμενες προσβάσεις, την ποιότητα και το πιθανό

κόστος πρόσβασης κάθε πηγής, καθώς επίσης να συνδυάζει και άλλες προεπιλογές

του χρήστη, όπως συνάφεια του περιεχομένου της πηγής, κλπ. Επιπροσθέτως, από

τον ίδιο μηχανισμό προτεραιότητας πρόσβασης στις πηγές θα είναι δυνατόν να

προσδιορίζεται καλύτερα ο αριθμός των εγγραφών που θα περιέχουν τα επιμέρους

πακέτα ανάκτησης (ενότητα 3.2), αποφεύγοντας είτε μεγάλες αναμονές, σε

περίπτωση που μια πηγή καθυστερεί, είτε άσκοπες δικτυακές επικοινωνίες, στην

αντίθετη περίπτωση.

Ολοκληρώνοντας την παρουσίαση, η πιο εκτεθειμένη δραστηριότητα ενός

συστήματος μετα-αναζήτησης είναι η παρουσίαση των αποτελεσμάτων στο χρήστη,

μιας και δέχεται τις πιο άμεσες κριτικές από αυτόν. Με τους δεδομένους

περιορισμούς του περιβάλλοντος μετα-αναζήτησης και την παντελή έλλειψη Έργο-

κεντρικών πηγών, βελτιώσεις στη σύνθεση των FRBR Έργο-κεντρικών συστάδων θα

πρέπει να ανιχνευτούν με μεγάλη επιμέλεια και απαιτούν περαιτέρω έρευνα λόγω του

περιορισμένου χρόνου που διαθέτει ο ενδιάμεσος να επεξεργαστεί τα αποτελέσματα

ανάκτησης. Επιπροσθέτως, μια πιο πιστή υλοποίηση της προτεινόμενης

αρχιτεκτονικής του εικονικού συλλογικού καταλόγου, η οποία αναπτύχθηκε από την

παρούσα διατριβή στο κεφάλαιο 3, και ειδικότερα ό,τι σχετίζεται με την παράλληλη

εκτέλεση των διαδικασιών και τη λειτουργία των υποσυστημάτων, θα δώσει αρκετά

επιπλέον στοιχεία και προϋποθέσεις για την ανάπτυξη και ουσιαστικότερη χρήση των

συστημάτων μετα-αναζήτησης.

Page 181: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Παράρτημα Α

Ενδεικτικά παραδείγματα Z39.50 πηγών με

τα Σημεία Πρόσβασης που υποστηρίζουν

Πίνακας Α.1. Τα Σημεία Πρόσβασης που υποστηρίζουν37 τα συστήματα διάθεσης των καταλόγων της Library of Congress, των συλλογικών καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του Πανεπιστήμιου Κρήτης.

Σημεία Πρόσβασης Library of Congress (ΗΠΑ)38

MELVYL (ΗΠΑ)39

COPAC (ΗΠΑ)40

Πανεπιστήμιο Κρήτης41

Abstract_62 √ √ √ √Any_1016 √Author-name_1003 √ √ √ √Author-name-corporate_1005 √Author-name-personal_1004 √ √ √ √Author-name-conference_1006 √Author-name-corporate_1005 √Classification-Dewey_13 √Classification-government-publication_50

√ √

Classification-LC_16 √

37 Σύμφωνα με τα αντίστοιχα τεκμήρια των οργανισμών που περιγράφουν τη διαμόρφωση των Z39.50 διακομιστών και τα οποία είναι πιθανό να τροποποιηθούν μελλοντικά.

38 Σύμφωνα με το τεκμήριο “LC Z39.50/SRW/SRU Server Configuration Guidelines” στη διεύθυνση: http://www.loc.gov/z3950/lcserver.html.

39 Σύμφωνα με το τεκμήριο “Melvyl Z39.50 Server” στη διεύθυνση: http://www.cdlib.org/services/d2d/melvyl/melvyl-z3950.rtf

40 Σύμφωνα με το τεκμήριο “COPAC: Z39.50 interface” στη διεύθυνση: http://copac.ac.uk/interfaces/z39.50/#attributes

41 Μετά από δοκιμαστική χρήση όλων των Σημείων Πρόσβασης και γνωρίζοντας ότι η πηγή παράγει αποτυχημένες επερωτήσεις όταν δεν υποστηρίζει το Σημείο Πρόσβασης.

162

Page 182: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Παράρτημα Α 163

Classification-NLM_17 √Code-geographic-area_55 √Code-institution_56 √ √Code-language_54 √ √ √Code-map-scale_1024 √Cntrol_number-LC_9 √ √Cntrol_number-local_12 √ √ √Date_30 √ √ √Date-publication_31 √ √ √ √Identifier-CODEN_60 √Identifier-ISBN_7 √ √ √ √Identifier-ISSN_8 √ √ √ √Identifier-national-bibliography_48 √Identifier-publisher-for-music_51

√ √

Identifier-report_1027 √Identifier-standard_1007 √ √ √Name_1002 √Name-conference_3 √ √ √Name-corporate_2 √ √ √Name-geographic_58 √Name-geographic-place-publication_59

√√

Name-personal_1 √ √ √ √Name-publisher_1018 √ √ √Note_63 √ √Record-source_1019 √Subject_21 √ √ √ √Subject-LC_27 √Subject-LC-childrens_1008 √Subject-MESH_25 √Subject-name-personal_1009 √ √Title_4 √ √ √ √Title-abbreviated_43 √Title-former_42 √Title-key_33 √Title-other-variant_41 √Title-series_5 √ √

Page 183: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Παράρτημα Α 164

Πίνακας Α.2. Τα κοινά Σημεία Πρόσβασης που υποστηρίζουν τα συστήματα διάθεσης των καταλόγων της βιβλιοθήκης της Library of Congress, των συλλογικών καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του Πανεπιστήμιου Κρήτης.

Α/Α Κοινά Σημεία Πρόσβασης1 Any_10162 Author-name_10033 Author-name-personal_10044 Date-publication_315 Identifier-ISBN_76 Identifier-ISSN_87 Name-personal_18 Subject_219 Title_4

Εικόνα Α.1. Αναπαράσταση του γράφου συσχετίσεων Σημείων Πρόσβασης. Οι κόμβοι με πράσινο

χρώμα συμβολίζουν τα Σημεία Πρόσβασης που υποστηρίζει η Library of Congress.

Page 184: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Παράρτημα Α 165

Εικόνα Α.2. Αναπαράσταση του γράφου συσχετίσεων Σημείων Πρόσβασης. Οι κόμβοι με πράσινο

χρώμα συμβολίζουν τα Σημεία Πρόσβασης που υποστηρίζει η βιβλιοθήκη του Πανεπιστημίου Κρήτης.

Page 185: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Παράρτημα Β

Γλωσσάρι

Αγγλικός Όρος Απόδοση στα Ελληνικά

(Abstract) Access Point (Αφηρημένο) Σημείο Πρόσβασης

Attribute Set Σύνολο Γνωρισμάτων

Broad Substitution Αντικατάσταση με Διεύρυνση

Broadcast, Forward ΠροωθείClient ΠελάτηςCluster ΣυστάδαComponent ΥποσύστημαConcept ΈννοιαConjunctive ΣυζευκτικόςConjunctive Query Συζευκτική ΕπερώτησηConstant Placeholder Προσδιοριστής ΣταθεράςDirected graph Προσανατολισμένος γράφοςDisjunctive ΔιαζευκτικόςDisjunctive Query Διαζευκτική ΕπερώτησηEdges - Arcs Ακμές - τόξαEntity Relationship model Μοντέλο Οντοτήτων-ΣυσχετίσεωνExpansion ΑνάπτυξηFederated Search Ομόσπονδη αναζήτησηFRBR expression FRBR ΈκφρασηFRBR Manifestation FRBR Εκδήλωση

166

Page 186: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Παράρτημα Β 167

FRBR Work FRBR ΈργοGrammar based mappings Γραμματικοί κανόνες αντιστοίχισηςGraph ΓράφοςIn-degree Έσω-βαθμόςInfinite ΆπειροInformation Retrieval Ανάκτηση πληροφορίαςInstance ΣτιγμιότυποInterface ΔιεπαφήLiteral Λεκτική σταθεράMediator ΕνδιάμεσοςMeta-search Μετα-αναζήτησηModule (Software) Μονάδα (λογισμικού)Narrow Substitution Αντικατάσταση με σύμπτυξηOnline Άμεση επικοινωνίαOut-degree Έξω-βαθμόςPrecision ΑκρίβειαQuery ΕπερώτησηQuery Capabilities Χαρακτηριστικά ΕπερώτησηςRecall ΑνάκλησηReference (gold) ontology Κοινά συμφωνημένη ή αποδεκτή οντολογία

Resource Πόρος

Retrieve ΑνάκτησηRetrieved, learned ontology Αναπτυσσόμενη οντολογίαRewrite ΜετεγγραφήRule based languages Γλώσσες βασισμένες σε κανόνεςSearch ΑναζήτησηSearch Capabilities Χαρακτηριστικά ΑναζήτησηςSemantic Access Point Network

(SAPN)

Σημασιολογικό Δίκτυο Σημείων Πρόσβασης

(ΣηΔιΣηΠ)Server ΔιακομιστήςSource ΠηγήStandard ΠρότυποTemplate ΣχεδιότυποTuple ΠλειάδαVertices - Nodes Κορυφές - ΚόμβοιWeight ΣτάθμισηWrapper Περίβλημα, (Εφαρμογή περιβλήματος)

Page 187: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία

Aalberg, T., Haugen, F. and Husby, O. (2006), “A Tool for Converting from MARC to

FRBR”, Gonzalo, J. et. al. (eds.), ECDL 2006, LNCS 4172, Berlin, Heidelberg:

Springer-Verlag, pp. 453–456.

American Library Association (1968-1981), “The National union catalog, pre-1956

imprints; a cumulative author list representing Library of Congress printed cards

and titles reported by other American libraries”, London: Mansell, 1968-1981. –

ISBN 0720100038.

ANSI/NISO (1993), “Z39.58 Common Command Language for Online Interactive

Information Retrieval”, NISO Press, Bethesda, MD.

ANSI/NISO (1995), “Z39.50 Information Retrieval: application service definition and

protocol specification: approved May 10, 1995 by the American National

Standards Organization”, NISO Press, Bethesda, MD.

Beall, Jeffrey; Kafadar, Karen (2005), “The Proportion of NUC Pre-56 Titles

Represented in OCLC WorldCat”, College & Research Libraries, Vol. 66, No. 5,

pp. 431–5.

Bergman, M. (2001), “The Deep Web: Surfacing Hidden Value”, Journal of

Electronic Publishing, Vol. 7, No. 1, August, 2001. Διαθέσιμο στο:

http://quod.lib.umich.edu/cgi/t/text/text-idx?

c=jep;view=text;rgn=main;idno=3336451.0007.104 (τελευταία πρόσβαση 26

168

Page 188: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 169

Φεβρουαρίου 2010).

Booth, H. and Hartley, R.J. (2004), “User Behaviour in the Searching of Union

Catalogues: An Investigation for Work Package C of CC-interop”, Centre for

Digital Library Research, Glasgow. Διαθέσιμο στο:

http://en.scientificcommons.org/17665742 (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

Carey, M., Haas, L., Schwarz, P., Arya, M., Cody, W., Fagin, R., Flickner, M.,

Luniewski, A., Niblack, W., Petkovic, D., Thomas, J., Williams, J., Wimmers,

E. (1995), “Towards heterogeneous multimedia information systems: the Garlic

approach”, Proceedings of the 5th International Workshop on Research Issues in

Data Engineering-Distributed Object Management (RIDE-DOM'95), p.124, 06-

07 March.

Chang, C. and Garcia-Molina, H. (1999), “Mind your vocabulary: Query mapping

across heterogeneous information sources”, Proceedings of the 1999 ACM

SIGMOD international conference on Management of data, pp. 335-346, NY,

USA: ACM.

Chawathe, S., Garcia-Molina, H., Hammer, J., Irelandand, K., Papakonstantinou Y.,

Ullman, J. and Widom, J. (1994), “The TSIMMIS Project: Integration of

Heterogeneous Information Sources”, Proceedings of the IPS Conference, pp. 7 -

18, Tokyo, Japan.

Cousins, S. and Sanders, A. (2006), “Incorporating a virtual union catalogue into the

wider information environment through the application of middleware

Interoperability issues in cross-database access”, Journal of Documentation, Vol.

62 No. 1, pp. 120-144.

Coyle, Karen (2000), “The Virtual Union Catalogue: A Comparative Study”, D-Lib

Magazine Vol. 6, No. 3.

DCMI (2008), “Dublin Core Metadata Element Set, Version 1.1”. Διαθέσιμο στο:

http://dublincore.org/documents/dces/ (τελευταία πρόσβαση 26 Φεβρουαρίου

2010).

Dellschaft, K. and Staab, S. (2006), “On How to Perform a Gold Standard Based

Evaluation of Ontology Learning”, Cruz, I. et al. (eds.) ISWC 2006, LNCS 4273,

pp. 228–241, Heidelberg: Springer.

Page 189: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 170

Dorman, D. (2008), “The potential of metasearching as an ‘open’ service”, Library Hi

Tech, Vol. 26 No. 1, pp. 58-67.

Gonçalves, Μ.-Α., France, R. and Fox, E. (2001), “MARIAN: Flexible

Interoperability for Federated Digital Libraries”, Constantopoulos, P. and

Sølvberg, I. (Eds.): ECDL 2001, LNCS 2163, pp. 173-186, Berlin Heidelberg:

Springer-Verlag.

Gravano, L., Chang, C., Garcia-Molina, H., Paepcke, A. (1997), “STARTS: Stanford

proposal for Internet meta-searching”, Proceedings of the 1997 ACM SIGMOD

Conference, pp. 207 – 218, ACM, New York.

IFLA Study Group on the Functional Requirements for Bibliographic Records,

(1998), “Functional Requirements for Bibliographic Records: Final Report”,

UBCIM Publications-New Series, Vol. 19, Munchen: K. G. Saur. Διαθέσιμο στο:

http://www.ifla.org/VII/s13/frbr/frbr.htm (τελευταία πρόσβαση 26 Φεβρουαρίου

2010).

IFLA UNIMARC Core Activity (2008), “UNIMARC manual: bibliographic format”,

Hopkinson, A. (ed), 3rd ed., IFLA Series in Bibliographic Control, Vol. 36,

München: Saur.

Index Data (2008), “Pazpar2 - User’s Guide and Reference”. Διαθέσιμο στο:

http://www.indexdata.com/pazpar2/doc/pazpar2.pdf (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

ISO TC 46 SC 4 8777 (1993), “Information and documentation -- Commands for

interactive text searching”, International Organization for Standardization,

Geneva, Switzerland.

ISO TC 46 SC 4 (2004), “The Bath Profile: An International Z39.50 Specification for

Library Applications and Resource Discovery, Release 2”. Διαθέσιμο στο:

http://www.collectionscanada.gc.ca/bath/91/tp-bath2-e.pdf (τελευταία πρόσβαση

26 Φεβρουαρίου 2010).

Joint Steering Committee for Revision of AACR, The (2004), “Anglo-American

Cataloguing Rules”, 2nd ed., 2002 revision. ISBN 0-8389-3531-1.

Karvounarakis, G., Alexaki S., Christophides, V., Plexousakis D., and Scholl, M.

(2002), “RQL: A Declarative Query Language for RDF”, Proceedings of the 11th

International World Wide Web Conference (WWW’02), Honolulu, Hawaii, USA,

Page 190: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 171

pp. 173-186.

Kaoudi, Z., Dalamagas, T., Sellis, T. (2005), “RDFSculpt: Managing RDF Schemas

under Set-like Semantics”, Proceedings of the ESWC’05 International

Conference, Heraklion, Greece, pp. 123-137.

Kirk, T., Levy, A., Sagiv, Y. and Srivastava, D. (1995), “The Information Manifold”

Proceedings of the AAAI Spring Symposium on Information Gathering from

Heterogeneous, Distributed Environments, pp. 85 – 91.

Larson, R. (2001), “Distributed Resource Discovery: Using Z39.50 to Build Cross-

Domain Information Servers”, JDCL’01, June 24-28 2001.

Leiner, B. M. (1998), “The Scope of the Digital Library”, Draft Prepared by Barry M.

Leiner for the DLib Working Group on Digital Library Metrics, January 16,

1998, Revised October 15, 1998, Διαθέσιμο στο:

http://www.dlib.org/metrics/public/papers/dig-lib-scope.html (τελευταία

πρόσβαση 26 Φεβρουαρίου 2010).

LeVan, R. (2006), “OpenSearch and SRU: A continuum of searching”, Information

Technology and Libraries, Vol. 25 No. 3, pp. 151-153.

Levy, A., Rajaraman, A., Ullman, J. (1996) ‘Answering Queries Using Limited

External Query Processors’, PODS 96, Montreal Quebec Canada, pp. 227 - 237.

Library of Congress Network Development and MARC Standards Office (1999),

“MARC 21 Format for Bibliographic Data”. Διαθέσιμο στο:

http://www.loc.gov/marc/bibliographic/ (τελευταία πρόσβαση 26 Φεβρουαρίου

2010).

Library of Congress Network Development and MARC Standards Office (2001a),

“Displays for Multiple Versions from MARC 21 and FRBR”. Διαθέσιμο στο:

http://www.loc.gov/marc/marc-functional-analysis/multiple-versions.html

(τελευταία πρόσβαση 26 Φεβρουαρίου 2010).

Library of Congress Network Development and MARC Standards Office (2001b),

“UNIMARC to MARC21 Conversion Specifications”. Διαθέσιμο στο:

http://www.loc.gov/marc/unimarctomarc21.html (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

Library of Congress Network Development and MARC Standards Office (2004a),

“FRBR Display Tool Version 2.0”. Διαθέσιμο στο:

Page 191: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 172

http://www.loc.gov/marc/marc-functional-analysis/tool.html (τελευταία

πρόσβαση 26 Φεβρουαρίου 2010)

Library of Congress Network Development and MARC Standards Office (2004b),

“MODS to MARCXML Stylesheet”. Διαθέσιμο στο:

http://www.loc.gov/standards/marcxml/xslt/MODS2MARC21slim.xsl

(τελευταία πρόσβαση 26 Φεβρουαρίου 2010)

Library of Congress Network Development and MARC Standards Office (2004c),

“MARC XML Architecture”. Διαθέσιμο στο:

http://www.loc.gov/standards/marcxml/marcxml-architecture.html (τελευταία

πρόσβαση 26 Φεβρουαρίου 2010)

Library of Congress Network Development and MARC Standards Office (2009),

“MODS: Uses and Features”. Διαθέσιμο στο:

http://www.loc.gov/standards/mods/mods-overview.html (τελευταία πρόσβαση

26 Φεβρουαρίου 2010)

Lunau, C., Turner, F. (1997), “Issues Related to the Use of Z39.50 to Emulate a

Centralized Union Catalogue”, Prepared for the ARL Access Committee,

National Library of Canada, April 1997. Διαθέσιμο στο:

http://www.eric.ed.gov/ERICWebPortal/search/detailmini.jsp?

_nfpb=true&_&ERICExtSearch_SearchValue_0=ED461382&ERICExtSearch_

SearchType_0=no&accno=ED461382 (τελευταία πρόσβαση 26 Φεβρουαρίου

2010).

Lynch, Clifford A. (1997), “Building the Infrastructure of Resource Sharing: Union

Catalogs, Distributed Search, and Cross-Database Linkage”, Library Trends Vol.

45, No. 3, pp. 448-461.

Macgregor, G. (2005), “Z39.50 broadcast searching and Z-server response times

Perspectives from CC-interop”, Online Information Review, Vol. 29 No. 1, pp.

90-106.

Maedche, A., Staab, S. (2002), “Measuring similarity between ontologies”,

Proceedings of the European Conference on Knowledge Acquisition and

Management (EKAW-2002). Siguenza, Spain.

Manoj Μ and Jacob, E. (2008), “Information retrieval on the Internet using meta-

search engines: A review”, Journal of Scientific & Industrial Research, Vol. 67,

Page 192: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 173

October 2008, pp. 739-746.

McCallum, S. (2006), “A Look at New Information Retrieval Protocols: SRU,

OpenSearch/A9, CQL, and XQuery”, Word Library and Information Congress:

72nd IFLA General Conference and Council, 20-24 August 2006, Seoul, Korea.

Διαθέσιμο στο: http://archive.ifla.org/IV/ifla72/papers/102-McCallum-en.pdf

(τελευταία πρόσβαση 26 Φεβρουαρίου 2010).

Mimno, D., Grane, G. and Jones, A. (2005), “Hierarchical Catalog Records:

Implementing a FRBR Catalog”, D-Lib Magazine, Vol. 11 No. 10. Διαθέσιμο

στο: http://www.dlib.org/dlib/october05/crane/10crane.html (τελευταία

πρόσβαση 26 Φεβρουαρίου 2010).

Moen, E. (2001), “Mapping the Interoperability Landscape for the Networked

Information Retrieval”, JCDL 2001, June 24-28, 2001, Roanoke, Virginia, USA.

Moghaddam, A. (2007), “Web metasearch engines. A comparative study on search

capabilities using an evaluation check-list”, Online Information Review, Vol. 31

No. 3, pp. 300-309.

Morgan, E. (2004), “An Introduction to the Search/Retrieve URL Service (SRU)”,

Ariadne, Issue 40, July 2004. Διαθέσιμο στο:

http://www.ariadne.ac.uk/issue40/morgan/ (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

Motro, A. (1987), “Superviews: Virtual Integration of Multiple, Databases”, IEEE

Transactions on Software Engineering, Vol. 13 No. 7, pp. 785-798.

Negus, A. (1979), “Development of the Euronet-Diane Common Command

Language”, Proceedings 3rd International Online Information Meeting, pp. 95-

98, Learned Information, Oxford, U.K.

One-2 (1999), “One-2: OPAC Network in Europe 2”, CEC Project Number: LB-5643-

B/ONE-2. 1999-10-13 rev.5

OCLC (2005), “FRBR work-set algorithm”. Διαθέσιμο στο:

http://www.oclc.org/research/software/frbr/default.htm (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

Papakonstantinou Y., Gupta, A. Garcia-Molina, H. Ullman, J. (1995), ‘A Query

Translation Scheme for Rapid Implementation of Wrappers’, LNCS 1013,

Springer-Verlag, London, UK, pp. 161 - 186.

Page 193: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 174

Papakonstantinou Y., Gupta A., Hass L. (1996), “Capabilities-Based Query Rewriting

in Mediator Systems”, Distributed and Parallel Databases, Vol. 6, No. 1,

Kluwer Academic Publishers, Hingham, MA, USA, pp. 73 - 110.

Payette, S. D. and Rieger, O.Y. (1997), “Z39.50 the User’s Perspective”, D-Lib

Magazine, Vol. 3, April 1997. Διαθέσιμο στο:

http://www.dlib.org/dlib/april97/cornell/04payette.html (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

Shreeves, S., Riley, J., Milewicz, L. (2008), “Moving towards shareable metadata”,

First Monday. Vol. 11, No. 8. Διαθέσιμο στο:

http://firstmonday.org/htbin/cgiwrap/bin/ojs/index.php/fm/article/view/1386/130

4 (τελευταία πρόσβαση 26 Φεβρουαρίου 2010).

Sitas, A., Kapidakis, S. (2008), “Duplicate detection algorithms of bibliographic

descriptions”, Library Hi Tech, Vol. 26 No. 2, pp. 287 - 301.

Stubley, P., Bull, R. and Kidd, T. (2001), “Feasibility Study for a National Union

Catalogue: Final Report”, University of Sheffield, Sheffield. Διαθέσιμο στο:

http://www.shef.ac.uk/archive/uni/projects/uknuc/NUCrep.pdf (τελευταία

πρόσβαση 26 Φεβρουαρίου 2010).

Taylor, M. (2000), “Zthes: a Z39.50 Profile for Thesaurus Navigation”. Διαθέσιμο

στο: http://www.loc.gov/z3950/agency/profiles/zthes-04.html (τελευταία

πρόσβαση 26 Φεβρουαρίου 2010).

The CIMI Profile Development Working Group (1996), “The CIMI Profile: Z39.50

Application Profile Specifications for Use in Project CHIO”. Διαθέσιμο στο:

http://www.loc.gov/z3950/agency/profiles/cimi2.html (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

The Stanford Digital Libraries Group (1995), “The Stanford Digital Library Project”,

Communications of the ACM, Vol. 38, No. 4, pp. 59 – 60, ACM, New York,

USA.

Tillett, B. (2004), “What is FRBR? A Conceptual Model for the Bibliographic

Universe”. Διαθέσιμο στο: http://www.loc.gov/cds/downloads/FRBR.PDF

(τελευταία πρόσβαση 26 Φεβρουαρίου 2010).

Tomasic, A., Raschid, L. and Valduriez, P. (1996), “Scaling heterogeneous databases

and the design of disco”, Proceedings of the 16th International Conference on

Page 194: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 175

Distributed Computing Systems (ICDCS '96), pp. 449 - 457, May 27 – 30, Hong

Kong.

Ullman, J. (1988), “Principles of Database and Knowledge-Based Systems”, v. I. New

York: Computer Science Press.

Ullman, J. (1989), “Principles of Database and Knowledge-Based Systems”, v. II.

New York: Computer Science Press.

Ullman, J. (1997), “Information Integration Using Local Views”, Proceedings of the

6th International Conference on Database Theory, LNCS 1186, pp. 19 – 40,

Springer-Verlag, London, UK.

Vassalos, V., Papakonstantinou Y. (2000), “Expressive Capabilities Description

Languages and Query Rewriting Algorithms”, Journal of Logic Programming,

vol. 43, number 1, 2000, pp. 75-122.

W3C (2000), “Resource Description Framework Schema Specification 1.0”, W3C

Candidate Recommendation 27 March 2000. Διαθέσιμο στο:

http://www.w3.org/TR/2000/CR-rdf-schema-20000327/ (τελευταία πρόσβαση

26 Φεβρουαρίου 2010).

W3C (2004), “XML Schema Part 2: Data types” Second edition. Διαθέσιμο στο:

http://www.w3.org/TR/xmlschema-2/ (τελευταία πρόσβαση 26 Φεβρουαρίου

2010).

Wiederhold, G. (1992), “Mediators in the architecture of future information systems”,

IEEE Computer, Vol. 25 No.3, pp. 38-49.

Yee, M. (2005) "FRBRization: a Method for Turning Online Public Finding Lists into

Online Public Catalogs", Information Technology and Libraries, Vol. 24 No. 3,

pp. 77-95.

Yu, S.-C. and Chen, R.-S. (2003), “Web services: XML-based system integrated

techniques”, Electronic Library, Vol. 21 No. 4, pp. 358-66.

ZIG (1995), “Attribute Set BIB-1 (Z39.50-1995): Semantics”. Διαθέσιμο στο:

http://www.loc.gov/z3950/agency/bib1.html (τελευταία πρόσβαση 26

Φεβρουαρίου 2010).

ZIG (1997), “ZDSR: Profile: Z39.50 Profile for Simple Distributed Search and

Ranked Retrieval”. Διαθέσιμο στο:

http://www.loc.gov/z3950/agency/profiles/zdsr.html (τελευταία πρόσβαση 26

Page 195: Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,

Βιβλιογραφία 176

Φεβρουαρίου 2010).

ZIG (2004), “ZeeRex: The Explainable ``Explain'' Service”. Διαθέσιμο στο:

http://explain.z3950.org/index.html (τελευταία πρόσβαση 26 Φεβρουαρίου

2010).

Zhang, J., Cheung, C. (2003), "Meta-search engines feature analysis", Online

Information Review, Vol. 27 No.6, pp.433-41.

Πεπονάκης, Μ., Τρούτπεγλη, Ν., Σφακάκης, Μ. (2004), “Προβλήματα

διαλειτουργικότητας κατά την ταυτόχρονη πρόσβαση σε πηγές μέσω του

πρωτοκόλλου Z39.50 και το περιβάλλον πρόσβασης Η Αργώ”, 13ο Πανελλήνιο

Συνέδριο Ακαδημαϊκών Βιβλιοθηκών, Οκτώβριος 10-13, 2004. Διαθέσιμο στο:

http://www.ionio.gr/libconf/pdfs/PeponakisZ3950_Interoperability.pdf

(τελευταία πρόσβαση 26 Φεβρουαρίου 2010).

Πεπονάκης, Μ. (2010), “Σύνθεση FRBR εγγραφών αξιοποιώντας υπάρχουσες

βιβλιογραφικές εγγραφές (FRBRization): ομαδοποίηση σχετικών εγγραφών

(clustering) και εμφάνισή τους σε on line συστήματα”, μεταπτυχιακή

διπλωματική εργασία. Ιόνιο Πανεπιστήμιο.