ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης –...

Post on 02-Feb-2016

47 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας". ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης. Εργασία: Open Archives Initiative (OAI) - PowerPoint PPT Presentation

TRANSCRIPT

ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΔιδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Εργασία: Open Archives Initiative (OAI)OAI-PMH (Protocol for Metadata Harvesting)

Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας"Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας"

Εαρινό εξάμηνο: Ιούνιος 2004

Βασίλειος Σουλικιάς

ΠΕΡΙΕΧΟΜΕΝΑ

Ιστορικό OAI, OAI-PMH

Κύριες ιδέες και τεχνικές λεπτομέρειες του OAI-PMH

Θέματα Υλοποίησης μίας εφαρμογής OAI-PMH

Συμπεράσματα

ΙΣΤΟΡΙΚΟ (1/4)

Προηγούμενη Δημιουργία E-print αρχείων από επιστημονικές κοινότητες XXX (arXiv), CogPrints, NCSTRL, RePEc, NDLTD……

Web interfaces για τους χρήστες Διαφορετικά interfaces για διαφορετικά αρχεία Οι χρήστες έπρεπε να μάθουν διάφορα interfaces Μερική ή καθόλου αυτόματη-μηχανική ανταλλαγή

μεταδεδομένων

ΙΣΤΟΡΙΚΟ (2/4)

Santa Fe Meeting

“…η συνδυασμένη επιρροή αυτών και των μελλοντικών ανάλογων πρωτοβουλιών μπορεί να είναι ουσιαστικά υψηλότερη όταν η διαλειτουργικότητα μεταξύ των e-print αρχείων μπορεί να επιτευχθεί …”[Ginsparg, Luce, Van de Sompel, UPS Call, July 1999]

ΙΣΤΟΡΙΚΟ (3/4)

Τα δύο κύρια προβλήματα:

Οι χρήστες έρχονται αντιμέτωποι με πολλαπλά interfaces πράγμα που δυσκολεύει την αναζήτηση των πόρων.

Η μη ύπαρξη μηχανικού τρόπου ανταλλαγής μεταδεδομένων

ΙΣΤΟΡΙΚΟ (4/4)

Ταυτόχρονη αναζήτηση σε πολλαπλά αποθετήρια (Cross Search);

Η εμπειρία λέει ότι cross search δεν έχει καλή απόδοση σε πάνω από 100 αποθετήρια.

Διάφορα προβλήματα σχετικά με την επιλογή των στόχων αποθετηρίων, δυσκολίες ενοποίησης δεδομένων από διαφορετικά συστήματα, η απόδοση εξαρτάται από τα συστήματα χαμηλής απόδοσης, δυσκολία δημιουργίας browse interface.

ΛΥΣΗ:Συγκέντρωση των Μεταδεδομένων σε ένα μέρος

Η ΙΔΕΑ ΤΟΥ HARVESTING

ΣΥΓΚΟΜΙΔΗ των μεταδεδομένων σε ένα μέρος

UPS- Universal Preprint Service Έχουμε μια γλώσσα ερωτήσεων, κοινά

γνωρίσματα αναζήτησης(attributes) και ranking αλγόριθμους. Δημιουργία Browse interface

Η UPS μετεξελίσσεται σε OAI

Διαθέτες δεδομένων και Υπηρεσιών Διαθέτης Δεδομένων (Data Provider)

Ο δημιουργός και αυτός που διατηρεί τα μεταδεδομένα και τα αποθετήρια των πηγών(resources)

Διαθέτης Υπηρεσιών (Service Provider) Συγκομίζουν μεταδεδομένα με σκοπό την παροχή

υπηρεσιών όπως μια διεπιφάνεια αναζήτησης.

Μια υπηρεσία μπορεί να παίξει και τους δύο ρόλους

Η ΑΠΑΡΧΗ ΕΝΌΣ ΠΡΩΤΥΠΟΥΓια την διευκόλυνση της συγκομιδής απαιτείται κοινή

συμφωνία στα: Στο πρωτόκολλο μεταφοράς των

δεδομένων(HTTP,FTP….) Στο format των μεταδεδομένων(DC,MARC….) Στην εξασφάλιση της ποιότητας των

μεταδεδομένων(σύνολο των υποχρεωτικών πεδίων, θεματική απόδοση, ονοματοδωσία…)

Πνευματική υπευθυνότητα – Δικαιώματα χρήσηςΗ κοινή απόφαση για τα παραπάνω οδήγησε στην

συμφωνία της Santa Fe

Η συμφωνία της Santa Fe

Είναι η πρώτη ενσάρκωση του ΟΑΙΣτηρίχτηκε πάνω: Στο πρωτότυπο της UPS Repec/SODA –Service/Data provider Model Πρωτόκολλο Dienst Εργασία της ομάδας Santa Fe

Στόχος η βελτίωση της αναζήτησης των e-prints

OAI – PMH ver. 1.0

Εισάγει το σύνολο στοιχείων DC.Στηρίχτηκε στα: Συμφωνία της Santa Fe Στις συναντήσεις Digital Library Federation Σε εργασίες που έλαβαν χώρα στο Cornel Απαντήσεις από Alpha-testers

Εστιάζει στην βελτίωση της αναζήτησης των«document-like objects»

Κύρια χαρακτηριστικά του OAI-PMH 1.0 Προσδιόριζε ένα Χαμηλό επίπεδο

διαλειτουργικότητας Μοντέλο συγκομιδής “document-like objects” HTTP GET / POST αιτήσεις XML απαντήσεις unqualified Dublin Core Αποτελεί ερευνητικό πλαίσιο OAI-PMH 1.1 XML schema

OAI-PMH ver. 2.0

Σημαντική αναθεώρηση – όχι συμβατή με τις 1.x

Στηρίχτηκε πάνω: OAI-PMH 1.x Απαντήσεις των συμμετεχόντων στην OAI Implementers

List διαβουλεύσεις της OAI tech Απαντήσεις των alpha-testers

Στόχος η επαναλαμβανόμενη ανταλλαγή μεταδεδομένων των πηγών μεταξύ των συστημάτων

Χαρακτηριστικά του OAI-PMH 2.0 Προσδιορίζει επίσης ένα Χαμηλό επίπεδο

διαλειτουργικότητας Μοντέλο συγκομιδής “μεταδεδομένα για τις πηγές (resources)” HTTP GET / POST αιτήσεις XML απαντήσεις unqualified Dublin CoreΣταθερό- Η OAI δεσμεύτηκε ότι οι επόμενες

αναθεωρήσεις θα είναι συμβατές με τις προηγούμενες

Από το OAI-PMH 1.x στο 2.0

The Open Archives Initiative Protocol for Metadata HarvestingChanges from OAI-PMH 1.1 to OAI-PMH 2.0

Protocol Version 2.0 of 2002-06-14Document Version 2002/06/09T16:43:00Zhttp://www.openarchives.org/OAI/migration.htm

Πλεονεκτήματα του OAI

Απλό Φιλική λειτουργία με τo web Ο έλεγχος πρόσβασης, η συμπίεση οι κωδικοί λαθών κλπ.,

στηρίζονται στο HTTP διάφορα toolkits (μπορούν να κρύβουν το πρωτόκολλο) Πολλαπλοί διαθέτες υπηρεσιών μπορούν να κάνουν συγκομιδή

από πολλούς διαθέτες δεδομένων εξασφαλίζοντας ευρεία εξάπλωση των μεταδεδομένων

Αποτελεί ένα βασικό επίπεδο όπου μπορούν να χτιστούν άλλες υπηρεσίες

Λειτουργεί συμπληρωματικά με άλλα πρωτόκολλα όπως το Z39.50

ΚΥΡΙΕΣ ΙΔΕΕΣ ΤΟΥ OAI-PMH Ευρεία ενοποίηση των ακαδημαϊκών

αποθετηρίων/αρχείων Ελεύθερη πρόσβαση τουλάχιστον σε επίπεδο

μεταδεδομένων Συμμορφούμενα interfaces για αρχεία και

υπηρεσίες Πρωτόκολλο εύκολα υλοποιήσιμο καθώς

στηρίζεται σε (HTTP, XML, DC)

ΔΙΑΓΡΑΜΜΑ ΒΑΣΙΚΗΣ ΛΕΙΤΟΥΡΓΙΑΣ

ΓΕΝΙΚΕΣ ΠΕΡΙΓΡΑΜΜΑ

Δύο κατηγορίες συμμετεχόντων Διαθέτες δεδομένων (Open Archives, Repositories)

Ελεύθερη πρόσβαση σε μεταδεδομέναΌχι υποχρεωτικά πρόσβαση στο περιεχόμενο

Διαθέτες ΥπηρεσιώνXρήση OAI interfaces των διαθετών δεδομένων Συγκομίζουν και διατηρούν μεταδεδομένα (no live requests!)Μπορούν να επιλέγουν συγκεκριμένα υποσύνολα από τους διαθέτες δεδομένων Μπορούν να εμπλουτίζουν τα μεταδεδομέναΠροσφέρουν υπηρεσίες προστιθέμενης αξίας στο επίπεδο των μεταδεδομένων

ΔΙΑΓΡΑΜΜΑ ΔΟΜΗΣ

Συνοπτική εικόνα του OAI-PMH

Πρωτόκολλο που στηρίζεται σε HTTPΟι αιτήσεις διατυπώνονται ως παράμετροι GET or POSTΈξι (6) τύποι αιτήσεων (requests)Πχ. http://archive.org?

verb=ListRecords&from=2002-11-01Οι απαντήσεις είναι κωδικοποιημένες σε XML συντακτικόΥποστηρίζει οποιοδήποτε format μεταδεδομένων (υποχρεωτικά: Dublin Core)Λογική ιεραρχία των συνόλων (logical set hierarchy) (definition: data providers)Ημερολογιακά στοιχεία (date stamps) (τελευταία αλλαγή του συνόλου των μεταδεδομένων)Υποστηρίζει μηνύματα λάθουςΈλεγχος ροής

Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 1/2Harvester

Μία εφαρμογή που διατυπώνει αιτήσεις OAI-PMH Αποθετήριο (Repository)

Ένας server που μπορεί να διαχειριστεί σωστά αιτήσεις OAI-PMHΠηγή (Resource)

Ένα ψηφιακό αντικείμενο για το οποίο έχουν δημιουργηθεί τα μεταδεδομένα η φύση των αντικείμένων αυτών δεν προσδιορίζεται από το OAI-PMH

Τεκμήριο (Item)Το κομμάτι-μέρος ενός αποθετηρίου από το οποίο τα μεταδεδομένα μίας πηγής μπορούν να διανεμηθούνΈχει πάντα έναν μοναδικό identifier

Εγγραφή (Record)Μεταδεδομένα σε ένα συγκεκριμένο format

Ταυτοποιητής (Identifier)Μοναδικό κλειδί για ένα τεκμήριο σε ένα αποθετήριο

Σύνολο(Set)Μη υποχρεωτικό σχήμα ομαδοποίησης των items ενός αποθετηρίου

Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 2/2

Τεχνικές Λεπτομέρειες του OAI-PMH: Εγγραφές τα μεταδεδομένα μιας πηγής σε ένα συγκεκριμένο format Αποτελείται από τρία μέρη:

1. header (mandatory)identifier (1)datestamp (1)setSpec elements status για διαγραμμένα item

2. metadata (mandatory)XML κωδικοποιημένα μεταδεδομένα (root tag, namespace)Τα αποθετήρια πρέπει να υποστηρίζουν DC

3. about (optional)Δηλώσεις δικαιωμάτωνΔηλώσεις προέλευσης

Τεχνικές Λεπτομέρειες του OAI-PMH: DateStampsΗμερομηνία της τελευταίας αλλαγής του συνόλου των

μεταδεδομένων(metadata set) Υποχρεωτικό χαρακτηριστικό κάθε Item Δύο πιθανές μορφές :

YYYY-MM-DD, YYYY-MM-DDThh:mm:ssZ Παρέχει την δυνατότητα αιτήσεων συγκομιδής from και until Εφαρμογή στους μηχανισμούς αύξησης και ενημέρωσης Δίνει την ημερομηνία τροποποίησης ,δημιουργίας ή διαγραφής Σχετικά με την διαγραφή υποστηρίζει τρεις καταστάσεις( no,

persistent, transient)

Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (1/3) OAI-PMH υποστηρίζει διανομή από πολλαπλά formats

μεταδεδομένων από ένα αποθετήριο Ιδιότητες των formats μεταδεδομένων

id string που προσδιορίζει το format (metadataPrefix)metadata schema URL (XML schema για έλεγχο εγκυρότητας)XML namespace URI (global identifier for metadata format)

Τα Αποθετήρια πρέπει να υποστηρίζουν διανομή σε unqualified Dublin Core

Αυθαίρετα formats μεταδεδομένων μπορούν να προσδιορίζονται και να μεταφέρονται μέσω του OAI-PMH

Τα επιστρεφόμενα μεταδεδομένα πρέπει να υπακούουν στις XML namespace προδιαγραφές

Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (2/3)Ελάχιστο standard: υποστήριξη unqualified

Dublin Corehttp://dublincore.org/

Το Dublin Core Metadata Element Set περιλαμβάνει15 στοιχεία

Τα στοιχεία δεν είναι υποχρεωτικά

Τα στοιχεία μπορούν να είναι επαναλαμβανόμενα

Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (3/3)The Dublin Core Metadata

Element Set:

Title Creator Subject Description Publisher Contributor Date

Type Format Identifier Source Language Relation Coverage Rights

Τεχνικές Λεπτομέρειες του OAI-PMH: Σύνολα (sets)Λογικός χωρισμός των αποθετηρίων σε τμήματα Είναι επιλογής – τα αρχεία δεν είναι υποχρεωμένα να

προσδιορίζουν sets Δεν υπάρχουν υποδείξεις για την υλοποίηση sets Δεν είναι ανάγκη να είναι εξαντλητικά ούτε ιεραρχικά Βρίσκουν εφαρμογή: σε επιλεκτική συγκομιδή(set parameter) Εφαρμογές:

Θεματικές Πύλες, μηχανή αναζήτησης διατριβών……..

ΠαραδείγματαΤύπος δημοσίευσης (thesis, article, …)Τύπος τεκμηρίου (text, audio, image, …)Θεματική ευρετηρίαση του περιεχομένου σύμφωνα με την DNB (medicine, biology, …)

Τεχνικές Λεπτομέρειες του OAI-PMH: παράδειγμα αίτησης

GET request: http://archive.org/oai?verb=ListRecords&metadataPrefix=oai_dc

Τεχνικές Λεπτομέρειες του OAI-PMH: ΑπάντησηΗ απάντηση πρέπει να είναι well-formed XML με

markup όπως τα παρακάτω: Δήλωση της XML

(<?xml version="1.0" encoding="UTF-8" ?>) root element named OAI-PMH με τρία γνωρίσματα

(xmlns, xmlns:xsi, xsi:schemaLocation) Τρία child στοιχεία

responseDate request error

  

Τεχνικές Λεπτομέρειες του OAI-PMH: κωδικοί λαθών Τα αποθετήρια πρέπει να προσδιορίζουν τα OAI-

PMH λάθη σε μία απάντηση μιας αίτησης

Καθορισμένοι δείκτες λάθουςbadArgumentbadResumptionTokenbadVerbcannotDisseminateFormatidDoesNotExistnoRecordsMatchnoMetaDataFormatsnoSetHierarchy

Τεχνικές Λεπτομέρειες του OAI-PMH: Τύποι αιτήσεων Έξι (6) τύποι αιτήσεων

1. Identify (περιγραφή ενός αρχείου)2. ListMetadataFormats( ανακτά τα διαθέσιμα formats των

μεταδεδομένων)3. ListSets(ανακτά την δομή ενός αποθετηρίου)4. ListIdentifiers (συντομευμένη Listrecords ανακτά μόνο

τουςIdentifiers)5. ListRecords(συγκομιδή εγγραφών από το αποθετήριο)6. GetRecord(συγκομιδή συγκεκριμένης εγγραφής)

Ένας harvester δεν χρειάζεται να χρησιμοποιεί όλους τους τύπους

Ένα αποθετήριο πρέπει να υλοποιεί όλους τους τύπους

Ερωτήσεις που πρέπει να τεθούν σε μια υλοποίηση του ΟΑΙ πρωτοκόλλουΔιαθέτης Δεδομένων

Πρέπει να απαντήσει στο ερώτημα: ποία δεδομένα θέλω να διανείμω;

Ποίους διαθέτες υπηρεσιών θέλω να προμηθεύσω με δεδομένα;

Διαθέτης Υπηρεσιών Ποιες υπηρεσίες θέλω να παρέχω; Από ποίους προμηθευτές δεδομένων θα παίρνω μεταδεδομένα; Με ποιο τρόπο θα προσλαμβάνονται τα μεταδεδομένα;

Διαθέτης Δεδομένων & Διαθέτης Υπηρεσιών

Οι διαστάσεις στις οποίες πρέπει να συμφωνήσουν: (Συχνότητα ενημέρωσης, τα format των μεταδεδομένων, τα sets, τα σχήματα των θεμάτων, την αποδεκτή χρήση).

ΕΡΓΑΛΕΙΑ ΑΝΑΠΤΥΞΗΣ ΕΦΑΡΜΟΓΩΝ ΟΑΙ Η OAI διατηρεί μια λίστα με software tools

(http://www.openarchives.org/tools/)

Final Report on Technical Issues (download from http://www.oaforum.org/documents/

GNU EPrints,DSpace , FEDORA

ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (1/3) SQL Database Μεταδεδομένα για τις πηγές Web server, πχ. Apache, IIS , programming interface / API πχ. Perl, PHP, Java-Servlet web server extension identifier αρχείου/ base URL Έναν μοναδικό identifier για κάθε item format μεταδεδομένων (ένα η περισσότερα, υποχρεωτικά

unqualified Dublin Core) datestamps για τα μεταδεδομένα (created / last modified) flow control (μηχανισμός ελέγχου ροής κυρίως για τα μεγάλα

αρχεία)

ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (2/3) Argument Parser (αξιολογεί OAI αιτήσεις) Error Generator (δημιουργεί XML απαντήσεις με

κωδικούς λαθών) Μηχανισμό Database Query / τοπική εξαγωγή

μεταδεδομένων (ακανακτά μεταδεδομένα από το αποθετήριο σύμφωνα με το αιτούμενο format).

XML Generator / Δημιουργία απάντησης (δημιουργεί XML απάντηση με κωδικοποιημένη πληροφορία.

Flow Control (δίνει τμήμα- τμήμα τα μεταδεδομένα ιδίως σε μεγάλα αποθετήρια resumption token ως μηχανισμός ελέγχου)

ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (3/3)

ΔΙΑΘΕΤΗΣ ΥΠΗΡΕΣΙΩΝ:διάγραμμα συστατικών μερών και αρχιτεκτονικής

XML Shemas για OAI-PMH(1/3) To OAI-PMH χρησιμοποιεί XML Schemas για να ορίσει το format

των εγγραφών Μπορεί να ανταλλάξει μεταδεδομένα σε οποιαδήποτε format

αρκεί να είναι κωδικοποιημένα σε XML και να ορίζεις ένα XML Schemas για αυτά τα format.

Το OAI-PMH ορίζει ένα oai_dc schema ως έλαχιστη προδιαγραφή διαλειτουργικότητας

Η τεκμηρίωση του OAI-PMH περιγράφει XML schema και για άλλα formats, και παρουσιάζει XML schemas για: rcf1807 (για RFC 1807 format μεταδεδομένα) marc21 oai_marc (για MARC μεταδεδομένα)

XML Shemas για OAI-PMH (2/3)Δημιουργία ενός νέου schema επεκτείνοντας το oai_dc schema για

να προσθέσουμε νέα στοιχεία:

Ονοματοδοσία του νέου σχήματος Δημιουργία namespaces Δημιουργία ενός schema για το νέο στοιχείο elements Δημιουργία ενός 'container schema' Έλεγχος εάν είναι valid schema / records Πρόσθεση του στη "ListMetadataFormats" του αποθετηρίου Πρόσθεση στο αποθετήριο (other verbs) Έλεγχος εάν δουλεύει και εάν είναι valid

XML Shemas για OAI-PMH (3/3)

Παράδειγμα πρόσθεσης ενός νέου σχήματος του ims

<metadataFormat>  <metadataPrefix>ims</metadataPrefix>  <schema>http://www.imsglobal.org/xsd/imsmd_v1p2p2.xsd</schema>  <metadataNamespace>http://www.imsglobal.org/xsd/imsmd_v1p2</metadataNamespace></metadataFormat>

ΣΥΜΠΕΡΑΣΜΑΤΑ

Η εστίαση της OAI είναι στην υψηλού επιπέδου επικοινωνία μεταξύ των συστημάτων και της απλότητας των πρωτοκόλλων. Το OAI-PMH έχει συγκεντρώσει πολλή μεγάλη προσοχή μεταξύ της κοινότητας της ηλεκτρονικής δημοσίευσης

Το πρωτόκολλο OAI για τη συγκομιδή μεταδεδομένων [ Lagoze και Van de Sompel, 2001 ] στην ουσία υποστηρίζει ένα σύστημα των διασυνδεόμενων συστατικών, όπου κάθε ένα είναι DL

Το πρωτόκολλο OAI μπορεί να θεωρηθεί ως κόλλα που δεσμεύει μαζί συστατικά ενός μεγαλύτερου DL

top related