ΘΕΜΑ : A Comparison of On-line Computer Science Citation Databases
ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ :Ψηφιακές ΒιβλιοθήκεςΕπιμέλεια:Μπαλαλή Κυριακή
6/2/2008 Μπαλαλή Κυριακή 2
Εισαγωγή(1)
Υπάρχουν διάφορες δωρεάν on-line βιβλιογραφικές βάσεις δεδομένων για την επιστήμη των υπολογιστών.
Παρουσιάζουν τις αναφορές που έχουν γίνει για ένα συγκεκριμένο άρθρο από άλλες μεταγενέστερες εργασίες.
Μπορεί να είναι είτε αυτοαναφορές του συγγραφέα είτε αναφορές τρίτων.
συλλέγουν άρθρα, τα ευρετηριάζουν και τα εμπλουτίζουν με μεταδεδομένα(metadata).
6/2/2008 Μπαλαλή Κυριακή 3
Εισαγωγή(2)
Δυο δημοφιλείς on-line βιβλιογραφικές βάσεις είναι η CiteSeer και η DBLP.
Στη CiteSeer οι καταχωρήσεις γίνονται αυτόματα μέσω ενός crawler που ψάχνει στον Παγκόσμιο Ιστό.
Στη DBLP τα δεδομένα καταχωρούνται διά χειρός από διάφορα γκρουπ εθελοντών ή από προσλαμβανομένους μαθητές
Οι εισαγωγές λαμβάνονται από πρακτικά συνεδρίων και
εφημερίδες/ περιοδικά
6/2/2008 Μπαλαλή Κυριακή 4
Η βάση δεδομένων DBLPDataBase systems and Logic Programming ή Digital Bibliography & Library Project
Δημιουργήθηκε από τον Michael Ley το 1998. Σήμερα ευρετηριάζει πάνω 955.000 άρθρα της επιστήμης των
υπολογιστών από περίπου 368.000 συγγραφείς. Παρέχει χιλιάδες links σε αρχικές σελίδες επιστημόνων της
πληροφορικής. Είναι ένας βιβλιογραφικός server και δεν αποτελεί αποθετήριο
τεκμηρίων.
6/2/2008 Μπαλαλή Κυριακή 5
Η βάση δεδομένων CiteSeer
Δημιουργήθηκε το 1997-1998 από τους K. Bollacker, L. Giles, και S. Lawrence στο Ερευνητικό Κέντρο NEC στο Πανεπιστήμιο Πρίνστον των ΗΠΑ.
Είναι ψηφιακή βιβλιοθήκη και μηχανή αναζήτησης που εστιάζει στην επιστήμη των πληροφοριών και των υπολογιστών.
Στόχος της είναι να βελτιώσει τη διάχυση και την ανατροφοδότηση της επιστημονικής λογοτεχνίας καθώς και να επιφέρει βελτιώσεις στη λειτουργικότητα, χρηστικότητα, διαθεσιμότητα, το κόστος, την περιεκτικότητα, και την επικαιρότητα της πρόσβασης στην επιστημονική γνώση.
6/2/2008 Μπαλαλή Κυριακή 6
Η βάση δεδομένων CiteSeer
Είναι η πρώτη βάση δεδομένων που εφάρμοσε την αυτόνομη ευρετηρίαση αναφορών ACI(Autonomous citation indexing)
Η CiteSeer αποτελείται από τρία βασικά συστατικά:
1. από έναν εστιασμένο crawler (focused crawler)
2. από το αρχείο των ντοκουμέντων (document archive)
3. και από ένα ειδικευμένο ευρετήριο (specialized index) και την διεπαφή ερωτήσεων (query interface).
6/2/2008 Μπαλαλή Κυριακή 7
Η βάση δεδομένων CiteSeer
Ο εστιασμένος crawler ψάχνει στον Ιστό για σχετικά ντοκουμέντα σε μορφή PDF και PostScript. Μετά το φιλτράρισμα γίνεται η ευρετηρίαση χρησιμοποιώντας το Autonomous Citation Indexing (ACI), το οποίο συνδέει αυτόματα τις παραπομπές με τα άρθρα διευκολύνοντας την πλοήγηση και την αξιολόγηση.
Περιλαμβάνει πάνω από 770.000 ντοκουμέντα λαμβάνοντας πάνω από ένα εκατομμύριο αιτήσεις και εξυπηρετώντας πάνω από 25 GB πληροφορίας καθημερινά.
6/2/2008 Μπαλαλή Κυριακή 8
Οι διαφορές στο σύστημα λήψης δεδομένων(1)
Οι εγγραφές στη DBLP εξασφαλίζονται από εθελοντές. Οι διορθώσεις, επίσης, ελέγχονται με το χέρι.
Η DBLP προσπαθεί να εγγυηθεί περιεκτική και απόλυτη κάλυψη των περιεχομένων της.
Παρόλο που υπάρχει η πιθανότητα ανθρώπινου λάθος στη δια χειρός διαδικασία εισαγωγής των εγγραφών της βάσης, τα μεταδεδομένα της είναι γενικώς υψηλής ποιότητας σε σύγκριση με τα μεταδεδομένα που συλλέγονται αυτόματα.
6/2/2008 Μπαλαλή Κυριακή 9
Οι διαφορές στο σύστημα λήψης δεδομένων(2)
Η CiteSeer έχει αυτόματους crawlers που επιτυγχάνουν υψηλότερη κάλυψη καθώς το κόστος της αυτόματης ευρετηρίασης είναι πολύ μικρότερο.
Μπορεί να θεωρηθεί μία φόρμα αυτοεπιλογής με on-line αναζήτηση.
Ένα πλήρως αυτόματο επιστημονικά συμμετρικό σύστημα, που όμως επηρεάζεται εύκολα από κακόβουλες επιθέσεις, πχ: συγγραφείς προσπαθούν να διαφοροποιήσουν το δικό τους citation ranking προσθέτοντας ψευδή άρθρα που υποτίθεται ότι αναφέρονται στη δική τους εργασία.
6/2/2008 Μπαλαλή Κυριακή 10
Εξαγωγή Μεταδεδομένων
Υπάρχουν δύο βασικές μέθοδοι για την εξαγωγή πληροφορίας:
η Τεχνολογία της Γνώσης (Knowledge Engineering) και η Μηχανική Μάθηση (Machine Learning). Στην πρώτη μέθοδο, οι κανόνες εξόρυξης που χρησιμοποιεί το
σύστημα κατασκευάζονται χειρονακτικά χρησιμοποιώντας γνώση σχετική με το domain της εφαρμογής.
Στη δεύτερη μέθοδο, απαιτείται λιγότερη εξειδίκευση όταν προσαρμόζουμε το σύστημα σε ένα νέο domain. Κάποιος με επαρκή γνώση του domain και της εργασίας αυτής χαρακτηρίζει χειρονακτικά ένα σύνολο κατευθυντήριων ντοκουμέντων και τα χαρακτηρισμένα δεδομένα χρησιμοποιούνται για να κατευθύνουν έναν αλγόριθμο Μηχανικής Μάθησης. Αυτή η μέθοδος είναι πιο ευέλικτη από την προσέγγιση της Τεχνολογίας της Γνώσης, αλλά απαιτεί να είναι διαθέσιμος ένας όγκος κατευθυντήριων ντοκουμέντων.
6/2/2008 Μπαλαλή Κυριακή 11
Σύγκριση στον αριθμό εκδόσεων
Συγκρίθηκε ο αριθμός των εκδόσεων των άρθρων για
τα έτη 1990-2002. Η αύξηση της DBLP
οφείλεται στην μεγαλύτερη κάλυψη που παρείχε
η μείωση στον αριθμό των άρθρων της CiteSeer οφείλεται στη μείωση της κάλυψης, στις πνευματικές ανησυχίες και στις μαύρες θεματικές επιδράσεις.
6/2/2008 Μπαλαλή Κυριακή 12
Μοντέλα απόκτησης δεδομένων
Στη CiteSeer αναπτύχθηκαν δύο πιθανά μοντέλα για την απόκτηση των άρθρων.
Το πρώτο είναι βασισμένο σε συγγραφείς που παραδίδουν τα άρθρα τους κατευθείαν στη βάση.
Το δεύτερο δείχνει ότι τα άρθρα αποκτώνται αυτόματα από έναν crawler που ψάχνει στο web.
Για τη DBLP, υποθέτουμε ένα απλό μοντέλο απόκτησης άρθρων όπως να υπάρχει η πιθανότητα α σύμφωνα με την οποία το άρθρο να περιλαμβάνεται στην DBLP ή ακόμα και να είναι ανεξάρτητο από τον αριθμό των συγγραφέων.
6/2/2008 Μπαλαλή Κυριακή 13
Μοντέλο Παράδοσης της CiteSeer
Ας υποθέσουμε ότι β Є (0,1) και δηλώνει την πιθανότητα όπου ένας συγγραφέας παραδίδει ένα άρθρο κατευθείαν στη CiteSeer δηλ. p(i)= 1- (1-β)i όπου (1-β)i είναι η πιθανότητα κανένας από
τους i συγγραφείς να παραδώσουν κάποιο άρθρο στη βάση. r(i) = dblp(i) = α
citeseer (i) (1-(1-β)i )
Είναι προφανές από το σχήμα ότι όσο ο αριθμός των συγγραφέων i αυξάνεται τόσο η αναλογία r(i) τείνει στο α.
Για τη CiteSeer υποθέτουμε ότι η μέθοδος απόκτησης παράγει μία επιρροή όπως την πιθανότητα p(i) όπου το άρθρο περιλαμβάνεται στη CiteSeer και είναι μία λειτουργία του αριθμού των συγγραφέων από ένα συγκεκριμένο άρθρο.
6/2/2008 Μπαλαλή Κυριακή 14
Κατανομές αναφορών(Citation Distributions )
Συγκρίνει τις κατανομές των αναφορών μεταξύ των δύο βάσεων και βλέπουμε ότι η DBLP περιέχει περισσότερα low cited papers απ’ ότι η Citeseer. Προς το παρόν δεν υπάρχει εξήγηση γι’ αυτό το φαινόμενο. Αντίθετα, ίσως να σχετίζεται με την παρατήρηση του Lawrence σύμφωνα με την οποία τα άρθρα που είναι on-line ελεύθερα διαθέσιμα έχουν περισσότερες αναφορές.
6/2/2008 Μπαλαλή Κυριακή 15
Νέα μοντέλα της Citeseer
CiteseerPlus βασίζεται σε μια νέα αρχιτεκτονική σχεδιασμένη να είναι ευέλικτη, αρθρωτή, και επεκτάσιμη.
Citeseerx beta είναι ανερχόμενο μοντέλο που σχετίζεται με την αναγνώριση της αναζήτησης.
Καθώς η CiteSeer για την ώρα λειτουργεί μέσα σε ένα ακαδημαϊκό περιβάλλον, εστιάζοντας στην έρευνα και στην παραγωγή, αναπτύχθηκε ένα πλαίσιο που επιτρέπει επεκτάσιμη, κατανεμημένη έρευνα και αποθήκευση, ενώ διευκολύνει την ανάπτυξη νέων και βελτιωμένων αλγόριθμων για την εξόρυξη της πληροφορίας.
Η τρέχουσα CiteSeer δεν ευρετηριάζει περισσότερα από 3-4 papers ανά λεπτό, καταλήγοντας σε ανεπαρκή ταχύτητα για την απόκτηση νέου περιεχόμενου.
6/2/2008 Μπαλαλή Κυριακή 16
Διάφορες βάσεις δεδομένων
Scopus ( www.scopus.com) Bibfinder ( http://eiinwww.ira.uka.de/bibliography) Googlescholar ( www.scholar.google.gr) Vldb ( www.vldb.org) ACM ( http://portal.acm.org/portal.cfm) Sciencedirect (http://www.sciencedirect.com/)
6/2/2008 Μπαλαλή Κυριακή 17
Συμπεράσματα Και οι δύο βάσεις είναι φιλικές και προσιτές στους χρήστες
προσφέροντας σημαντικά εργαλεία για την έρευνα. Η Citeseer προσπαθεί συνεχώς να βελτιώνει τις υπηρεσίες της
δημιουργώντας νέα μοντέλα για να μπορέσει να αντεπεξέλθει στις απαιτήσεις.
Έχουν πολύ διαφορετικές μεθόδους στην απόκτηση των δεδομένων.
Όσον αφορά τις κατανομές των αναφορών (citation distributions) και για τις δύο βάσεις η Citeseer έχει μικρότερο αριθμό low-cited papers.
η κάλυψη της DBLP φτάνει περίπου το 24% ολόκληρης της επιστήμης των υπολογιστών.
6/2/2008 Μπαλαλή Κυριακή 18
Προβληματισμοί
Η CiteSeer είναι αργό και off-line σύστημα που σημαίνει ότι τα αποτελέσματα δεν επιστρέφονται αμέσως αλλά μετά από μέρες έτσι οι ερευνητές δυσκολεύονται στην έρευνα τους.
Τα αποτελέσματα μπορεί να είναι έγκυρα αλλά υπάρχουν πολλές διπλοεγγραφές, γεγονός που πρέπει να μεριμνήσουν για να διορθωθεί.
Και το GoogleScholar και η CiteSeer δεν κάνουν διάκριση ανάμεσα στις αυτοαναφορές των συγγραφέων και τις αναφορές τρίτων, γεγονός που δημιουργεί σύγχυση και λανθασμένες εντυπώσεις.
6/2/20086/2/2008 Μπαλαλή ΚυριακήΜπαλαλή Κυριακή 1919