Βάσεις Διαδικτύου
DESCRIPTION
Βάσεις Διαδικτύου. Θέματα. Εισαγωγή στην XML Ευρετήρια για την Ανάκτηση Κειμένων Ο αλγόριθμος HITS. Τι είναι η XML. Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης) HTML ετικέτες (tags) για την αναπαράσταση της δομής των εγγράφων - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/1.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1
Βάσεις Διαδικτύου
![Page 2: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/2.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2
Θέματα
Εισαγωγή στην XML
Ευρετήρια για την Ανάκτηση Κειμένων
Ο αλγόριθμος HITS
![Page 3: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/3.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 3
Τι είναι η XML
Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης)
HTML ετικέτες (tags) για την αναπαράσταση της δομής των εγγράφων
XML (Extensible Markup Language) δε διαθέτει μια συγκεκριμένη συλλογή ετικετών με σταθερή και καθορισμένη σημασία
Αντίθετα, ο χρήστης μπορεί να ορίσει δικές του ετικέτες – που συνήθως αφορούν τη σημασία του περιεχομένου
![Page 4: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/4.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 4
Παράδειγμα XML
<BOOK><AUTHOR>
<FIRSTNAME>Richard</FIRSNAME>
<LASTNAME>Feymann</LASTNAME>
</AUTHOR>
</BOOK>
Απλά και εμφωλευμένα στοιχεία (elements/sub-elements)
Ετικέτα αρχής (<elm>) και ετικέτα τέλους (</elm>)
![Page 5: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/5.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 5
Παράδειγμα XML
<BOOK genre=“Science” format=“Hardcover”>
<AUTHOR>
<FIRSTNAME>Richard</FIRSNAME>
<LASTNAME>Feymann</LASTNAME>
</AUTHOR>
</BOOK>
Γνωρίσματα (Attributes) περιγραφικές πληροφορίες για τα στοιχεία
att = “value”
![Page 6: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/6.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 6
<?XML version=“1.0” encoding=“UTF-8” standalone=“yes”?>
<!DOCTYPE BOOKLIST SYSTEM “emp.dtd”>
<BOOKLIST>
<BOOK genre=“Science” format=“Hardcover”>
<AUTHOR>
<FIRSTNAME>Richard</FIRSNAME>
<LASTNAME>Feymann</LASTNAME>
</AUTHOR>
<TITLE>The Character of Physical Law</TITLE>
<PUBLISHED>1980</PUBLISHED>
</BOOK><BOOK genre=“Fiction”>
<AUTHOR><FIRSTNAME>R. K</FIRSNAME><LASTNAME>Narayan</LASTNAME>
</AUTHOR>
<TITLE>The Character of Physical Law</TITLE>
<PUBLISHED>1981</PUBLISHED>
</BOOK>
![Page 7: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/7.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 7
<BOOK genre=“Fiction”><AUTHOR>
<FIRSTNAME>R. K</FIRSNAME><LASTNAME>Narayan</LASTNAME>
</AUTHOR>
<TITLE>The English Teacher</TITLE>
<PUBLISHED>1980</PUBLISHED>
</BOOK>
</BOOKLIST>
Παράδειγμα XML
Ορθά Διαμορφωμένο ( well-formed)
Ξεκινά με δηλωτικό
Υπάρχει στοιχείο ρίζα
Κατάλληλα εμφωλευμένα στοιχεία
![Page 8: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/8.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 8
Μια δήλωση DTD είναι ένα σύνολο από κανόνες που επιτρέπουν στο χρήστη να ορίζει το δικό του σύνολο στοιχείων και γνωρισμάτων
Έγκυρο έγγραφο όταν συνοδεύεται από μια αντίστοιχη DTD και το έγγραφο είναι δομημένο σύμφωνα με τους κανόνες που ορίζει η DTD
XML DTD
![Page 9: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/9.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 9
<!DOCTYPE BOOKLIST [<!ELEMENT BOOKLIST (BOOK)*>
<!ELEMENT BOOK (AUTHOR, TITLE, PUBLIHSED?)><!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
<!ELEMENT FIRSTNAME(#PCDATA)><!ELEMENT LASTNAME (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)><!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science | Fiction) #REQUIRED><!ATTLIST BOOK format (Paperback | Hardcover) “Paperback”>]>
Παράδειγμα DTD
![Page 10: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/10.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 10
<!DOCTYPE BOOKLIST [
<!ELEMENT BOOKLIST (BOOK)*><!ELEMENT BOOK (AUTHOR,TITLE, PUBLIHSED?)>
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)><!ELEMENT FIRSTNAME(#PCDATA)><!ELEMENT LASTNAME (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)><!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science | Fiction) #REQUIRED><!ATTLIST BOOK format (Paperback | Hardcover) “Paperback”>
]>
Παράδειγμα DTD
Γενικό σχήμα <!DOCTYPE name [
DTDDeclaration
] >
Στοιχείο ρίζα
![Page 11: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/11.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 11
<!DOCTYPE BOOKLIST [
<!ELEMENT BOOKLIST (BOOK)*><!ELEMENT BOOK (AUTHOR, TITLE, PUBLIHSED?)>
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)><!ELEMENT FIRSTNAME(#PCDATA)><!ELEMENT LASTNAME (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)><!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science | Fiction) #REQUIRED><!ATTLIST BOOK format (Paperback|Hardcover) “Paperback”>]>
Παράδειγμα DTD
* 0 ή περισσότερα
+ 1 ή περισσότερα
? Προαιρετική εμφάνιση,
subelements
![Page 12: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/12.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 12
<!DOCTYPE BOOKLIST [<!ELEMENT BOOKLIST (BOOK)*>
<!ELEMENT BOOK (AUTHOR, TITLE, PUBLIHSED?)><!ELEMENT AUTHOR (FISRTNAME,
LASTNAME)><!ELEMENT FIRSTNAME(#PCDATA)><!ELEMENT LASTNAME (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)><!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science | Fiction) #REQUIRED><!ATTLIST BOOK format (Paperback|Hardcover) “Paperback”>]>
Παράδειγμα DTD
* 0 ή περισσότερα
+ 1 ή περισσότερα
? Προαιρετική εμφάνιση,
subelements
![Page 13: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/13.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 13
<!DOCTYPE BOOKLIST [<!ELEMENT BOOKLIST (BOOK)*>
<!ELEMENT BOOK (AUTHOR, TITLE, PUBLIHSED?)><!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
<!ELEMENT FIRSTNAME(#PCDATA)><!ELEMENT LASTNAME (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)><!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science | Fiction) #REQUIRED><!ATTLIST BOOK format (Paperback|Hardcover) “Paperback”>]>
Παράδειγμα DTD
#PCDATA δηλώνει στοιχεία με μορφή χαρακτήρων
![Page 14: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/14.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 14
Παράδειγμα DTD
Γενικά
<!ELEMENT (contenttype) >
Όπου contenttype Άλλα στοιχεία
#PCDATA
EMPTY
Κανονική έκφραση
exp1, exp2, exp3, …
exp*
exp?
exp+
exp1 | exp2
![Page 15: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/15.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 15
<!DOCTYPE BOOKLIST [<!ELEMENT BOOKLIST (BOOK)*>
<!ELEMENT BOOK (AUTHOR, TITLE, PUBLIHSED?)><!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
<!ELEMENT FIRSTNAME(#PCDATA)><!ELEMENT LASTNAME (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)><!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science | Fiction) #REQUIRED><!ATTLIST BOOK format (Paperback|Hardcover) “Paperback”>]>
Παράδειγμα DTD
<!ATTLIST elementName (attName attType default)+>
<!ATTLIST BOOK edition CDATA “1”>
attType: τύποι απαρίθμησης ή τύποι συμβολοσειράς
![Page 16: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/16.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 16
XML
XQuery: Γλώσσα ερωτήσεων για XML δεδομένα
Τεχνικές
Για την αποθήκευση δεδομένων σε σχεσιακές βάσεις δεδομένων
Ειδικές (native) βάσεις δεδομένων για αποθήκευση εγγράφων XML
http://www.w3.org/XML/
http://www.w3.org/XML/Query
![Page 17: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/17.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 17
Θέματα
Εισαγωγή στην XML
Ευρετήρια για την Ανάκτηση Κειμένων
Ο αλγόριθμος HITS
![Page 18: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/18.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 18
Ευρετηριοποίηση για την Ανάκτηση Κειμένων
Βάση κειμένων: συλλογή από έγγραφα
Αναζήτηση με μια λέξη κλειδί (keyword queries)
Αίτημα Boole
(t11 t12 … ti11) (t21 t22 … t2i2) …. (tj1 tj2 … tjij)
Αίτημα Διαβάθμισης (Ranking)
![Page 19: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/19.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 19
Ευρετηριοποίηση για την Ανάκτηση Κειμένων
Παράδειγμα
Rid Λέξεις-Κλειδιά
1 agent James Bond
2 agent mobile computer
3 James Madison movie
4 James Bond movie
Παράδειγμα ερωτήσεων
![Page 20: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/20.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 20
Ανεστραμμένο Αρχείο
Μια ταξινομημένη λίστα (ανεστραμμένη λίστα) για κάθε όρο
Ευρετήριο Λεξιλογίου:
Για τον ταχύτερο εντοπισμό της λίστας για κάθε όρο: Το σύνολο των όρων μπορεί να οργανωθεί με τη χρήση μιας δομής ευρετηρίου (π.χ. Β+-δέντρο)
Παράδειγμα
Ένας όρος, σύζευξη, διάζευξη
![Page 21: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/21.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 21
Αρχείο Υπογραφών
Υπογραφή εγγράφου (File Signature) Μια εγγραφή ευρετηρίου για κάθε έγγραφο στη βάση δεδομένων
Σταθερό μήκος bits – εύρος υπογραφής
Υ1 ταιριάζει με Υ2, Υ1 τουλάχιστον τα 1 που έχει και η Υ2
Εσφαλμένη διάγνωση (false positive)
Παράδειγμα
Ένας όρος, σύζευξη, διάζευξη
![Page 22: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/22.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 22
Αρχείο Υπογραφών
Αρχείο υπογραφών με κατακόρυφο διαμερισμό σε μονοψήφιες στήλες:
Διαμερίζουμε ένα αρχείο υπογραφών σε ένα σύνολο κατακόρυφων δυαδικών στηλών
Για κ άσσους ανάκτηση κ-στηλών
![Page 23: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/23.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 23
Θέματα
Εισαγωγή στην XML
Ευρετήρια για την Ανάκτηση Κειμένων
Αναζητήσεις λέξεων κλειδιών στο διαδίκτυο: Ο αλγόριθμος HITS
![Page 24: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/24.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 24
O Αλγόριθμος HITS
Δύο τύποι σελίδων
Αυθεντική
Μια σελίδα που είναι αυθεντία σε ένα θέμα και αναγνωρίζεται ως τέτοια από άλλες σελίδες (δηλαδή, υπάρχουν πολλοί σύνδεσμοι σε αυτήν)
Κομβικοί
Μια σελίδα που αναφέρεται σε μια αυθεντική σελίδα
![Page 25: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/25.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 25
O Αλγόριθμος HITS
Το web ως ένας κατευθυνόμενος γράφος
Κόμβοι: ιστοσελίδες
Ακμή από Α στον Β: η ιστοσελίδα Α έχει έναν υπερ-σύνδεσμο στην ιστοσελίδα Β
Ο αλγόριθμος σε 2 φάσεις:
Φάση Ι: (δειγματοληπτικό στάδιο) ένα σύνολο σελίδων που αποτελεί το βασικό σύνολο
Φάση ΙΙ: (επαναληπτικό στάδιο) επεξεργασία του βασικού συνόλου για τον εντοπισμό καλών αυθεντικών και κομβικών ιστοσελίδων
![Page 26: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/26.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 26
O Αλγόριθμος HITS
Φάση Ι: Υπολογισμός βασικού συνόλου
1. Υπολογισμός αρχικού συνόλου: σύνολο-ρίζα
Κλασικοί μέθοδοι: πχ ανάκτηση όλων των σελίδων που περιέχουν τις λέξεις κλειδιά
(περιμένουμε ότι θα περιέχει (τουλάχιστον) αναφορές προς σχετικές σελίδες)
2. Σελίδες-σύνδεσμοι: σελίδα που είτε συμπεριλαμβάνει σύνδεσμο που να αναφέρεται στο σύνολο ρίζα είτε το σύνολο ρίζα περιέχει σύνδεσμο που αναφέρεται σε αυτήν
Βασικό Σύνολο: διεύρυνση του συνόλου-ρίζα ώστε να περιλαμβάνει και τις σελίδες συνδέσμους – Βασικές ιστοσελίδες
![Page 27: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/27.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 27
O Αλγόριθμος HITS
Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες
Κάθε βασική σελίδα p δύο τιμές:
hp - Συντελεστής Κομβικού Ρόλου (πολλούς δείκτες σε αυθεντικές)
ap - Συντελεστής Αυθεντικότητας (πολλοί δείκτες από κομβικές σε αυτήν)
Αρχικοποίηση, p, hp = 1 και αp = 1
Επαναληπτικά, αυξάνεται
ap = Σ hq
Βασικές σελίδες q που δείχνουν στην p
hp = Σ αq
Βασικές σελίδες q στις οποίες δείχνει η p
![Page 28: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/28.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 28
O Αλγόριθμος HITS
Έστω το βασικό σύνολο σελίδων {1, 2, ..., n}
Πίνακας Γειτνίασης (adjacency matrix) B: n x n
B[i, j] = 1 αν η σελίδα i περιέχει σύνδεσμο που δείχνει στη σελίδα j
Έστω h = <h1, h2, …, hn> το διάνυσμα συντελεστών κομβικών ρόλων
και α = <α1, α2, ..., αn> το διάνυσμα συντελεστών αυθεντικότητας
![Page 29: Βάσεις Διαδικτύου](https://reader035.vdocuments.pub/reader035/viewer/2022062720/568134c6550346895d9beafc/html5/thumbnails/29.jpg)
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 29
O Αλγόριθμος HITS
Οι κανόνες ενημέρωσης
h = B a a = BΤ h
1η επανάληψη
h = B BΤ h = (B BΤ) h a = BT B a = (BT B) a
2η επανάληψη
h = (B BΤ)2 h a = (BT B)2 a
Σύγκλιση στα ιδιοδιανύσματα του ΒΒΤ και ΒΤΒ αν κανονικοποιηθούν αρχικά οι συντελεστές