16/06/2014© robert godin. tous droits réservés.1 21repérage de linformation
TRANSCRIPT
![Page 1: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/1.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 1
21 Repérage de l’information
![Page 2: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/2.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 2
Processus de base
C alcu l de s im ila ritésim (d j,q i)
D ocum entsD = {d j, j = 1 ,...,m }
R equêtesQ = {q i, i = 1 ,...,n }
D ocum ents extra itsE = {e k , k = 1 ,...,r}
![Page 3: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/3.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 3
Furetage (browsing)
Navigation dans un espace Classification hiérarchique Hypertexte
![Page 4: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/4.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 4
The ACM Computing Classification System (1998)
: http://www.acm.org/class/1998/
A. General Literature A.0 GENERAL
Biographies/autobiographies Conference proceedings General literary works (e.g., fiction, plays)
A.1 INTRODUCTORY AND SURVEY A.2 REFERENCE (e.g., dictionaries, encyclopedias, glossaries) A.m MISCELLANEOUS
B. Hardware B.0 GENERAL B.1 CONTROL STRUCTURES AND MICROPROGRAMMING (D.3.2)
B.1.0 General B.1.1 Control Design Styles
Hardwired control [*] Microprogrammed logic arrays [*] Writable control store [*]
B.1.2 Control Structure Performance Analysis and Design Aids Automatic synthesis [*] Formal models [*] Simulation [*]
…
![Page 5: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/5.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 5
Classification Yahoo.frActualités et médias
Sujets d’actualité, Télévision, Journaux...
Commerce et économieB2B, Shopping, Emploi, Immobilier...
Informatique et InternetInternet, Logiciels, Matériel...
SantéDiététique, Médecine, Organismes...
Enseignement et formationPrimaire, Secondaire, Supérieur...
Institutions et politiqueMinistères, Droit, Services publics...
Sciences et technologiesAnimaux, Astronomie, Physique...
Sports et loisirsFoot, Tourisme, Auto/Moto, Jeux...
Art et cultureLittérature, Cinéma, Musique, Musées...
DivertissementÀ voir, Loteries, Humour, Sorties...
Exploration géographiqueZones régionales, Pays, Europe, France...
Références et annuairesDictionnaires, Annuaires, Bibliothèques...
SociétéEnfants, Gastronomie, Religion...
Sciences humainesArchéologie, Histoire, Économie...
![Page 6: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/6.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 6
20.1 Indexation
C alcu l de s im ila ritésim (d j,q i)
D ocum entsD = {d j, j = 1 ,...,m }
R equêtesQ = {q i, i = 1 ,...,n }
D ocum ents extra itsE = {e k , k = 1 ,...,r}
Indexation
D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)
![Page 7: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/7.jpg)
Variantes
Granularité du document Nature des termes (descripteurs, mots-clés)
– Uniterme, multiterme (phrase), n-gramme, concepts, représentation conceptuelle, …
– Unilingue ou multilingue– Chiffres, caractères spéciaux, …
Lemmatisation, troncature Vocabulaire contrôlé ou libre Pondération
11/04/23 © Robert Godin. Tous droits réservés. 7
![Page 8: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/8.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 8
Indexation automatique :principes de base Mots "fonctionnels" sont inutiles
– Adverbes, prépositions,... (et, ou, alors, le, la, les ...)– Constitution d'un anti-dictionnaire ("stop list")
Analyse des fréquences des termes – Termes fréquents dans un texte sont-ils bons?
mots fonctionnels sont fréquents... collection informatique: "informatique" ?
– Besoin de termes discriminants pas fréquents pas tous les documents
– « inverse document frequency » (idf) maximisent l'information
– « signal-noise ratio » dispersent les documents
– valeur discriminante (vd) distinguent pertinents de non pertinents
– méthode probabiliste distribution “non aléatoire” au sens du repérage de l’information
![Page 9: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/9.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 9
Indexation automatique de textes
0) Segmentation– Découpage en termes
1) Éliminer les termes non significatifs– Anti-dictionnaire
2) Analyse lexicale -> radical/lemme– Porter pour l’anglais (liste suffixes)
3) Calculer le poids pij du terme ti dans chaque document dj
4) Conserver si pij > Seuil
![Page 10: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/10.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 10
Pondération
pij formé de trois composantes – (Salton & Buckley, 1988)
Composante fréquence dans le document– 1.0 (cf1) – fij (cf2)
– 0.5 + 0.5 (fij /maxi(fij)) [0.5,1] (cf3) variations dans la longueur des documents
Composante normalisation– Diviser par la taille du vecteur
![Page 11: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/11.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 11
Composante fréquence documentaire inverse 1.0 (cd1) log (N / fdi) (cd2)
– N: nombre total de documents (|D|)– fdi : fréquence de ti dans la collection
– (cf2)+(cd2) : « tfidf »
log ((N - fdi) / fdi) (cd3)– probalistic term relevance (Croft &
Harper, 1975)
![Page 12: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/12.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 12
Index sous forme de listes inversées Implémentation
– index + tables– « Tableau trié » sur disque– arbre digital (trie)– …
Informations supplémentaires– poids– localisation des termes
D ocum ent 1
D ocum ent 2
D ocum ent 3
D ocum ent 4
D ocum ent 5
D ocum ent 6
Influx
Inform atique
Infrarouge
Ingénierie
D ocum entsL istes
inverséesTerm es
![Page 13: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/13.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 13
Indexation par vocabulaire contrôlé Approche à base de connaissances
– Règles acquises d'un expert (SE) Induction de règles à partir d'un
corpus déjà indexé – Classification automatique
![Page 14: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/14.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 14
Recherche plein texte pour petites collections Algorithmes de recherche
– KMP (Knuth, Morris & Pratt, 1977)– BM (Boyer & Moore, 1977)– …
Fichiers de signatures– Superposition de codes pour filtrer
les textes Inverser tout le texte
![Page 15: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/15.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 15
20.2 Modèle booléen
Problème du tout ou rien Formulation de requête difficile
Logique boo léennesim (d j,q i)
D ocum entsD = {d j, j = 1 ,...,m }
R equêtes boo léennesQ = {q i, i = 1 ,...,n }
D ocum ents extra itsE = {e k , k = 1 ,...,r}
Indexation
D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)
![Page 16: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/16.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 16
20.3 Modèle vectoriel
t
k kj
t
k ki
kj
t
k ki
ji
ji
dq
dq
dq
dq
1
2
1
2
1
Métrique du cosinus
M étrique dansespace vectorie l
|d j,q i|
D ocum entsD = {d j, j = 1 ,...,m }
R equêtesQ = {q i, i = 1 ,...,n }
D ocum ents ordonnés pardegré de pertinenceE = {e k , k = 1 ,...,r}
Indexage
D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)
T raduction
R equêtes vectorie llesq i = (q 1i, q 2i,...,q ti)
![Page 17: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/17.jpg)
Limites principales du vectoriel Hypothèse d’indépendance des
termes Expressivité limitée de la requête
11/04/23 © Robert Godin. Tous droits réservés. 17
![Page 18: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/18.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 18
Intégration booléen/degré de pertinence Modèle flou Modèle booléen étendu Réseaux probabilistes
![Page 19: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/19.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 19
Booléen flou
sim(dj, q1 ET q2) = min[sim(dj, q1), sim(dj, q2)] sim(dj, q1 OU q2) = max[sim(dj, q1), sim(dj, q2)] sim(dj, NON q) = 1- sim(dj, q) sim(dj, ti) = dij [0,1] Problème
– évaluation dominée par les petits poids dans les conjonctions et grands poids dans les disjonctions
Variante Mixed Min and Max (MMM) (Fox, Betrabet, Koushik & Lee, 1992)– Combinaison linéaire de min et max
Paice (Fox et al., 1992)– Tient compte de tous les poids
![Page 20: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/20.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 20
Modèle étendu de requêtes Booléennes (Salton, Fox & Wu, 1983)
Généralisation de Booléen flou et vectoriel Pondération des termes dans documents et
requêtes Possibilité de requêtes Booléennes Distance paramétrisée : p-norm Paramètre p [1,∞] détermine
l'interprétation– p = 1 : vectoriel
Tous les termes sont utilisés– p = ∞ : Booléen flou
Seulement le min ou max
![Page 21: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/21.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 21
Feedback
A ppariem ent
D ocum entsD = {d j, j = 1 ,...,m }
R equêtesQ = {q i, i = 1 ,...,n }
D ocum ents extra itsE = {e k , k = 1 ,...,r}
Indexation
D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)
Feedback
![Page 22: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/22.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 22
Feedback du système
Fréquence des termes de la sous-collection extraite (Ingwerson & Wormell, 1986)– Nuages d’étiquettes
Graphes des associations entre documents, termes ...(Belew, 1989)
Classification des documents extraits (Crouch, Crouch & Andreas, 1989; Cutting, Karger, Pedersen & Tukey, 1992)
Requêtes "voisines" pertinentes à la collection (Carpineto & Romano, 1996; Godin, Davidson, Missaoui & Mili, 1993a; Godin, Missaoui & April, 1993b)
![Page 23: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/23.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 23
Réaction de l’utilisateur
Pertinence des documents extraits (relevance feedback)
Pertinence des termes Sélection de classes/requêtes
voisines
![Page 24: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/24.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 24
Apprentissage
Requête modifiée selon pertinence– Relevance feedback (Rocchio, 1971; Salton et al., 1985)– Probabiliste, RNA, génétique,…
Requête modifiée selon documents extraits– Query expansion
Indexation modifiée (Belew, 1989; Brauen, 1971)– Probabiliste, RNA, génétique, …
Hypertexte (liens entre documents) modifié Profil d’utilisateur
– Système de recommandation
![Page 25: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/25.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 25
Raffinements
Tenir compte de la structure du document– <title> plus important que <body>,…
Représentation plus riche– Multi-termes, thesaurus, CG, DL, XML, RDF, Ontologies (OWL), Web
sémantique,… Analyse de langue naturelle
– E.g. extraire groupes nominaux Modèles statistiques de la langue
– Statistiques sur grands corpus– P(Requête soit générée par un modèle de langue du Document)– Estimer la probabilité d’une suite de termes
P(terme|les termes qui précèdent) Modèle unigramme donne de bons résultats
Latent Semantic Indexing (LSI)– Réduction à un ensemble de dimensions “significatives” par
décomposition matricielle Indexation par ensembles fréquents Apprentissage de la fonction d’appariement
– Méthode d’apprentissage machine
![Page 26: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/26.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 26
Thesaurus
Termes de requête vs termes d’index – (Furnas, Landauer, Gomez & Dumais, 1983)
Terme => concept Relations sémantiques entre termes
– synonymes– généralisation/spécialisation– relié à– …
Construction– manuel, automatique, assisté– général ou par domaine
Utilisation– à l'indexation– expansion de requête– métrique d’appariement
![Page 27: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/27.jpg)
Système de recommandation Pas de requête « ad hoc »
– Profil d’utilisateur– Collection d’items qui évolue
Recommander des items pertinents au profil– Exploiter les jugements de pertinence antérieurs
Application populaire en commerce électronique Recommandation basée sur le contenu (content-based
recommendation)– Items semblables à ceux jugés pertinents auparavant
Filtrage collaboratif– Exploiter patrons d’utilisation de communautés d’utilisateurs– Recommander les items jugés pertinents par les utilisateurs semblables
Recommandation hybride– Contenu + collaboratif
11/04/23 © Robert Godin. Tous droits réservés. 27
![Page 28: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/28.jpg)
Fouille de textes(text mining) Extraction d’une représentation
du texte– E.g. indexation automatique
Fouille de données sur la représentation– regroupement– classification automatique
Détection de pourriel
11/04/23 © Robert Godin. Tous droits réservés. 28
![Page 29: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/29.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 29
Exploiter les liens entre documents Exploiter les termes des
documents reliés Exploiter les étiquettes des liens
hypertextes– Forme d’indexation sociale
Plus de liens = plus de pertinence ?
- HITS : page d’autorité, page hub- Page Rank (Google)
![Page 30: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/30.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 30
Analyse du graphe du Web
Hyperlink-Induced Topic Search (HITS) de Kleinberg– ap : poids d’autorité de la page p
– hp : poids hub de la page p initialisés à 1/n (n : nombre de pages)
– Répéter jusqu’à convergence :
– I(p) : pages qui pointent vers p– O(p) : pages pointées par p
Normaliser :
na p1
nhp1
)( pIq
qp ha
)( pOq
qp ah
aaa
hhh
![Page 31: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/31.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 31
PageRank de Google Ne distingue pas entre autorité et hub rp : PageRank d’une page Principe de base
– Importance d’une page est fonction de l’importance des pages qui lui font référence
r = rTM – Mpq = 1/||O(p)|| si la page p pointe vers la page q– Mpq = 0 autrement
Page p sans hyperlien– Mpq = (1/n) si ||O(p)|| = 0
M’ = M+ (1-) E où Eij = 1/n – Probabilité (1-) de sauter à une page quelconque– Pour convergence (chaîne de Markov irréductible)
)()( qO
rr q
pIqp
![Page 32: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/32.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 32
Ordonnancement Google
PageRank global + Indexation automatique du
contenu– Pondération basée sur
fréquence, fonte, position dans la page, …
![Page 33: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/33.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 33
Repérage d’images
Texte d’accompagnement Analyse automatique du contenu
– Indexation par propriétés visuelles génériques couleur, patrons de texture, de forme ...
– Extraction de patrons + dépendants du domaine ex: visages, empreintes digitales
Métadonnées spécifiques aux images– dimensions– type d’encodage, de compression (TIFF, GIF,...)– encodage de la couleur (CMYK, RGB,...)– processus d’imagerie (type de scanner, date,...)– surtout pour experts– authenticité (signatures digitales, ...)
![Page 34: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/34.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 34
Oracle interMedia
UDT pour image, son, vidéo– ORDImage, ORDAudio, ORDVideo
Support de formats normalisés Stockage
– BLOB – Externe : BFILE, URL, serveurs
spécialisés, … Extraction et stockage de métadonnées Serveurs spécialisés pour contrôle de
flux
![Page 35: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/35.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 35
Architectures de services bibliographiques Protocole client/serveur : service
Z39.5 Normes de méta-données
bibliographiques– MARC, USMARC
Comment choisir la bonne source ?– projets de Bibiothèques Électroniques
métadonnées sur collections et service
![Page 36: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/36.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 36
Architectures Web Moteurs de recherche
– ne voient pas le Web profond (deep Web : contenu dynamique provenant de BD) 100 fois plus de données que le Web de surface !
– World Wide Database (WWD)– indexation limitée
Méta-données Web– Dublin Core Metadata Element Set– RDF– Web sémantique
Architectures de courtiers– COIN, InfoSleuth, Information Manifold, TSIMMIS (Stanford-IBM),…– Traduction entre sources hétérogènes– Médiateurs : vue virtuelle intégrée (modèle commun) de sources hétérogènes– Ontologies
Repérage de Pair à Pair (P2P, Peer to Peer)– Projet JuXTApose (JXTA : http://www.jxta.org)
Accès au Web profond Méta-données en XML
– Processus d’enregistrement auprès de HUB JXTA Espace de requête (~namespace)
– Agents mobiles
![Page 37: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/37.jpg)
Étiquetage
Retour de l’indexation manuelle ! Étiquette (tag)
– mot clé donné par un utilisateur pour représenter une ressource
– vocabulaire libre Étiquetage social (folksonomy)
– dans un contexte collaboratif– combinaison des étiquettes des différents
utilisateurs
11/04/23 © Robert Godin. Tous droits réservés. 37
![Page 38: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/38.jpg)
Nuage d’étiquettes (tag cloud) Ensemble d’étiquettes pondérées Taille de la fonte d’une étiquette en
fonction de son poids– fréquence du terme
Représentation d’une collection de ressources– pages d’un site Web, résultat d’une requête, …
Mécanisme de navigation– cliquer sur étiquette
11/04/23 © Robert Godin. Tous droits réservés. 38
![Page 39: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/39.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 39
Évaluation
Rappel : (Extraits Pertinents) / Pertinents
Précision : (Extraits Pertinents) / Extraits
Documents pertinents
Documents non pertinents
Documents extraits Précision
Rappel0
0
1
1
![Page 40: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/40.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 40
Oracle : Indexation de colonnes textuelles
SQL> CREATE TABLE DocumentsTextuels(noDocument NUMBER PRIMARY KEY, document VARCHAR2(100)) 2 / Table created. SQL> INSERT INTO DocumentsTextuels VALUES (1,'Ce texte est un petit exemple de texte.') 2 / 1 row created. SQL> INSERT INTO DocumentsTextuels VALUES (2,'Ceci est un autre petit exemple de texte.') 2 / 1 row created. SQL> INSERT INTO DocumentsTextuels VALUES (3,'Enfin, un dernier exemple ... ') 2 / 1 row created. SQL> COMMIT 2 / Commit complete. Paramétrage de
l’indexation: (sections, langue, stemmer, anti-dictionnaire,…)
SQL> CREATE INDEX IndexContext ON DocumentsTextuels(document) 2 INDEXTYPE IS Ctxsys.Context 3 / Index created.
![Page 41: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/41.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 41
CONTAINS et SCORESQL> SELECT SCORE(1),noDocument FROM DocumentsTextuels D 2 WHERE CONTAINS(document, 'texte',1)>0 3 ORDER BY SCORE(1) DESC 4 / SCORE(1) NODOCUMENT ---------- ---------- 7 1 4 2
SQL> SELECT SCORE(1),noDocument FROM DocumentsTextuels D 2 WHERE CONTAINS(document, 'texte AND ce',1)>0 3 ORDER BY SCORE(1) DESC 4 / SCORE(1) NODOCUMENT ---------- ---------- 4 1
![Page 42: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/42.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 42
Oracle : Indexation textuelle de XML
SQL> CREATE TABLE DocumentsXML(noDocument NUMBER PRIMARY KEY, document XMLType) 2 / Table created. SQL> INSERT INTO DocumentsXML VALUES (1,XMLType(' 2 <Citation> 3 <Auteur>Proverbe chinois</Auteur> 4 <Contenu>Une méthode fixe n''est pas une méthode</Contenu> 5 </Citation>')) 6 / 1 row created. SQL> INSERT INTO DocumentsXML VALUES (2,XMLType(' 2 <Citation> 3 <Auteur>René Descartes</Auteur> 4 <Contenu> On ne peut se passer d''une méthode pour se mettre en quête de la vérité des ch oses</Contenu> 5 </Citation>')) 6 / 1 row created. SQL> INSERT INTO DocumentsXML VALUES (3,XMLType(' 2 <Citation> 3 <Auteur>Inconnu</Auteur> 4 <Contenu>Ce n’’est que la pointe de l’’asperge</Contenu> 5 </Citation>')) 6 / 1 row created. SQL> COMMIT 2 / Commit complete. SQL> CREATE INDEX IndexContextSurXML ON DocumentsXML (document) 2 INDEXTYPE IS Ctxsys.Context 3 / Index created.
![Page 43: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/43.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 43
Requête approximative textuelle sur chemin
SQL> SELECT SCORE(1),noDocument FROM DocumentsXML D 2 WHERE CONTAINS(document, 'méthode INPATH(Citation/Contenu)',1)>0 3 ORDER BY SCORE(1) DESC 4 / SCORE(1) NODOCUMENT ---------- ---------- 7 1 4 2
SQL> SELECT noDocument 2 FROM DocumentsXML D 3 WHERE D.document.extract('/Citation/Contenu/text()').getStringVal() LIKE '%méthode%' 4 / NODOCUMENT ---------- 1 2
![Page 44: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9dbd497959293b8dfe93/html5/thumbnails/44.jpg)
11/04/23 © Robert Godin. Tous droits réservés. 44
Combinaison structuré/semi-structuré/indexation automatique
SQL> SELECT SCORE(1),noDocument FROM DocumentsXML D 2 WHERE CONTAINS(document, 'méthode INPATH(Citation/Contenu)',1)>0 AND 3 noDocument<>1 4 ORDER BY SCORE(1) DESC 5 / SCORE(1) NODOCUMENT ---------- ---------- 4 2