16/06/2014© robert godin. tous droits réservés.1 21repérage de linformation

44
26/06/22 © Robert Godin. Tous droits réservés. 1 21 Repérage de l’information

Upload: sybille-james

Post on 04-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 1

21 Repérage de l’information

Page 2: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 2

Processus de base

C alcu l de s im ila ritésim (d j,q i)

D ocum entsD = {d j, j = 1 ,...,m }

R equêtesQ = {q i, i = 1 ,...,n }

D ocum ents extra itsE = {e k , k = 1 ,...,r}

Page 3: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 3

Furetage (browsing)

Navigation dans un espace Classification hiérarchique Hypertexte

Page 4: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 4

The ACM Computing Classification System (1998)

: http://www.acm.org/class/1998/

A. General Literature A.0 GENERAL

Biographies/autobiographies Conference proceedings General literary works (e.g., fiction, plays)

A.1 INTRODUCTORY AND SURVEY A.2 REFERENCE (e.g., dictionaries, encyclopedias, glossaries) A.m MISCELLANEOUS

B. Hardware B.0 GENERAL B.1 CONTROL STRUCTURES AND MICROPROGRAMMING (D.3.2)

B.1.0 General B.1.1 Control Design Styles

Hardwired control [*] Microprogrammed logic arrays [*] Writable control store [*]

B.1.2 Control Structure Performance Analysis and Design Aids Automatic synthesis [*] Formal models [*] Simulation [*]

Page 5: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 5

Classification Yahoo.frActualités et médias

Sujets d’actualité, Télévision, Journaux...

Commerce et économieB2B, Shopping, Emploi, Immobilier...

Informatique et InternetInternet, Logiciels, Matériel...

SantéDiététique, Médecine, Organismes...

Enseignement et formationPrimaire, Secondaire, Supérieur...

Institutions et politiqueMinistères, Droit, Services publics...

Sciences et technologiesAnimaux, Astronomie, Physique...

Sports et loisirsFoot, Tourisme, Auto/Moto, Jeux...

Art et cultureLittérature, Cinéma, Musique, Musées...

DivertissementÀ voir, Loteries, Humour, Sorties...

Exploration géographiqueZones régionales, Pays, Europe, France...

Références et annuairesDictionnaires, Annuaires, Bibliothèques...

SociétéEnfants, Gastronomie, Religion...

Sciences humainesArchéologie, Histoire, Économie...

Page 6: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 6

20.1 Indexation

C alcu l de s im ila ritésim (d j,q i)

D ocum entsD = {d j, j = 1 ,...,m }

R equêtesQ = {q i, i = 1 ,...,n }

D ocum ents extra itsE = {e k , k = 1 ,...,r}

Indexation

D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)

Page 7: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

Variantes

Granularité du document Nature des termes (descripteurs, mots-clés)

– Uniterme, multiterme (phrase), n-gramme, concepts, représentation conceptuelle, …

– Unilingue ou multilingue– Chiffres, caractères spéciaux, …

Lemmatisation, troncature Vocabulaire contrôlé ou libre Pondération

11/04/23 © Robert Godin. Tous droits réservés. 7

Page 8: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 8

Indexation automatique :principes de base Mots "fonctionnels" sont inutiles

– Adverbes, prépositions,... (et, ou, alors, le, la, les ...)– Constitution d'un anti-dictionnaire ("stop list")

Analyse des fréquences des termes – Termes fréquents dans un texte sont-ils bons?

mots fonctionnels sont fréquents... collection informatique: "informatique" ?

– Besoin de termes discriminants pas fréquents pas tous les documents

– « inverse document frequency » (idf) maximisent l'information

– « signal-noise ratio » dispersent les documents

– valeur discriminante (vd) distinguent pertinents de non pertinents

– méthode probabiliste distribution “non aléatoire” au sens du repérage de l’information

Page 9: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 9

Indexation automatique de textes

0) Segmentation– Découpage en termes

1) Éliminer les termes non significatifs– Anti-dictionnaire

2) Analyse lexicale -> radical/lemme– Porter pour l’anglais (liste suffixes)

3) Calculer le poids pij du terme ti dans chaque document dj

4) Conserver si pij > Seuil

Page 10: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 10

Pondération

pij formé de trois composantes – (Salton & Buckley, 1988)

Composante fréquence dans le document– 1.0 (cf1) – fij (cf2)

– 0.5 + 0.5 (fij /maxi(fij)) [0.5,1] (cf3) variations dans la longueur des documents

Composante normalisation– Diviser par la taille du vecteur

Page 11: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 11

Composante fréquence documentaire inverse 1.0 (cd1) log (N / fdi) (cd2)

– N: nombre total de documents (|D|)– fdi : fréquence de ti dans la collection

– (cf2)+(cd2) : « tfidf »

log ((N - fdi) / fdi) (cd3)– probalistic term relevance (Croft &

Harper, 1975)

Page 12: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 12

Index sous forme de listes inversées Implémentation

– index + tables– « Tableau trié » sur disque– arbre digital (trie)– …

Informations supplémentaires– poids– localisation des termes

D ocum ent 1

D ocum ent 2

D ocum ent 3

D ocum ent 4

D ocum ent 5

D ocum ent 6

Influx

Inform atique

Infrarouge

Ingénierie

D ocum entsL istes

inverséesTerm es

Page 13: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 13

Indexation par vocabulaire contrôlé Approche à base de connaissances

– Règles acquises d'un expert (SE) Induction de règles à partir d'un

corpus déjà indexé – Classification automatique

Page 14: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 14

Recherche plein texte pour petites collections Algorithmes de recherche

– KMP (Knuth, Morris & Pratt, 1977)– BM (Boyer & Moore, 1977)– …

Fichiers de signatures– Superposition de codes pour filtrer

les textes Inverser tout le texte

Page 15: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 15

20.2 Modèle booléen

Problème du tout ou rien Formulation de requête difficile

Logique boo léennesim (d j,q i)

D ocum entsD = {d j, j = 1 ,...,m }

R equêtes boo léennesQ = {q i, i = 1 ,...,n }

D ocum ents extra itsE = {e k , k = 1 ,...,r}

Indexation

D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)

Page 16: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 16

20.3 Modèle vectoriel

t

k kj

t

k ki

kj

t

k ki

ji

ji

dq

dq

dq

dq

1

2

1

2

1

Métrique du cosinus

M étrique dansespace vectorie l

|d j,q i|

D ocum entsD = {d j, j = 1 ,...,m }

R equêtesQ = {q i, i = 1 ,...,n }

D ocum ents ordonnés pardegré de pertinenceE = {e k , k = 1 ,...,r}

Indexage

D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)

T raduction

R equêtes vectorie llesq i = (q 1i, q 2i,...,q ti)

Page 17: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

Limites principales du vectoriel Hypothèse d’indépendance des

termes Expressivité limitée de la requête

11/04/23 © Robert Godin. Tous droits réservés. 17

Page 18: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 18

Intégration booléen/degré de pertinence Modèle flou Modèle booléen étendu Réseaux probabilistes

Page 19: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 19

Booléen flou

sim(dj, q1 ET q2) = min[sim(dj, q1), sim(dj, q2)] sim(dj, q1 OU q2) = max[sim(dj, q1), sim(dj, q2)] sim(dj, NON q) = 1- sim(dj, q) sim(dj, ti) = dij [0,1] Problème

– évaluation dominée par les petits poids dans les conjonctions et grands poids dans les disjonctions

Variante Mixed Min and Max (MMM) (Fox, Betrabet, Koushik & Lee, 1992)– Combinaison linéaire de min et max

Paice (Fox et al., 1992)– Tient compte de tous les poids

Page 20: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 20

Modèle étendu de requêtes Booléennes (Salton, Fox & Wu, 1983)

Généralisation de Booléen flou et vectoriel Pondération des termes dans documents et

requêtes Possibilité de requêtes Booléennes Distance paramétrisée : p-norm Paramètre p [1,∞] détermine

l'interprétation– p = 1 : vectoriel

Tous les termes sont utilisés– p = ∞ : Booléen flou

Seulement le min ou max

Page 21: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 21

Feedback

A ppariem ent

D ocum entsD = {d j, j = 1 ,...,m }

R equêtesQ = {q i, i = 1 ,...,n }

D ocum ents extra itsE = {e k , k = 1 ,...,r}

Indexation

D ocum ents indexésd j = (d 1,j, d 2,j,...,d t,j)

Feedback

Page 22: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 22

Feedback du système

Fréquence des termes de la sous-collection extraite (Ingwerson & Wormell, 1986)– Nuages d’étiquettes

Graphes des associations entre documents, termes ...(Belew, 1989)

Classification des documents extraits (Crouch, Crouch & Andreas, 1989; Cutting, Karger, Pedersen & Tukey, 1992)

Requêtes "voisines" pertinentes à la collection (Carpineto & Romano, 1996; Godin, Davidson, Missaoui & Mili, 1993a; Godin, Missaoui & April, 1993b)

Page 23: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 23

Réaction de l’utilisateur

Pertinence des documents extraits (relevance feedback)

Pertinence des termes Sélection de classes/requêtes

voisines

Page 24: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 24

Apprentissage

Requête modifiée selon pertinence– Relevance feedback (Rocchio, 1971; Salton et al., 1985)– Probabiliste, RNA, génétique,…

Requête modifiée selon documents extraits– Query expansion

Indexation modifiée (Belew, 1989; Brauen, 1971)– Probabiliste, RNA, génétique, …

Hypertexte (liens entre documents) modifié Profil d’utilisateur

– Système de recommandation

Page 25: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 25

Raffinements

Tenir compte de la structure du document– <title> plus important que <body>,…

Représentation plus riche– Multi-termes, thesaurus, CG, DL, XML, RDF, Ontologies (OWL), Web

sémantique,… Analyse de langue naturelle

– E.g. extraire groupes nominaux Modèles statistiques de la langue

– Statistiques sur grands corpus– P(Requête soit générée par un modèle de langue du Document)– Estimer la probabilité d’une suite de termes

P(terme|les termes qui précèdent) Modèle unigramme donne de bons résultats

Latent Semantic Indexing (LSI)– Réduction à un ensemble de dimensions “significatives” par

décomposition matricielle Indexation par ensembles fréquents Apprentissage de la fonction d’appariement

– Méthode d’apprentissage machine

Page 26: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 26

Thesaurus

Termes de requête vs termes d’index – (Furnas, Landauer, Gomez & Dumais, 1983)

Terme => concept Relations sémantiques entre termes

– synonymes– généralisation/spécialisation– relié à– …

Construction– manuel, automatique, assisté– général ou par domaine

Utilisation– à l'indexation– expansion de requête– métrique d’appariement

Page 27: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

Système de recommandation Pas de requête « ad hoc »

– Profil d’utilisateur– Collection d’items qui évolue

Recommander des items pertinents au profil– Exploiter les jugements de pertinence antérieurs

Application populaire en commerce électronique Recommandation basée sur le contenu (content-based

recommendation)– Items semblables à ceux jugés pertinents auparavant

Filtrage collaboratif– Exploiter patrons d’utilisation de communautés d’utilisateurs– Recommander les items jugés pertinents par les utilisateurs semblables

Recommandation hybride– Contenu + collaboratif

11/04/23 © Robert Godin. Tous droits réservés. 27

Page 28: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

Fouille de textes(text mining) Extraction d’une représentation

du texte– E.g. indexation automatique

Fouille de données sur la représentation– regroupement– classification automatique

Détection de pourriel

11/04/23 © Robert Godin. Tous droits réservés. 28

Page 29: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 29

Exploiter les liens entre documents Exploiter les termes des

documents reliés Exploiter les étiquettes des liens

hypertextes– Forme d’indexation sociale

Plus de liens = plus de pertinence ?

- HITS : page d’autorité, page hub- Page Rank (Google)

Page 30: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 30

Analyse du graphe du Web

Hyperlink-Induced Topic Search (HITS) de Kleinberg– ap : poids d’autorité de la page p

– hp : poids hub de la page p initialisés à 1/n (n : nombre de pages)

– Répéter jusqu’à convergence :

– I(p) : pages qui pointent vers p– O(p) : pages pointées par p

Normaliser :

na p1

nhp1

)( pIq

qp ha

)( pOq

qp ah

aaa

hhh

Page 31: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 31

PageRank de Google Ne distingue pas entre autorité et hub rp : PageRank d’une page Principe de base

– Importance d’une page est fonction de l’importance des pages qui lui font référence

r = rTM – Mpq = 1/||O(p)|| si la page p pointe vers la page q– Mpq = 0 autrement

Page p sans hyperlien– Mpq = (1/n) si ||O(p)|| = 0

M’ = M+ (1-) E où Eij = 1/n – Probabilité (1-) de sauter à une page quelconque– Pour convergence (chaîne de Markov irréductible)

)()( qO

rr q

pIqp

Page 32: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 32

Ordonnancement Google

PageRank global + Indexation automatique du

contenu– Pondération basée sur

fréquence, fonte, position dans la page, …

Page 33: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 33

Repérage d’images

Texte d’accompagnement Analyse automatique du contenu

– Indexation par propriétés visuelles génériques couleur, patrons de texture, de forme ...

– Extraction de patrons + dépendants du domaine ex: visages, empreintes digitales

Métadonnées spécifiques aux images– dimensions– type d’encodage, de compression (TIFF, GIF,...)– encodage de la couleur (CMYK, RGB,...)– processus d’imagerie (type de scanner, date,...)– surtout pour experts– authenticité (signatures digitales, ...)

Page 34: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 34

Oracle interMedia

UDT pour image, son, vidéo– ORDImage, ORDAudio, ORDVideo

Support de formats normalisés Stockage

– BLOB – Externe : BFILE, URL, serveurs

spécialisés, … Extraction et stockage de métadonnées Serveurs spécialisés pour contrôle de

flux

Page 35: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 35

Architectures de services bibliographiques Protocole client/serveur : service

Z39.5 Normes de méta-données

bibliographiques– MARC, USMARC

Comment choisir la bonne source ?– projets de Bibiothèques Électroniques

métadonnées sur collections et service

Page 36: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 36

Architectures Web Moteurs de recherche

– ne voient pas le Web profond (deep Web : contenu dynamique provenant de BD) 100 fois plus de données que le Web de surface !

– World Wide Database (WWD)– indexation limitée

Méta-données Web– Dublin Core Metadata Element Set– RDF– Web sémantique

Architectures de courtiers– COIN, InfoSleuth, Information Manifold, TSIMMIS (Stanford-IBM),…– Traduction entre sources hétérogènes– Médiateurs : vue virtuelle intégrée (modèle commun) de sources hétérogènes– Ontologies

Repérage de Pair à Pair (P2P, Peer to Peer)– Projet JuXTApose (JXTA : http://www.jxta.org)

Accès au Web profond Méta-données en XML

– Processus d’enregistrement auprès de HUB JXTA Espace de requête (~namespace)

– Agents mobiles

Page 37: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

Étiquetage

Retour de l’indexation manuelle ! Étiquette (tag)

– mot clé donné par un utilisateur pour représenter une ressource

– vocabulaire libre Étiquetage social (folksonomy)

– dans un contexte collaboratif– combinaison des étiquettes des différents

utilisateurs

11/04/23 © Robert Godin. Tous droits réservés. 37

Page 38: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

Nuage d’étiquettes (tag cloud) Ensemble d’étiquettes pondérées Taille de la fonte d’une étiquette en

fonction de son poids– fréquence du terme

Représentation d’une collection de ressources– pages d’un site Web, résultat d’une requête, …

Mécanisme de navigation– cliquer sur étiquette

11/04/23 © Robert Godin. Tous droits réservés. 38

Page 39: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 39

Évaluation

Rappel : (Extraits Pertinents) / Pertinents

Précision : (Extraits Pertinents) / Extraits

Documents pertinents

Documents non pertinents

Documents extraits Précision

Rappel0

0

1

1

Page 40: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 40

Oracle : Indexation de colonnes textuelles

SQL> CREATE TABLE DocumentsTextuels(noDocument NUMBER PRIMARY KEY, document VARCHAR2(100)) 2 / Table created. SQL> INSERT INTO DocumentsTextuels VALUES (1,'Ce texte est un petit exemple de texte.') 2 / 1 row created. SQL> INSERT INTO DocumentsTextuels VALUES (2,'Ceci est un autre petit exemple de texte.') 2 / 1 row created. SQL> INSERT INTO DocumentsTextuels VALUES (3,'Enfin, un dernier exemple ... ') 2 / 1 row created. SQL> COMMIT 2 / Commit complete. Paramétrage de

l’indexation: (sections, langue, stemmer, anti-dictionnaire,…)

SQL> CREATE INDEX IndexContext ON DocumentsTextuels(document) 2 INDEXTYPE IS Ctxsys.Context 3 / Index created.

Page 41: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 41

CONTAINS et SCORESQL> SELECT SCORE(1),noDocument FROM DocumentsTextuels D 2 WHERE CONTAINS(document, 'texte',1)>0 3 ORDER BY SCORE(1) DESC 4 / SCORE(1) NODOCUMENT ---------- ---------- 7 1 4 2

SQL> SELECT SCORE(1),noDocument FROM DocumentsTextuels D 2 WHERE CONTAINS(document, 'texte AND ce',1)>0 3 ORDER BY SCORE(1) DESC 4 / SCORE(1) NODOCUMENT ---------- ---------- 4 1

Page 42: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 42

Oracle : Indexation textuelle de XML

SQL> CREATE TABLE DocumentsXML(noDocument NUMBER PRIMARY KEY, document XMLType) 2 / Table created. SQL> INSERT INTO DocumentsXML VALUES (1,XMLType(' 2 <Citation> 3 <Auteur>Proverbe chinois</Auteur> 4 <Contenu>Une méthode fixe n''est pas une méthode</Contenu> 5 </Citation>')) 6 / 1 row created. SQL> INSERT INTO DocumentsXML VALUES (2,XMLType(' 2 <Citation> 3 <Auteur>René Descartes</Auteur> 4 <Contenu> On ne peut se passer d''une méthode pour se mettre en quête de la vérité des ch oses</Contenu> 5 </Citation>')) 6 / 1 row created. SQL> INSERT INTO DocumentsXML VALUES (3,XMLType(' 2 <Citation> 3 <Auteur>Inconnu</Auteur> 4 <Contenu>Ce n’’est que la pointe de l’’asperge</Contenu> 5 </Citation>')) 6 / 1 row created. SQL> COMMIT 2 / Commit complete. SQL> CREATE INDEX IndexContextSurXML ON DocumentsXML (document) 2 INDEXTYPE IS Ctxsys.Context 3 / Index created.

Page 43: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 43

Requête approximative textuelle sur chemin

SQL> SELECT SCORE(1),noDocument FROM DocumentsXML D 2 WHERE CONTAINS(document, 'méthode INPATH(Citation/Contenu)',1)>0 3 ORDER BY SCORE(1) DESC 4 / SCORE(1) NODOCUMENT ---------- ---------- 7 1 4 2

SQL> SELECT noDocument 2 FROM DocumentsXML D 3 WHERE D.document.extract('/Citation/Contenu/text()').getStringVal() LIKE '%méthode%' 4 / NODOCUMENT ---------- 1 2

Page 44: 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

11/04/23 © Robert Godin. Tous droits réservés. 44

Combinaison structuré/semi-structuré/indexation automatique

SQL> SELECT SCORE(1),noDocument FROM DocumentsXML D 2 WHERE CONTAINS(document, 'méthode INPATH(Citation/Contenu)',1)>0 AND 3 noDocument<>1 4 ORDER BY SCORE(1) DESC 5 / SCORE(1) NODOCUMENT ---------- ---------- 4 2