Download - Moteurs de Recherche
![Page 1: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/1.jpg)
Moteurs de Recherche
Vincent VANDENBUSSCHEDEA – SIR / GR BD
Mars 2002
![Page 2: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/2.jpg)
2
Plan Introduction
Fonctionnement Crawling
Sélection Rafraîchissement
Stockage Stockage distribué
Indexage Index de texte
Classement PageRank
Conclusion
![Page 3: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/3.jpg)
30
0,5
1
1,5
2
2,5
3
3,5
4
4,5
août-99 déc-99 mars-00 juin-00 oct-00 janv-01 avr-01
Nom
bre
de
pages
Introduction – Défis Taille du Web
Plusieurs milliards de pages Croissance exponentielle Plusieurs dizaine de terabytes
![Page 4: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/4.jpg)
4
Introduction – Défis Rafraîchissement
40 % des pages changent chaque jour La demi-vie des pages est de 10 jours
Enchevêtrement de liens nœud de papillon
Cœur : 28 %Pages accessibles depuis le cœur et donnant accès au coeur
22 %Pages accessibles depuis le cœur et mais ne donnant
pas accès au coeur
22 %Pages donnant accès au cœur mais pas accessible depuis le coeur
.com
![Page 5: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/5.jpg)
5
Introduction – Défis Moteurs de recherche
Google : www.google.com WiseNut : www.wisenet.com AllTheWeb : www.alltheweb.com Lycos : www.lycos.com Altavista : www.altavista.com Northern Light : www.northernlight.com HotBot : www.hotbot.com MSN Search : search.msn.com Teoma : www.teoma.com
![Page 6: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/6.jpg)
6
Introduction – Fonctionnement
Crawler(s)Crawler(s)
Contrôleur Crawl
Contrôleur Crawl
Module Indexag
e
Module Indexag
e
Module
Analyse
Module
Analyse
Module Interrogatio
n
Module Interrogatio
n
ModuleClasseme
nt
ModuleClasseme
nt
Entrepôt de
pages
Entrepôt de
pagesWWWWWW
ClientClient
Index
texte
Index
texte
Indexstructur
e
Indexstructur
e
Indexservice
s
Indexservice
s
![Page 7: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/7.jpg)
7
Crawling – Description Algorithme :
S0 : ensemble initial d’URLs à récupérer R S0
Tant que R : Récupérer l’URL Télécharger la page correspondante Extraire les URLs de cette page et les ajouter à R
Challenges : Quelles pages le crawler doit-il télécharger ? Comment le crawler doit-il tenir compte du
rafraîchissement des pages ?
![Page 8: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/8.jpg)
8
Crawling – Sélection Métrique d’importance
Basé sur l’intérêt : IS(P) Définir un intérêt : requête d’intérêt Q Quantifier la similarité textuelle entre P et
Q Basé sur la popularité : IB(P)
Décompte des citations Basé sur la localisation : IL(P)
Sur le domaine : .com plus important Sur la syntaxe : nombre de slashs
![Page 9: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/9.jpg)
9
Crawling – Sélection Stratégies de crawl
Crawl & Stop K : nombre de pages à télécharger IK : Kème importance sur la totalité des pages du Web M : nbre de pages téléchargées dont l’importance >
IK Performance crawler : (M x 100)/K
Crawl & Stop avec seuil G : importance seuil H : nombre de pages du Web dont l’importance > G N : nbre de pages téléchargées dont l’importance >
G Performance crawler :
Si K>H : (N x 100)/K Si K<H : (N x 100)/H
![Page 10: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/10.jpg)
10
Crawling – Sélection Métriques d’ordonnancement
Métrique a priori Métrique d’importance page Métrique d’ordonnancement URL
Métrique de localisation IL(P) Métrique de popularité IB’(P) approchée
Uniquement à partir des pages déjà téléchargées Métrique d’intérêt IS’(A(P)) approchée
Basée sur le texte de l’ancre pointant vers P Uniquement à partir des pages déjà téléchargées
Combinaison de ces métriques IC(P) = k1 x IL(P) + k2 x IB’(P) + k3 x IS’(A(P))
![Page 11: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/11.jpg)
11
Crawling – Sélection 225 000 pages Métrique d’ordonnancement : IB’(P) Stratégies : Crawl & Stop avec seuil pour G = 100 (
H=1400)
![Page 12: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/12.jpg)
12
Crawling – Rafraîchissement
Métrique de rafraîchissement Fraîcheur page P :
À l’instant t :
En moyenne : Âge page P :
À l’instant t :
En moyenne : Fraîcheur et âge collection
t
tdttPA
0),(lim (P)A
sinon 0
t àjour àest P si 1 t)F(P,
t
tdttPF
0),(lim (P)F
sinon onmodificatidate
t àjour àest P si 0 t)A(P,
t
![Page 13: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/13.jpg)
13
Crawling – Rafraîchissement Stratégie de rafraîchissement
Uniforme : fréquence f Proportionnelle : i/fi constant
Ressource limitée e1 1/2 x 1/2 = 1/4 e2 1/2 x 1/18 = 1/32
Résultat Si l’évolution des pages suit une loi de
Poisson, la stratégie uniforme est toujours meilleure que la stratégie proportionnelle quelque soit le nbre de page, leurs fréquences d’évolution et leurs fréquences de rafraîchissement au sens de la métrique de fraîcheur ou d’âge.
![Page 14: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/14.jpg)
14
Crawling – Rafraîchissement Optimisation du rafraîchissement
Nbre de pages : 5 avec fréquence d’évolution respective 1, 2,…, 5.
Capacité crawler : 5 pages Evolution selon loi de Poisson
![Page 15: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/15.jpg)
15
Stockage – Défis Extensibilité
Distribution de l’entrepôt de pages Modes d’accès
Random : module d’interrogation Streaming : module d’indexage et d’analyse
Rafraîchissement Massif Fréquent
Effacement pages obsolètes
![Page 16: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/16.jpg)
16
Stockage – Distribution Politique de distribution des pages
Uniforme Hashage
Méthode d’organisation des pages sur un site Hashage Uniforme Hashage par intervalle
Méthode de rafraîchissement Mode batch ou mode rigide Crawl complet ou partiel En place ou avec image
![Page 17: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/17.jpg)
17
Indexage – Description Types d’index :
Index de structure (ou de liens) Stocker les informations de voisinage
Index de contenu (ou de texte) Index inversé
Index de services Index de site
Partitionnement d’index : Locale Globale
![Page 18: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/18.jpg)
18
Indexage – Index inversé Définition
Mot d’indexage Localisation : URL + poids Index inversé : liste des localisations
par mot d’indexage Lexique : ensemble des mots
d’indexage Challenge
Taille Rafraîchissement Format de stockage (compression)
![Page 19: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/19.jpg)
19
Indexage – Distribution
Etape 1
Etape 2
Distributeurs
Indexeurs Serveurs de requêtes
Statisticiens
Pages Web
Indexinversé
Etapeintermédiaire
![Page 20: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/20.jpg)
20
Classement – Challenge Présenter les résultats d’une requête de
façon efficace Taille importante du Web Pages Web pas suffisamment auto-
descriptive Utiliser la structure des liens du Web PageRank
Algorithme développé par Page & Brine en 1998 à la base de Google
Étendre la notion de citation en prenant en compte l’importance du citant.
![Page 21: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/21.jpg)
21
Classement – PageRank Version théorique
N(i) : nbre de liens sortant de la page i B(i) : nbre de pages citant i Définition récursive du PageRank r(i)
de i :
Interprétation de r comme vecteur propre
Méthode de la puissance itérée
)(
)(/)()(iBj
jNjrirr2=0.286
r3=0.143r1=0.286
r4=0.143r5=0.143
![Page 22: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/22.jpg)
22
Classement – PageRank Version pratique
Le Web n’est pas un graphe fortement connexe : Existence de voies sans issue Existence de points d’arrêts
Enlever les nœuds sans liens de sortie Donner la possibilité de sortir des voies sans
issue
d traduit l’aptitude à l’ennui du surfeur lorsqu’il est bloqué dans une voie sans issue. A partir d’un moment il va décider de repartir d’un autre point.
mdjNjrdiriBj
/)1()(/)()()(
1
2
3
45
1
2
3
4
![Page 23: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/23.jpg)
23
Conclusion 2 contraintes fortes
Taille Rafraîchissement
Heuristiques de crawling Stockage distribué Indexage parallélisé Classement basé sur les liens
(PageRank) Ce qu’il reste à faire
Images, vidéos Multiplication des contenus dynamiques
![Page 24: Moteurs de Recherche](https://reader036.vdocuments.pub/reader036/viewer/2022081506/568145e9550346895db2eb6f/html5/thumbnails/24.jpg)
24
Bibliographie [1] A. Arasu, J. Cho, H. Garcia-Molina,
and S. Raghavan. Searching the web. ACM Transactions on Internet Technologies, 1(1), June 2001
[2] The Search Engine Showdown www.searchengineshowdown.com
[3] B. Murray, A. Moore. Sizing the Internet, White Paper, July 2000 disponible sur www.cyveillance.com