recherche eveillée sur internet : mode d'emploi - bfr consultants
DESCRIPTION
Support de deux conférences animées par Béatrice Foenix-Riou (BFR Consultants) sur le thème "Recherche éveillée sur Internet : mode d'emploi" (Comment tirer parti de la puissance de Google en étant conscient de ses limites et en restant attentif aux alternatives).TRANSCRIPT
Recherche éveillée sur Internet : mode d’emploi
Béatrice Foenix-Riou BFR Consultants www.recherche-eveillee.com
www.bfr-consultants.com
Décembre 2011
Recherche éveillée sur Internet : mode d’emploi
Béatrice Foenix-Riou ? • depuis + 20 ans : rédactrice en chef des deux lettres publiées par
Bases Publications : BASES (lancée il y a 26 ans !) et NETSOURCES (15 ans déjà)
• depuis + 2 ans : directrice de BFR Consultants, (cabinet conseil spécialisé
dans la recherche et la veille sur Internet : formation…) • depuis + 1 an : membre du CA (et du bureau) de l’ADBS (Association des
professionnels de l’information). • depuis quelques mois : - animatrice du secteur « Veille et recherche sur Internet » de
l’ADBS - auteure de « Recherche éveillée sur Internet : mode d’emploi » (co-édition Bases Publications - Lavoisier)
© BFR Consultants - 2011 2
Recherche éveillée sur Internet : mode d’emploi
© BFR Consultants - 2011 3
Ou…
Comment tirer parti de toute la puissance de Google (et des moteurs de recherche)
en étant conscient de ses limites
et en restant attentif aux alternatives
qui se présentent
En France, en octobre 2011, +90 % des internautes utilisant un outil de recherche
ont interrogé … Google !
Mais la plupart : -> Se contentent des premiers résultats
(les 3 premières réponses génèrent 60% des clics) -> Pensent interroger la totalité du Web
-> Ne connaissent pas les fonctions avancées de Google -> Ne sont pas conscients du mode de fonctionnement du moteur…
© BFR Consultants - 2011 4
Recherche éveillée sur Internet : mode d’emploi
© BFR Consultants - 2011 5
Recherche éveillée sur Internet : mode d’emploi
MOTEURS DE RECHERCHE = WEB VISIBLE Les moteurs (Google…) sont composés de trois éléments : • un robot : logiciel qui parcourt le Web de liens en liens et qui « copie »
toutes les pages qu’il rencontre
• un index : qui contient le texte des pages rencontrées par le robot
• une interface Web CONSEQUENCES -> aucun moteur n’a la même couverture du Web (ni le même classement) -> la recherche se fait sur l’index du moteur -> sur la copie des pages telles
qu’elles étaient lorsqu’il les a copiées ; -> les moteurs ignorent le Web invisible
© BFR Consultants - 2011 6
Recherche éveillée sur Internet : mode d’emploi
Microsoft Datacenter
© BFR Consultants - 2011
En
Recherche éveillée sur Internet : mode d’emploi
WEB VISIBLE Tout ce qui peut être indexé par un moteur
-> Croissance exponentielle
☛ Entre septembre 1998 et septembre 2005, l’index de Google a été multiplié par 1000 ! (de 24 millions à 24 milliards de pages !). Dernière communication sur la taille de son index en sept. 2005.
☛ Juillet 2008 : Cuil.com : 120 milliards de pages ☛ Juillet 2008 : Google annonce que son système a identifié (mais pas indexé) …
mille milliards d’URLs ! ☛ D’après Netcraft : + 550 millions de sites web ☛ Tenter d’estimer la « taille du Web » n’a plus de sens, d’autant que la recherche
ne se fait que sur une partie de l’index des moteurs
© BFR Consultants - 2011
En Infographic by Shanghai Web Designers
WEB INVISIBLE La partie immergée de l’iceberg
Appartiennent au Web invisible : • Banques de données = pages dynamiques • Sites avec identification • Serveurs classiques • Formats spécifiques • [no robot]
☛ Gisement mal couvert par les moteurs
☛ Mais frontières de plus en plus « perméables »
© BFR Consultants - 2011 9
Recherche éveillée sur Internet : mode d’emploi
1. LES MOTEURS DE RECHERCHE
Yahoo!
Bing.com
Exalead
etc
© BFR Consultants - 2011 10
Recherche éveillée sur Internet : mode d’emploi
PRINCIPES DE FORMULATION • L’utilisateur saisit un ou plusieurs mots-clés dans le formulaire • La requête est lancée sur le texte intégral des pages enregistrées par le
moteur (plusieurs dizaines de milliards, contenues dans son index) • La page de résultats affiche la liste et les extraits des (copies de) pages
contenant le(s) mot(s)-clé(s) (à la date de l’indexation) • Un clic sur le titre affiche la page aujourd’hui sur le Web
© BFR Consultants - 2011 11
Recherche éveillée sur Internet : mode d’emploi
RECHERCHE SIMPLE 1. Utiliser des mots aussi PRECIS que possible, dans la langue des
documents que l’on recherche (se demander quels mots doivent être présents dans le document recherché)
2. UTILISER « LES GUILLEMETS » pour rechercher « tel quel » : une personnalité (« prénom nom »), un mot-composé ou une expression/citation (titre d’un ouvrage…)
MAIS ATTENTION
• Penser dans ce cas à « élargir » la recherche (ex.: «prénom nom» OR «nom prénom» OR «initiale prénom nom», ou encore «mot composé» OR «mots composés»)
→ CONSEIL : 1ère recherche sans guillemets, en affichant 100 résultats/page ; évaluer les résultats puis modifier la requête en conséquence. © BFR Consultants - 2011 12
Les moteurs de recherche
RECHERCHE SIMPLE 3. ECRIRE DE PREFERENCE LES MOTS AVEC LEURS ACCENTS
(théoriquement non pris en compte par Google)
MAIS ATTENTION :
-> incohérences quelquefois lorsque le mot est « entre guillemets » exemple : «a parts egales» : 323 000 résultats ; «a parts égales» : 51 500 résultats ; «à parts égales» : 3 070 000 résultats sur Google…!
recherche dans ce cas sur l’occurrence exacte du mot (avec ou sans accents)
-> bug lorsque la recherche est limitée au titre recherche systématique sur l’occurrence exacte du mot (avec ou sans accents)
Vérifier la façon dont Google a pris en compte la requête, et en tenir compte. Pour forcer la recherche sur un mot accentué : “mot” (ex.: “marché”, pour avoir « marché » et non « marche »)
© BFR Consultants - 2011 13
Les moteurs de recherche
RECHERCHE SIMPLE 4. COMPARER LES FORMES PLURIELS ET SINGULIERS (ex. pluriel OR
singulier)
MAIS ATTENTION :
- l’utilisateur ne peut exiger la troncature sur Google (contrairement à Exalead) ;
- Google applique une troncature implicite « quand il le juge utile » !!!, et pas seulement sur les pluriels/singuliers (recherche également de mots « proches ». Ex.: bibliographie jean racine recherche biographie jean racine)
CONSEILS -> vérifier la façon dont Google a pris en compte les mots
-> utiliser le cas échéant les guillemets (« bibliographie » jean racine)
-> sur Google, le * est un opérateur « de proximité » (« bibliothèque* numérique* » recherche « bibliothèque mondiale numérique »…)
© BFR Consultants - 2011 14
Recherche éveillée sur Internet : mode d’emploi
FONCTIONS AVANCEES • Si le nombre de réponses est trop important : limiter la recherche (ou certains
mots) aux titres des pages (ex.: intitle:«marée noire» OR intitle:«maree noire» environnement)
• Pour identifier des documents spécifiques (publications, chiffres…) :
limiter à un type de fichier ex.: statistiques énergie filetype:pdf (ou doc, ppt, xls)
• Pour restreindre à certains types de sites : limiter selon le nom de
domaine ex.: statistiques énergie site:gouv.fr (ou site:industrie.gouv.fr)
• Si besoin : limiter à l’URL (évolution politique France 1815 inurl:ac) -> Ne pas hésiter à combiner les critères, mais en étant très rigoureux dans la construction de la requête
© BFR Consultants - 2011 15
Recherche éveillée sur Internet : mode d’emploi
© BFR Consultants - 2011 16
Recherche éveillée sur Internet : mode d’emploi
ASTUCES • Fonctions En cache de Google (cache:www.URL) dans l’aperçu, colonne de droite :
-> retrouver une page disparue -> repérer les extraits pertinents
• Fonction Pages similaires (related:url sur Google) dans l’aperçu, colonne de droite
-> identifier les sites concurrents -> identifier d’autres sites de même type (ex.: related:www.lemonde.fr)
• Utiliser l’opérateur OR (en majuscules), pour étendre aux mots de forme voisine, aux synonymes…
• Utiliser les guillemets pour rechercher un mot tel qu’il est écrit et
-mot pour exclure un mot
ASTUCES • Fonctions define: de Google (ex.: define:rss)
-> trouver des définitions (mais il faut vérifier la source) • Fonction conversion de Google
(ex.: 18 dollars en euro ; devise du Brésil en monnaie mexicaine)
• Fonction numrange: de Google
(ex.: «énergie renouvelable» site:gouv.fr 2015..2100) -> trouver des pages contenant un chiffre compris entre deux fourchettes ; utile pour données prospectives
• Opérateur de proximité AROUND(n)
(ex. George AROUND(3) Bush)
© BFR Consultants - 2011 17
Recherche éveillée sur Internet : mode d’emploi
LA « COLONNE D'OUTILS » DE GOOGLE Nouvelles fonctionnalités de Google, depuis la page de résultats :
Lien « Plus d’outils » (interface Google Jazz, lancée en mai 2010) -> Sources : sélection par type de résultats (images, vidéos, actualités, blogs,
discussions...) ; -> Date de publication (résultats récents, moins de 24h, une semaine, un mois, un
an…) ou Période personnalisée : possibilité de retrouver des documents indexés à une date donnée ou une période donnée (équivalent daterange:date1-date2)
-> Pages en langue étrangères traduites : Google va traduire la requête dans une
autre langue, interroger le web dans cette langue et retraduire les résultats en français
© BFR Consultants - 2011 18
Recherche éveillée sur Internet : mode d’emploi
© BFR Consultants - 2011 19
Google : trucs et astuces pour les pros de l’infodoc
© BFR Consultants - 2011 20
Google : trucs et astuces pour les pros de l’infodoc
© BFR Consultants - 2011 21
Recherche éveillée sur Internet : mode d’emploi
IDENTIFIER DES PAGES DE LIENS Lorsque l’on souhaite identifier une liste de sites web sur un sujet,
et que la requête amène trop de résultats -> rechercher spécifiquement des pages de liens
Pages contenant le mot-clé + le mot liens (ou le mot sites) dans le titre ou dans l’URL Exemple : identifier une liste de ressources concernant la chimie du végétal
- chimie végétaux : 1 460 000 pages sur Google
- chimie végétaux intitle:liens OR inurl:liens : 3 620 pages sur Google
© BFR Consultants - 2011 22
© BFR Consultants - 2011 23
Recherche éveillée sur Internet : mode d’emploi
UN MONDE DOMINE PAR TROIS GEANTS Google (sept. 1998) (www.google.fr)
• Juillet 2000 : 1% du trafic mondial. Est choisi par Yahoo! pour remplacer Inktomi • Septembre 2001 : 30% du trafic en France (1ere place) (Xiti) • août 2011 : 90,5 % du trafic en France (Xiti) (64,8 % aux USA - Comscore)
Yahoo! (avril 1994) (fr.search.yahoo.com ou www.yahoo.fr) • Septembre 2001 : 24% du trafic en France (1ere place) (Xiti) • Août 2011 : 1,5% du trafic en France (Xiti) (16,3 % aux USA) • Juillet 2009 : accord Yahoo/Microsoft. Yahoo! utilise la technologie Bing
Microsoft (www.bing.com) • Septembre 2001 : 8% du trafic en France (5° place) (Xiti) • Août 2011 : 3,3 % du trafic en France (Xiti) (14,7% aux USA)
Recherche éveillée sur Internet : mode d’emploi
© BFR Consultants - 2011 24
DES OUTSIDERS A PRENDRE EN CONSIDERATION
Exalead (2004) (www.exalead.fr)
• développé par la société française Exalead • point fort : expressions connexes • point fort : critères de recherche sophistiqués
16 milliards de pages
25 © BFR Consultants - 2011
Recherche éveillée sur Internet : mode d’emploi
2. LES ANNUAIRES GENERALISTES
© BFR Consultants - 2011 26
Recherche éveillée sur Internet : mode d’emploi
FONCTIONNEMENT ET EVOLUTION ☛ Description de sites Web (titre et résumé) répertoriés dans des rubriques et
sous-rubriques. Travail humain d’indexation
☛ Recensent les sites grand public et professionnels, tous domaines confondus. Pas de sélection qualitative
☛ Recherche par choix successifs ou par mots sur les catégories et les descriptifs des sites
☛ La page de résultats affiche la liste des sites répondant à la requête
☛ En voie de disparition. N’ont pas pu suivre le développement du Web.
☛ « survivant » : l’Open Directory (www.dmoz.org) - modèle économique différent. Mais problème de mise à jour…
© BFR Consultants - 2011 27
Recherche éveillée sur Internet : mode d’emploi
UTILES POUR : • débroussailler un sujet en identifiant des SITES spécialisés
• identifier des sites localisés dans un pays
Exemple : repérer des sites dans le domaine de la pédagogie
- pédagogie : 14 500 000 pages sur Google
-> sur Dmoz.org : pédagogie dans World: Français:
rubrique «World: Français: Formation: Pédagogie» : 51 sites et d’autres rubriques comme Formation: Guides, ou Ressources, etc.…
© BFR Consultants - 2011 28
Recherche éveillée sur Internet : mode d’emploi
3. LES REPERTOIRES SELECTIFS
Signets de la BnF
Signets-universites.fr
etc
© BFR Consultants - 2011 29
Recherche éveillée sur Internet : mode d’emploi
LES REPERTOIRES SELECTIFS • Une offre ancienne, qui évolue peu ; mais fragile car à la merci d’une décision
politique (arrêt subvention -> Intute n’est plus mis à jour..)
• Réalisés souvent par des universités pour répondre aux questions des enseignants, chercheurs…
• Recensent les sites professionnels à valeur ajoutée, dans les domaines couverts par l’université (nombreuses ressources du Web invisible). Sélection qualitative
• Couverture internationale, majoritairement anglo-saxonne
☛ Utiles pour identifier les sites de référence et banques de données sur un sujet.
© BFR Consultants - 2011 30
Recherche éveillée sur Internet : mode d’emploi
QUELQUES REPERTOIRES SELECTIFS Infomine : http://infomine.ucr.edu/ Intute : www.intute.ac.uk Signets de la BnF : http://signets.bnf.fr Signets universités : www.signets-universites.fr
Pour identifier les répertoires sélectifs : ☛ Signets de la BNF : signets.bnf.fr/ rubrique Outils Internet - choix Répertoires sélectifs
© BFR Consultants - 2011 31
Recherche éveillée sur Internet : mode d’emploi
4. LES OUTILS THEMATIQUES
Cismef
etc
© BFR Consultants - 2011 32
Recherche éveillée sur Internet : mode d’emploi
LES OUTILS THEMATIQUES
Recensement aussi complet que possible de sites sur un sujet ou dans un domaine particulier (chimie, agriculture, bois…).
2 niveaux : • Sites fédérateurs et pages de liens • Annuaires thématiques et moteurs spécialisés
© BFR Consultants - 2011 33
Recherche éveillée sur Internet : mode d’emploi
☛ LES SITES FEDERATEURS ET PAGES DE LIENS Réalisés par un expert / passionné Sélection qualitative
☛ Utiles pour démarrer une recherche sur une question précise
☛ Identifiables via les fonctions avancées des moteurs (pédagogie géographie inurl:liens OR intitle:liens) (essayer aussi avec intitle:ressources OR intitle:sites…)
© BFR Consultants - 2011 34
Recherche éveillée sur Internet : mode d’emploi
☛ LES ANNUAIRES THEMATIQUES et MOTEURS SPECIALISES Ex.: Cismef…
Approche verticale Nombreuses informations sur un domaine : annuaire et/ou moteurs + actualités
Arborescence plus homogène ☛ Utiles pour cibler une recherche, ou pour identifier les professionnels d’un
domaine
© BFR Consultants - 2011 35
Recherche éveillée sur Internet : mode d’emploi
QUELQUES ANNUAIRES ET MOTEURS THEMATIQUES
Chimie : www.chemindustry.com Industrie : www.usinenouvelle.com/web Médecine : www.cismef.org Management : www.manager-go.com Statistiques : www.nationmaster.com Economie : www.helsinki.fi/WebEc
☛ Pour identifier un outil thématique • interroger un annuaire d’annuaires : www.lesannuaires.com • interroger un annuaire généraliste, avec « thème + annuaire » • interroger un moteur, avec « annuaire de … » (ou intitle:annuaire intitle:thème)
© BFR Consultants - 2011 36
Recherche éveillée sur Internet : mode d’emploi
CONCLUSIONS L’interrogation de Google reste un excellent point de départ pour démarrer une recherche – à la condition toutefois de bien formuler sa requête et de tirer parti des fonctions avancées du moteur
Mais il est impératif d’utiliser :
-> d’autres moteurs (Exalead…) pour compléter les résultats ;
-> d’autres familles d’outils – notamment des annuaires généralistes, sélectifs ou thématiques – dès lors que l’on souhaite identifier une liste de sites (dans un pays, un domaine…), repérer des sources à valeur ajoutée, etc.
© BFR Consultants - 2011 37
Recherche éveillée sur Internet : mode d’emploi
EVOLUTION : UNE RECHERCHE DE PLUS EN PLUS « SOCIALE » (-> recommandations)
D’autre part : il faut être conscient que la recherche sur Google est de plus en plus « sociale », surtout lorsque l’on est « logué » avec son compte Google
- Développement du bouton +1 (sur +1 million de sites) ; possibilité de poster sur Google+ depuis n’importe quel site (+1)
- « Pression » de Google pour une inscription sur Google+ sous son vrai nom
- Depuis mi-août : les données partagées publiquement sur Google+ sont intégrées dans les résultats Google Web
- Signalisation des résultats qui ont été « partagés » (recommandés) par les membres de son réseau (cercles de Google+, flux Google Reader…)
© BFR Consultants - 2011
© BFR Consultants - 2011 39
Recherche éveillée sur Internet : mode d’emploi
POUR ALLER PLUS LOIN
Blogs – - http://www.abondance.com – - http://www.outilsfroids.net – - http://blog.recherche-eveillee.com
• Lettre bimestrielle NETSOURCES (articles de plus d’un an en libre accès sur www.bases-publications.com)
• « Recherche éveillée sur Internet : mode d’emploi - Outils et méthodes pour explorer le Web » (www.recherche-eveillee.com)
Pour tous renseignements
Béatrice Foenix-Riou
BFR Consultants
www.bfr-consultants.com
www.recherche-eveillee.com
@Bfoenix sur Twitter +BFoenix sur Google+
© BFR Consultants - 2011 40
Recherche éveillée sur Internet : mode d’emploi