1
Le projet du SCD de Nice:une approche globale des données de la recherche
Mathieu Saby, SCD de Nice
Journée d’études « Données de la recherche: enjeux, pratiques et services » 23/6/2016
2
Principales orientations et grandes étapes
3
De l’expérience ponctuelle à l’offre de services
été 2014 –été 2015
(Préfiguration)
été 2015 –hiver 2015
Préparation et analyse
printemps 2016–automne 2016
Expérimentation et définition de l’offre
2016-2017 Déploiement d’une offre de services
4
Deux volets
1. Accompagner la gestion des données de la rechercheS’adapter aux évolutions de la recherche et de la communication scientifiqueLes données sont (ou deviennent) des objets scientifiques à part entièreElles peuvent gagner à être partagées, citées et réutiliséesCe qui suppose qu’elles soient gérées, décrites, protégées, pérenniséesExigences croissantes de financeurs (Horizon 2020) et d’éditeurs (Nature, PLOS)
Pouvons-nous intervenir? Oui… mais plusieurs questions à éclaircirDifférents niveaux pertinents: local, national, internationalCompétences documentaires, informatiques, archivistiques, juridiques, éthiquesSuppose une implication des chercheurs eux-mêmes
5
Deux volets
2. Soutenir le processus de recherche lui-mêmeNous intervenons traditionnellement en amont (accès à la documentation) et en aval (diffusion des publications) de la rechercheNotre hypothèse: les BU ont des compétences utiles à certains projets de recherche
Pouvons-nous intervenir? Oui… mais plusieurs questions à éclaircirDémarche inédite : tout est à inventer (nature exacte des services proposés, niveaux de service, positionnement, méthodologie, communication…)Besoin de consolider et développer certaines compétencesNécessité d’une meilleure connaissance du fonctionnement de la recherche et des besoins des chercheurs
6
Deux volets
2. Soutenir le processus de recherche lui-même
Notre proposition: ingénierie documentaire et de l’information au service de la recherche (manipulation de documents, de données et de métadonnées)
– Identifier et utiliser des jeux de données existants– Extraire à partir de sources diverses– Traiter et transformer– Décrire et organiser– Mettre en ligne– Visualiser
7
Principes de mise en œuvre (proposition susceptible d’évolution)
8
Bénéficiaires
• Toute personne impliquée dans la recherche à l’UNS (chercheur, enseignant-chercheur, ingénieur, doctorant, M2 recherche)
• Chercheurs de la COMUE hors unité mixtes ? Envisageable mais modalités à définir, par exemple dans le cadre de projets IDEX.
• Attention particulière– aux laboratoires dépourvus de personnel technique et/ou de
documentalistes– aux laboratoires de SHS pour l’ingénierie documentaire
9
Niveaux d’actions
1. Information et orientation– Communication générale (plaquette sur les services aux chercheurs,
page sur le site des BU)– [À venir] Diffusion d’informations détaillées sur la gestion et la
manipulation de données, les services d’Humanum, etc. (Site dédié? Blog? Supports imprimés?)
– [À venir] Diffuser des supports d’autoformation, notamment produits dans le cadre du projet Doranum
10
Niveaux d’actions
2. Formations et démonstrations pour doctorants et/ou chercheurs– Formation sur la gestion des données de la recherche, pour deux écoles
doctorales (avril/mai 2016)
– [À venir] Formations à des outils génériques de manipulation de données: extraction (web scraping), nettoyage (OpenRefine?), traitement (Talend?), visualisation (Tableau, Voyant tools…), mise en ligne (Omeka?)
– [À venir] Réflexion sur les formats des formations
Collab.URFIST
11
Niveaux d’actions
3. Assistance et conseils personnalisés– Conseils sur la rédaction de plans de gestion de données ou sur des
aspects spécifiques, en particulier pour les projets Horizon 2020
– Conseil techniques ou méthodologiques pour la manipulation de documents, données ou métadonnées
Collab.DirVed
Collab.Humanum
12
Niveaux d’actions
4. Travail technique en partenariat avec des chercheurs [expérimental]– Paramétrage d’outils
– Opérations de manipulation de documents, données ou métadonnées, petits développements informatiques
Collab.Humanum
13
Ce que nous ne proposons pas
• Traitement manuel de données, sauf marginalement• Traitement nécessitant des outils ou compétences très
spécialisés (« Big data », images, sons, vidéos, données géographiques…)
• Analyse statistique ou interprétation des données• Développements informatiques complexes• Infrastructures de calcul, stockage ou archivage• Administration d’une base de données ou d’un outil destiné à un
projet
Ne pas se substituer aux chercheurs, documentalistes, ingénieurs et techniciens ou post-doctorants impliqués dans un projet
14
Partenariats et collaborations actuels
• Partenariats– Humanum : accompagnement de projets en SHS
– URFIST PACA-C: formations doctorales, partenaire du projet Doranum
• Collaboration interne à l’université– DirVed : pour les projets Horizon 2020
15
Quelques exemples d’interventions
16
Livre blanc sur les études africaines
Assistance à la rédaction d’un livre blanc sur les études africaines : extraction de données bibliographiques (thèses et articles de revues traitant de l’Afrique)
Données fournies par le SCD, et analysées par les chercheurs du GIS Afrique, dont des chercheurs de l’URMIS.
17
Livre blanc sur les études africaines
Exemple (simplifié): extraction, enrichissement et nettoyage des données sur les thèses
18
Livre blanc sur les études africaines
Résultat : Livre blanc Les études africaines en France (mars 2016)Participation à la 3e partie (L’Afrique dans les thèses et les revues)
19
Livre blanc sur les études africaines
Quelques exemples d’analyse des données fournies:Fig. 1 : évolution de la part des disciplines les plus représentées
20
Livre blanc sur les études africaines
Quelques exemples d’analyse des données fournies:Fig. 2 : évolution du sex ratio des doctorants par disciplines
21
Livre blanc sur les études africaines
Quelques exemples d’analyse des données fournies:Fig. 3 : part de l’Afrique dans un panel de revues généralistes
22
Livre blanc sur les études africaines
Bilan• Des chercheurs globalement satisfaits• Malgré des difficultés et quelques déceptions
– Travail plus long et complexe que prévu, pour le SCD et les chercheurs– Sources hétérogènes (nature, mode d’accès, qualité des données)– Certaines données non accessibles en ligne– « Bruit » et « silence » important, parfois difficilement explicable– Limites de l’automatisation : retraitement manuel indispensable– Écart de « culture » entre SCD et chercheurs
• Pistes d’amélioration– Renforcer le contrôle sur la qualité et la pertinence des données– Intensifier les échanges– Développer des outils réutisables
23
Évolution de la base Navigocorpus
• Projet ANR 2007-2011 (CMMC/Lyon/Brest)• Base de données d’histoire maritime• Réalisée avec Filemaker, hébergée par Humanum
24
Évolution de la base Navigocorpus
• Besoin : valoriser le contenu de la base, réfléchir à son évolution• Réponse : échanges avec l’ingénieur d’Humanum chargé de son
administration, prototype de visualisation (en cours)
Première ébauche
25
Visualisation de concepts
Visualisation de concepts pour une collègue doctorante
Données en RDF
26
Scraping d’un site web
Scraping d’un site web (Communication limitée, projet en cours)
Outil de scraping
Site source
Données tabuléesTraitements
27
3 projets à l’étude• Zoomathia (CEPAM) : constitution, stockage, annotation et
consultation d’un corpus de textes antiques
• ICEM (CMMC) : pérennisation et évolution d’une base de données prosopographique
• Fiduciae (CMMC) : mise en ligne de reproductions de documents d’archives
28
Conclusion
29
Travailler ensembleCollaboration effective
URFIST de Nice
DirVed UNS
Humanum
Collaboration envisageable
Service formation UNSDSI UNSCIL UNS
MSHS Sud-Est
Documentalistes UNS et UCA
Ingénieurs et techniciens présents dans les laboratoires
INIST
PROGEDO
30
Structurer les services aux chercheurs
Nouvelle mission transversale du SCD à la rentrée : structurer et développer nos services aux chercheurs, numériques et non numériques
31
S’inscrire dans l’UCA et soutenir l’IDEX
Futur schéma directeur documentaire UCASoutien à des projets IDEX
32
Merci de votre attention
Icones par Freepik sur www.flaticon.com
Pour nous contacter : [email protected]