isidore accès unifié aux données et documents numériques des sciences humaines et sociales...
Post on 04-Apr-2015
104 Views
Preview:
TRANSCRIPT
Isidore
Accès unifié aux données et documents numériques des sciences humaines et sociales
Valpré – 7 décembre 2010
ENJEUX
3
LE PROJET – LES ENJEUX
Enjeux stratégiques
Un point d’accès aux données numériquesdes SHS
Un socle : une infrastructure applicative
Un outil : des usages multiples
4
LE PROJET – LES ENJEUX
Enjeux technologiques
Des besoins « forts » en traitement des données
Prendre en comptela diversité
Un outil industriel et évolutif
5
LE PROJET – LES ENJEUX
Enjeux organisationnels
Une maîtrise d’œuvre plurielle publique-privée
Méthode agile
6
MÉTHODE PROJET
Plateforme d’intégration Frontaux (proxy)Démonstrateur
Gestion des référentiels
Enrichissement des données
Moteur de recherche
Intégration et IHM
UN PROJET CLASSIQUE ?
8
PRINCIPE DU PROJET
Un projet classique en apparence
Collecter Traiter Diffuser
9
VISION DE LA VALORISATION DE L’INFORMATION
Contenu
Texte …
Captation / Captation / ExtractionExtractionCaptation / Captation / ExtractionExtraction AnnotationAnnotationAnnotationAnnotation InférenceInférenceInférenceInférence
Bases Bases d’indexationd’indexation
Bases Bases d’indexationd’indexation
RDFRDFEndpoint SparQLEndpoint SparQL
RDFRDFEndpoint SparQLEndpoint SparQL
Publication
Publication
Publication
Publication
WebWeb
2.02.0
3.03.0xhtml+RDFaxhtml+RDFaLinked DataLinked Data
robotsrobots
10
LES PARTICULARITÉS DU PROJET
Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels
Points durs : diversité, volumétrie
Exploiter les métadonnéeset le texte intégral
11
LES PARTICULARITÉS DU PROJET
Traiter
Normaliser les données
(qualité, forme, alignement)
Enrichir(classification, URI pérenne, vignettes,
extraction…)
12
LES PARTICULARITÉS DU PROJET
Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés
13
LES PARTICULARITÉS DU PROJET
Diffuser dans le Web de données
Se préparer auLinked/Open
Data
Permettre l’émergence de nouveaux outils
exploitant les données
Rendre accessible
à l’écosystème les données
enrichies
14
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffusion Applications
Applications de gestion de la plateforme Isidore
Configuration des
sources (appli
dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
COLLECTERTRANSFORMER
ENRICHIR
INDEXERGENERER
ADMINISTRER
Moteur de recherche
Web des données
COLLECTER, TRANSFORMER, ENRICHIR
16
LA RÉPONSE
AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de
traitement des données introduit un modèle d’Unité Documentaire
évolutif et souple fournit un cadre de développement et de
configuration de haut niveau
17
CHAINES DE TRAITEMENT
Créer des chaines de traitement par assemblage de modules
Sources de données
Module connecteur
Modules de transformation et enrichissement
18
DES FILTRES
Un framework qui permet de construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution
19
LE DOCUMENT
Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon
unifiée
20
LE DOCUMENT
Document Manager abstrait le stockage et l’accès aux documents : stockage « cloud » créer / lire / écrire les couches
PAF ISIDORE PRINCIPES GÉNÉRAUX
22
Sites Web (sitemap)
Entrepôts OAI
Calenda
Sources de données
Flux RSS
ConnecteursModules Pipes&Filters
spécifiques aux sources
…
…
…
…
VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE
Fichiers XML de configuration des connecteurs AFS et des modules de normalisation
Référentiels SKOS
Modules Pipes&Filters communs
Liens pérennes Annotation
…
Des sources multiples et des traitements ad-hoc Sites Web
collecte par sitemap extraction des données RDFa
Flux RSS capitalisation « illimitée »
Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC
Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …
CHAÎNE DE COLLECTE ET DE TRAITEMENT
Une chaîne dédiée à la normalisation : 12 filtres
Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot
24
CHAINE D’ENRICHISSEMENT
Une chaîne dédiée à l’enrichissement : 14 filtres
Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations
PAF ISIDOREFOCUS SUR CERTAINS POINTS
26
MAINTENABILITÉ - EXEMPLE
Configuration des sources Isidore(application dédiée)
Interface UtilisateurFichiers XML de définition des
sources
745 sources de données
PaF des sources
…
PaF des données
Moteur de recherche dans les sources
27
LA CLASSIFICATION AUTOMATIQUE
Classification par entrainement le moteur utilise les documents déjà classés pour
apprendre
puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus
28
L’ALIGNEMENT
Alignement des contenus sur des référentiels
fr
FR
francais
Français
français
en
eng
EN
anglais
english
Français
Anglais
29
L’EXTRACTION Extraction sur des référentiels
Une ressource documentaire
Mots clefs
Est décrit par
Un thésaurusConcept
Organise
Pour lier le mot-clé
au concept
Chaîne de caractèresEst exprimé par
Étiquette
Est décrit par
Le moteur effectue unecomparaison morphologique
Chaîne de caractères
Est exprimé par
Est décrit par
A noter qu’un algorithme permet de limiter le nombre d’annotations par
contextualisation
30
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffusion Applications
Applications de gestion de la plateforme Isidore
Configuration des
sources (appli
dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
INDEXERGENERER
Moteur de recherche
Web des données
GÉNÉRER, DIFFUSER
32
PUBLICATION DU RDF
Les données et enrichissements sont exportés en RDF en bout de chaine
Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données
Corpus
Génération
Fichiers de triplets
Entrepôt RDFChargement de l’entrepôt
33
NÉGOCIATION DE CONTENU
AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier
un Web Service applicatif qui permet la négociation de contenu
Description XML
Description RDF
Document
34
FAVORISER L’UTILISATION
Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer d’une solution simple à faire évoluer
35
UNE AIDE À L’INTÉGRATION
ARCHITECTURE
37
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffuser Applications
Applications de gestion de la plateforme Isidore
Configuration des
sources (appli
dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
38
ARCHITECTURE LOGIQUE
39
ARCHITECTURE PHYSIQUE
6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office
MERCI DE VOTRE ATTENTION
top related